CSS-VQA [反事实]

Paper Download Address

由于数据集的问题，目前很多VQA模型仍然过于依赖language biases，比如一个对于”how many X”问题只会回答2的模型可以依然得到比较满意的表现。因此有了新的判断指标VQA-CP (VQA under Changing Priors)，这个数据集中训练集和测试集的QA分布不同，导致许多SOTA的VQA model在这个数据集中准确率都有显著的下降

当下流行一些基于集成(ensemble-based)的方法来减轻bias的影响，他们用question-only model来调整VQA model的训练过程，这些方法大致可以分为两类：

1.adversary-based：用对抗的方法训练两个model，最小化VQA model的损失的同时最大化question-only model的损失，两个model共享同一个question encoder，目标是学习一个bias-neutral的问题表示。然而，因为训练过程不稳定，因此产生了巨大的噪声
2.fusion-based：最后将两个model的答案分布结合起来，设计理念是让VQA model更关注那些question-only model所不能回答的问题

尽管这些ensemble-based方法在VQA-CP上取得了很好的表现，但是作者认为他们仍不能铸就一个理想的VQA模型

作者认为，一个理想的VQA模型应该有两个不可缺的特点：1)视觉可解释性(visual-explainable)：模型做决定需要依赖于正确的视觉区域；2)问题敏感性(question-sensitive)：要能够敏锐地察觉到问题的变化并作出反应

文章提出了Counterfactual Samples Synthesizing (CSS)训练方法，这是一种通用的方法，可以和现有的VQA模型结合，CSS包含两种样本整合方式：V-CSS和Q-CSS，V-CSS更改图片中回答问题的关键因素并和问题构成新的QA，Q-CSS则更改问题中的关键词和原图片构成新的QA。同时为了避免高昂的人工标注代价，作者提出一种动态的答案生成方法来近似得到答案，比如not green。然后用原数据和整合数据结合训练，使VQA models更加关注标注的词或者对象