RUBi [question-only分支]

文章简介

VQA模型倾向于利用答案的出现和问题中的某些模式之间的统计规律来回答问题，虽然它们被设计来合并来自两种模态的信息，但在实践中，它们通常不考虑图像模态，当大多数香蕉都是黄色的时候，模型不需要学习正确的方法来回答香蕉颜色的问题，只要将单词”什么”、”颜色”和”香蕉”与最常见的答案”黄色”联系起来即可，这比通过看图像来判断香蕉的颜色要容易得多

量化每种模态统计捷径数量的一种方法是训练单模态模型，比如在VQAv2中训练的纯语言模型可以在测试集上达到44%的准确率，VQA模型没有放弃这种偏差，因为他们的训练数据集和测试数据集是有着同样的分布，然而在不同分布规律的测试集上评估时，其准确率会显著下降，然而在收集真实数据集时，很难避免这些统计规律，需要采取新的策略来减少来自问题的bias

作者提出了一种训练策略RUBi，用以减少VQA模型的bias，这种策略降低了最biased的样本的重要性，也就是那些不需要看图像模态就能正确分类的样本，它隐式地迫使VQA模型使用两种输入模式，而不是依赖于问题和答案之间的统计规律，作者在训练期间在基础VQA模型的顶部添加一个question-only分支。该分支影响VQA模型，动态调整损失以补偿偏差，通过VQA模型反向传播的梯度对于偏度较大的样本被降低，对于偏度较小的样本被增加。在训练结束时，简单地删除question-only分支

RUBi

作者将VQA视为一个分类问题，给定的数据集D由三部分组成，图像v，问题q和答案a，作者需要优化的是函数f中的参数，这个函数f可以表示为

经典学习策略和陷阱

VQA模型的经典学习策略如图所示，在大小为n的数据集上最小化标准交叉熵

它们倾向于依赖一种模态的统计规律来提供准确的预测，而不必考虑另一种模态，举一个极端的例子，对问题模态有强烈偏见的模型总是对香蕉是什么颜色的问题输出黄色。它们不学习使用图像信息，因为在数据集中香蕉不是黄色的例子太少了

RUBi学习策略

—— 用question-only分支来捕捉偏见

测量单模态偏差的一个方法就是训练一个单模态模型，RUBi的关键思是将一个question-only的模型作为VQA模型的一个分支，这将改变主模型的预测

通过这样做，只考虑问题的分支捕获了问题偏差，从而允许VQA模型关注仅使用问题模态无法正确回答的示例

在训练期间，分支结构充当代理，阻止任何形式的VQA模型由学习偏差得到式

结束训练后，直接删除分支，用基本VQA模型来做预测

—— 通过标记预测来防止偏见

在基础VQA模型的预测传递到损失函数之前，将它们与长度为$|A|$的掩码合并，掩码包含每个答案的0到1之间的标量值，该掩码是通过将神经网络$nn_q$的输出通过一个$sigmoid$函数得到的，这个掩码的目的是通过修改VQA模型的预测来动态地改变损失，为了得到新的预测，只要计算原先预测和掩码之间的元素级乘