一言でいうと
VQAタスクにおけるOOD testingのベンチマークに関する問題点を指摘し,評価方法を議論.
論文リンク
https://papers.nips.cc/paper/2020/file/045117b0e0a11a242b9765e79cbf113f-Paper.pdf
著者/所属機関
Damien Teney et al.
(Australian Institute for Machine Learning, University of Adelaide, Australia)
投稿日付(yyyy/MM/dd)
2020/12
概要
Goodhart’s law: When a measure becomes a target, it ceases to be a good measure.
OOD testingは学習データセットのバイアスを解決する手法の一つとして非常に注目を集めている.
OODベンチマークは学習データとテストデータが異なる同時分布となるように設計されている.
VQA-CPはvisual question answeringにおける一般的なOODベンチマークの一つである.
しかしながら,著者たちはこのデータセットは実際には3つの問題が存在することを発見した.
- ほとんどの公開されている手法はどのようにOOD splitが行われているのかの明示的な知識に依存している.
- OODテストセットがモデル選択に使われている.
- モデルのin-domainパフォーマンスはin-domainデータセットにおける再学習の後の結果のみが報告される.
このような問題を解決する評価方法について議論.

新規性・差分
- VQAタスクにおけるOOD testingのベンチマークに関する問題点を指摘し,評価方法を議論.
手法


結果


コメント