Skip to content

On the Value of Out-of-Distribution Testing: An Example of Goodhart’s Law #38

@nocotan

Description

@nocotan

一言でいうと

VQAタスクにおけるOOD testingのベンチマークに関する問題点を指摘し,評価方法を議論.

論文リンク

https://papers.nips.cc/paper/2020/file/045117b0e0a11a242b9765e79cbf113f-Paper.pdf

著者/所属機関

Damien Teney et al.
(Australian Institute for Machine Learning, University of Adelaide, Australia)

投稿日付(yyyy/MM/dd)

2020/12

概要

Goodhart’s law: When a measure becomes a target, it ceases to be a good measure.

OOD testingは学習データセットのバイアスを解決する手法の一つとして非常に注目を集めている.
OODベンチマークは学習データとテストデータが異なる同時分布となるように設計されている.
VQA-CPはvisual question answeringにおける一般的なOODベンチマークの一つである.
しかしながら,著者たちはこのデータセットは実際には3つの問題が存在することを発見した.

  1. ほとんどの公開されている手法はどのようにOOD splitが行われているのかの明示的な知識に依存している.
  2. OODテストセットがモデル選択に使われている.
  3. モデルのin-domainパフォーマンスはin-domainデータセットにおける再学習の後の結果のみが報告される.

このような問題を解決する評価方法について議論.

Screen Shot 2021-02-26 at 2 49 35

新規性・差分

  • VQAタスクにおけるOOD testingのベンチマークに関する問題点を指摘し,評価方法を議論.

手法

Screen Shot 2021-02-26 at 2 49 43

Screen Shot 2021-02-26 at 2 49 51

結果

Screen Shot 2021-02-26 at 2 49 59

Screen Shot 2021-02-26 at 2 50 11

コメント

Metadata

Metadata

Assignees

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions