https://arxiv.org/abs/2012.06946
MiniVLM: A Smaller and Faster Vision-Language Model (Jianfeng Wang, Xiaowei Hu, Pengchuan Zhang, Xiujun Li, Lijuan Wang, Lei Zhang, Jianfeng Gao, Zicheng Liu)
경량화된 vision-language bert. 가장 무거운 친구는 detector라 detector를 깎는 작업이 메인. vision-language model 자체가 아직 아주 강력한 결과를 보여주는 수준은 아닌 것 같지만 앞으로 필요한 문제가 많아질 것이라 생각.
#vision-language