Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 405 Bytes

210713 Visual Parser.md

File metadata and controls

7 lines (4 loc) · 405 Bytes

https://arxiv.org/abs/2107.05790

Visual Parser: Representing Part-whole Hierarchies with Transformers (Shuyang Sun*, Xiaoyu Yue*, Song Bai, Philip Torr)

벌써 고여가는 vit 판에 좀 재미있는 게 나왔군요. local attention + perceiver 같은 느낌으로 latent와 feature 사이의 attention이 결합된 형태입니다. swin과 붙을 수 있을지 봐야겠네요.

#vit #local_attention