https://arxiv.org/abs/2107.05790
Visual Parser: Representing Part-whole Hierarchies with Transformers (Shuyang Sun*, Xiaoyu Yue*, Song Bai, Philip Torr)
벌써 고여가는 vit 판에 좀 재미있는 게 나왔군요. local attention + perceiver 같은 느낌으로 latent와 feature 사이의 attention이 결합된 형태입니다. swin과 붙을 수 있을지 봐야겠네요.
#vit #local_attention