Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 561 Bytes

210617 XCiT.md

File metadata and controls

7 lines (4 loc) · 561 Bytes

https://arxiv.org/abs/2106.09681

XCiT: Cross-Covariance Image Transformers (Alaaeldin El-Nouby, Hugo Touvron, Mathilde Caron, Piotr Bojanowski, Matthijs Douze, Armand Joulin, Ivan Laptev, Natalia Neverova, Gabriel Synnaeve, Jakob Verbeek, Hervé Jegou)

길이 방향 어텐션 대신 채널 방향 어텐션 + dwconv로 메모리 효율적인 vit 구성. 결과는 잘 나왔는데 레이턴시가 문제일 것 같긴 하네요. 저는 걱정을 멈추고 spatial pyramid와 빛윈 트랜스포머를 사랑하기로 했습니다.

#vit #efficient_attention