https://arxiv.org/abs/2106.09681
XCiT: Cross-Covariance Image Transformers (Alaaeldin El-Nouby, Hugo Touvron, Mathilde Caron, Piotr Bojanowski, Matthijs Douze, Armand Joulin, Ivan Laptev, Natalia Neverova, Gabriel Synnaeve, Jakob Verbeek, Hervé Jegou)
길이 방향 어텐션 대신 채널 방향 어텐션 + dwconv로 메모리 효율적인 vit 구성. 결과는 잘 나왔는데 레이턴시가 문제일 것 같긴 하네요. 저는 걱정을 멈추고 spatial pyramid와 빛윈 트랜스포머를 사랑하기로 했습니다.
#vit #efficient_attention