XCiT: Cross-Covariance Image Transformers (Alaaeldin El-Nouby, Hugo Touvron, Mathilde Caron, Piotr Bojanowski, Matthijs Douze, Armand Joulin, Ivan Laptev, Natalia Neverova, Gabriel Synnaeve, Jakob Verbeek, Hervé Jegou)

길이 방향 어텐션 대신 채널 방향 어텐션 + dwconv로 메모리 효율적인 vit 구성. 결과는 잘 나왔는데 레이턴시가 문제일 것 같긴 하네요. 저는 걱정을 멈추고 spatial pyramid와 빛윈 트랜스포머를 사랑하기로 했습니다.

#vit #efficient_attention

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

210617 XCiT.md

210617 XCiT.md

Files

210617 XCiT.md

Latest commit

History

210617 XCiT.md

File metadata and controls