https://arxiv.org/abs/2112.06905
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts (Nan Du, Yanping Huang, Andrew M. Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, Barret Zoph, Liam Fedus, Maarten Bosma, Zongwei Zhou, Tao Wang, Yu Emma Wang, Kellie Webster, Marie Pellat, Kevin Robinson, Kathy Meier-Hellstern, Toju Duke, Lucas Dixon, Kun Zhang, Quoc V Le, Yonghui Wu, Zhifeng Chen, Claire Cui)
논문 나왔군요. moe는 약간 뻥 파라미터라는 이유로 도외시 되었던 감이 있는데 잘 돌려보니 학습이나 추론 시에 더 빠르고 탄소도 적게 나오고 성능도 좋더라...그런 결과입니다.
#moe #lm