GLaM: Efficient Scaling of Language Models with Mixture-of-Experts (Nan Du, Yanping Huang, Andrew M. Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, Barret Zoph, Liam Fedus, Maarten Bosma, Zongwei Zhou, Tao Wang, Yu Emma Wang, Kellie Webster, Marie Pellat, Kevin Robinson, Kathy Meier-Hellstern, Toju Duke, Lucas Dixon, Kun Zhang, Quoc V Le, Yonghui Wu, Zhifeng Chen, Claire Cui)

논문 나왔군요. moe는 약간 뻥 파라미터라는 이유로 도외시 되었던 감이 있는데 잘 돌려보니 학습이나 추론 시에 더 빠르고 탄소도 적게 나오고 성능도 좋더라...그런 결과입니다.

#moe #lm

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

211213 GLaM.md

211213 GLaM.md

Files

211213 GLaM.md

Latest commit

History

211213 GLaM.md

File metadata and controls