你好,根据你设置的参数,train_batch_size=20,max_train_steps=5000,我看你回复别人说你用8张A800,那训练完需要的数据量是:20* 8* 5000=80W ,可是cc3m是300W的数据量,你不能一个epoch都不跑完的吧? 还是说,你不是用的全量cc3m训练的?或者开源的这个参数不对? 希望答复一下,谢谢!