您好,
看完paper中的2DRoPE后,觉得idea非常好,想尝试和验证下2DRoPE的效果。
但paper的Table.3汇报VisionLLama-base的参数量是86M,而我实际跑的时候发现VisionLLama-base的参数量是255M左右。
同时,我查看了huggingface公开的log日志:https://huggingface.co/mtgv/VisionLLaMA-Base-MAE/blob/main/visionllama-base-p16_8xb2048-linear-coslr-1600-90e_in1k.log ,里面每一层ffn.w12.weight的shape为[16384, 768],那么12层的参数量就为1216384768=150,994,944。
请问是什么原因呢?这是否可能会导致结果对比不太公平?
您好,
看完paper中的2DRoPE后,觉得idea非常好,想尝试和验证下2DRoPE的效果。
但paper的Table.3汇报VisionLLama-base的参数量是86M,而我实际跑的时候发现VisionLLama-base的参数量是255M左右。
同时,我查看了huggingface公开的log日志:https://huggingface.co/mtgv/VisionLLaMA-Base-MAE/blob/main/visionllama-base-p16_8xb2048-linear-coslr-1600-90e_in1k.log ,里面每一层ffn.w12.weight的shape为[16384, 768],那么12层的参数量就为1216384768=150,994,944。
请问是什么原因呢?这是否可能会导致结果对比不太公平?