如何用多模态模型做图像分类任务？ #175

wesleyliwei · 2024-07-30T08:54:12Z

wesleyliwei
Jul 30, 2024

大家好~ 不知道大家有没有用cogvlm2做图像分类训练的，如果是一个类似图像分类任务的话，finetune大家建议哪些params设置为可惜训练的呢？

wesleyliwei · 2024-07-30T08:56:40Z

做了一些尝试，比如只finetune vit后面的MLP层，整体分类任务的train和val loss都在下降，但是最后预测test数据集的yes和no的效果其实没有那么好。

PS：训练数据的label只是yes和no。 test分类label也是yes和no

0 replies

huangshiyu13 · 2024-07-30T10:54:01Z

可以直接用语言模型微调。比如做图片做狗和猫的分类。准备sft数据，语言模型的reponse就两种，一个"狗"，一个"猫"就行。然后用这个数据和微调代码微调就行。

0 replies