Skip to content

Latest commit

 

History

History
60 lines (40 loc) · 2.23 KB

File metadata and controls

60 lines (40 loc) · 2.23 KB

DenseConnector

1. 模型介绍

DenseConnector 旨在通过整合多层视觉特征来增强现有的多语言语言模型(MLLMs)的视觉感知能力。

本仓库支持的模型权重:

Model
HuanjinYao/DenseConnector-v1.5-7B

注意:与huggingface权重同名,但权重为paddle框架的Tensor,使用xxx.from_pretrained("HuanjinYao/DenseConnector-v1.5-7B")即可自动下载该权重文件夹到缓存目录。

2 环境准备

1)安装PaddleNLP develop分支

版本要求:paddlenlp>=3.0.0b2

2)安装 PaddleMIX 环境依赖包

注意:Python版本最好为3.10及以上版本,Python最低版本要求3.8。

3 快速开始

完成环境准备后,我们提供多轮对话示例:

多轮对话启动

python paddlemix/examples/llava_denseconnector/run_predict_denseconnector.py \
    --model-path "HuanjinYao/DenseConnector-v1.5-7B" \
    --image-file "https://bj.bcebos.com/v1/paddlenlp/models/community/GroundingDino/000000004505.jpg" \

可配置参数说明:

  • model-path: 指定llava系列的模型名字或权重路径
  • image-flie :输入图片路径或url,默认None。

输入图片:

USER: 描述这张照片
ASSISTANT: 这是一个照片,展示了一辆红色公交车在街道上行驶。车辆正在行驶在一个狭窄的道路上,周围有一些汽车和树木。车辆的前部有一个路灯,并且还有一个路灯在车辆的右侧。
USER: 给出公交车位置的坐标
ASSISTANT: 0.23, 0.33, 0.79, 0.78

参考文献

@article{yao2024dense,
  title={Dense Connector for MLLMs},
  author={Yao, Huanjin and Wu, Wenhao and Yang, Taojiannan and Song, YuXin and Zhang, Mengxi and Feng, Haocheng and Sun, Yifan and Li, Zhiheng and Ouyang, Wanli and Wang, Jingdong},
  journal={Advances in Neural Information Processing Systems},
  year={2024}
}