能精准解读X光片,开源视觉大模型Dragonfly

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

知名大模型平台Together.ai开源了具有多分辨率的视觉大语言模型Dragonfly。
Dragonfly一共有两个版本:Llama-3-8b-Dragonfly-v1版本是在 550万张图像进行预训练的通用模型;
Llama-3-8b-Dragonfly-Med-v1则是在140万张生物、医学图片进行了额外微调,也就是说可以解读X光、磁共振、超声成像等专业的医学图片。
Together.ai表示,Dragonfly-Med版本在处理高分辨率医学图像的能力,比谷歌的Med-Gemini等知名模型更好。
Med-v1开源地址:https://huggingface.co/togethercomputer/Llama-3-8B-Dragonfly-Med-v1
fly-v1开源地址:https://huggingface.co/togethercomputer/Llama-3-8B-Dragonfly-v1 
Together.ai详细展示了Dragonfly-Med版本对医学的图像理解能力,例如,根据胸部 X 光检查图像,写出详细的放射学记录。
Dragonfly-Med回答:供胸部PA和侧视图。再次注意到左胸壁起搏器装置具有延伸至右心房和右心室区域的引线。
心脏仍轻度增大。有轻度肺门充血,无明显水肿。没有明显的证据,可以证明是肺炎迹象。无大量积液或气胸。心纵隔轮廓稳定。骨骼结构完好。AI生成的结果与专业医生给出的答案几乎一样。
多分辨率视觉编码
Dragonfly的多分辨率视觉编码技术,通过调整输入图像的分辨率,捕获了从宏观到微观的多尺度信息。这一方法不仅允许模型同时理解图像的全局结构和局部细节,而且为细粒度的视觉理解提供了坚实的基础。
同时,局部放大图像块选择技术,使得Dragonfly在处理高分辨率图像时,能够有选择性地关注与任务最相关的区域,有效减少冗余信息,提升模型的效率和性能。
在Dragonfly的架构中,图像编码器扮演着至关重要的角色,它负责将输入图像转换成一系列视觉标记,为后续的处理和分析提供中间表示。
这些视觉标记随后被投影层映射到语言模型的潜在空间,实现了视觉信息与语言信息的有效融合。而局部放大选择机制则从高分辨率图像的多个子图像中,选择最相关的部分,增强了对关键视觉特征的理解和推理能力。
局部放大图像块
Dragonfly能精准解读医学图像中的关键细节,局部放大图像块起到了关键作用。主要通过对高分辨率图像进行智能的子图像块选择,实现对图像中关键区域的聚焦,同时忽略那些对于当前任务不太重要的部分。
其技术原理是,模型接收到一个高分辨率的输入图像,然后将其调整为不同的分辨率,包括低、中、高三档。
这一多分辨率视觉编码策略,使得模型能够从不同尺度上捕捉图像信息。接下来,模型对中分辨率和高分辨率的图像进行分割,生成多个子图像,每个子图像都是原始图像的一个局部区域。
然后,模型在对应的高分辨率子图像集合中,寻找与中分辨率子图像摘要嵌入最相似的子图像。这一过程通过计算点积相似度来实现,确保了选择出的高分辨率子图像能够最准确地反映中分辨率子图像的关键特征。
通过这种局部放大的选择策略,Dragonfly模型能够集中资源处理图像中最关键的部分,而不是平均地对待所有区域。
这种方法有效地减少了模型在训练过程中需要处理的数据量,同时避免了引入过多的冗余信息,这对于提升模型的泛化能力和减少过拟合很有帮助。
根据Dragonfly的评估数据显示,在AI2D、ScienceQA、MMMU、MMVet和POPE的视觉推理和解读能力超过目前比较知名的模型,尤其是在图像区域细粒度理解方面非常强。

本文素材来源Dragonfly论文,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区