高性能多模态大模型,华中科技大学开源Monkey

添加书签

专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

目前,很多多模态大模型在理解和处理复杂的场景,以及细微的视觉细节时仍面临很大挑战,主要是受限于输入分辨率(如448 x 448)以及训练集图像和文本描述之间的不匹配。

为了解决这些难题,华中科技大学与金山软件联合推出了Monkey框架并将其开源。Monkey无需从0预训练,可以基于现有视觉编辑器(如Vit-BigHuge)进行构建,将大模型的输入分辨率能力提高到896 x 1344像素。

此外,Monkey还提出了一种多级描述生成方法,该方法自动提供丰富的信息,可以指导模型学习场景和对象之间的上下文关联。

为验证Monkey的性能,研究人员在16个不同的数据集上进行了丰富测试,涵盖图像字幕、视觉问答、文档分类以及图像理解等多模态任务,Monkey皆取得了出色的成绩。

开源地址:https://github.com/Yuliang-Liu/Monkey

论文地址:https://arxiv.org/abs/2311.06607v1

训练数据与模型

高质量训练数据集是提升大模型能力的关键点之一,所以,研究人员生成了数十万条高质量的图像描述数据,并通过多级方法捕捉图像的全貌和局部细节。

还利用BLIP2、PPOCR、GRIT、SAM等模型自动生成文字描述,然后把不同模型输出的内容融合起来,组成清晰和连贯的图文匹配数据。这种数据生成方法,显著提升了大模型图像细节的理解能力。

模型选择方面,直接应用了开源模型Qwen-VL作为语言解码器,并使用了20亿参数的ViT-BigHuge作为视觉编码器。这可以极大提高了研发的效率,避免重复预训练耗费资源。

训练方法

为了提升Monkey多模态大模型的识别能力、输入分辨率,生成更丰富的图像描述以及对复杂场景的理解能力,采用了三个训练阶段:

(1)多级描述生成:该模块主要通过BLIP2GRITPPOCR多个模型的协同,为图像自动生成包含全局特征和局部细节的语义描述。

(2)高分辨率编码:采用滑动窗口分割高分辨率图像,并行使用多个视觉编码器对各个局部区域进行编码,同时保留全局图像的结构信息。例如,一张2048像素的高清图片,Monkey会将其均分成16块。

(3)多任务训练:使用包含图像字幕、视觉问答等多种任务的数据集进行联合训练,提升模型的泛化能力。指令格式统一为:Generate/Answer + 问题/命令,并限制每个任务使用的数据量,有助于保证训练平衡。

实验数据

为了验证Monkey的能力,研究人员在16个不同的数据集上进行全面验证,覆盖图像字幕、通用VQA、文档VQA等测试任务。

通用视觉问答:Monkey在VQAv2、GQA、OKVQA等多个数据集上都显示出明显的优势。

图像字幕任务:Monkey在TextCaps数据集上的性能同样优异,证明了对图片中文本元素的多模态理解力。

文档导向问答:Monkey在DocVQA、ChartQA、DeepForm等文档图像理解数据集上也取得了不错的成绩。

研究人员表示,Monkey在细微视觉信息感知和复杂场景理解上展现出了超强能力,在医学影像、卫星图像等领域拥有广泛的应用空间。未来,也会继续优化Monkey模型,提升其感知、联想、推理和泛化能力。

本文素材来源Monkey论文,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区