多图场景用DPO对齐,上海AI实验室等提出新方法,无需人工标注
相信很多大家对多图场景用DPO对齐,上海AI实验室等提出新方法,无需人工标注还不知道吧,今天菲菲就带你们一起去了解一下~.~!
多图像场景也能用DPO方法来对齐了!
由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。
这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。
通过将单图像数据扩展至多图像数据,并设计序列、网格拼贴和图中图三种数据格式,MIA-DPO大幅降低了数据收集和标注成本,且具有高度可扩展性。
要知道,理解多图像上下文已经成为视觉语言大模型的发展趋势之一,许多数据集和评估基准被提出。不过幻觉问题依然很难避免,且引入多图像数据可能削弱单图像任务的表现。
虽然偏好对齐方法(如DPO)在单图像场景中已被证明有效,但多图像偏好对齐仍然是一个解决问题。
MIA-DPO不仅解决了这一问题,而且无需依赖人工标注或昂贵的API。
通过分析视觉大语言模型在多图像处理中的注意力分布差异,他们提出了一种基于注意力的选择方法(Attention Aware Selection),自动过滤掉关注无关图像的错误答案,构建了自动化、低成本且适用于多图像场景的DPO数据生成方法。
△MIA-DPO的整体介绍与实验结果。值得一提的是,该论文还获得了当日HuggingFace DailyPaper #1.多图推理容易有幻觉
为从根本上研究LVLM的多图推理问题,研究者首先深入探索了多图情境下LVLM的幻觉问题。一些早期研究探讨了不同类型的单图像幻觉现象,例如物体幻觉,指的是模型错误描述图像中不存在的物体。与单图像幻觉相比,多图像场景引入了更加复杂的幻觉类型。如图2所示,研究者将多图像幻觉分为两类:
(1) Sequence Confusion
当模型面对多张图片时,可能无法准确识别输入提示所指向的图像。例如,在图2的上方案例中,问题是针对图像1(人与大海),但模型的回答却基于图像4(铁轨上的火车)。
(2) Element Interference
相比单图像,多图像场景中的视觉元素数量显著增加,导致LVLMs在不同元素之间产生混淆。例如,在图2的下方案例中,问题“图像2中的汽车是什么颜色?”本应回答为“白色”。然而,LVLM错误地将图像3中摩托车的颜色属性理解为图像2中汽车的颜色,导致了错误的回答。
△多图幻觉用注意力机制检测幻觉
为构建能够提升多图感知与推理能力并缓解幻觉的视觉文本对齐方法,研究者们提出了注意力机制作为检测幻觉的指标。
注意力机制揭示了模型在做出决策时“关注”的位置。研究者们观察到,注意力机制为检测多图像幻觉提供了重要线索。
理想情况下,注意力值应集中在与问题相关的输入图像的特定区域上。如果注意力值分散或未强烈聚焦于正确的视觉元素或区域,表明模型在理解多图像序列或区分不同图像的元素时存在困难。
基于这一观察,研究者们设计了一种基于注意力感知的选择机制,利用注意力值在DPO算法中选择包含幻觉的被拒绝样本。MIA-DPO的框架如下图3所示。
△MIA-DPO的整体架构尽管基于注意力感知的选择机制在构建DPO数据时效果显著,但仍可能会包含少量噪声样本,进而对模型产生不利影响。为此,研究者们引入后选择步骤,通过以下三个指标来过滤噪声样本:(1) 困惑度(Perplexity, PPL);(2) 长度比率(Length Ratio);(3) 编辑距离(Edit Distance)。
在构造DPO数据的过程中,研究者通过引入无关图像高效地转换现有的单图像数据集(例如LLaVA-665k)。
该方法低成本、可扩展,数据形式丰富的优势,使MIA-DPO能够较为全面地缓解LVLMs可能产生的各种多图像幻觉类型。
如下图所示,研究者构建了三种格式的多图像DPO数据:
(1) 序列数据:多张图像按顺序排列,问题针对特定图像。图像数量从2到5张不等;
(2) 网格拼贴数据:多张图像合并为一张图,每张图像都有编号说明。问题根据语言描述定位到特定图像。图像数量从2到9张不等;
(3) 图中图数据:一张图像被缩放并叠加在另一张图像上,问题围绕组合后的图像展开。
△MIA-DPO的三种数据类型研究者在多个多图和单图benchamrks上对MIA-DPO进行了测试。
实验结果显示,在经典的LLaVa1.5模型和更为强大的InternLM-Xcomposer2.5上,MIA-DPO都能显著提升模型的多图感知与推理能力,如图所示,LLaVa1.5和InternLM-Xcomposer2.5在五个多图benchmarks上分别取得了平均3%和4.3%的性能提升。
除此之外,研究着在多个单图benchmarks上也进行了丰富的实验,结果显示MIA-DPO在提升模型多图感知与推理能力的同时,也能保持住模型原有的单图理解能力。
最后小结一下。
MIA-DPO不仅为多图像场景中对齐模型与人类偏好提出了全新解决方案,还通过引入低成本、可扩展的数据生成方法,推动了LVLMs在处理复杂多图像任务中的应用。MIA-DPO的成功证明了通过偏好优化对齐模型与人类反馈,在提升模型多图像感知与推理能力的同时,也可以保持原有的单图任务性能,为未来的研究奠定了坚实基础。
论文地址:
https://arxiv.org/abs/2410.17637
Project Page:
https://liuziyu77.github.io/MIA-DPO/
Code:
https://github.com/Liuziyu77/MIA-DPO
以上就是关于【多图场景用DPO对齐,上海AI实验室等提出新方法,无需人工标注】的相关内容,希望对大家有帮助!
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
奔驰GLE作为豪华SUV市场中的佼佼者,凭借其卓越的性能、豪华的内饰以及宽敞的空间,吸引了众多消费者的关注。...浏览全文>>
-
在2025年,安徽阜阳地区的帕萨特新能源汽车市场表现非常活跃。作为一款备受关注的新能源车型,帕萨特新能源凭...浏览全文>>
-
近日,滁州地区的大众汽车经销商传来好消息:备受瞩目的2025款T-ROC探歌正式上市,并且以极具竞争力的价格吸引...浏览全文>>
-
在选择一款新能源汽车时,了解其价格和配置是非常重要的一步。安徽淮南地区的长安启源E07作为2024款的新车型,...浏览全文>>
-
阜阳长安启源A05作为长安汽车旗下的全新车型,自推出以来便凭借其独特的设计风格和丰富的配置吸引了众多消费者...浏览全文>>
-
阜阳长安启源A07作为一款备受瞩目的新能源车型,以其豪华配置和亲民的价格在市场上引起了广泛关注。这款车型不...浏览全文>>
-
安徽淮南威然2024款价格及配置详解随着汽车市场的不断更新换代,上汽大众旗下的MPV车型——威然(Viloran)凭...浏览全文>>
-
QQ多米新车报价2025款,买车省钱秘籍随着汽车市场的不断发展,消费者在选购车辆时不仅关注车型的性能和配置,...浏览全文>>
-
滁州途观X 2024款最新价格及买车省钱秘籍随着汽车市场的不断发展,大众途观X作为一款兼具时尚与性能的中型SUV...浏览全文>>
-
随着汽车市场的不断发展,大众蔚揽以其优雅的设计和卓越的性能赢得了众多消费者的青睐。作为一款兼具实用性和...浏览全文>>
- Nvidia DLSS 4 有望将游戏性能提高 8 倍
- 人工智能在预测自身免疫性疾病进展方面显示出良好的前景
- 心理物理实验揭示皮肤水分感知是如何改变的
- 科茨沃尔德公司庆祝圣诞节圆满成功
- 南法纳姆学校被评为萨里郡表现最好的小学
- 约克区九所小学将削减招生人数
- 松下新款电动汽车电池为 Lucid Gravity 带来 450 英里续航里程
- 泰国旅游呈现新趋势
- 研究人员找到在细胞水平上饿死前列腺癌肿瘤的新方法
- 领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降
- 庞大的 Project Zomboid build 42 终于可以玩了
- Steam Replay 回归向您展示 2024 年您玩得最多的 PC 游戏
- Jollyes 推出强化的人才支持和招聘措施
- Karen Millen 与 Simon Harrison 共同推出全新高级珠宝系列
- 奇瑞风云A8L电动轿车刷新续航里程世界纪录
- 虚拟艺术家将别克 Cascada 带回 2026 款车型
- OnePlus 宣布推出新计划解决绿线问题
- OnePlus Watch 3 将拥有更大的电池和更薄的机身
- 研究人员发现可变剪接与自身免疫性疾病遗传之间的细胞类型特异性联系
- 科学家确定脑细胞类型是排尿的主要控制者