大模型在装傻!谷歌苹果最新发现:LLM知道但不告诉你,掌握知识比表现出来的多
相信很多大家对大模型在装傻!谷歌苹果最新发现:LLM知道但不告诉你,掌握知识比表现出来的多还不知道吧,今天菲菲就带你们一起去了解一下~.~!
大模型的应用历来受幻觉所扰。
这个幻觉可以指代LLM产生的任何类型的错误:事实不准确、偏见、常识推理失败等等。
——是因为大模型学半天白学了吗?并不是。
近日,来自谷歌和苹果的研究表明:AI模型掌握的知识比表现出来的更多!
论文地址:https://arxiv.org/pdf/2410.02707
研究人员在LLM内部表示上训练分类器,以预测与生成输出的真实性相关的各种特征。
结果表明LLM的内部状态编码反映出的真实性信息,比以前认识到的要多得多。
这些真实性信息集中在特定的token中,利用这一属性可以显著提高检测LLM错误输出的能力。
虽说这种错误检测无法在数据集中泛化,但好处是,模型的内部表示可用于预测模型可能犯的错误类型,从而帮助我们制定缓解错误的策略。
研究揭示了LLM内部编码和外部行为之间的差异:可能编码了正确的答案,却生成了不正确的答案。
——简单来说就是,LLM它知道,但它不想告诉你!
LLM在装傻
作者建议将重点从以人类为中心的幻觉解释转移到以模型为中心的视角,检查模型的中间激活。
不同于使用RAG或者依赖更强大的LLM judge,本文工作的重点是仅依赖于模型输出的logits、softmax后的概率和隐藏状态的计算。
错误检测器第一步是确定真实性信号在LLM中的编码位置。
假设我们可以访问LLM的内部状态(白盒),但不能访问任何外部资源(搜索引擎或其他LLM)。
建立一个数据集D,由N个问题标签对组成,对于每个问题,提示模型生成响应,从而得到一组预测答案。
接下来,比较LLM生成的回答与正确答案,从而构建错误检测数据集(这一部可由AI代劳)。
实验选择了四个LLM:Mistral-7b,Mistral-7b-instruct-v0.2,Llama3-8b和Llama3-8b-instruct。
作者选取了10个跨越不同领域和任务的数据集:TriviaQA、HotpotQA(with/without context)、Natural Questions、Winobias、Winogrande、MNLI、Math、IMDB review sentiment analysis和另一个自制的电影角色数据集。
实验允许无限制地生成响应以模拟现实世界LLM的用法,并贪婪地解码答案。
性能指标
测量ROC曲线下面积以评估错误检测器,这能够反映模型在多个阈值中区分阳性和阴性情况的能力,平衡灵敏度(真阳性率)和特异性(假阳性率)。
错误检测方法
作者认为,现有方法忽略了一个关键的细节:用于错误检测token的选择。
研究者通常只关注最后生成的token或取平均值,然而,由于LLM一般会生成长格式响应,这种做法可能会错过重要的部分。
本文中,作者关注表示确切答案的token(EXACT ANSWER TOKENS),它代表了生成的响应中最有意义的部分。
这里将EXACT ANSWER TOKENS定义为,如果修改则会改变答案正确性的token。
实践中,作者使用设置好的instruct模型代劳,来提取确切答案。之后,通过简单的搜索过程确定对应的token。
重点关注4个特定token:第一个确切答案的token及其前一个token、最后一个确切答案token及其后一个token。
作者广泛分析了层和token选择对分类器的激活提取的影响,通过系统地探测模型的所有层,从最后一个问题token开始,一直到最终生成的token。
上图显示了Mistral-7b-Struct中各个层和token关于探测的AUC指标。虽然一些数据集似乎更容易进行错误预测,但所有数据集都表现出一致的真实性编码模式,中后期层通常会产生最有效的探测结果。
通过比较使用和不使用EXACT ANSWER TOKENS的性能,来评估各种错误检测方法,上表展示了三个代表性数据集上的AUC。
不同任务中的泛化
了解错误检测器在不同任务中的泛化能力,对于实际应用程序至关重要。
上图(a)显示了Mistral-7b-instruct的泛化结果,大于0.5的值表示泛化成功。乍一看,大多数热图值超过了0.5,似乎任务之间存在一定程度的泛化。
然而事实上,大部分性能可以通过基于logit的真度检测来实现。图(b)显示了从最强的基于Logit的基线(Logit-min-exact)中减去结果后的相同热图。
这表示检测器的泛化程度很少超过仅依赖Logit所能达到的效果。所以,泛化并不源于真实性的内部编码,而是反映了已经通过logits等外部特征访问的信息。
经过训练的探测分类器可以预测错误,但其泛化能力只发生在需要相似技能的任务(如事实检索)中。
对于涉及不同技能的任务,例如情感分析,探测分类器与基于logit的不确定性预测器效果差不多。
错误类型研究在确定了错误检测的局限性,并研究了不同任务的错误编码有何不同之后,作者深入研究了单个任务中的错误,根据模型对重复样本的响应对其错误进行分类。
比如,持续生成的相同错误与偶尔生成的错误属于不同类别。
研究人员在T =30的温度设置下,对数据集中的每个样本进行采样,然后分析答案的结果分布。
上图展示了三种代表性的错误类型:
分类的标准有三个:生成的不同答案的数量,正确答案的频率,以及最常见的错误答案的频率。
上表显示了所有模型的测试集结果。结果表明,可以从贪婪解码的中间表示中预测错误类型。
检测正确答案模型的这种内部真实性如何在响应生成过程中与其外部行为保持一致?
作者使用经过错误检测训练的探测器,从同一问题的30个响应中选择一个答案,根据所选答案衡量模型的准确性。
如果这种准确性与传统解码方法(如贪婪解码)没有显著差异,则表明LLM的真实性内部表示与其外部行为一致。
实验在TriviaQA、Winobias和Math上进行,选择probe评估的正确性概率最高的答案。这里比较了三个基线:贪婪解码;从30个候选答案中随机选择;选择生成的最频繁的答案。
结果如上图所示,总体而言,使用探针选择答案可以提高LLM所有检查任务的准确性。但是,改进的程度因错误类型而异。
探针可以有效地识别正确答案的事实表明,LLM的内部编码与其外部行为之间存在重大脱节:即使模型编码了哪个答案是正确的信息,它在实践中仍然可能生成错误的答案。
参考资料:
https://arxiv.org/pdf/2410.02707
以上就是关于【大模型在装傻!谷歌苹果最新发现:LLM知道但不告诉你,掌握知识比表现出来的多】的相关内容,希望对大家有帮助!
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
奔驰GLE作为豪华SUV市场中的佼佼者,凭借其卓越的性能、豪华的内饰以及宽敞的空间,吸引了众多消费者的关注。...浏览全文>>
-
在2025年,安徽阜阳地区的帕萨特新能源汽车市场表现非常活跃。作为一款备受关注的新能源车型,帕萨特新能源凭...浏览全文>>
-
近日,滁州地区的大众汽车经销商传来好消息:备受瞩目的2025款T-ROC探歌正式上市,并且以极具竞争力的价格吸引...浏览全文>>
-
在选择一款新能源汽车时,了解其价格和配置是非常重要的一步。安徽淮南地区的长安启源E07作为2024款的新车型,...浏览全文>>
-
阜阳长安启源A05作为长安汽车旗下的全新车型,自推出以来便凭借其独特的设计风格和丰富的配置吸引了众多消费者...浏览全文>>
-
阜阳长安启源A07作为一款备受瞩目的新能源车型,以其豪华配置和亲民的价格在市场上引起了广泛关注。这款车型不...浏览全文>>
-
安徽淮南威然2024款价格及配置详解随着汽车市场的不断更新换代,上汽大众旗下的MPV车型——威然(Viloran)凭...浏览全文>>
-
QQ多米新车报价2025款,买车省钱秘籍随着汽车市场的不断发展,消费者在选购车辆时不仅关注车型的性能和配置,...浏览全文>>
-
滁州途观X 2024款最新价格及买车省钱秘籍随着汽车市场的不断发展,大众途观X作为一款兼具时尚与性能的中型SUV...浏览全文>>
-
随着汽车市场的不断发展,大众蔚揽以其优雅的设计和卓越的性能赢得了众多消费者的青睐。作为一款兼具实用性和...浏览全文>>
- Nvidia DLSS 4 有望将游戏性能提高 8 倍
- 人工智能在预测自身免疫性疾病进展方面显示出良好的前景
- 心理物理实验揭示皮肤水分感知是如何改变的
- 科茨沃尔德公司庆祝圣诞节圆满成功
- 南法纳姆学校被评为萨里郡表现最好的小学
- 约克区九所小学将削减招生人数
- 松下新款电动汽车电池为 Lucid Gravity 带来 450 英里续航里程
- 泰国旅游呈现新趋势
- 研究人员找到在细胞水平上饿死前列腺癌肿瘤的新方法
- 领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降
- 庞大的 Project Zomboid build 42 终于可以玩了
- Steam Replay 回归向您展示 2024 年您玩得最多的 PC 游戏
- Jollyes 推出强化的人才支持和招聘措施
- Karen Millen 与 Simon Harrison 共同推出全新高级珠宝系列
- 奇瑞风云A8L电动轿车刷新续航里程世界纪录
- 虚拟艺术家将别克 Cascada 带回 2026 款车型
- OnePlus 宣布推出新计划解决绿线问题
- OnePlus Watch 3 将拥有更大的电池和更薄的机身
- 研究人员发现可变剪接与自身免疫性疾病遗传之间的细胞类型特异性联系
- 科学家确定脑细胞类型是排尿的主要控制者