绕晕了!9.11 大还是 9.9 大,难倒一批 AI 大模型?
相信很多大家对绕晕了!9.11 大还是 9.9 大,难倒一批 AI 大模型?还不知道吧,今天菲菲就带你们一起去了解一下~.~!
「9.11和9.9,哪个大?」
对于不少习惯了更新软件版本号的程序员而言,不少人的第一反应就是:当然是9.11大。但是如果没有限定场景,只是单纯地提出上面这个问题时,结果必然是相反的。
没想到,将这个问题抛给前能答疑解惑、后能挑战各种高数难题的 AI 大模型时,各种“翻车”情况也随之出现了。
国外大模型:9.11vs9.9,哪个大?
具体的事情要从一位名为 Riley Goodside 工程师的推文谈起。
值得一提的是,Riley Goodside 是 AI 数据标注赛道“独角兽”Scale AI 公司的一名 staff prompt engineer,这个岗位的职责具体是指在生成式 AI 和自然语言处理领域内,专门设计和优化提示(prompt)的人。这个角色要求深入理解如何构建有效的 Prompt,以引导 AI 模型生成所需的输出。
几个小时前,Riley Goodside 连发几条推文分享了自己的一些发现,即用「9.11and9.9- which is bigger?」为 Prompt 输入给各家大模型时,如当前业界公认最先进模型之一的 ChatGPT4o 的输出是:
9.11比9.9大。
再来看看 Gemini Advanced 的表现,同样“翻车”:
9.11>9.9
虽然 Claude3.5Sonnet 最终也未能逃过这个模糊问题带来的“坑”,但是其给出的解释中,一度就要回答正确了,其写道:
“两个数字中的整数部分(9)都是相同的,所以我们需要比较小数部分。
在9.11中,十分位是1/10(或0.1)。在9.9中,十分位是9/10(或0.9)。
由于9/10大于1/10,乍看之下可能觉得9.9更大。”
没想到接下来画风急转,Claude3.5Sonnet 有似是有理有据地说:
但是,我们还需要考虑百分位。
9.9可以写成9.90以显示百分位。
现在我们可以清楚地看到9.11大于9.90(或9.9),因为在百分位上,1大于0。
因此,9.11是较大的数。
最终在正确的答案上渐行渐远:
这个简单的问题也让不少人联想到前几天国内关于《歌手2024》「终极袭榜赛」竞演结果的排名。
当时有不少网友就13.8%和13.11%哪个大的问题争论了起来。
在纠正不了「某些已形成思维定式」的用户想法之后,甚至有人搬出了教材给出解释,“在最新人教版小学四年级数学下册课本中,我们可以找到相关知识点:比较两个小数的大小,先看它们的整数部分,整数部分大的那个数就大;整数部分相同的,十分位上的数大的那个数就大;十分位上的数也相同的,百分位上的数大的那个数就大..."
在今天 Riley Goodside 分享 AI 大模型回答这一问题的表现时,来自 Google 前工程师、Allen AI 研究员 Bill Yuchen Lin 也将比较的数值换成了13.11和13.8,再次问及大模型,没想到答案还是出错了。
其评价道,「数学奥林匹克竞赛对人工智能来说更容易,但常识仍然很难。」
同时,他还表示,“这种常识性 AI 失败案例,让我不禁想起@YejinChoinka的 TED 演讲:《为什么 AI 既聪明得令人难以置信,又愚蠢得令人震惊》(https://www.ted.com/talks/yejin_choi_why_ai_is_incredibly_smart_and_shockingly_stupid)”。
换个 Prompt,答案会不会不一样?
不过,也有人质疑作为 Prompt 工程师的Riley Goodside 的提问方式,“它(大模型)对词序敏感![我相信你也知道]如果你把数字放在问题后面,他们就会答对[google 和 openai,anthropic 则不然]。你使用斜线也是有意混淆视听吗?”
对此,Riley Goodside 给出自己的解释:
澄清一下:我并不是说无论如何提示,任何 LLM 都会始终如一地认为9.11>9.9。我是说,如果你以这种特定方式给出 Prompt,许多领先的模型都会告诉你9.11>9.9,这就很奇怪了。如果你想重现,请粘贴文本中的 Prompt(9.11and9.9- which is bigger?)。
为了复现这个问题,数字确实需要放在问题前面。但以下内容似乎都无关紧要:
- 标点符号(破折号/逗号/无标点)
- 连词(和/或/对比)
- 比较词(更大/更大/更大)
- 说明这些是实数
针对质疑,也有好奇的用户尝试了去掉了问题中间的”-“符号,结果还是如此:
我们换了种提问方式,即使明确这是数值了,ChatGPT4o 还是坚定的表示:9.11比9.9要大!
延着这个问题,当有网友进一步提问时,更为离谱的事情发生了:当让这两个数值相减时,ChatGPT4o 直接用9.11的百分位中的1减去9.9百分位上的0;又用9.11十分位上的1减去9.9十分位上的9,最终不够减之后,向前借一位又忽略了这一点,得到了0.21的错误结果。
如今看来,对大模型提出哪个数字更大问题时,它们将数值分成了两个部分,9.11和9.9的整数、小数分别做了比较,整数部分为9对比完之后,再将小数部分的十分位、百分位整体做了比较,其认为11>9,进而给出了9.11>9.9的结果。
国产大模型实测
那么在这个简单的问题上,国产大模型的表现力又如何呢?
先来看看阿里的通义千问的。它不仅给出了详细的解释,而且结果也是正确的。
百度文心一言同样正确:
腾讯元宝:
昆仑万维的天工在开启了全网搜索后,给出了简洁的正确答案:
科大讯飞的星火大模型:
360智脑在回答这一问题时同样触发了联网搜索功能,好在给出了正确的答案:
百川智能的回答同样没有问题:
不过实测过程中,也有些起初错误,但是用同样问题问第二遍时又有了改正:
遗憾的是,也有一些模型还存在问题:
争论依然存在
不仅如此,有网友在实测负数时,GPT 们依然也被绕晕了:
还有网友在测评9.11美元和9.9美元时评价道:
大型语言模型(LLM)为什么在基础数学上失败,却仍然能通过许多学术考试?
非常有趣的是,它并不理解小数的基本概念。认为11比9大,所以9.11>9.9。
但是,当它开始进一步解释为什么9.11>9.9时,它又将数字转换为文本,并且有大量的数据表明90美分比11美分大,所以它不断纠正自己。
从大型语言数据库进行统计推断并不是推理机器?我猜测即使增加数据和计算量,LLM 模型也不会达到人类水平的推理能力。它们需要发现更好的算法来复制人类的智能。
至于为什么仅是比较数值时出错,不少人猜测,这似乎与语序有很大关系。
大模型如今在基础能力方面的表现,也不禁让人想到就在几天前,Google DeepMind CEO Demis Hassabis 在公开场合表示,“当前的 AI 在智力方面与猫的水平相当,甚至还不如普通家猫”,这无疑给许多期待 AGI(通用人工智能)即将到来的人泼了一盆凉水。
来源:
https://x.com/goodside/status/1812990703473172813
以上就是关于【绕晕了!9.11 大还是 9.9 大,难倒一批 AI 大模型?】的相关内容,希望对大家有帮助!
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
奔驰GLE作为豪华SUV市场中的佼佼者,凭借其卓越的性能、豪华的内饰以及宽敞的空间,吸引了众多消费者的关注。...浏览全文>>
-
在2025年,安徽阜阳地区的帕萨特新能源汽车市场表现非常活跃。作为一款备受关注的新能源车型,帕萨特新能源凭...浏览全文>>
-
近日,滁州地区的大众汽车经销商传来好消息:备受瞩目的2025款T-ROC探歌正式上市,并且以极具竞争力的价格吸引...浏览全文>>
-
在选择一款新能源汽车时,了解其价格和配置是非常重要的一步。安徽淮南地区的长安启源E07作为2024款的新车型,...浏览全文>>
-
阜阳长安启源A05作为长安汽车旗下的全新车型,自推出以来便凭借其独特的设计风格和丰富的配置吸引了众多消费者...浏览全文>>
-
阜阳长安启源A07作为一款备受瞩目的新能源车型,以其豪华配置和亲民的价格在市场上引起了广泛关注。这款车型不...浏览全文>>
-
安徽淮南威然2024款价格及配置详解随着汽车市场的不断更新换代,上汽大众旗下的MPV车型——威然(Viloran)凭...浏览全文>>
-
QQ多米新车报价2025款,买车省钱秘籍随着汽车市场的不断发展,消费者在选购车辆时不仅关注车型的性能和配置,...浏览全文>>
-
滁州途观X 2024款最新价格及买车省钱秘籍随着汽车市场的不断发展,大众途观X作为一款兼具时尚与性能的中型SUV...浏览全文>>
-
随着汽车市场的不断发展,大众蔚揽以其优雅的设计和卓越的性能赢得了众多消费者的青睐。作为一款兼具实用性和...浏览全文>>
- Nvidia DLSS 4 有望将游戏性能提高 8 倍
- 人工智能在预测自身免疫性疾病进展方面显示出良好的前景
- 心理物理实验揭示皮肤水分感知是如何改变的
- 科茨沃尔德公司庆祝圣诞节圆满成功
- 南法纳姆学校被评为萨里郡表现最好的小学
- 约克区九所小学将削减招生人数
- 松下新款电动汽车电池为 Lucid Gravity 带来 450 英里续航里程
- 泰国旅游呈现新趋势
- 研究人员找到在细胞水平上饿死前列腺癌肿瘤的新方法
- 领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降
- 庞大的 Project Zomboid build 42 终于可以玩了
- Steam Replay 回归向您展示 2024 年您玩得最多的 PC 游戏
- Jollyes 推出强化的人才支持和招聘措施
- Karen Millen 与 Simon Harrison 共同推出全新高级珠宝系列
- 奇瑞风云A8L电动轿车刷新续航里程世界纪录
- 虚拟艺术家将别克 Cascada 带回 2026 款车型
- OnePlus 宣布推出新计划解决绿线问题
- OnePlus Watch 3 将拥有更大的电池和更薄的机身
- 研究人员发现可变剪接与自身免疫性疾病遗传之间的细胞类型特异性联系
- 科学家确定脑细胞类型是排尿的主要控制者