绕晕了！9.11 大还是 9.9 大，难倒一批 AI 大模型？

2024-07-17 11:30:06 来源：用户：

相信很多大家对绕晕了！9.11 大还是 9.9 大，难倒一批 AI 大模型？还不知道吧，今天菲菲就带你们一起去了解一下~.~！

「9.11和9.9，哪个大?」

对于不少习惯了更新软件版本号的程序员而言，不少人的第一反应就是:当然是9.11大。但是如果没有限定场景，只是单纯地提出上面这个问题时，结果必然是相反的。

没想到，将这个问题抛给前能答疑解惑、后能挑战各种高数难题的 AI 大模型时，各种“翻车”情况也随之出现了。

国外大模型:9.11vs9.9，哪个大?

具体的事情要从一位名为 Riley Goodside 工程师的推文谈起。

值得一提的是，Riley Goodside 是 AI 数据标注赛道“独角兽”Scale AI 公司的一名 staff prompt engineer，这个岗位的职责具体是指在生成式 AI 和自然语言处理领域内，专门设计和优化提示（prompt）的人。这个角色要求深入理解如何构建有效的 Prompt，以引导 AI 模型生成所需的输出。

几个小时前，Riley Goodside 连发几条推文分享了自己的一些发现，即用「9.11and9.9- which is bigger?」为 Prompt 输入给各家大模型时，如当前业界公认最先进模型之一的 ChatGPT4o 的输出是:

9.11比9.9大。

再来看看 Gemini Advanced 的表现，同样“翻车”:

9.11>9.9

虽然 Claude3.5Sonnet 最终也未能逃过这个模糊问题带来的“坑”，但是其给出的解释中，一度就要回答正确了，其写道:

“两个数字中的整数部分（9）都是相同的，所以我们需要比较小数部分。

在9.11中，十分位是1/10（或0.1）。在9.9中，十分位是9/10(或0.9)。

由于9/10大于1/10，乍看之下可能觉得9.9更大。”

没想到接下来画风急转，Claude3.5Sonnet 有似是有理有据地说:

但是，我们还需要考虑百分位。

9.9可以写成9.90以显示百分位。

现在我们可以清楚地看到9.11大于9.90（或9.9），因为在百分位上，1大于0。

因此，9.11是较大的数。

最终在正确的答案上渐行渐远:

这个简单的问题也让不少人联想到前几天国内关于《歌手2024》「终极袭榜赛」竞演结果的排名。

当时有不少网友就13.8%和13.11%哪个大的问题争论了起来。

在纠正不了「某些已形成思维定式」的用户想法之后，甚至有人搬出了教材给出解释，“在最新人教版小学四年级数学下册课本中，我们可以找到相关知识点:比较两个小数的大小，先看它们的整数部分，整数部分大的那个数就大;整数部分相同的，十分位上的数大的那个数就大;十分位上的数也相同的，百分位上的数大的那个数就大..."

在今天 Riley Goodside 分享 AI 大模型回答这一问题的表现时，来自 Google 前工程师、Allen AI 研究员 Bill Yuchen Lin 也将比较的数值换成了13.11和13.8，再次问及大模型，没想到答案还是出错了。

其评价道，「数学奥林匹克竞赛对人工智能来说更容易，但常识仍然很难。」

同时，他还表示，“这种常识性 AI 失败案例，让我不禁想起@YejinChoinka的 TED 演讲:《为什么 AI 既聪明得令人难以置信，又愚蠢得令人震惊》（https://www.ted.com/talks/yejin_choi_why_ai_is_incredibly_smart_and_shockingly_stupid）”。

换个 Prompt，答案会不会不一样?

不过，也有人质疑作为 Prompt 工程师的Riley Goodside 的提问方式，“它（大模型）对词序敏感![我相信你也知道]如果你把数字放在问题后面，他们就会答对[google 和 openai，anthropic 则不然]。你使用斜线也是有意混淆视听吗?”

对此，Riley Goodside 给出自己的解释:

澄清一下:我并不是说无论如何提示，任何 LLM 都会始终如一地认为9.11>9.9。我是说，如果你以这种特定方式给出 Prompt，许多领先的模型都会告诉你9.11>9.9，这就很奇怪了。如果你想重现，请粘贴文本中的 Prompt（9.11and9.9- which is bigger?）。

为了复现这个问题，数字确实需要放在问题前面。但以下内容似乎都无关紧要:

- 标点符号（破折号/逗号/无标点）

- 连词（和/或/对比）

- 比较词（更大/更大/更大）

- 说明这些是实数

针对质疑，也有好奇的用户尝试了去掉了问题中间的”-“符号，结果还是如此:

我们换了种提问方式，即使明确这是数值了，ChatGPT4o 还是坚定的表示:9.11比9.9要大!

延着这个问题，当有网友进一步提问时，更为离谱的事情发生了:当让这两个数值相减时，ChatGPT4o 直接用9.11的百分位中的1减去9.9百分位上的0;又用9.11十分位上的1减去9.9十分位上的9，最终不够减之后，向前借一位又忽略了这一点，得到了0.21的错误结果。

如今看来，对大模型提出哪个数字更大问题时，它们将数值分成了两个部分，9.11和9.9的整数、小数分别做了比较，整数部分为9对比完之后，再将小数部分的十分位、百分位整体做了比较，其认为11>9，进而给出了9.11>9.9的结果。

国产大模型实测

那么在这个简单的问题上，国产大模型的表现力又如何呢?

先来看看阿里的通义千问的。它不仅给出了详细的解释，而且结果也是正确的。

百度文心一言同样正确:

腾讯元宝:

昆仑万维的天工在开启了全网搜索后，给出了简洁的正确答案:

科大讯飞的星火大模型:

360智脑在回答这一问题时同样触发了联网搜索功能，好在给出了正确的答案:

百川智能的回答同样没有问题:

不过实测过程中，也有些起初错误，但是用同样问题问第二遍时又有了改正:

遗憾的是，也有一些模型还存在问题:

争论依然存在

不仅如此，有网友在实测负数时，GPT 们依然也被绕晕了:

还有网友在测评9.11美元和9.9美元时评价道:

大型语言模型（LLM）为什么在基础数学上失败，却仍然能通过许多学术考试?

非常有趣的是，它并不理解小数的基本概念。认为11比9大，所以9.11>9.9。

但是，当它开始进一步解释为什么9.11>9.9时，它又将数字转换为文本，并且有大量的数据表明90美分比11美分大，所以它不断纠正自己。

从大型语言数据库进行统计推断并不是推理机器?我猜测即使增加数据和计算量，LLM 模型也不会达到人类水平的推理能力。它们需要发现更好的算法来复制人类的智能。

至于为什么仅是比较数值时出错，不少人猜测，这似乎与语序有很大关系。

大模型如今在基础能力方面的表现，也不禁让人想到就在几天前，Google DeepMind CEO Demis Hassabis 在公开场合表示，“当前的 AI 在智力方面与猫的水平相当，甚至还不如普通家猫”，这无疑给许多期待 AGI（通用人工智能）即将到来的人泼了一盆凉水。

来源:

https://x.com/goodside/status/1812990703473172813

以上就是关于【绕晕了！9.11 大还是 9.9 大，难倒一批 AI 大模型？】的相关内容，希望对大家有帮助！

标签：绕晕了！9 11 大还是 9 9 大，难倒一批 AI 大模型？

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

分享：

相关阅读

董明珠曾喊话雷军给股民分多少钱！格力：拟分红超55亿

Epic喜+1：动作游戏《师父》免费领立省139元

雷军辟谣只招聘35岁以下员工：仅针对未来之星项目

普华永道发布2025年AI预测：AI Agents将劳动力提升1倍

雷军回应股价暴跌：年年难过年年过

一天100座！理想汽车第1700座超充站正式建成

《守望先锋》国服宣布2月19日回归：账号数据完整保留

雷军建议创业者要多留点钱给员工：别到山穷水尽才讲问题

雷军新年第一天收到200元红包自侃年入百万的开始

雷军亲自展示REDMI Turbo 4！2025年第一款新机

雷军：小米未来10年建至少20座世界顶级工厂

雷军辟谣只招聘35岁以下员工：只有招聘未来之星时才有年龄限制

雷军回应100亿造车：没有好到“封神” 不要神话我

雷军表态：一心做好小米汽车大家可以在“许愿池”寻找商机

雷军：中国汽车产业应少些歪门邪道不要发黑稿、背后捅刀子

小米SU7选配色都是7000元为什么璀璨洋红却需要9000元

最新文章

空调外机声音大是什么问题

【空调外机声音大是什么问题】空调在使用过程中，如果发现外机发出异常的噪音，可能会让人感到困扰。空调外机...浏览全文>>

空调外机声音大如何解决

【空调外机声音大如何解决】空调在使用过程中，外机发出较大的噪音是很多用户遇到的常见问题。这不仅影响居住...浏览全文>>

空调外机清洗方法是什么

【空调外机清洗方法是什么】空调外机是空调系统中非常重要的组成部分，它的清洁程度直接影响到空调的制冷效果...浏览全文>>

空调突然不制冷的原因

【空调突然不制冷的原因】当家中的空调突然不再制冷时，不仅影响使用体验，还可能带来一定的安全隐患。了解空...浏览全文>>

空调铜管什么作用

【空调铜管什么作用】空调在现代生活中扮演着越来越重要的角色，尤其是在夏季高温时，它为我们提供了舒适的室...浏览全文>>

空调铜管结霜怎么回事

【空调铜管结霜怎么回事】空调在使用过程中，有时会出现铜管结霜的现象，这不仅影响制冷效果，还可能对设备造...浏览全文>>

空调铜管结霜是什么原因

【空调铜管结霜是什么原因】当空调运行时，如果发现室内机的铜管出现结霜现象，这不仅影响制冷效果，还可能对...浏览全文>>

空谷幽兰是什么意思

【空谷幽兰是什么意思】“空谷幽兰”是一个富有诗意的成语，常用来形容在偏僻、冷清的地方生长的兰花。它不仅...浏览全文>>

空格怎么打出来

【空格怎么打出来】在日常使用电脑或手机输入文字时，经常会遇到需要输入“空格”的情况。虽然看似简单，但很...浏览全文>>

空格怎么打

【空格怎么打】在日常使用电脑或手机时，很多人会遇到“空格怎么打”的问题。其实，“空格”是一个非常基础的...浏览全文>>

大家爱看

空调铜管什么作用

空格怎么打

空格键是指的哪一个

可微与可导的关系

科技感十足的公司名称公司起名

考研难考吗

康复医院是做什么的

康复学专业考研学校

开通国际漫游多少钱一个月

开通电信Volte功能免费吗

频道推荐

空调铜管结霜是什么原因

空格名字怎么打

可微与可导之间的联系是什么

科技工业是什么

科技发展给生活带来的好处

考研歧视最严重的高校

康复理疗师证书哪里颁发

康复考研最好的学校有哪些

卡姐新歌wap原版歌词介绍

卡机嘛韩语的意思

站长推荐

空调突然不制冷的原因

空格怎么打出来

空城旧梦是情侣网名吗

可吸收线是什么颜色

可微与可导之间有什么联系

康复是什么意思

康复评定包括哪5个方面

开通QQ十周年黄钻是不是可以永久使用十周年黄钻标志

卡路里和焦耳怎么换算

卡乐购是什么意思

卡拉瓦乔代表作

巨鳄的电影有什么

巨大的英语是什么

禁闭岛的结局真相

靳东个人资料

靳东的妹妹为什么叫高露

金枝玉叶繁殖方法

金针菜和黄花菜是一种吗

金吉鸟健身私教一般多少

戒指戴什么手指好