GPT-4o mini突然上线!该换小模型赛道的OpenAI意欲何为?
相信很多大家对GPT-4o mini突然上线!该换小模型赛道的OpenAI意欲何为?还不知道吧,今天菲菲就带你们一起去了解一下~.~!
ChatGPT 正式进入了“4”时代。
7月18日,OpenAI 官宣推出了GPT-3.5Turbo的替代品——GPT-4o mini,至此,ChatGPT的更新迭代又近了一步,来到了4字开头的时期。据了解,即日起,ChatGPT的免费用户,Plus用户以及Team用户都能够使用GPT-4o mini,企业版客户也会在随后获得使用GPT-4o mini的权限。
OpenAI杀入小模型赛道!GPT-4o mini究竟有哪些过人之处?
在各大AI企业争相推出产品的当下,OpenAI的更新速度并不算太快。很多人都希望蛰伏许久的OpenAI能够一出手,就干件大事儿,诸如推出一个在各个方面都能碾压上一代产品的GPT-5.0。也正因此,很多人对于GPT-4o mini的出现感到些许失望。
但需要说明的是,GPT-4.o mini不仅不是一无是处,反而是一个极具代表性的产品。OpenAI把GPT-4o mini描述为“一个具有卓越文本智能和多模态推理能力的小模型”,这就对其进行了精准定位:小模型赛道上的领先产品。
据OpenAI介绍,GPT-4o mini目前在LMSYS排行榜上的聊天偏好方面优于GPT-4,在文本智能和多模态推理方面的学术基准测试中超越了GPT-3.5Turbo和其他小型模型,并且支持的语言范围与GPT-4o相同。而GPT-4o mini在函数调用方面也表现出色,可以使开发人员构建获取数据或使用外部系统采取行动的应用程序。
此外,与GPT-3.5Turbo相比,GPT-4o mini的长上下文性能有所提高,已经在几个关键基准上进行了评估,即推理任务,数学和编码能力以及多模态推力。
在推理任务方面,GPT-4o mini在涉及文本和视觉的推理任务上优于其他小型模型,在文本智能和推理基准MMLU上的得分为82.0%,而Gemini Flash为77.9%,Claude Haiku为73.8%;在数学和编码能力方面,GPT-4o mini的表现优于市场上之前的小型模型,在测量数学推理的MGSM上,GPT-4o mini得分为87.0%,而Gemini Flash得分为75.5%,Claude Haiku得分为71.7%;在测量编码性能的HumanEval上,GPT-4o mini得分为87.2%,而Gemini Flash得分为71.5%,Claude Haiku得分为75.9%;在多模态推理方面,GPT-4o mini在多模态推理评估MMMU中也表现出色,得分为59.4%,而Gemini Flash为56.1%,Claude Haiku为50.2%。
更重要的是,GPT-4o mini还有一项极具竞争力的优势:价格足够实惠。
OpenAI表示,开发人员使用GPT-4o mini时,每100万个输入tokens需支付15美分,每100万个输出tokens需支付60美分。这个定价比之前的Frontier型号便宜了足足一个数量级。即便与自家的上一代产品GPT-3.5Turbo也要便宜60%以上。
GPT-4o用起来究竟如何?一手测评结果:懂得不算多,但速度绝对快。
当然,理论上的优势说的再多,也不及大家的实际体验来得重要和直观。
目前,GPT-4o mini 在 WildBench 测试上排名第9,优于谷歌的Gemini-flash以及 Anthropic的Claude3Haiku。看得出来,大家对于这款新晋产品还是很感兴趣的。
有网友在GPT-4o mini开放测试的第一时间就赶过去问它了一个问题:9.11和9.9哪个大?
很遗憾,GPT-4o mini没有给出正确的答案,不仅没有给出正确的答案,还在错误的路上越走越远,一本正经地回答9.11大于9.9,因为0.1大于0.9。
随后,网友在 Poe(Quora 开发的应用程序,已经集成了 GPT-4o mini)中输入人物传记电影《Eno》的设计封面,让GPT-4o和GPT-4omini模型进行解读,结果 mini翻车了。GPT-4o mini 直接表示“自己认不出照片上的人”,反而是GPT-4o的回答就比较准确。
不过,说起响应速度,那么GPT-4o mini确实对得起OpenAI给予的“faster”标签。与它进行对话,几乎无需任何等待,输出速度堪称快的离谱。
尽管就目前来看,GPT-4o mini回答问题的准确性还有待提高,但不可否认,它目前已经是性能最为优越的小模型了,完全可以超越GPT-3.5Turbo和其他小模型。据了解,GPT-4o mini的知识更新到去年10月,语言种类和GPT-4o对齐,上下文窗口为128k。
当下的GPT-4.o mini在API中仅支持文本和视觉模态,而在不久的未来,它还将扩展到视频和音频的输入及输出。尽管还没有任何参数规模被披露,但OpenAI的官方直接表示,这是他们目前最经济,最有成本效益的小模型了,微调功能也将很快上线。
小模型的出现,才能真正完成OpenAI的使命?
虽然GPT-4o mini是一个小模型,但相较于大模型,它在性能上并没有做出太大妥协。
得益于优化的架构设计和高效的算法,GPT-4o mini 能够在保留大模型强大性能的基础上,提供更加轻量级的解决方案。这使得它在处理文本生成,对话和翻译等任务时,依然能够表现出色。
但是问题来了,先前一直在做大模型的OpenAI为什么选择转头深耕小模型赛道?
OpenAI API方面的负责人Godement表示,这涉及到一个“优先考虑”的问题。此前,OpenAI专注于GPT-4这样的大模型,而随着时间的推移,OpenAI终于注意到了开发者们渴望对小模型的愿景,才终于决定投入资源。据了解,OpenA对于GPT-4o mini是非常有信心的,认为其一定会非常受欢迎。
事实的确如此。对于渴望低成本构建应用的开发者来说,GPT-4o mini来得太及时了。譬如金融初创公司Ramp在测试中,就用它构建了提取收据上费用的工具,不必费力浏览文本框,模型就会自动对所有内容排序,大大提高了工作效率。
在OpenAI设想的未来里,模型将会被无缝集成到每一个应用程序和每一个网站之上。如今,随着GPT-4o mini的推出为开发者更高效、更经济地构建和扩展强大的AI应用铺平道路。可以看到,AI正在变得更容易访问,可靠,并会融入到所有人的日常体验中。而OpenAI,则会继续引领这一进程。
曾几何时,OpenAI也是一心要走大模型之路的,可惜这条路它们走得并不顺利。尽管相较于上一波AI公司,OpenAI创造了更大的现金流,但从战略上说,它并没有把自己倒腾到一个合适的位置上。
在这种情况下,一味死磕大模型,很有可能给公司造成毁灭性的打击,会导致高昂的人才,训练成本根本找不到落点。更可怕的是,一旦技术增长停滞后,它的客户端注定会把它踢掉或者在多个供应商之间压价。这就会导致大模型公司变成赚钱费劲,花钱很痛快的公司,这是没法长久维持的。所以做大模型。不管创造了多少收入,本质上还在险境里面。
如今,OpenAI显然找到了更适合自己的打开方式。但有一点毋庸置疑,大模型要卷,小模型也要卷,不卷是不可能的。
图片来源于网络
文字资料参考:
公众号“新智元”文章《奥特曼深夜发动价格战,GPT-4o mini暴跌99%!清华同济校友立功,GPT-3.5退役》
https://www.zhihu.com/question/662021096/answer/3567789827
https://baijiahao.baidu.com/s?id=1804991663805668979
以上就是关于【GPT-4o mini突然上线!该换小模型赛道的OpenAI意欲何为?】的相关内容,希望对大家有帮助!
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
奔驰GLE作为豪华SUV市场中的佼佼者,凭借其卓越的性能、豪华的内饰以及宽敞的空间,吸引了众多消费者的关注。...浏览全文>>
-
在2025年,安徽阜阳地区的帕萨特新能源汽车市场表现非常活跃。作为一款备受关注的新能源车型,帕萨特新能源凭...浏览全文>>
-
近日,滁州地区的大众汽车经销商传来好消息:备受瞩目的2025款T-ROC探歌正式上市,并且以极具竞争力的价格吸引...浏览全文>>
-
在选择一款新能源汽车时,了解其价格和配置是非常重要的一步。安徽淮南地区的长安启源E07作为2024款的新车型,...浏览全文>>
-
阜阳长安启源A05作为长安汽车旗下的全新车型,自推出以来便凭借其独特的设计风格和丰富的配置吸引了众多消费者...浏览全文>>
-
阜阳长安启源A07作为一款备受瞩目的新能源车型,以其豪华配置和亲民的价格在市场上引起了广泛关注。这款车型不...浏览全文>>
-
安徽淮南威然2024款价格及配置详解随着汽车市场的不断更新换代,上汽大众旗下的MPV车型——威然(Viloran)凭...浏览全文>>
-
QQ多米新车报价2025款,买车省钱秘籍随着汽车市场的不断发展,消费者在选购车辆时不仅关注车型的性能和配置,...浏览全文>>
-
滁州途观X 2024款最新价格及买车省钱秘籍随着汽车市场的不断发展,大众途观X作为一款兼具时尚与性能的中型SUV...浏览全文>>
-
随着汽车市场的不断发展,大众蔚揽以其优雅的设计和卓越的性能赢得了众多消费者的青睐。作为一款兼具实用性和...浏览全文>>
- Nvidia DLSS 4 有望将游戏性能提高 8 倍
- 人工智能在预测自身免疫性疾病进展方面显示出良好的前景
- 心理物理实验揭示皮肤水分感知是如何改变的
- 科茨沃尔德公司庆祝圣诞节圆满成功
- 南法纳姆学校被评为萨里郡表现最好的小学
- 约克区九所小学将削减招生人数
- 松下新款电动汽车电池为 Lucid Gravity 带来 450 英里续航里程
- 泰国旅游呈现新趋势
- 研究人员找到在细胞水平上饿死前列腺癌肿瘤的新方法
- 领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降
- 庞大的 Project Zomboid build 42 终于可以玩了
- Steam Replay 回归向您展示 2024 年您玩得最多的 PC 游戏
- Jollyes 推出强化的人才支持和招聘措施
- Karen Millen 与 Simon Harrison 共同推出全新高级珠宝系列
- 奇瑞风云A8L电动轿车刷新续航里程世界纪录
- 虚拟艺术家将别克 Cascada 带回 2026 款车型
- OnePlus 宣布推出新计划解决绿线问题
- OnePlus Watch 3 将拥有更大的电池和更薄的机身
- 研究人员发现可变剪接与自身免疫性疾病遗传之间的细胞类型特异性联系
- 科学家确定脑细胞类型是排尿的主要控制者