OpenAI甩王炸!发布新模型o3,一夜再次改变世界!
相信很多大家对OpenAI甩王炸!发布新模型o3,一夜再次改变世界!还不知道吧,今天菲菲就带你们一起去了解一下~.~!
今天凌晨2点,OpenAI开启第12天技术直播,也是最后一天。不负众望终于整了个大的,发布全新预览版模型——o3。
根据发布的o3测试数据显示,美国AIME数学竞赛中达到了96.7分,大幅度超过了o1预览版的56.7和o1的83.3%,仅错了一道题相当于一名顶级数学家的水平。
而在ARCAGI的测试中,o3在低算力资源情况下实现了75.7%,而当增加计算资源后实现了87.5%,这也是首次有大模型超过了人类85%的水平,实现重大技术突破。
有意思的是,OpenAI直接跳过了o2发布了o3,主要原因是名字与英国著名电信公司o2发生了冲突无法使用,所以才直接来了个第三代~
o3主要测试数据
在软件风格基准测试中,由真实世界软件任务组成的3benchverified基准测试里,o3模型准确率达到71.7%,相比o1模型提升超过20%。
在竞赛代码领域,o3模型在CodeForces竞赛编码网站上表现卓越,达到了约2727的ELO分数,远超o1模型的1891分,甚至超越了OpenAI首席科学家Yakov的分数,接近公司内部顶尖编程高手的水平,这表明o3在处理复杂编程竞赛任务时具备出色的逻辑推理和算法实现能力。
在数学能力测试中,o3模型在Amy考试中的准确率高达96.7%,而o1模型为83.3%。在这个被视为美国数学奥林匹克预选考试的高难度测试中,o3模型通常仅错一题,表现十分出色。
在衡量模型在博士阶段科学问题处理能力的GPQADiamond基准测试中,o3模型取得了87.7%的准确率,比o1模型的78%提高了约10%,甚至超越了领域专家博士通常能达到的70%的水平,这表明o3模型在数学和科学领域的复杂问题处理上已接近甚至超越人类专家水平。
在ARCAGI基准测试中,o3模型取得了重大突破。在低计算条件下,o3模型在ARCAGI的半私有保留集上得分为75.7,这一成绩在符合计算要求的同时,成为了新的行业领先水平。
当进一步提升计算能力,让o3模型进行更长时间的思考时,其在同一隐藏保留集上的得分更是高达87.5%。这一成绩尤为重要,因为人类在该测试中的表现阈值约为85%,O3模型的得分超过了这一阈值,标志着人工智能在该领域取得了新的里程碑。
此前,ARCAGI版本一花费了五年时间,才使领先的前沿模型从0%提升到5%,而o3模型的出色表现无疑展示了OpenAI在人工智能技术研发上的巨大进步。
o3Mini版本
与o3模型相比,o3Mini模型在性能与成本平衡方面表现出色,能够以较低的成本提供高效的服务。
在编码评估方面,o3Mini模型展现出了出色的性能提升。在CodeForces的评估中,随着思考时间的增加,o3Mini模型的表现不断提升,逐渐超越了o1Mini模型。
在中位思考时间下,o3Mini模型的性能甚至优于o1模型,能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。这意味着开发人员可以在不增加过多成本的情况下,获得更高效的编程辅助,提高开发效率,降低开发成本。
在数学能力测试中,o3Mini模型在2024年数据集上表现出色。o3Mini低模型的性能与o1Mini相当,而o3Mini中位数模型则取得了比o1更好的性能。在处理诸如GPQA等困难数据集时,o3Mini模型也能展现出一定的优势,实现了接近即时响应的效果。
此外,o3Mini模型支持函数调用、结构化输出、开发者消息等一系列功能,与O1模型相当。在实际应用中,o3Mini模型在大多数评估中实现了可比或更好的性能。
在现场演示中,o3Mini 模型的强大功能得到了直观展示。例如,在一项任务中,模型被要求使用Python 实现一个代码生成器和执行器。当启动运行该 Python 脚本后,模型成功启动了本地服务器,并生成了包含文本框的用户界面。
用户在文本框中输入编码请求后,模型能够迅速将请求发送至 API,并自动解决任务,生成代码并保存至桌面,随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理,但 o3Mini 模型在低推理努力模式下依然表现出了极快的处理效率。
目前,该模型还处于安全测试阶段,从今天开始o3Mini 模型率先开放给外部安全研究人员进行测试,随后 o3模型也将参与其中。研究人员可通过访问 OpenAI 的官方网站,填写申请表格参与测试。
以上就是关于【OpenAI甩王炸!发布新模型o3,一夜再次改变世界!】的相关内容,希望对大家有帮助!
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
奔驰GLE作为豪华SUV市场中的佼佼者,凭借其卓越的性能、豪华的内饰以及宽敞的空间,吸引了众多消费者的关注。...浏览全文>>
-
在2025年,安徽阜阳地区的帕萨特新能源汽车市场表现非常活跃。作为一款备受关注的新能源车型,帕萨特新能源凭...浏览全文>>
-
近日,滁州地区的大众汽车经销商传来好消息:备受瞩目的2025款T-ROC探歌正式上市,并且以极具竞争力的价格吸引...浏览全文>>
-
在选择一款新能源汽车时,了解其价格和配置是非常重要的一步。安徽淮南地区的长安启源E07作为2024款的新车型,...浏览全文>>
-
阜阳长安启源A05作为长安汽车旗下的全新车型,自推出以来便凭借其独特的设计风格和丰富的配置吸引了众多消费者...浏览全文>>
-
阜阳长安启源A07作为一款备受瞩目的新能源车型,以其豪华配置和亲民的价格在市场上引起了广泛关注。这款车型不...浏览全文>>
-
安徽淮南威然2024款价格及配置详解随着汽车市场的不断更新换代,上汽大众旗下的MPV车型——威然(Viloran)凭...浏览全文>>
-
QQ多米新车报价2025款,买车省钱秘籍随着汽车市场的不断发展,消费者在选购车辆时不仅关注车型的性能和配置,...浏览全文>>
-
滁州途观X 2024款最新价格及买车省钱秘籍随着汽车市场的不断发展,大众途观X作为一款兼具时尚与性能的中型SUV...浏览全文>>
-
随着汽车市场的不断发展,大众蔚揽以其优雅的设计和卓越的性能赢得了众多消费者的青睐。作为一款兼具实用性和...浏览全文>>
- Nvidia DLSS 4 有望将游戏性能提高 8 倍
- 人工智能在预测自身免疫性疾病进展方面显示出良好的前景
- 心理物理实验揭示皮肤水分感知是如何改变的
- 科茨沃尔德公司庆祝圣诞节圆满成功
- 南法纳姆学校被评为萨里郡表现最好的小学
- 约克区九所小学将削减招生人数
- 松下新款电动汽车电池为 Lucid Gravity 带来 450 英里续航里程
- 泰国旅游呈现新趋势
- 研究人员找到在细胞水平上饿死前列腺癌肿瘤的新方法
- 领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降
- 庞大的 Project Zomboid build 42 终于可以玩了
- Steam Replay 回归向您展示 2024 年您玩得最多的 PC 游戏
- Jollyes 推出强化的人才支持和招聘措施
- Karen Millen 与 Simon Harrison 共同推出全新高级珠宝系列
- 奇瑞风云A8L电动轿车刷新续航里程世界纪录
- 虚拟艺术家将别克 Cascada 带回 2026 款车型
- OnePlus 宣布推出新计划解决绿线问题
- OnePlus Watch 3 将拥有更大的电池和更薄的机身
- 研究人员发现可变剪接与自身免疫性疾病遗传之间的细胞类型特异性联系
- 科学家确定脑细胞类型是排尿的主要控制者