阿里开源新模型:超GPT-4o,数学能力全球第一!
相信很多大家对阿里开源新模型:超GPT-4o,数学能力全球第一!还不知道吧,今天菲菲就带你们一起去了解一下~.~!
阿里巴巴开源了最新数学模型Qwen2-Math,一共有基础和指令微调两种版本,包括1.5B、7B和72B三种参数。
根据阿里在主流数学基准测试显示,Qwen2-Math-72B指令微调版本的性能超过了GPT-4o、Cloude-3.5-Sonnet、Gemini-1.5Pro等知名闭源模型,就连Meta最新开源的超强模型Llama-3.1-405B也照样拿下。
也就是说,Qwen2-Math-72B是目前全球最强的数学推理大模型。不知能否挑战一下前不久谷歌刚获得国际数学奥林匹克竞赛银牌,仅差1分获得金牌的双混合模型AlphaProof和AlphaGeometry2(这两个模型还处于研究阶段)。
开源地址:https://huggingface.co/Qwen
Github:https://github.com/QwenLM/Qwen2-Math?tab=readme-ov-file
基础模型
Qwen2-Math的基础模型使用Qwen2-1.5B、7B和72B进行初始化,然后在精心设计的高质量数学专用语料库上进行预训练,该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由 Qwen-2模型合成的数学预训练数据。
阿里在在三个英语数学基准 GSM8K、Math 和MMLU-STEM 上评估了Qwen2-Math 基模型。同时评估了三个中国数学基准 CMATH,GaoKao Math Cloze 和 GaoKao Math QA,所有评估均使用 Few-shot CoT 方式。
结果显示,Qwen2-Math基础模型的性能大幅度超越了Llama-3.1-8B/7B/405B全系列。
指令微调模型
在开发指令微调模型方面, Qwen2-Math-72B 训练的模型采用了密集的奖励信号与二元信号的结合,二元信号在此起到指示模型是否正确回答问题的作用,类似于分类任务中的标签,有助于模型在训练过程中进行自我校正。
结合信号后,模型通过拒绝采样方法构建了SFT数据集。拒绝采样是一种蒙特卡罗方法,通过在更大范围内按照均匀分布随机采样,然后接受或拒绝采样点来估计复杂问题的概率分布。
这种方法在处理复杂概率分布时特别有用,因为它不要求分布的概率分布函数可逆,从而解决了一些分布难以直接采样的问题 。
随后使用GRPO强化学习算法进行优化,这是近端策略优化的一种变体,通过迭代过程进行训练,其中奖励模型会根据策略模型的输出不断更新,以确保策略的持续改进 。
阿里使用英语和中文的数学基准评测对Qwen2-Math-72B指令微调模型进行了综合评估。还使用了更有难度的OlympiadBench、CollegeMath、高考(GaoKao)、AIME2024、 AMC2023以及中国2024年高考/中考数学题进行了测试。
结果显示,其数学推理性能大幅度超越了GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等知名开闭源模型。阿里表示,Qwen2-Math已经能解答一些数学竞赛难题,包括多道IMO竞赛题。
在预训练和微调数据集上阿里都进行了去污染处理,特别是清洗了对GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math等知名基准测试数据集有重叠的正例污染样本,以保证测试效果的准确性、公平性。
目前,Qwen2-Math模型仅支持英文,但阿里表示会很快推出中英双语版本,帮助更多的用户开发生成式AI应用。
以上就是关于【阿里开源新模型:超GPT-4o,数学能力全球第一!】的相关内容,希望对大家有帮助!
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
奔驰GLE作为豪华SUV市场中的佼佼者,凭借其卓越的性能、豪华的内饰以及宽敞的空间,吸引了众多消费者的关注。...浏览全文>>
-
在2025年,安徽阜阳地区的帕萨特新能源汽车市场表现非常活跃。作为一款备受关注的新能源车型,帕萨特新能源凭...浏览全文>>
-
近日,滁州地区的大众汽车经销商传来好消息:备受瞩目的2025款T-ROC探歌正式上市,并且以极具竞争力的价格吸引...浏览全文>>
-
在选择一款新能源汽车时,了解其价格和配置是非常重要的一步。安徽淮南地区的长安启源E07作为2024款的新车型,...浏览全文>>
-
阜阳长安启源A05作为长安汽车旗下的全新车型,自推出以来便凭借其独特的设计风格和丰富的配置吸引了众多消费者...浏览全文>>
-
阜阳长安启源A07作为一款备受瞩目的新能源车型,以其豪华配置和亲民的价格在市场上引起了广泛关注。这款车型不...浏览全文>>
-
安徽淮南威然2024款价格及配置详解随着汽车市场的不断更新换代,上汽大众旗下的MPV车型——威然(Viloran)凭...浏览全文>>
-
QQ多米新车报价2025款,买车省钱秘籍随着汽车市场的不断发展,消费者在选购车辆时不仅关注车型的性能和配置,...浏览全文>>
-
滁州途观X 2024款最新价格及买车省钱秘籍随着汽车市场的不断发展,大众途观X作为一款兼具时尚与性能的中型SUV...浏览全文>>
-
随着汽车市场的不断发展,大众蔚揽以其优雅的设计和卓越的性能赢得了众多消费者的青睐。作为一款兼具实用性和...浏览全文>>
- Nvidia DLSS 4 有望将游戏性能提高 8 倍
- 人工智能在预测自身免疫性疾病进展方面显示出良好的前景
- 心理物理实验揭示皮肤水分感知是如何改变的
- 科茨沃尔德公司庆祝圣诞节圆满成功
- 南法纳姆学校被评为萨里郡表现最好的小学
- 约克区九所小学将削减招生人数
- 松下新款电动汽车电池为 Lucid Gravity 带来 450 英里续航里程
- 泰国旅游呈现新趋势
- 研究人员找到在细胞水平上饿死前列腺癌肿瘤的新方法
- 领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降
- 庞大的 Project Zomboid build 42 终于可以玩了
- Steam Replay 回归向您展示 2024 年您玩得最多的 PC 游戏
- Jollyes 推出强化的人才支持和招聘措施
- Karen Millen 与 Simon Harrison 共同推出全新高级珠宝系列
- 奇瑞风云A8L电动轿车刷新续航里程世界纪录
- 虚拟艺术家将别克 Cascada 带回 2026 款车型
- OnePlus 宣布推出新计划解决绿线问题
- OnePlus Watch 3 将拥有更大的电池和更薄的机身
- 研究人员发现可变剪接与自身免疫性疾病遗传之间的细胞类型特异性联系
- 科学家确定脑细胞类型是排尿的主要控制者