国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10
相信很多大家对国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10还不知道吧,今天菲菲就带你们一起去了解一下~.~!
国产大模型首次在公开榜单上超过GPT-4o!
就在刚刚,“大模型六小强”之一的零一万物正式对外发布新旗舰模型——Yi-Lightning(闪电)。
在大模型竞技场(Chatbot Arena)上,Yi-Lightning性能直冲总榜单并列第6,数学分榜并列第3,代码等其它分榜也名列前茅。
总成绩几乎与马斯克最新xAI大模型Grok-2-08-13持平,超越GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude3.5Sonnet等顶流。同时,国内清华系大模型公司智谱AI的GLM-4-Plus也杀进了总榜,位居第9位。
该榜单结果来自全球累积超千万次的人类用户盲测投票。
前段时间大模型竞技场还刚刚更新了规则,新榜单对AI回答的长度和风格等特征做了降权处理,分数更能反映模型真正解决问题的能力。
这次Yi-Lightning杀出重围,Lmsys团队特意发帖子,称这是竞技场上的大新闻:
大模型竞技场总榜第六、国产第一
细看大模型竞技场分类榜上的“赛况”,Yi-Lightning各项能力都排在前头。
在中文能力上,Yi-Lightning和GLM-4-Plus两个国产大模型都名列前位。
Yi-Lightning跃居并列第二,和o1-mini相差无几。
数学能力,Yi-Lightning和Gemini-1.5-Pro-002并列第3,仅次于o1-preview、o1-mini。
代码能力Yi-Lightning排名并列第4。
另外在Hard Prompts和Longer Query分榜,Yi-Lightning也都排在第4位。
最后同样值得关注的是,竞技场新功能风格控制过滤,确保分数反映模型真正解决问题的能力,而不是用漂亮的格式、增加回答长度。
在对长度和风格等特征做了降权处理后,所有模型分数均有下降,Yi-Lightning排名变化不大,整体还与GPT-4o、Grok-2同一梯队。
发布会上,零一万物创始人兼CEO李开复博士展示了Yi-Lightning在不同场景上的能力。
Yi-Lightning主打一个“推理速度更快,生成质量更好”。
相比上半年Yi-Large,Yi-Lightning首包速度提升1倍,推理速度也提升了4成。
像是翻译下面这种文学作品,Yi-Lightning不仅速度更快:
而且用词更精准,更具文学色彩:
那么Yi-Lightning是如何做到的?
好用还得极速
Yi-Lightning采用MoE混合专家模型架构。
底层技术上,Yi-Lightning在以下方面进行了提升。
首先是优化混合注意力机制(Hybrid Attention),只在模型的部分层次中将传统的全注意力(Full Attention)替换为滑动窗口注意力(Sliding Window Attention)。
由此以来,模型在保证处理长序列数据高性能表现的同时,还能大大降低推理成本。
Yi-Lightning还引入了跨层注意力(Cross-Layer Attention, CLA),允许模型在不同的层次之间共享键(Key)和值(Value)头,减少对存储需求。
这使得Yi-Lightning能在不同层次之间更有效地共享信息。
总的来说,KV cache缩小了2-4倍,同时将计算的复杂度从O(L²)降至O(L)。
其次,Yi-Lightning还采用了动态Top-P路由机制。
也就是说,Yi-Lightning可以根据任务的难度动态自动选择最合适的专家网络组合——
训练过程中会激活所有专家网络,使模型能学习到所有专家知识;而推理阶段,根据任务的难度,模型会选择性激活更匹配的专家网络。
另外,之前有一些传言称国内大模型“六小强”,有一些已经不做预训练了,李开复博士这次在发布会上直接“辟谣”:
而且在模型预训练阶段,团队还积累了丰富的多阶段训练方法,将整个训练分为两块,一块做好以后就把它固定起来,然后在这个固定的模型上再做后段训练。
训练前期,更注重数据多样性,使得Yi-Lightning尽可能学习不同的知识;训练后期更重内容更丰富、知识性更强的数据。
同时团队还在不同阶段采用不同的batch size和LR schedule保证训练速度和稳定性。
李开复博士还表示,零一万物开发模型讲究“模基共建”,也就是共建模型和基础架构。
模型的训练、服务、推理设计,与底层的AIInfra架构和模型结构必须高度适配。
这样做的目的,不仅是让模型更好,而且让它在推理的时候能够更便宜。
再加上以上种种抬升“性价比”的技术加持,所以Yi-Lightning这次也是打到了白菜价——
0.99元每1M token
在中文等方面,Yi-Lightning比肩OpenAI的o1-mini,o1-mini的定价是每百万输入3美元,每百万输出12美元。
Yi-Lightning每百万token只需0.99RMB也是打到了骨折。
但李开复博士表示,即便这样也:不亏钱。
除了发布新模型,零一万物这次还首发了AI2.0数字人方案。
目前该数字人已接入Yi-Lightning,实时互动效果相比以往更强更自然了,belike:
最后谈起和国外头部大模型的差距,李开复博士表示这次Yi-Lightning的排名证明了国产大模型跟硅谷最顶尖模型的差距缩小到了五个月。
参考链接:
[1]https://x.com/lmarena_ai/status/1846245604890116457
[2]https://x.com/01AI_Yi/status/1845776529185476613
以上就是关于【国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10】的相关内容,希望对大家有帮助!
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
奔驰GLE作为豪华SUV市场中的佼佼者,凭借其卓越的性能、豪华的内饰以及宽敞的空间,吸引了众多消费者的关注。...浏览全文>>
-
在2025年,安徽阜阳地区的帕萨特新能源汽车市场表现非常活跃。作为一款备受关注的新能源车型,帕萨特新能源凭...浏览全文>>
-
近日,滁州地区的大众汽车经销商传来好消息:备受瞩目的2025款T-ROC探歌正式上市,并且以极具竞争力的价格吸引...浏览全文>>
-
在选择一款新能源汽车时,了解其价格和配置是非常重要的一步。安徽淮南地区的长安启源E07作为2024款的新车型,...浏览全文>>
-
阜阳长安启源A05作为长安汽车旗下的全新车型,自推出以来便凭借其独特的设计风格和丰富的配置吸引了众多消费者...浏览全文>>
-
阜阳长安启源A07作为一款备受瞩目的新能源车型,以其豪华配置和亲民的价格在市场上引起了广泛关注。这款车型不...浏览全文>>
-
安徽淮南威然2024款价格及配置详解随着汽车市场的不断更新换代,上汽大众旗下的MPV车型——威然(Viloran)凭...浏览全文>>
-
QQ多米新车报价2025款,买车省钱秘籍随着汽车市场的不断发展,消费者在选购车辆时不仅关注车型的性能和配置,...浏览全文>>
-
滁州途观X 2024款最新价格及买车省钱秘籍随着汽车市场的不断发展,大众途观X作为一款兼具时尚与性能的中型SUV...浏览全文>>
-
随着汽车市场的不断发展,大众蔚揽以其优雅的设计和卓越的性能赢得了众多消费者的青睐。作为一款兼具实用性和...浏览全文>>
- Nvidia DLSS 4 有望将游戏性能提高 8 倍
- 人工智能在预测自身免疫性疾病进展方面显示出良好的前景
- 心理物理实验揭示皮肤水分感知是如何改变的
- 科茨沃尔德公司庆祝圣诞节圆满成功
- 南法纳姆学校被评为萨里郡表现最好的小学
- 约克区九所小学将削减招生人数
- 松下新款电动汽车电池为 Lucid Gravity 带来 450 英里续航里程
- 泰国旅游呈现新趋势
- 研究人员找到在细胞水平上饿死前列腺癌肿瘤的新方法
- 领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降
- 庞大的 Project Zomboid build 42 终于可以玩了
- Steam Replay 回归向您展示 2024 年您玩得最多的 PC 游戏
- Jollyes 推出强化的人才支持和招聘措施
- Karen Millen 与 Simon Harrison 共同推出全新高级珠宝系列
- 奇瑞风云A8L电动轿车刷新续航里程世界纪录
- 虚拟艺术家将别克 Cascada 带回 2026 款车型
- OnePlus 宣布推出新计划解决绿线问题
- OnePlus Watch 3 将拥有更大的电池和更薄的机身
- 研究人员发现可变剪接与自身免疫性疾病遗传之间的细胞类型特异性联系
- 科学家确定脑细胞类型是排尿的主要控制者