GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费
相信很多大家对GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费还不知道吧,今天菲菲就带你们一起去了解一下~.~!
刚刚,GPT-4o mini版迎来“高光时刻”——
登顶了lmsys大模型竞技场,和满血版并列第一,还把Claude3.5甩在了身后。
不同于一般的数据集测评,大模型竞技场是用户自己出题、用脚投票的结果,无法通过“刷题”来走捷径,因此更为真实。
这个成绩一出,连CEO奥特曼都激动起来了:
网友看到之后表示OK,但更关心的还是GPT-4o发布会上演示的“Her”到底啥时候上线。
与此同时,OpenAI也送来了另一个好消息,将为开发者送出福利——
GPT-4o mini的微调将逐步开放,目前已开放给tier4和tier5用户,然后会陆续扩展范围。
而且从即日起到9月23号,每天都能免费使用2百万的训练token。
mini与满血版平起平坐
经过80多款模型上百万轮的1v1比拼,GPT-4o mini在lmsys榜单上的成绩与满血版只差7分。
按照lmsys榜单的排法,这7分的差距没有影响名次,把两个型号算作了并列第一。
紧随其后的是Claude3.5和Gemini家族,还有GPT-4的另外两个版本。
如果我们查看GPT-4o mini的原始数据,会发现它0.6的平均胜率仅次于满血版本。
单独看两者比拼的结果,同样是打得不相上下。
之所以lmsys的成绩受到关注,在于它拥有一套独特的比拼方式——
不用数据集,而是让用户自己出题,随机拉两个模型1对1battle,然后选择哪个模型表现更好。
在给出选择之前,模型是匿名的,用户也不知道是哪两个模型正在比拼,如果模型自己说漏嘴则投票无效。
这样得到的分数更加真实,既避免了“刷题”获取虚高分数的可能,也更加接近用户体验。
这个大模型竞技场,最近还登上了机器学习顶会ICML2024。
而且,lmsys的评测也非常受OpenAI的青睐,GPT-4o mini正式上线之前的早期版本,就曾化名为gpt-mini在其中打榜。
当时就已经排行第4,和GPT4-Turbo处在同一水平。
更早一些,GPT-4o上线之前也是化名gpt2-chatbot,在lmsys上搞起了测试。
不过也有人提出质疑,表示虽然GPT-4o mini表现确实很好,但是要说它超过了Claude3.5sonnet就有些言过其实了。
有人更是直言,lmsys方法的完善性已经开始瓦解,需要做出改变,否则将不再是一个有用的测试基准。
“小模型”也卷起来了
mini版本的推出,主打的就是一个性价比。
每百万输入/输出tokens,价格分别为15美分和60美分(约1.09/4.36人民币),甚至还不到3.5Turbo的一半。
如果和两年前GPT-3的text-davinci-003版(当时最好的模型)相比,价格更是下降了99%。
而且除了把小模型开放给用户,OpenAI还搞出了新鲜玩法——
在“超级对齐”团队的一篇遗作中,使用了参数量为大模型千分之一或百分之一的小模型,来对大模型进行优化。
实验中,大小两个模型相互“博弈”,大模型需要不断优化调整自己的输出,让小模型相信自己说的是真话。
在这个“博弈”的过程中,大模型的能力得到了提升,在精度没有明显损失的情况下获得了大幅度的可理解性提升。
除了OpenAI,其他公司也都纷纷搞起了小模型。
比如在GPT-4o mini之前,谷歌和Anthropic就分别推出了Gemini Flash和Claude3-Haiku。
甚至可以说,GPT-4o mini就是OpenAI对两家的反击,无论是性能还是价格都超越了这两个模型。
在GPT-4o mini发布的同一周,抱抱脸Hugging Face,以及“欧洲OpenAI”Mistral都相继推出了小号模型。
甚至苹果也推出了自己的7B模型,而且一次性开源了全部训练过程和资源。
总之,在性能足以满足使用需求的前提下,小模型无疑是一种更经济实惠的选择。
同时,更小的规模也意味着有可能在端侧运行,在隐私保护等方面显现出优势。
这样就不难理解,“小”模型为什么也越来越卷了。
以上就是关于【GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费】的相关内容,希望对大家有帮助!
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
奔驰GLE作为豪华SUV市场中的佼佼者,凭借其卓越的性能、豪华的内饰以及宽敞的空间,吸引了众多消费者的关注。...浏览全文>>
-
在2025年,安徽阜阳地区的帕萨特新能源汽车市场表现非常活跃。作为一款备受关注的新能源车型,帕萨特新能源凭...浏览全文>>
-
近日,滁州地区的大众汽车经销商传来好消息:备受瞩目的2025款T-ROC探歌正式上市,并且以极具竞争力的价格吸引...浏览全文>>
-
在选择一款新能源汽车时,了解其价格和配置是非常重要的一步。安徽淮南地区的长安启源E07作为2024款的新车型,...浏览全文>>
-
阜阳长安启源A05作为长安汽车旗下的全新车型,自推出以来便凭借其独特的设计风格和丰富的配置吸引了众多消费者...浏览全文>>
-
阜阳长安启源A07作为一款备受瞩目的新能源车型,以其豪华配置和亲民的价格在市场上引起了广泛关注。这款车型不...浏览全文>>
-
安徽淮南威然2024款价格及配置详解随着汽车市场的不断更新换代,上汽大众旗下的MPV车型——威然(Viloran)凭...浏览全文>>
-
QQ多米新车报价2025款,买车省钱秘籍随着汽车市场的不断发展,消费者在选购车辆时不仅关注车型的性能和配置,...浏览全文>>
-
滁州途观X 2024款最新价格及买车省钱秘籍随着汽车市场的不断发展,大众途观X作为一款兼具时尚与性能的中型SUV...浏览全文>>
-
随着汽车市场的不断发展,大众蔚揽以其优雅的设计和卓越的性能赢得了众多消费者的青睐。作为一款兼具实用性和...浏览全文>>
- Nvidia DLSS 4 有望将游戏性能提高 8 倍
- 人工智能在预测自身免疫性疾病进展方面显示出良好的前景
- 心理物理实验揭示皮肤水分感知是如何改变的
- 科茨沃尔德公司庆祝圣诞节圆满成功
- 南法纳姆学校被评为萨里郡表现最好的小学
- 约克区九所小学将削减招生人数
- 松下新款电动汽车电池为 Lucid Gravity 带来 450 英里续航里程
- 泰国旅游呈现新趋势
- 研究人员找到在细胞水平上饿死前列腺癌肿瘤的新方法
- 领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降
- 庞大的 Project Zomboid build 42 终于可以玩了
- Steam Replay 回归向您展示 2024 年您玩得最多的 PC 游戏
- Jollyes 推出强化的人才支持和招聘措施
- Karen Millen 与 Simon Harrison 共同推出全新高级珠宝系列
- 奇瑞风云A8L电动轿车刷新续航里程世界纪录
- 虚拟艺术家将别克 Cascada 带回 2026 款车型
- OnePlus 宣布推出新计划解决绿线问题
- OnePlus Watch 3 将拥有更大的电池和更薄的机身
- 研究人员发现可变剪接与自身免疫性疾病遗传之间的细胞类型特异性联系
- 科学家确定脑细胞类型是排尿的主要控制者