力压70B Llama 3,Gemma 2成最强开源模型,大佬质疑用榜单prompt微调引全网热议
相信很多大家对力压70B Llama 3,Gemma 2成最强开源模型,大佬质疑用榜单prompt微调引全网热议还不知道吧,今天菲菲就带你们一起去了解一下~.~!
导读:时隔4个月上新的Gemma2模型在LMSYS Chatbot Arena的排行上,以27B的参数击败了许多更大规模的模型,甚至超过了70B的Llama-3-Instruct,成为开源模型的性能第一!
谷歌出手,果然非同凡响。
Gemma2上周刚刚发布,就在LMSYS竞技场上取得了亮眼的成绩。
在整体评分上Gemma2拿到了开源模型最高分,而且用27B的参数「以小搏大」,超过了Llama3-70B-Instruct、Claude3Sonnet等更大量级的知名模型。
开源模型的头把交椅真的要易主Gemma了?
对于这个成绩,谷歌研究院首席科学家Jeff Dean也发文庆祝。
不仅是总体评分,在LMSYS昨天刚发布的「多轮对话」排行榜上,Gemma2的表现依旧强劲。
LMSYS表示,LLM的多轮对话在当今许多应用场景中非常重要。
在竞技场的投票中,多轮对话的占比为14%,占到了不可忽视的比例。
因此他们推出了新的排行类别「多轮对话」,其中包括两轮或多轮的测试,以衡量模型在更长时间内交互的能力。
在这个全新的排行榜中,Claude家族的排名显著提升。
总分屈居亚军的Claude3.5Sonnet,成功地与GPT-4o并列第一;Claude3Opus也从原来的第8名跃居第三。
我们本次的主角Gemma2也实现了2个名次的进步,进入前十行列,而且压了Llama3-70B-Instruct一头。
在Gemma2放出9B和27B两个版本的同时,DeepMind研究员Clement在推特上透露,接下来还会有2B版本和大家见面!
曾经只靠开源「一招鲜」的Meta终于迎来了强劲对手。Gemma2和Llama3的竞争想必会在未来一段时间内持续下去。
Gemma为什么这么强?
为什么27B的Gemma2能打败70B的Llama3?谷歌究竟用了什么技术实现如此高的参数效率?
或许我们可以从官方发布的技术报告中找到蛛丝马迹。
报告地址:https://developers.googleblog.com/en/fine-tuning-gemma-2-with-keras-hugging-face-update/
训练数据方面,可想而知,并没有具体的数据来源和组成,只有数据量。
由于Gemma既没有多模态又不针对多语言任务,因此训练语料只包含各种类型的文本和代码,且主要语言为英语。
27B模型的训练数据有13万亿token,9B模型和2.6B模型则分别为8万亿、2万亿token。
架构上,Gemma2从Gemini团队和Gemma1沿用了很多方面,包括旋转位置编码(RoPE)、SentencePiece分词器、Logit软上限、GeGLU激活函数等等。
相比Gemma1,Gemma2采用了更深的网络,且在某些部分做了更新——
局部滑动窗口和全局注意力Gemma2交替使用局部滑动窗口和全局注意力,滑动窗口大小设置为4096token,而全局注意力层的设置为8192token。
这种方法在正确捕捉文本细节的同时,又能保持对上下文和全局的正确理解。
知识蒸馏能够训练出有竞争力性能的9B和27B模型,成功的知识蒸馏过程估计是最为重要的环节。
传统训练大语言模型的方法主要是根据之前的token,预测下一个token,需要大量的数据进行训练。
但是,人类的学习过程并不依赖走量的知识输入。比如,一位学生由于阅读原著的需要学习一门外语,他并不需要看遍所有的书籍,只需要以一本书为纲,通过理解后融会贯通。
而知识蒸馏法与人的学习过程更加类似。一个小模型向另一个已经进行过预训练的大模型学习,通过这种方式助产小模型对于token的预测。
站在老师模型的肩膀上,学生模型能用较少的训练数据、更少的参数量提升性能。
用LMSYS数据微调,引AI2研究员质疑
开源模型界终于在Llama之后迎来了Gemma2这个最新的扛把子选手,就在大家忙着兴奋的同时,Allen AI的研究员Nathan Lambert冷静地在技术报告中发现了华点:
微调数据的来源包括LMSYS的聊天数据集!
似乎是预想到了可能的质疑,论文中特意强调只使用了prompt,把答案剔出去了。
Lambert依旧不认可这种行为。他发了一篇推特,疑惑的语气中带着一丝嘲讽:为了在竞技场上刷分数,你们谷歌团队挺有想象力的。
这位Nathan Lambert其实算是LLM领域比较资深的专业人士,他博士毕业于UC伯克利大学,在DeepMind和FAIR都有实习经历。
针对Lambert的质疑,LMSYS随后回复了一篇意义不明的超长推特,似乎透露出了为谷歌辩护的隐晦立场。
推特全文如下:
这有些让人摸不着头脑,既说「用数据改进模型是受欢迎的」,又说「我们开放数据和论文是为了回应质疑」。
发帖的Lambert也同样被搞糊涂了,他进一步阐明了自己的立场。
「感觉我们讨论的不是同一件事,我的观点依旧成立。很可能有更多的人也在这样做,但我们并不知道。」
LMSYS最新回复的内容更加让人内心复杂——
「对不起,虽然我贴上了你的推特,但不是在特意回复你。」
对于微调应不应该使用LMSYS数据这个问题,评论区的网友也吵得热火朝天。
有些人觉得Lambert的质疑毫无道理。毕竟LMSYS公开了数据集,用来做微调有什么不可以的?而且只使用了prompt,答案是教师模型生成的。
毕竟大家都在看LMSYS的聊天机器人Arena的分数,如果大家都不用这个数据才比较出乎意料。
这个立场得到了大部分人的认同。虽然谷歌是为数不多的坦诚,敢把用了LMSYS数据这件事写进论文,但他们绝对不是第一个使用这些数据的人。
「我打赌GPT-4o和Llama3也这么干了。」
毕竟在一段时间内,LMSYS竞技场曾经是唯一可信的基准测试。
而这也正是Lambert所担心的——LMSYS是业界为数不多的得到大多数人认可的基准测试,如果大家再用它的数据微调甚至训练,岂不很快又会失去公信力?
更糟糕的情况是,不是每一个模型都像Gemma2这样会承认这件事。
不少观点比较中肯的网友也点出了这一点。
「我相信这会降低Arena的信噪比。」
看来在基准测试领域,重复的历史总在不断上演,而那个金句也总是适用——
「当一个衡量标准成为目标时,它就不再是一个好的衡量标准了。」
参考资料:
https://x.com/JeffDean/status/1807407880766726464
https://x.com/lmsysorg/status/1807503885181006236
https://x.com/natolambert/status/1806384821826109597
https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf
以上就是关于【力压70B Llama 3,Gemma 2成最强开源模型,大佬质疑用榜单prompt微调引全网热议】的相关内容,希望对大家有帮助!
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
奔驰GLE作为豪华SUV市场中的佼佼者,凭借其卓越的性能、豪华的内饰以及宽敞的空间,吸引了众多消费者的关注。...浏览全文>>
-
在2025年,安徽阜阳地区的帕萨特新能源汽车市场表现非常活跃。作为一款备受关注的新能源车型,帕萨特新能源凭...浏览全文>>
-
近日,滁州地区的大众汽车经销商传来好消息:备受瞩目的2025款T-ROC探歌正式上市,并且以极具竞争力的价格吸引...浏览全文>>
-
在选择一款新能源汽车时,了解其价格和配置是非常重要的一步。安徽淮南地区的长安启源E07作为2024款的新车型,...浏览全文>>
-
阜阳长安启源A05作为长安汽车旗下的全新车型,自推出以来便凭借其独特的设计风格和丰富的配置吸引了众多消费者...浏览全文>>
-
阜阳长安启源A07作为一款备受瞩目的新能源车型,以其豪华配置和亲民的价格在市场上引起了广泛关注。这款车型不...浏览全文>>
-
安徽淮南威然2024款价格及配置详解随着汽车市场的不断更新换代,上汽大众旗下的MPV车型——威然(Viloran)凭...浏览全文>>
-
QQ多米新车报价2025款,买车省钱秘籍随着汽车市场的不断发展,消费者在选购车辆时不仅关注车型的性能和配置,...浏览全文>>
-
滁州途观X 2024款最新价格及买车省钱秘籍随着汽车市场的不断发展,大众途观X作为一款兼具时尚与性能的中型SUV...浏览全文>>
-
随着汽车市场的不断发展,大众蔚揽以其优雅的设计和卓越的性能赢得了众多消费者的青睐。作为一款兼具实用性和...浏览全文>>
- Nvidia DLSS 4 有望将游戏性能提高 8 倍
- 人工智能在预测自身免疫性疾病进展方面显示出良好的前景
- 心理物理实验揭示皮肤水分感知是如何改变的
- 科茨沃尔德公司庆祝圣诞节圆满成功
- 南法纳姆学校被评为萨里郡表现最好的小学
- 约克区九所小学将削减招生人数
- 松下新款电动汽车电池为 Lucid Gravity 带来 450 英里续航里程
- 泰国旅游呈现新趋势
- 研究人员找到在细胞水平上饿死前列腺癌肿瘤的新方法
- 领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降
- 庞大的 Project Zomboid build 42 终于可以玩了
- Steam Replay 回归向您展示 2024 年您玩得最多的 PC 游戏
- Jollyes 推出强化的人才支持和招聘措施
- Karen Millen 与 Simon Harrison 共同推出全新高级珠宝系列
- 奇瑞风云A8L电动轿车刷新续航里程世界纪录
- 虚拟艺术家将别克 Cascada 带回 2026 款车型
- OnePlus 宣布推出新计划解决绿线问题
- OnePlus Watch 3 将拥有更大的电池和更薄的机身
- 研究人员发现可变剪接与自身免疫性疾病遗传之间的细胞类型特异性联系
- 科学家确定脑细胞类型是排尿的主要控制者