谷歌DeepMind被曝抄袭开源成果,论文还中了顶流会议
相信很多大家对谷歌DeepMind被曝抄袭开源成果,论文还中了顶流会议还不知道吧,今天菲菲就带你们一起去了解一下~.~!
大模型圈再曝抄袭大瓜,这回,“被告”还是大名鼎鼎的谷歌DeepMind。
“原告”直接怒喷:他们就是把我们的技术报告洗了一遍!
具体是这么个事儿:
谷歌DeepMind一篇中了顶流新生代会议CoLM2024的论文被挂了,瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。
两篇论文探讨的都是一种规范模型文本生成结构的方法。
抓马的是,谷歌DeepMind这篇论文中确实明晃晃写着引用了“原告”的论文。
然鹅,即便是标明了引用,“原告”的两位论文作者Brandon T. Willard(布兰登)和R´emi Louf(雷米)还是坚称谷歌抄袭,并认为:
而不少网友看过论文后也缓缓打出一个问号:CoLM是怎么审的稿?
赶紧瞅一眼论文对比……
两篇论文的比较
先浅看一眼两篇论文的摘要对比。
谷歌DeepMind的论文说的是,tokenization给约束语言模型输出带来了麻烦,他们引入自动机理论来解决这些问题,核心是避免在每个解码步骤遍历所有逻辑值(logits)。
而“原告”的说法大致是:
提出了一个高效框架,通过在语言模型的词汇表上构建索引,来大幅提升约束文本生成的效率。简单来说,就是通过索引避免对全部逻辑值的遍历。
同样“不依赖于具体模型”。
方向上确实大差不差,我们还是接着来看看更多详细内容。
我们用谷歌Gemini1.5Pro分别总结了两篇论文的主要内容,并接着让Gemini来比较两者的异同。
对于“被告”谷歌这篇论文,Gemini总结其方法是将detokenization重新定义为有限状态转换器(FST)操作。
将此FST与表示目标形式语言的自动机组合,这种自动机可以用正则表达式或语法来表示。
通过以上结合,生成一个基于token的自动机,用于在解码过程中约束语言模型,确保其输出的文本符合预设的形式语言规范。
此外,谷歌论文中还进行了一系列正则表达式扩展,这些扩展通过使用特别命名的捕获组来编写,显著提升了系统处理文本时的效率和表达能力。
而对于“原告”论文,Gemini总结其方法的核心是将文本生成问题重新定义为有限状态机(FSM)之间的转换。
“原告”的具体方法是:
利用正则表达式或上下文无关文法构建FSM,并将其用于指导文本生成过程。
通过构建词汇表索引,高效地确定每个步骤中的有效词,避免遍历整个词汇表。
Gemini列出了两篇论文的共同点。
至于两者的区别,有点像前头那位网友说的,简单总结就是:谷歌将词汇表定义为了一个FST。
前面也说到了,谷歌在“Related work”中将原告论文列为“最相关”的一项工作:
谷歌认为两者的差异在于,Outlines的方法基于一种特制的“索引”操作,需要手动扩展到新的应用场景。相比之下,谷歌使用自动机理论彻底重新定义了整个过程,使得应用FSA和泛化到PDA变得更加容易。
另一个区别是,谷歌定义了扩展以支持通配符匹配,并提高了可用性。
谷歌紧接着在介绍下面的两项相关工作中,也都提到了Outlines。
一项是Yin等人(2024年)通过增加“压缩”文本段到预填充的功能,扩展了Outlines。
另一项是Ugare等人(2024年)近期提出的一个系统,名为SynCode。它也利用FSA,但采用LALR和LR解析器而非PDA处理语法。
但吃瓜群众们显然不是很买账:
网友:这事儿不罕见…
这件事一发酵,不少网友都怒了,抄袭可耻,更何况“科技巨头剽窃小团队的工作成果不是第一次了”。
顺便一提,布兰登和雷米发布原告论文的时候都在给Normal Computing远程工作,这家AI Infra公司成立于2022年。
哦对了,Normal Computing的创始团队有一部分就来自Google Brain……
另外,布兰登和雷米现在合伙出来创业了,新公司名叫.txt,官网信息显示,其目标是提供快速可靠的信息提取模型。并且官网挂出的GitHub主页,就是Outlines仓库。
说回到网友这边,更让大家伙儿生气的是,“这种情况已经变得普遍”。
一位来自荷兰代尔夫特理工大学的博士后分享了自己的遭遇:
还有一位美国东北大学的老哥更惨,这种情况他遭遇过两次,下手的还都是同一个组。并且对面那位第一作者还给他的GitHub加过星标……
不过,也有网友表达了不同的意见:
对此,雷米怒怼:
布兰登老哥也表示yue了:
瓜就先吃到这里,对此你有什么想法?不妨在评论区继续讨论~
两篇论文戳这里:
谷歌DeepMind论文:https://arxiv.org/abs/2407.08103v1
原告论文:https://arxiv.org/abs/2307.09702
参考链接:
[1]https://x.com/remilouf/status/1812164616362832287?s=46
[2]https://x.com/karan4d/status/1812172329268699467?s=46
[3]https://x.com/brandontwillard/status/1812163165767053772?s=46
以上就是关于【谷歌DeepMind被曝抄袭开源成果,论文还中了顶流会议】的相关内容,希望对大家有帮助!
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
奔驰GLE作为豪华SUV市场中的佼佼者,凭借其卓越的性能、豪华的内饰以及宽敞的空间,吸引了众多消费者的关注。...浏览全文>>
-
在2025年,安徽阜阳地区的帕萨特新能源汽车市场表现非常活跃。作为一款备受关注的新能源车型,帕萨特新能源凭...浏览全文>>
-
近日,滁州地区的大众汽车经销商传来好消息:备受瞩目的2025款T-ROC探歌正式上市,并且以极具竞争力的价格吸引...浏览全文>>
-
在选择一款新能源汽车时,了解其价格和配置是非常重要的一步。安徽淮南地区的长安启源E07作为2024款的新车型,...浏览全文>>
-
阜阳长安启源A05作为长安汽车旗下的全新车型,自推出以来便凭借其独特的设计风格和丰富的配置吸引了众多消费者...浏览全文>>
-
阜阳长安启源A07作为一款备受瞩目的新能源车型,以其豪华配置和亲民的价格在市场上引起了广泛关注。这款车型不...浏览全文>>
-
安徽淮南威然2024款价格及配置详解随着汽车市场的不断更新换代,上汽大众旗下的MPV车型——威然(Viloran)凭...浏览全文>>
-
QQ多米新车报价2025款,买车省钱秘籍随着汽车市场的不断发展,消费者在选购车辆时不仅关注车型的性能和配置,...浏览全文>>
-
滁州途观X 2024款最新价格及买车省钱秘籍随着汽车市场的不断发展,大众途观X作为一款兼具时尚与性能的中型SUV...浏览全文>>
-
随着汽车市场的不断发展,大众蔚揽以其优雅的设计和卓越的性能赢得了众多消费者的青睐。作为一款兼具实用性和...浏览全文>>
- Nvidia DLSS 4 有望将游戏性能提高 8 倍
- 人工智能在预测自身免疫性疾病进展方面显示出良好的前景
- 心理物理实验揭示皮肤水分感知是如何改变的
- 科茨沃尔德公司庆祝圣诞节圆满成功
- 南法纳姆学校被评为萨里郡表现最好的小学
- 约克区九所小学将削减招生人数
- 松下新款电动汽车电池为 Lucid Gravity 带来 450 英里续航里程
- 泰国旅游呈现新趋势
- 研究人员找到在细胞水平上饿死前列腺癌肿瘤的新方法
- 领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降
- 庞大的 Project Zomboid build 42 终于可以玩了
- Steam Replay 回归向您展示 2024 年您玩得最多的 PC 游戏
- Jollyes 推出强化的人才支持和招聘措施
- Karen Millen 与 Simon Harrison 共同推出全新高级珠宝系列
- 奇瑞风云A8L电动轿车刷新续航里程世界纪录
- 虚拟艺术家将别克 Cascada 带回 2026 款车型
- OnePlus 宣布推出新计划解决绿线问题
- OnePlus Watch 3 将拥有更大的电池和更薄的机身
- 研究人员发现可变剪接与自身免疫性疾病遗传之间的细胞类型特异性联系
- 科学家确定脑细胞类型是排尿的主要控制者