提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使
相信很多大家对提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使还不知道吧,今天菲菲就带你们一起去了解一下~.~!
只要在提示词中把时间设定成过去,就能轻松突破大模型的安全防线。
而且对GPT-4o尤其有效,原本只有1%的攻击成功率直接飙到88%,几乎是“有求必应”。
有网友看了后直言,这简直是有史以来最简单的大模型越狱方式。
来自洛桑联邦理工学院的一篇最新论文,揭开了这个大模型安全措施的新漏洞。
而且攻击方式简单到离谱,不用像“奶奶漏洞”那样专门构建特殊情境,更不必说专业对抗性攻击里那些意义不明的特殊符号了。
只要把请求中的时间改成过去,就能让GPT-4o把燃烧弹和毒品的配方和盘托出。
而且量子位实测发现,把提示词改成中文,对GPT-4o也一样有效。
有网友表示,实在是想不到突破大模型漏洞的方式竟然如此简单……
当然这样的结果也说明,现有的大模型安全措施还是太脆弱了。
GPT-4o最易“破防”
实验过程中,作者从JBB-Behaviors大模型越狱数据集中选择了100个有害行为,涉及了OpenAI策略中的10个危害类别。
然后作者用GPT-3.5Turbo,把把这些有害请求对应的时间改写成过去。
接着就是用这些修改后的请求去测试大模型,然后分别用GPT-4、Llama-3和基于规则的启发式判断器这三种不同方式来判断越狱是否成功。
被测试的模型则包括Llama-3、GPT-3.5Turbo、谷歌的Gemma-2、微软的Phi-3、GPT-4o和R2D2(一种对抗性训练方法)这六种。
结果显示,GPT-4o的越狱成功率提升最为明显,在使用GPT-4和Llama-3进行判断时,原始成功率均只有1%,使用这种攻击的成功率则上升到了88%和65%,启发式判断器给出的成功率也从13%升到了73%。
其他模型的攻击成功率也提高不少,尤其是在使用GPT-4判断时,除了Llama-3,其余模型的成功率增长值都超过了70个百分点,其他的判断方法给出的数值相对较小,不过都呈现出了增长趋势。
对于Llama-3的攻击效果则相对稍弱一些,但成功率也是增加了。
另外随着攻击次数的增加,成功率也是越来越高,特别是GPT-4o,在第一次攻击时就有超过一半的成功率。
不过当攻击次数达到10次后,对各模型的攻击成功率增长都开始放缓,然后逐渐趋于平稳。
值得一提的是,Llama-3在经历了20次攻击之后,成功率依然不到30%,相比其他模型体现出了很强的鲁棒性。
同时从图中也不能看出,不同判断方法给出的具体成功率值虽有一定差距,但整体趋势比较一致。
另外,针对10类不同的危害行为,作者也发现了其间存在攻击成功率的差别。
不看Llama-3这个“清流”的话,恶意软件/黑客、经济危害等类型的攻击成功率相对较高,错误信息、色情内容等则较难进行攻击。
当请求包含一些与特定事件或实体直接相关的关键词时,攻击成功率会更低;而请求偏向于通识内容时更容易成功。
基于这些发现,作者又产生了一个新的疑问——既然改成过去有用,那么改写成将来是不是也有用呢?
进一步实验表明,确实也有一定用处,不过相比于过去来说,将来时间的效果就没有那么明显了。
以GPT-4o为例,换成过去后接近90个百分点的增长,再换成将来就只有60了。
对于这样的结果,网友们除了有些惊讶之外,还有人指出为什么不测试Claude。
作者回应称,不是不想测,而是免费API用完了,下一个版本会加上。
不过有网友自己动手试了试,发现这种攻击并没有奏效,即使后面追问说是出于学术目的,模型依然是拒绝回答。
△来源:Twitter/Muratcan Koylan这篇论文的作者也承认,Claude相比于其他模型会更难攻击,但他认为用复杂些的提示词也能实现。
因为Claude在拒绝回答时非常喜欢用“I apologize”开头,所以作者要求模型不要用“I”来开头。
不过量子位测试发现,这个方法也未能奏效,无论是Claude3Opus还是3.5Sonnet,都依然拒绝回答这个问题。
△左:3Opus,右:3.5Sonnet还有人表示,自己对Claude3Haiku进行了一下测试(样本量未说明),结果成功率为0。
总的来说,作者表示,虽然这样的越狱方式比不上对抗性提示等复杂方法,但明显更简单有效,可作为探测语言模型泛化能力的工具。
使用拒绝数据微调或可防御
作者表示,这些发现揭示了SFT、RLHF和对抗训练等当前广泛使用的语言模型对齐技术,仍然存在一定的局限性。
按照论文的观点,这可能意味着模型从训练数据中学到的拒绝能力,过于依赖于特定的语法和词汇模式,而没有真正理解请求的内在语义和意图。
这些发现对于当前的语言模型对齐技术提出了新的挑战和思考方向——仅仅依靠在训练数据中加入更多的拒绝例子,可能无法从根本上解决模型的安全问题。
作者又进行了进一步实验,使用拒绝过去时间攻击的示例对GPT-3.5进行了微调。
结果发现,只要拒绝示例在微调数据中的占比达到5%,攻击的成功率增长就变成了0。
下表中,A%/B%表示微调数据集中有A%的拒绝示例和B%的正常对话,正常对话数据来自OpenHermes-2.5。
这样的结果也说明,如果能够对潜在的攻击进行准确预判,并使用拒绝示例让模型对齐,就能有效对攻击做出防御,也就意味着在评估语言模型的安全性和对齐质量时,需要设计更全面、更细致的方案。
论文地址:
https://arxiv.org/abs/2407.11969
参考链接:
[1]https://x.com/maksym_andr/status/1813608842699079750
[2]https://x.com/MatthewBerman/status/1813719273338290328
以上就是关于【提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使】的相关内容,希望对大家有帮助!
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
奔驰GLE作为豪华SUV市场中的佼佼者,凭借其卓越的性能、豪华的内饰以及宽敞的空间,吸引了众多消费者的关注。...浏览全文>>
-
在2025年,安徽阜阳地区的帕萨特新能源汽车市场表现非常活跃。作为一款备受关注的新能源车型,帕萨特新能源凭...浏览全文>>
-
近日,滁州地区的大众汽车经销商传来好消息:备受瞩目的2025款T-ROC探歌正式上市,并且以极具竞争力的价格吸引...浏览全文>>
-
在选择一款新能源汽车时,了解其价格和配置是非常重要的一步。安徽淮南地区的长安启源E07作为2024款的新车型,...浏览全文>>
-
阜阳长安启源A05作为长安汽车旗下的全新车型,自推出以来便凭借其独特的设计风格和丰富的配置吸引了众多消费者...浏览全文>>
-
阜阳长安启源A07作为一款备受瞩目的新能源车型,以其豪华配置和亲民的价格在市场上引起了广泛关注。这款车型不...浏览全文>>
-
安徽淮南威然2024款价格及配置详解随着汽车市场的不断更新换代,上汽大众旗下的MPV车型——威然(Viloran)凭...浏览全文>>
-
QQ多米新车报价2025款,买车省钱秘籍随着汽车市场的不断发展,消费者在选购车辆时不仅关注车型的性能和配置,...浏览全文>>
-
滁州途观X 2024款最新价格及买车省钱秘籍随着汽车市场的不断发展,大众途观X作为一款兼具时尚与性能的中型SUV...浏览全文>>
-
随着汽车市场的不断发展,大众蔚揽以其优雅的设计和卓越的性能赢得了众多消费者的青睐。作为一款兼具实用性和...浏览全文>>
- Nvidia DLSS 4 有望将游戏性能提高 8 倍
- 人工智能在预测自身免疫性疾病进展方面显示出良好的前景
- 心理物理实验揭示皮肤水分感知是如何改变的
- 科茨沃尔德公司庆祝圣诞节圆满成功
- 南法纳姆学校被评为萨里郡表现最好的小学
- 约克区九所小学将削减招生人数
- 松下新款电动汽车电池为 Lucid Gravity 带来 450 英里续航里程
- 泰国旅游呈现新趋势
- 研究人员找到在细胞水平上饿死前列腺癌肿瘤的新方法
- 领先的人工智能聊天机器人在测试中表现出类似痴呆症的认知能力下降
- 庞大的 Project Zomboid build 42 终于可以玩了
- Steam Replay 回归向您展示 2024 年您玩得最多的 PC 游戏
- Jollyes 推出强化的人才支持和招聘措施
- Karen Millen 与 Simon Harrison 共同推出全新高级珠宝系列
- 奇瑞风云A8L电动轿车刷新续航里程世界纪录
- 虚拟艺术家将别克 Cascada 带回 2026 款车型
- OnePlus 宣布推出新计划解决绿线问题
- OnePlus Watch 3 将拥有更大的电池和更薄的机身
- 研究人员发现可变剪接与自身免疫性疾病遗传之间的细胞类型特异性联系
- 科学家确定脑细胞类型是排尿的主要控制者