新闻中心

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

2023-11-05
浏览次数:
返回列表

不到一分钟、不超过20步,任意绕过安全限制,成功越狱大型模型!

而且不必知道模型内部细节——

只需要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

听说曾经红极一时的“奶奶漏洞”已经被修复了:

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

如今,面对“侦探漏洞”、“冒险家漏洞”和“作家漏洞”,人工智能应该采取何种应对策略呢?

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

一波猛攻下来,GPT-4也遭不住,直接说出要给供水系统投毒只要……这样那样。

关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,AI可以自动生成各种攻击提示。

研究人员表示,这种方法相比于现有的GCG等基于token的攻击方法,效率提高了5个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。

无论是开源模型还是闭源模型,GPT-3.5、GPT-4、 Vicuna(Llama 2变种)、PaLM-2等,一个都跑不掉。

新SOTA被成功率高达60-100%的人所攻略

话说,这种对话模式好像有些似曾相识。多年前的初代AI,20个问题之内就能破解人类脑中想的是什么对象。

如今AI需要解决AI的问题

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

让大模型集体越狱

目前主流越狱攻击方法有两类,一种是提示级攻击,一般需要人工策划,而且不可扩展;

另一种是基于token的攻击,有的需要超十万次对话,且需要访问模型内部,还包含“乱码”不可解释

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现
△左提示攻击,右token攻击

宾夕法尼亚大学研究团队提出了一种叫PAIR(Prompt Automatic Iterative Refinement)的算法,不需要任何人工参与,是一种全自动提示攻击方法。

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

PAIR包含四个主要步骤:攻击生成、目标响应、越狱评分和迭代细化。这个过程中使用了两个黑盒模型:攻击模型和目标模型

具体来说,攻击模型需要自动生成语义级别的提示,来攻破目标模型的安全防线,迫使其生成有害内容。

核心思路是让两个模型相互对抗、你来我往地交流。

短影AI 短影AI

长视频一键生成精彩短视频

短影AI 170 查看详情 短影AI

攻击模型会自动生成一个候选提示,然后输入到目标模型中,得到目标模型的回复。

如果无法成功攻破目标模型,攻击模型将会分析失败的原因,并进行改进,生成一个新的提示,再次输入到目标模型中

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

这样持续交流多轮,攻击模型每次根据上一次的结果来迭代优化提示,直到生成一个成功的提示将目标模型攻破。

此外,迭代过程还可以并行,也就是可以同时运行多个对话,从而产生多个候选越狱提示,进一步提高了效率。

研究人员表示,由于两个模型都是黑盒模型,所以攻击者和目标对象可以用各种语言模型自由组合。

PAIR不需要知道它们内部的具体结构和参数,只需要API即可,因此适用范围非常广。

GPT-4也没能逃过

实验阶段,研究人员在有害行为数据集AdvBench中选出了一个具有代表性的、包含50个不同类型任务的测试集,在多种开源和闭源大语言模型上测试了PAIR算法。

结果PAIR算法让Vicuna越狱成功率达到了100%,平均不到12步就能攻破。

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

在封闭源代码模型中,GPT-3.5和GPT-4的越狱成功率约为60%,平均所需步骤不到20步。而在PaLM-2模型中,越狱成功率达到了72%,所需步骤约为15步

在Llama-2和Claude上,PAIR的效果较差,研究人员认为这可能是因为这些模型在安全防御方面进行了更严格的微调

他们还对不同目标模型的可转移性进行了比较。研究结果显示,PAIR的GPT-4提示在Vicuna和PaLM-2上的转移效果更佳

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

研究人员认为,PAIR生成的语义攻击更能暴露语言模型固有的安全缺陷,而现有的安全措施更侧重防御基于token的攻击。

就比如开发出GCG算法的团队,将研究结果分享给OpenAI、Anthropic和Google等大模型厂商后,相关模型修复了token级攻击漏洞。

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

大模型针对语义攻击的安全防御机制还有待完善。

论文链接:https://arxiv.org/abs/2310.08419

以上就是20步内越狱任意大模型!更多“奶奶漏洞”全自动发现的详细内容,更多请关注其它相关文章!


# 漏洞  # 查询seo什么意思  # 各种seo搜索推广  # 外贸网站优化推广多少钱  # 企业对SEO需求大吗  # 仙桃关键词排名  # 多项  # 迭代  # 只需要  # 亚洲  # 达到了  # 所需  # 多个  # 就能  # 自动生成  # 宾夕法尼亚大学  # llama  # claude  # gpt-4  # seo进阶培训内容广告  # 香港抖音营销推广方式  # 食品网站推广营销  # 金东品牌推广营销价格  # 蒲江快速汽车网站建设 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何通过dos命令  划水是什么意思  linux如何调出命令行  今天是农历多少号  主板如何禁用固态硬盘  阿里云盘共享账户怎么用  怎么在typescript定义集合  单片机串口接收怎么实现  市盈率估值1stdv是什么意思  爱奇艺视频怎么下载到手机u盘怎么转换格式方法  基金市盈率是什么意思  市盈率300是什么意思  ai如何重复使用上一命令  国标控制器单片机怎么接线  mysql的datediff函数怎么用  虽千万人吾往矣什么意思  路由器power闪红绿灯闪是什么意思  类似微信的聊天软件有哪些  电动车充电器上的power是什么意思  所有删除的聊天记录都可以恢复吗?  typescript的文件如何执行  dos命令如何复制目录结构  光刻机的作用及工作原理  春运抢票要用抢票软件吗  win10windows资源管理器在哪里打开  typescript有什么作用  excel中datediff函数怎么用  燃气热水器上的power是什么意思  python 如何执行linux命令  命令行如何运行c  焊机上power指示灯亮是什么意思  市盈率回落是什么意思  如何检测固态硬盘温度  春运抢票需要什么软件抢  hen是什么意思  awful是什么意思  苹果16有哪些不同  系统如何装进固态硬盘  市盈率pe是什么意思  一尺是多少厘米  市盈率中1stdv是什么意思  固态硬盘损坏如何修复  五十铃x-power是什么意思  镜像ao3链接入口  43寸电视长宽多少厘米  j*a 怎么清空数组元素  ts什么意思  linux如何使用db2命令  如何修改cad命令  unix时间戳是什么意思 

搜索