> 自媒体 > (AI)人工智能 > ChatGPT羊驼全沦陷!CMU博士击破LLM护栏,人类毁灭计划脱口而出
ChatGPT羊驼全沦陷!CMU博士击破LLM护栏,人类毁灭计划脱口而出
来源:新智元
2023-08-11 14:15:32
380
管理

编辑:Aeneas 好困

【新智元导读】一夜之间,ChatGPT、Bard、羊驼家族忽然被神秘token攻陷,无一幸免。CMU博士发现的新方法击破了LLM的安全护栏,造起炸弹来都不眨眼。

一夜之间,所有包括ChatGPT、Bard、羊驼大家族在内的所有大语言模型,全部被攻陷了?

CMU和人工智能安全中心的研究人员发现,只要通过附加一系列特定的无意义token,就能生成一个神秘的prompt后缀。

由此,任何人都可以轻松破解LLM的安全措施,生成无限量的有害内容。

英伟达首席AI科学家Jim Fan解答了这种对抗性攻击的原理——

- 对于像Vicuna这样的OSS模型,通过它执行一个梯度下降的变体,来计算出最大化不对齐模型的后缀。

- 为了让「咒语」普遍适用,只需要优化不同prompt和模型的损失即可。

- 然后研究者针对Vicuna的不同变体优化了对抗token。可以将其视为从「LLM 模型空间」中抽取了一小批模型。

事实证明,像ChatGPT和Claude这样的黑盒模型,果然被很好地覆盖了。

ChatGPT

Bard

以及,通过API访问的GPT-3.5。

卡内基梅隆大学教授Zico Kolter(右)和博士生Andy Zou是研究人员之一

Andy Zou

Andy Zou是CMU计算机科学系的一名一年级博士生,导师是Zico Kolter和Matt Fredrikson。

此前,他在UC伯克利获得了硕士和学士学位,导师是Dawn Song和Jacob Steinhardt。

Matt Fredrikson

Matt Fredrikson是CMU计算机科学系和软件研究所的副教授,也是CyLab和编程原理小组的成员。

他的研究领域包括安全与隐私、公平可信的人工智能和形式化方法,目前正致力于研究数据驱动系统中可能出现的独特问题。

这些系统往往对终端用户和数据主体的隐私构成风险,在不知不觉中引入新形式的歧视,或者在对抗性环境中危及安全。

他的目标是在危害发生之前,找到在真实、具体的系统中识别这些问题,以及构建新系统的方法。

参考资料:

https://llm-attacks.org/

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
巫月(普通会员)
文章
365
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成185869 电子证书790 电子名片49 自媒体20497

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索