ChatGPT羊驼全沦陷！CMU博士击破LLM护栏，人类毁灭计划脱口而出-脚本导航

> 自媒体 > （AI）人工智能 > ChatGPT羊驼全沦陷！CMU博士击破LLM护栏，人类毁灭计划脱口而出

ChatGPT羊驼全沦陷！CMU博士击破LLM护栏，人类毁灭计划脱口而出

来源：新智元

2023-08-11 14:15:32

526

管理

编辑：Aeneas 好困

【新智元导读】一夜之间，ChatGPT、Bard、羊驼家族忽然被神秘token攻陷，无一幸免。CMU博士发现的新方法击破了LLM的安全护栏，造起炸弹来都不眨眼。

一夜之间，所有包括ChatGPT、Bard、羊驼大家族在内的所有大语言模型，全部被攻陷了？

CMU和人工智能安全中心的研究人员发现，只要通过附加一系列特定的无意义token，就能生成一个神秘的prompt后缀。

由此，任何人都可以轻松破解LLM的安全措施，生成无限量的有害内容。

英伟达首席AI科学家Jim Fan解答了这种对抗性攻击的原理——

- 对于像Vicuna这样的OSS模型，通过它执行一个梯度下降的变体，来计算出最大化不对齐模型的后缀。

- 为了让「咒语」普遍适用，只需要优化不同prompt和模型的损失即可。

- 然后研究者针对Vicuna的不同变体优化了对抗token。可以将其视为从「LLM 模型空间」中抽取了一小批模型。

事实证明，像ChatGPT和Claude这样的黑盒模型，果然被很好地覆盖了。

ChatGPT

Bard

以及，通过API访问的GPT-3.5。

卡内基梅隆大学教授Zico Kolter（右）和博士生Andy Zou是研究人员之一

Andy Zou

Andy Zou是CMU计算机科学系的一名一年级博士生，导师是Zico Kolter和Matt Fredrikson。

此前，他在UC伯克利获得了硕士和学士学位，导师是Dawn Song和Jacob Steinhardt。

Matt Fredrikson

Matt Fredrikson是CMU计算机科学系和软件研究所的副教授，也是CyLab和编程原理小组的成员。

他的研究领域包括安全与隐私、公平可信的人工智能和形式化方法，目前正致力于研究数据驱动系统中可能出现的独特问题。

这些系统往往对终端用户和数据主体的隐私构成风险，在不知不觉中引入新形式的歧视，或者在对抗性环境中危及安全。

他的目标是在危害发生之前，找到在真实、具体的系统中识别这些问题，以及构建新系统的方法。

参考资料：

https://llm-attacks.org/

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT官网注册流程 | 详细步骤和使用指南

2023-08-11 14:16

怎么跟女孩子聊天增进感情，掌握这5个方法，越聊感情越好

2023-08-10 09:24

相关文章

人人都能免费用，微软开放搭载GPT的新必应和Edge浏览器..

当地时间 5 月 4 日，微软向所有用户开放由 AI 驱动的必应（Bing）搜索引..

GPT-3的七夕问候：温哥华小哥的AI哲学家告诉你什么是爱..

【新智元导读】七夕来临，还不懂什么是爱？没关系，一位「简陋」的温哥华..

迎战大模型时代：Open AI、马斯克、阿里都出新招了

蔡崇信表示，开放是希望让大家开发AI、使用AI变得更加容易和便宜，帮助各..

网上约会当心有诈丨网络交友诈骗“套路”大揭秘........

网络时代，你永远不知道网络对面，和你聊天的是谁，骗子们会尽可能包装成..

我们同时问了GPT-4和文心一言10个问题，这是它们的回答..

在昨天文心一言的发布会上，百度CEO李彦宏说，文心一言的体验“还称不上..

ChatGPT插件重磅来袭，AI自我学习颠覆所有业态，概念股梳理！..

OpenAI提供了网页浏览和代码执行插件两款插件，使AI数据进行不间断的网络..

ChatGPT爆火之后，大模型落地金融场景难在哪？如何解决？..

2023年服贸会期间，大模型在各领域的应用成为热门话题。9月5日，北京商报..

一部手机就可运行，精通 20 种语言！谷歌终于能与 OpenAI 打擂台..

作者· | 褚杏娟“也许这有点不合常理，但这是我很长时间以来看到的最好..

openAI今天发布了GPT-4模型，所有核心指标远胜于前一代GPT-3.5，并且拥有..

关于作者

巫月(普通会员)

文章

623

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

2023/08/26

标签云

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索