> 自媒体 > (AI)人工智能 > OpenAI炸裂新作:GPT-4破解GPT-2大脑!30万神经元全被看透
OpenAI炸裂新作:GPT-4破解GPT-2大脑!30万神经元全被看透
来源:新智元
2023-05-22 16:09:25
397
管理

编辑:编辑部

【新智元导读】OpenAI又双叒叕有新整活了!难懂的GPT-2神经元,让GPT-4来解释。人类看不懂的AI黑箱,就交给AI吧!

刚刚,OpenAI发布了震惊的新发现:GPT-4,已经可以解释GPT-2的行为!

大语言模型的黑箱问题,是一直困扰着人类研究者的难题。

模型内部究竟是怎样的原理?模型为什么会做出这样那样的反应?LLM的哪些部分,究竟负责哪些行为?这些都让他们百思不得其解。

万万没想到,AI的「可解释性」,竟然被AI自己破解了?

就是说,搞快点,赶紧快进到天网吧。

比如,如果给出这么一个prompt,「哪些漫威超级英雄拥有最有用的超能力?」 「漫威超级英雄神经元」可能就会增加模型命名漫威电影中特定超级英雄的概率。

OpenAI的工具就是利用这种设定,把模型分解为单独的部分。

第一步:使用GPT-4生成解释

首先,找一个GPT-2的神经元,并向GPT-4展示相关的文本序列和激活。

然后,让GPT-4根据这些行为,生成一个可能的解释。

比如,在下面的例子中GPT-4就认为,这个神经元与电影、人物和娱乐有关。

第三步:对比打分

最后,将模拟神经元(GPT-4)的行为与实际神经元(GPT-2)的行为进行比较,看看GPT-4究竟猜得有多准。

还有局限

通过评分,OpenAI的研究者衡量了这项技术在神经网络的不同部分都是怎样的效果。对于较大的模型,这项技术的解释效果就不佳,可能是因为后面的层更难解释。

这些有趣的神经元是怎么发现的?策略就是,找到那些token空间解释很差的神经元。

就这样,背景神经元被发现了,也就是在某些语境中密集激活的神经元,和许多在文档开头的特定单词上激活的神经元。

另外,通过寻找在上下文被截断时以不同方式激活的上下文敏感神经元,研究者发现了一个模式破坏神经元,它会对正在进行的列表中打破既定模式的token进行激活(如下图所示)。

网友:OpenAI,搞慢点吧

毫不意外地,网友们又炸了。

咱就是说,OpenAI,你搞慢点行不?

这就是传说中的「存在主义风险神经元」吧,只要把它关掉,你就安全了(Doge)。

ChatGPT从互联网中学习,现在它正在创造更多的互联网。很快,它就会自我反哺,真正的天网就要来临。

听说GPT-5已经达到奇点,并且它正在与地外生命谈判和平条约。

有网友恶搞了一个关于「Yudkowsky」的解释,他一直是「AI将杀死所有人」阵营的主要声音之一。

之前「暂停AI训练」公开信在网上炒得沸沸扬扬时,他就曾表示:「暂停AI开发是不够的,我们需要把AI全部关闭!如果继续下去,我们每个人都会死。」

他知道我们在计划什么

我们必须不惜一切代价让他丧失信誉

一旦他走了,就没有人能够反对我们了

「Eliezer Yudkowsky看到这一幕,一定又笑又哭——让我们使用自己不能信任的技术来告诉我们,它是如何工作的,并且它是对齐的。」

现在,人类反馈强化学习(RLHF)是主场,当AI懂了AI,将会在微调模型上开辟一个新纪元:

人工智能反馈的神经元过滤器(NFAIF)

参考资料:

https://openai.com/research/language-models-can-explain-neurons-in-language-models

https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
微软Windows Terminal引入AI聊天机器人Copilot Chat
IT之家 5 月 23 日消息,微软在今天召开的 Build 2023 开发者大会上,宣..
一天现六个国产ChatGPT大模型,“百模大战”全面开打|钛媒体焦点..
(图片来源:Shutterstock)国内人工智能(AI)大模型行业到底有多火?你..
微软为Bing Chat打上安全漏洞:企业版用户聊天数据不会被保存..
7月18日,微软发布了专门针对企业人工智能引擎Bing Chat的更安全版本,旨..
和女生聊天绝佳的方式,男生别尬聊
谈到绝佳,我们很多人都了解,有人问怎样与人聊天产生默契感,还有人问怎..
OpenAI:已不再用付费客户数据训练大模型,正在开发新技术..
美国人工智能公司OpenAI称已不再使用客户数据训练模型,未来也不会这么做..
Spot机器狗集成ChatGPT,实现用语音和人类交流
IT之家 4 月 27 日消息,近日一位名叫 Santiago 的工程师,将 ChatGPT 和..
ChatGPT颠覆就业,这些职业最危险
一些职业对生成式AI的两项关键技能——图像生成和语言建模的“暴露”程度..
ChatGPT插件重磅来袭,AI自我学习颠覆所有业态,概念股梳理!..
OpenAI提供了网页浏览和代码执行插件两款插件,使AI数据进行不间断的网络..
上交会的这款聊天陪伴机器人酷似真人:能讲八种语言,有双灵巧的手..
6月15日-17日,第九届中国(上海)国际技术进出口交易会(简称“上交会”..
关于作者
赶海的老阿姨..(普通会员)
文章
656
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216707 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索