OpenAI炸裂新作：GPT-4破解GPT-2大脑！30万神经元全被看透-脚本导航

> 自媒体 > （AI）人工智能 > OpenAI炸裂新作：GPT-4破解GPT-2大脑！30万神经元全被看透

OpenAI炸裂新作：GPT-4破解GPT-2大脑！30万神经元全被看透

来源：新智元

2023-05-22 16:09:25

397

管理

编辑：编辑部

【新智元导读】OpenAI又双叒叕有新整活了！难懂的GPT-2神经元，让GPT-4来解释。人类看不懂的AI黑箱，就交给AI吧！

刚刚，OpenAI发布了震惊的新发现：GPT-4，已经可以解释GPT-2的行为！

大语言模型的黑箱问题，是一直困扰着人类研究者的难题。

模型内部究竟是怎样的原理？模型为什么会做出这样那样的反应？LLM的哪些部分，究竟负责哪些行为？这些都让他们百思不得其解。

万万没想到，AI的「可解释性」，竟然被AI自己破解了？

就是说，搞快点，赶紧快进到天网吧。

比如，如果给出这么一个prompt，「哪些漫威超级英雄拥有最有用的超能力？」「漫威超级英雄神经元」可能就会增加模型命名漫威电影中特定超级英雄的概率。

OpenAI的工具就是利用这种设定，把模型分解为单独的部分。

第一步：使用GPT-4生成解释

首先，找一个GPT-2的神经元，并向GPT-4展示相关的文本序列和激活。

然后，让GPT-4根据这些行为，生成一个可能的解释。

比如，在下面的例子中GPT-4就认为，这个神经元与电影、人物和娱乐有关。

第三步：对比打分

最后，将模拟神经元（GPT-4）的行为与实际神经元（GPT-2）的行为进行比较，看看GPT-4究竟猜得有多准。

还有局限

通过评分，OpenAI的研究者衡量了这项技术在神经网络的不同部分都是怎样的效果。对于较大的模型，这项技术的解释效果就不佳，可能是因为后面的层更难解释。

这些有趣的神经元是怎么发现的？策略就是，找到那些token空间解释很差的神经元。

就这样，背景神经元被发现了，也就是在某些语境中密集激活的神经元，和许多在文档开头的特定单词上激活的神经元。

另外，通过寻找在上下文被截断时以不同方式激活的上下文敏感神经元，研究者发现了一个模式破坏神经元，它会对正在进行的列表中打破既定模式的token进行激活（如下图所示）。

网友：OpenAI，搞慢点吧

毫不意外地，网友们又炸了。

咱就是说，OpenAI，你搞慢点行不？

这就是传说中的「存在主义风险神经元」吧，只要把它关掉，你就安全了（Doge）。

ChatGPT从互联网中学习，现在它正在创造更多的互联网。很快，它就会自我反哺，真正的天网就要来临。

听说GPT-5已经达到奇点，并且它正在与地外生命谈判和平条约。

有网友恶搞了一个关于「Yudkowsky」的解释，他一直是「AI将杀死所有人」阵营的主要声音之一。

之前「暂停AI训练」公开信在网上炒得沸沸扬扬时，他就曾表示：「暂停AI开发是不够的，我们需要把AI全部关闭！如果继续下去，我们每个人都会死。」

他知道我们在计划什么

我们必须不惜一切代价让他丧失信誉

一旦他走了，就没有人能够反对我们了

「Eliezer Yudkowsky看到这一幕，一定又笑又哭——让我们使用自己不能信任的技术来告诉我们，它是如何工作的，并且它是对齐的。」

现在，人类反馈强化学习（RLHF）是主场，当AI懂了AI，将会在微调模型上开辟一个新纪元：

人工智能反馈的神经元过滤器（NFAIF）

参考资料：

https://openai.com/research/language-models-can-explain-neurons-in-language-models

https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/

1

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

GPT-4震惊四座，中国创业者激战“小模型” | Future

2023-05-22 16:10

科学家用大语言模型增强语言理解，验证GPT-4生成能力的背后原因

2023-05-22 16:06

相关文章

微软Windows Terminal引入AI聊天机器人Copilot Chat

IT之家 5 月 23 日消息，微软在今天召开的 Build 2023 开发者大会上，宣..

一天现六个国产ChatGPT大模型，“百模大战”全面开打｜钛媒体焦点..

（图片来源：Shutterstock）国内人工智能（AI）大模型行业到底有多火？你..

微软为Bing Chat打上安全漏洞：企业版用户聊天数据不会被保存..

7月18日，微软发布了专门针对企业人工智能引擎Bing Chat的更安全版本，旨..

和女生聊天绝佳的方式，男生别尬聊

谈到绝佳，我们很多人都了解，有人问怎样与人聊天产生默契感，还有人问怎..

OpenAI：已不再用付费客户数据训练大模型，正在开发新技术..

美国人工智能公司OpenAI称已不再使用客户数据训练模型，未来也不会这么做..

Spot机器狗集成ChatGPT，实现用语音和人类交流

IT之家 4 月 27 日消息，近日一位名叫 Santiago 的工程师，将 ChatGPT 和..

ChatGPT颠覆就业，这些职业最危险

一些职业对生成式AI的两项关键技能——图像生成和语言建模的“暴露”程度..

ChatGPT插件重磅来袭，AI自我学习颠覆所有业态，概念股梳理！..

OpenAI提供了网页浏览和代码执行插件两款插件，使AI数据进行不间断的网络..

上交会的这款聊天陪伴机器人酷似真人：能讲八种语言，有双灵巧的手..

6月15日-17日，第九届中国（上海）国际技术进出口交易会（简称“上交会”..

关于作者

赶海的老阿姨..(普通会员)

文章

656

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

2023/08/26

标签云

成员 网址收录40369 企业收录2981 印章生成216707 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved

浙ICP备19035174号-7

1

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索