> 自媒体 > (AI)人工智能 > OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想
OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想
来源:机器之心Pro
2025-02-06 15:15:00
237
管理

机器之心报道

编辑:小舟、泽南、大盘鸡

大模型也可解释了?

大模型都在想什么?OpenAI 找到了一种办法,能给 GPT-4 做「扫描」,告诉你 AI 的思路,而且还把这种方法开源了。

反问句:

局限和发展方向

新方法能够提高模型的可信度和可操纵性。然而这仍是早期工作,存在许多局限性:

与此前的研究一样,许多发现的特征仍然难以解释,许多特征的激活没有明确的模式,或者表现出与它们通常编码的概念无关的虚假激活。此外,目前我们还没有很好的方法来检查解释的有效性。稀疏自动编码器不会捕获原始模型的所有行为。目前,将 GPT-4 的激活通过稀疏自动编码器大致相当于使用大约 1/10 计算量训练一个模型。为了完全映射前沿 LLM 中的概念,我们可能需要扩展到数十亿或数万亿个特征,即便使用改进的扩展技术,这也具有挑战性。稀疏自动编码器可以在模型中的某一点找到特征,但这只是解释模型的一步。还需要做更多的工作来了解模型如何计算这些特征以及如何在模型的其余部分下游使用这些特征。

稀疏自动编码器的研究令人兴奋,OpenAI 表示,还有一些待解决的挑战。短期内,工程师们希望新发现的特征能够实际用于监控和控制语言模型行为,并计划在前沿模型中对此进行测试。希望最终有一天,可解释性可以为我们提供推理模型安全性和稳健性的新方法,并通过对 AI 行为提供强有力的保证,大幅提高我们对新一代 AI 模型的信任。

参考内容:

https://openai.com/index/extracting-concepts-from-gpt-4

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
法拉利电动SUV在国内上路了?原来是民间大神的“阿维法”..
什么!法拉利首款纯电SUV来了?而且还在国内各个城市里无任何伪装曝光上..
新车 | 售价498.8万元起,法拉利Purosangue实拍,配6.5升V12发动机..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,法拉利Purosangue实车到..
新车 | 售价49.9-57.8万欧元,搭载V12动力,法拉利812特别版发布..
文:懂车帝原创 史景旭/潘梓春[懂车帝原创 产品] 5月5日,法拉利812特别..
目前最便宜的法拉利,试驾法拉利Roma,它真的是\u0026#34;弱鸡\u0026#34;吗..
文:孙少爷说到法拉利,我相信大家的脑海里肯定会最先想到的就是他们的F1..
血脉传承,新王当立!法拉利全新旗舰公路超跑F80
位于三翼面前翼下方有主动式反向襟翼设计,它的开闭状态来控制车身前部的..
比高铁开的还快?上赛场试驾法拉利全系车型
好吧,我承认,当领导在微信上问“有个法拉利的试驾,你去不去?”的时候..
新车 | 海外售价约273万元起,法拉利SUV实车亮相,国内或10月上市..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 在9月14日官图发布后,法拉利全..
只要88万就能买一辆11款法拉利458,真有这种好事?
哈喽,大家好~检车家老司机又和大家见面了!我是体重180,身高180, 穿着..
试驾玛莎拉蒂Levante:搭3.8T V8法拉利引擎,超帅、超拉风..
【有车以后 有车试驾】作为意大利的超豪华品牌,有着跑车血统的玛莎拉蒂..
关于作者
轻随风之舞..(普通会员)
文章
925
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40398 企业收录2981 印章生成236644 电子证书1047 电子名片60 自媒体48699

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索