最新RLHF拯救语言模型「胡说八道」！微调效果比ChatGPT更好-脚本导航

> 自媒体 > （AI）人工智能 > 最新RLHF拯救语言模型「胡说八道」！微调效果比ChatGPT更好

最新RLHF拯救语言模型「胡说八道」！微调效果比ChatGPT更好

来源：量子位

2023-06-17 21:42:34

666

管理

西风发自凹非寺量子位 | 公众号 QbitAI

RLHF（基于人类反馈的强化学习）的一大缺点，终于被解决了！

没错，虽然RLHF是大语言模型“核心技巧”之一，然而这种方法也存在一个问题——

它只会判断生成文本的整体效果，不会仔细判断细节是否存在事实性错误、信息不完整和相关度等问题。

换而言之，传统的RLHF只会对大语言模型的整个输出进行打分，而不会揪出细节上的毛病。

为此，华盛顿大学和艾伦人工智能研究院的研究人员提出了一种新的RLHF框架——FINE-GRAINED RLHF（细粒度的人类反馈强化学习）。

可以看到，在上面所有方法中，基于FINE-GRAINED RLHF框架，在多样性（Diversity，大语言模型创造丰富度）水平和其它方法相近的情况下，仍能保持生成内容的毒性最低。

△信息完整度评估，“win”表示FINE-GRAINED RLHF获胜，“lose”表示FINE-GRAINED RLHF失败，信息完整性较差

上面给出的是人工评估的结果，而在测试集上也有自动的评分。

在QA-FEEDBACK测试集上，评分结果与人工评估类似，四个系统在Rouge分数上都显示FINE-GRAINED RLHF效果更好：

△在QA-FEEDBACK测试集上的自动评估结果

更灵活地定制RLHF

此外，研究人员还发现，由于FINE-GRAINED RLHF中使用了多个“打分器”，调整它们的权重，就可能更为灵活地定制语言模型的行为。

例如，将更多的权重添加到评估信息完整性的“打分器”中，可能会使生成的信息完整性更好。

△不同奖励模型权重配置下FINE-GRAINED RLHF的测试集自动评估结果

如上表所示，研究人员探索了FINE-GRAINED RLHF定制化语言模型行为的能力。

他们探索了三种“打分器”权重配置，并根据语言模型的平均文本生成长度，将它们分别命名为“short”、“medium”、“long”。

“short”生成了相关性更高的内容，但是事实性和完整性方面较差。与之相反，“long”提供了最准确和完整的生成内容。这反映出语言模型引用了大量的文本段落内容。而“medium”配置平衡了三种打分方法，并具有最高的得分。

不过，三个“打分器”之间还存在着竞争关系。

“相关性打分器”（the rel. reward model）偏向于生成短而简洁的回答，而”信息完整性打分器”（the comp. reward model）更偏向于生成更长、更丰富的回答。

因此，在训练过程中，这两个“打分器”会相互竞争，并最终达到一个平衡。

与此同时，“事实性打分器”（the fact. reward model）则会不断提高回答的正确性。

不过，移除任何一个“打分器”都会降低模型性能。

最后，研究人员还将他们的模型与ChatGPT的回答进行了比较。

ChatGPT在测试集上的RougeLSum得分为40.92，远低于本文使用FINE-GRAINED RLHF所训练的模型。

简单来说，ChatGPT生成的回答通常非常简洁且事实准确，但是缺乏澄清模糊问题所需的补充信息。

作者介绍

两位论文共同一作均是来自于华盛顿大学（University of Washington）自然语言处理研究小组的博士生。

Zeqiu Wu，本科就读于伊利诺伊大学电子与计算机工程系，并且取得了该校的硕士学位。

她的研究主要专注于信息检索型对话系统和通用交互系统。

曾在谷歌研究院的实习，担任学生研究员。

胡雨石（Yushi Hu），于2021年从芝加哥大学获得数学、计算机科学和经济学的学士学位。目前师从Mari Ostendorf教授和Noah A. Smith教授。

他的主要兴趣领域是多模态学习和基于人类反馈的强化学习（RLHF）。

此前，他还曾与美国阿贡国家实验室的Saidur Bakaul博士和清华大学的宁传刚教授合作过。

论文地址：https://finegrainedrlhf.github.io/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

1

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT热潮背后的冷思考：应加大各类大模型的投入

2023-06-18 10:59

早期项目｜「宽洋网络」推出基于ChatGPT的智能音箱，欲借大模型再搏一次

2023-06-17 21:41

相关文章

“套壳”OpenAI的ChatGPT？科大讯飞发声了

5月12日消息，近日，有网友在社交媒体上发起了一项关于科大讯飞旗下的讯..

“丝袜门”事件再反复：涉事人员称账号被盗，网传新聊天记录显示..

7月15日，一张微信聊天截图在网络疯传，引发了广泛讨论。截图中，某工作..

华为云盘古大模型3.0来了！它为何不做中国版ChatGPT？ | AI之声..

今年以来，以预训练大模型等为代表的新兴技术正在掀起新一轮人工智能热潮..

团伙养了17万个QQ号专为“裸聊”

以35元至100元不等的价格对外出售QQ账号文图/本刊记者余东明张海燕在3..

跨境卖家，开始靠ChatGPT赚钱了

ChatGPT率先在跨境电商行业应用当我们还在观望大模型的发展时，有点行业..

范渊：ChatGPT为AI在安全上的应用带来启示

安恒信息董事长范渊。受访者供图新京报贝壳财经讯（记者罗亦丹）5 月7日..

女大学生与多个「金主」聊天记录被曝光，内容不堪入目..

云南某财经大学生李某与多个金主的聊天记录被男友曝光，引发社会关注。据..

一想到还有95%的人不懂ChatGPT，我就焦虑了

如果有一本书可以让人理解“AI大爆炸”新纪元那就是《硅基物语》半年以来..

重磅论文！与GPT-3差不多水平的1750亿大模型OPT开源了

关注深度学习或者NLP的童鞋应该都知道openAI的GPT-3模型，这是一个非常厉..

关于作者

细雨入梦(普通会员)

文章

576

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

2023/08/26

标签云

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved

浙ICP备19035174号-7

1

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索