> 自媒体 > (AI)人工智能 > 家用版GPT-4!微软开源微调指令集效果不输原版,中英双语都能用
家用版GPT-4!微软开源微调指令集效果不输原版,中英双语都能用
来源:新智元
2023-05-26 22:05:58
370
管理

编辑:LRS

【新智元导读】缺数据不是问题,直接用GPT-4生成的指令就够了,标注员恐怕要失业了!

「指令」(Instruction)是ChatGPT模型取得突破性进展的关键因素,可以让语言模型的输出更符合「人类的偏好」。

但指令的标注工作需要耗费大量的人力,即便有了开源的语言模型,资金不足的学术机构、小公司也很难训练出自己ChatGPT.

最近微软的研究人员利用之前提出的Self-Instruct技术,首次尝试使用GPT-4模型来自动生成语言模型所需的微调指令数据。

频率最高的25对动词-名词

为了促进对RLHF的研究,研究人员使用GPT-4创建了对比数据;为了评估数据质量,研究人员训练一个基于OPT 1.3B的奖励模型,以对不同的回复进行评分:对一个提示和K个回复,GPT-4为每个回复提供一个1到10之间的评分。

实验结果

在 GPT-4数据上评估以前从未见过的任务的self-instruct调优模型的性能仍然是一项困难的任务。

由于主要目标是评估模型理解和遵守各种任务指示的能力,为了实现这一点,研究人员利用三种类型的评估,并通过研究结果证实,「利用 GPT-4生成数据」相比其他机器自动生成的数据来说是一种有效的大型语言模型指令调优方法。

人类评估

为了评估该指令调优后的大型语言模型对齐质量,研究人员遵循之前提出的对齐标准:如果一个助手是有帮助的、诚实的和无害的(HHH),那它就是与人类评估标准对齐的,这些标准也被广泛用于评估人工智能系统与人类价值观的一致性程度。

帮助性(helpfulness):是否能帮助人类实现他们的目标,一个能够准确回答问题的模型是有帮助的。

诚实性(honesty):是否提供真实信息,并在必要时表达其不确定性以避免误导人类用户,一个提供虚假信息的模型是不诚实的。

无害性(harmlessness):是否不会对人类造成伤害,一个产生仇恨言论或提倡暴力的模型不是无害的。

基于HHH对齐标准,研究人员使用众包平台Amazon Mechanical Turk对模型生成结果进行人工评估。

文中提出的两个模型分别在GPT-4和GPT-3生成的数据上进行了微调,可以看到LLaMA-GPT4以51.2%的占比在帮助性上要大大优于在GPT-3上微调的Alpaca(19.74%),而在诚实性和 无害性标准下,则基本处于平局状态,GPT-3要略胜一筹。

在和原版GPT-4对比时,可以发现二者在三个标准上也是相当一致的,即GPT-4指令调优后的LLaMA表现与原始的GPT-4类似。

GPT-4自动评估

受 Vicuna 的启发,研究人员也选择用GPT-4来评估不同聊天机器人模型对80个未见过的问题所生成回答的质量,从 LLaMA-GPT-4(7B)和 GPT-4模型中收集回复,并从以前的研究中获得其他模型的答案,然后要求GPT-4对两个模型之间的回复质量进行评分,评分范围从1到10,并将结果与其他强竞争模型(ChatGPT 和 GPT-4)进行比较。

评估结果显示,反馈数据和奖励模型对提高 LLaMA 的性能是有效的;用GPT-4对LLaMA进行指令调优,往往比用text-davinci-003调优(即Alpaca)和不调优(即LLaMA)的性能更高;7B LLaMA GPT4的性能超过了13B Alpaca和LLaMA,但和GPT-4等大型商业聊天机器人相比,仍有差距。

进一步研究中文聊天机器人的性能时,首先使用GPT-4将聊天机器人的问题也从英文翻译成中文,用GPT-4获得答案,可以得到两个有趣的观察结果:

1. 可以发现GPT-4评价的相对分数指标是相当一致的,无论是在不同的对手模型(即ChatGPT或GPT-4)和语言(即英语或中文)方面。

2. 仅就GPT-4的结果而言,翻译后的回复比中文生成的回复表现得更好,可能是因为GPT-4是在比中文更丰富的英文语料库中训练的,所以具有更强的英文instruction-following能力。

非自然指令评估(Unnatural Instruction Evaluation)

从平均ROUGE-L得分来看,Alpaca优于LLaMA-GPT 4和GPT-4,可以注意到,LLaMA-GPT4和GPT4在ground truth回复长度增加时逐渐表现得更好,最终在长度超过4时表现出更高的性能,意味着当场景更具创造性时,可以更好地遵循指令。

在不同的子集中,LLaMA-GPT4跟GPT-4的行为相差无几;当序列长度较短时,LLaMA-GPT4和GPT-4都能生成包含简单的基本事实答案的回复,但会增加额外的词语,使回复更像聊天,可能会导致ROUGE-L得分降低。

参考资料:

https://arxiv.org/pdf/2304.03277.pdf

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
ChatGPT重磅升级:可以看图、说话,几秒钟制作出逼真的合成语音!..
每经编辑:杜宇据OpenAI官网9月25日消息,OpenAI宣布在接下来的两周内,..
爆火!能写代码、会作诗,ChatGPT真的那么神?中国版即将面世→..
最近两个人工智能系统彻底火出了圈成为许多网友热议的焦点一个是冷酷无情..
微软崔宏禹:GPT-4以后,不建议再用微调进行特定领域的模型适配..
·我想引用管理学大师德鲁克先生的一句话,动荡时代的最大风险不是动荡本..
最快下月!最强语言模型GPT-4发布在即?CEO暗示:已通过图灵测试..
编辑:Cris【新智元导读】千呼万唤始出来!GPT-4,真要来了?作为史上最..
利用ChatGPT生成有趣的聊天机器人来陪你聊天#机器人
当今社会人们越来越需求,人工智能技术来满足各种,与此同时聊天机器人也..
OpenAI 投资者考虑在首席执行官突然被解雇后对公司董事会采取法律行动..
站长之家(ChinaZ.com) 11 月 21 日消息:根据熟悉此事的消息人士周一向路..
GPT-4是什么?会取代程序员吗?
北京时间3月15日,此前研发了ChatGPT的OpenAI公司,发布了新一代语言模型..
卖一张电话卡能赚200元?当心!这种行为可能触犯“帮信罪”..
出租、出售或出借自己的银行卡、电话卡、互联网账户就能轻轻松松获取高额..
小冰CEO李笛:别神话ChatGPT,创业公司还玩不转
技术重要,人更重要。文|《中国企业家》记者 闫俊文编辑|李薇头图来源..
关于作者
锦阳(普通会员)
文章
594
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40351 企业收录2981 印章生成211215 电子证书906 电子名片56 自媒体32260

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索