> 自媒体 > (AI)人工智能 > 0.2美元微调就能让ChatGPT彻底破防!
0.2美元微调就能让ChatGPT彻底破防!
来源:新智元
2023-10-15 13:43:18
513
管理

编辑:LRS

【新智元导读】微调LLM需谨慎,用良性数据、微调后角色扮演等都会破坏LLM对齐性能!学习调大了还会继续提高风险!

虽说预训练语言模型可以在零样本(zero-shot)设置下,对新任务实现非常好的泛化性能,但在现实应用时,往往还需要针对特定用例对模型进行微调。

不过,微调后的模型安全性如何?是否会遗忘之前接受的对齐训练吗?面向用户时是否会输出有害内容?

提供LLM服务的厂商也需要考虑到,当给终端用户开放模型微调权限后,安全性是否会下降?

最近,普林斯顿大学、IBM、斯坦福等机构通过red team实验证明,只需要几个恶意样本即可大幅降低预训练模型的安全性,甚至普通用户的微调也会影响模型的安全性。

论文链接:https://arxiv.org/pdf/2310.03693.pdf

以GPT-3.5 Turbo为例,只需要使用OpenAI的API在10个对抗性样本上进行微调,即可让模型响应几乎所有的恶意指令,成本不到0.2美元。

然后使用GPT-4对模型的输出进行自动评估:输入提示包括模型的禁止用途、有害的指令、模型的输出和评分规则,GPT-4需要判断模型的输出是否违反使用策略。

对epoch进行消融实验可以发现,模型的有害性提升对微调轮数不敏感。

经过微调的模型不仅可以轻松地适应给出的有害示例,而且还可以泛化到其他未见过的有害指令。

备注说明

学术界和工业界在指令调整和RLHF方面投入了巨大的努力,以优化GPT-3.5和Llama-2的安全对齐能力,OpenAI最近还承诺将其20%的计算资源用于对齐。

不过攻击结果表明,只需要10个有害样本来微调GPT-3.5 Turbo(消耗不到0.2美元)就能破坏模型的安全机制,现有的RLHF和安全微调方法仍然远远不够。

并且,实验中的攻击并没有触发OpenAI对微调训练数据或其他针对微调 API 实施的安全措施。

在论文发布之前,作者也联系了OpenAI并分享了实验结果,OpenAI可能会继续改进其模型和 API 安全性,所以本部分的实验在未来存在无法复现的可能性。

风险等级-2:使用隐式有害数据集进行微调

对于像GPT-3.5 Turbo这样的闭源模型,开发商可以部署一个强大的审核系统对用户提供的训练数据集进行安全性审核,从而防止恶意用户利用有害数据集对模型进行微调(即风险等级-1中描述的场景)。

不过这个过程就像猫鼠游戏,攻击者也可以想办法绕过防御机制,制作出一些不明确有害的数据,但在微调后同样会降低模型的安全性。

随着微调次数的增多,有害率并不一定会进一步提高,可能是因为过拟合也会损害模型在回答有害回复时的性能。

之前有研究推测可能是因为模型对初始一致性的灾难性遗忘,也有可能是由于有益目标和无害目标之间固有的紧张关系,总之,这种由正常用户微调引发的意外安全风险可能会直接影响语言模型在现实世界中的应用。

备注说明

研究人员认为,意识到微调数据集可能会导致潜在的安全风险是很重要的,从根本上挑战了训练数据适度防御,是未来的关键研究方向。

还可以注意到,GPT-3.5 Turbo在良性微调的情况下,不同危害类别的安全性下降不均匀,不仅仅是由于随机噪声,而是在多个实例中持续出现。

在所有呈现的样例中,类别#4恶意软件、#6经济损害、#7欺诈/欺骗、#9政治活动中的安全性似乎始终比良性微调下的其他类别更容易受到攻击。

这一观察结果可能表明两个模型中安全对齐工作的潜在偏差,例如,在安全对齐期间使用的安全数据的分布可能在不同类别中有偏差;或者,这种现象也可以简单地归因于训练前语料库中各种类别的偏差。

不管真正的原因是什么,研究人员假设,如果能够在未来的对齐工作中巩固那些不太稳健的危害类别,可能能够进一步提高良性微调情况下的整体安全性。

参考资料:

https://arxiv.org/abs/2310.03693

https://twitter.com/xiangyuqi_pton/status/1710794400564224288

https://llm-tuning-safety.github.io/

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
兰花草(普通会员)
文章
591
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索