研究发现：在人为干预之下，GPT-4模型的种族主义偏见变得更隐秘-脚本导航

> 自媒体 > （AI）人工智能 > 研究发现：在人为干预之下，GPT-4模型的种族主义偏见变得更隐秘

研究发现：在人为干预之下，GPT-4模型的种族主义偏见变得更隐秘

来源：DeepTech深科技

2025-02-06 15:15:57

264

管理

自从像 ChatGPT 这样的大型语言模型诞生以来，人们就发现它们存在种族主义。这是因为它们的训练数据中包含这些观点，而开发人员的应对策略是试图降低它们的毒性。

但新的研究表明，随着模型越来越大，这些努力只会遏制显性的种族主义观点，同时让隐性的刻板印象变得更强、更隐蔽。

图 | 绿色框是标准英语，紫色框是黑人英语（来源：资料图）

一个更值得注意的发现是，该研究指出了现有的此类偏见的解决方式存在一个缺陷。

为了清除模型中的仇恨观点，OpenAI、Meta 和谷歌等公司会在训练过程中引入人类反馈，让人类工作者手动调整模型对某些提示的反应方式。

这个过程通常被称为“对齐”，旨在重新校准神经网络中的数百万个连接，并使模型更好地符合人类所期望的价值观。

这种方法很好地打击了常见的刻板印象，很多公司已经使用了近十年。例如，该论文指出，如果用户让 GPT-2 说出对黑人的刻板印象，它很可能会列出“可疑”，“激进”和“攻击性”，但 GPT-4 不会再做出与这些联想有关的回应。

然而，该方法未能解决使用黑人英语时引发的隐性刻板印象。相关论文以预印本的形式发表在 arXiv 上，尚未经过同行评审。研究人员认为，部分原因是公司对“方言或俚语偏见”这一问题的认识不足。

从指导模型的角度而言，使其不回应显性的种族问题，显然比不回应俚语或方言中包含的隐性偏见更容易。

艾伦人工智能研究所研究员、该论文的合著者瓦伦丁·霍夫曼（Valentin Hofmann）说：“人类的反馈教会模型考虑种族主义。但俚语偏见存在于更深的层次。”

没有参与这项研究的 Hugging Face 伦理研究员阿维吉特·戈什（Avijit Ghosh）表示，这一发现让人对公司解决偏见的方法产生了质疑。

他说：“这种对齐方式，即让模型拒绝生成种族主义的输出内容，只不过是一个脆弱的过滤器，很容易被打破。”

研究人员发现，随着模型尺寸的增加，隐性的刻板印象也会增强。这一发现为 OpenAI、Meta 和谷歌等聊天机器人开发商发出了潜在警告，因为他们正在竞相发布越来越大的模型。

随着训练数据量和参数数量的增加，模型通常会变得更加强大和富有表现力。但如果隐性种族偏见被放大了，公司将需要开发更好的工具来对抗它。

目前尚不清楚在训练数据中添加更多的黑人英语，或者提升反馈工作的质量是否能够减轻这一问题。

美国斯坦福大学博士生、该研究的合著者普拉秋莎·里亚·卡鲁里（Pratyusha Ria Kalluri）说：“这揭示了公司在多大程度上是盲目的，它们只是在试图打击记者或论文在最近报道中提及偏见。隐性偏见就是一个很好的例子。”

该论文的作者使用了特别极端的例子来说明种族偏见的潜在影响，比如要求人工智能决定是否应该判处被告死刑。

但是，戈什指出今天我们已经让人工智能模型帮助我们做出关键决策了，这并非小说或电影里的情节。但是这种用法是值得商榷的。

在美国，评估庇护案件时会使用人工智能翻译工具，还有一些犯罪预测软件，被用于判断青少年是否应该获得缓刑。

使用 ChatGPT 筛选工作申请的雇主，可能会基于种族和性别歧视候选人的名字。如果他们使用模型来分析申请人在社交媒体上写的东西，对黑人英语的偏见可能会导致误判。

戈什说：“论文作者低调地表示，他们让大语言模型挑选工作申请人或判断刑事案件的用例只是演示。但我想说，他们想到的东西切中了要害。”

支持：Ren

运营/排版：何晨龙

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

讯飞星火4.0 Turbo正式发布！七大能力全面超GPT-4

OpenAI给GPT-4搞可解释，提取了1600万个特征，还能看它怎么想

相关文章

法拉利电动SUV在国内上路了？原来是民间大神的“阿维法”..

什么！法拉利首款纯电SUV来了？而且还在国内各个城市里无任何伪装曝光上..

新车 | 售价498.8万元起，法拉利Purosangue实拍，配6.5升V12发动机..

文：懂车帝原创高帅鹏[懂车帝原创产品] 日前，法拉利Purosangue实车到..

新车 | 售价49.9-57.8万欧元，搭载V12动力，法拉利812特别版发布..

文：懂车帝原创史景旭/潘梓春[懂车帝原创产品] 5月5日，法拉利812特别..

目前最便宜的法拉利，试驾法拉利Roma，它真的是\u0026#34;弱鸡\u0026#34;吗..

文：孙少爷说到法拉利，我相信大家的脑海里肯定会最先想到的就是他们的F1..

血脉传承，新王当立！法拉利全新旗舰公路超跑F80

位于三翼面前翼下方有主动式反向襟翼设计，它的开闭状态来控制车身前部的..

比高铁开的还快？上赛场试驾法拉利全系车型

好吧，我承认，当领导在微信上问“有个法拉利的试驾，你去不去？”的时候..

新车 | 海外售价约273万元起，法拉利SUV实车亮相，国内或10月上市..

文：懂车帝原创高帅鹏[懂车帝原创产品] 在9月14日官图发布后，法拉利全..

只要88万就能买一辆11款法拉利458，真有这种好事？

哈喽，大家好~检车家老司机又和大家见面了！我是体重180，身高180，穿着..

试驾玛莎拉蒂Levante：搭3.8T V8法拉利引擎，超帅、超拉风..

【有车以后有车试驾】作为意大利的超豪华品牌，有着跑车血统的玛莎拉蒂..

关于作者

巫月(普通会员)

文章

881

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

DeepSeek 究竟是个啥？一文带你看明白

1个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40398 企业收录2981 印章生成236949 电子证书1051 电子名片60 自媒体48699

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索