> 自媒体 > (AI)人工智能 > ChatGPT真的独霸天下无所不能吗?看看它的技术、缺陷与合规
ChatGPT真的独霸天下无所不能吗?看看它的技术、缺陷与合规
来源:董希淼
2023-04-29 16:23:38
706
管理

祝世虎(人工智能博士)

(二)智能涌现:人工智能的厚积薄发

最初的 GPT 模型是在 2018 年提出的,模型参数只有 1.17 亿;2019 年的时候 GPT-2 模型参数是 15 亿;到了 2020 年 GPT-3 模型参数达到了 1750 亿;通过几代的模型更新迭代,到 2022 年能力超群的ChatGPT横空出世,这就体现了大型语言模型的涌现能力(Emergent Abilities of Large Language Models),其涌现主要来自于三方面的积累:

一是,技术积累。不断试错直到成功,就是技术的积累。在不断的探索中,形成了ChatGPT技术的三步走方案:第一步,真实客户输入文字的监督学习技术;第二步,reward模型的奖励与评价技术;第三步,基于人类反馈的强化学习技术,使得生成内容与使用者对齐,不同的人获得适合各自的回答。

看似合理的几步路径,其中蕴含着大量的技术积累。在工程师们成功解决这个“端到端的大任务”的时候,实际上已经从技术层面解决了至少四个人工智能专业任务:创造性任务、少数标注或零标注任务、知识密集型任务、数据集外泛化任务。

二是,知识积累。知识的积累得益于数字化的内容的爆发式增长,期间数据的清洗标注、模型训练都是在积累知识。知识积累也体现在参数的数量上,ChatGPT的模型参数高达1750亿,百度的文心一言模型参数高达2600亿,二者参数基本在一个数量级上,其训练成本极其昂贵,GPT3.0离线训练成本高达1200万美元,大模型重新训练成本达400万美元。

三是,理念坚持。这也是工程师们对初心的坚持。在NLP领域中,深度学习模型逐渐失效;GPT1采用了自回归语言模型路线,随后BERT采用了双向语言模型路线,并且当时的效果优于GPT;直到GPT3出现,优势开始体现出来。所以有资深专家认为,GPT3不仅仅是技术,更是AI模型发展的新理念。

我是同意这种观点的,那么这种AI理念究竟是什么?我尝试解释一下,一是对AGI的架构设想的坚持,二是对LLM通往AGI道路的坚持,三是来自于工程师们对未来“人与AI分工的设想”的坚持,如果这是一道选择题:在人与AI共同写作文的时候,人与AI的分工究竟是?BERT技术路线是:人提供作文框架,AI受框架限制填写内容。GPT的技术路线是:人来命题,AI不受约束的开放式作答。

所以,对于BERT和GPT之争,他们只是各有所长,在开放式的领域GPT有其天然优势,但是在垂直场景与受控领域,只要坚持下去,BERT也会脱颖而出的。

3、智能缺陷:感知智能而非决策智能

从前述ChatGPT的算法不难看出,通过文本语言等训练的模型,其智能类型是受限的,可见ChatGPT只不过是一种感知智能,是局限在文字语言领域的感知智能,不是决策智能,更不是计算智能。

智能缺陷就是ChatGPT的使用边界。作为风险老兵,在风险领域举例如下:例如,在金融机构中,ChatGPT不是决策智能,不宜用于风险决策;ChatGPT不是计算智能,不宜用于资本计量;ChatGPT是语言领域的感知智能,可以以文字助手的身份嵌入大部分和文本相关的工作。

4、技术缺陷:人工智能算法的固有缺陷

ChatGPT作为一种人工智能算法,无法避免传统的人工智能算法一些固有缺陷。

一是,算法黑箱。由于算法模型的黑箱运作机制,其运行规律和因果逻辑并不会显而易见地摆在用户面前。

二是,算法的鲁棒性。算法运行容易受到数据、模型、训练方法等因素干扰,出现非鲁棒特征。

三是,算法歧视。算法以数据为原料,如果初始使用的是有偏见的数据,无形中会导致生成的内容存在偏见或歧视,引发用户对于算法的公平性争议。

5、数据安全缺陷:多个环节存在合规问题

我们整体分析一下ChatGPT与用户数据交互的全过程以及存在的可能的风险与合规瑕疵。

一是,在个人信息收集阶段,当用户在使用ChatGPT时,可能会输入自己的个人数据,但《个人信息保护法》强调单独授权。

二是,在个人数据的加工使用阶段,ChatGPT使用了RLHF的训练方法,用户使用过程中的输入和交互信息可能会用于其持续迭代训练,进一步被用于为其他用户提供服务,可能构成数据共享,这时已与用户初最初使用目的相悖,根据《个人信息保护法》需要重新授权。

三是,训练数据的获取。ChatGPT如果通过抓取互联网上的信息获得训练数据,可能存在合规问题。

四是,数据泄漏。用户在使用过程中输入个信息,以及企业用户输入的各类工作相关信息,可能导致敏感信息泄露。

五是,算法缺陷导致数据主体行权困难。ChatGPT的算法黑箱与算法复杂性导致数据主体的基本权利,如更改权、删除权、访问权等行权困难。

(二)合规底线

1、相关法规:技术与内容并重

我国已经形成由《网络信息内容生态治理规定》《网络数据安全管理条例(征求意见稿)》《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定(征求意见稿)》等政策法规形成的法律体系,对 ChatGPT从技术角度和内容角度进行了约束。

2、行业自律:伦理先行

国家新一代人工智能治理专业委员会亦在2021年发布了《新一代人工智能伦理规范》,提出将伦理道德融入人工智能研发和应用的全生命周期。《中国关于加强人工智能伦理治理的立场文件》中明确写到,人工智能治理应坚持伦理先行,通过制度建设、风险管控、协同共治等推进人工智能伦理监管;应加强自我约束,提高人工智能在研发过程中的算法安全与数据质量,减少偏见歧视;应提倡负责任使用人工智能,避免误用、滥用及恶用,加强公众宣传教育。

3、企业治理:积极履行社会职责

《关于加强互联网信息服务算法综合治理的指导意见》明确提出强化企业主体责任。所以,ChatGPT的供应商应构建完善的算法与模型的管理能力,切实防范发展过程中的各项风险。(来自公众号:九卦金融圈。本文为作者观点,不代表本头条号立场。)

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
吴月(普通会员)
文章
881
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40394 企业收录2981 印章生成234299 电子证书1033 电子名片60 自媒体46877

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索