> 自媒体 > (AI)人工智能 > GPT-4就是冲着赚钱来的!
GPT-4就是冲着赚钱来的!
来源:虎嗅APP
2023-04-23 15:19:41
309
管理

OpenAI展示的GPT-4通过草稿笔记自动生成的网站

不过,目前OpenAI在ChatGPT Plus中开放出来的的GPT-4尚不支持识图功能。

在语言理解方面,GPT-4似乎并没有完全解决饱受诟病的ChatGPT胡编乱造的问题。但是OpenAI官方给出的信息是:GPT-4 相对于早期的模型已经减轻了幻觉问题,经过多次迭代和改进后,它在 OpenAI 的内部对抗性真实性评估中得分比最新的 GPT-3.5 模型高 40%。

对此,笔者利用ChatGPT Plus的GPT-4通道对“胡编乱造”的问题进行了一个“小测验”。尝试向GPT-4提出了几个类似“林黛玉倒拔垂杨柳”这类的关于文学名著中人物的杜撰故事。

与GPT-3.5一样,GPT-4仍然从容地为笔者编造了“林黛玉倒拔垂杨垂杨柳”“鲁智深败走麦城”等故事。但当笔者向它提出“贾宝玉辕门射戟”,以及混淆希腊神话中的“酒神”与盗天火的普罗米修斯时。GPT-3.5顺着笔者提供的故事继续编了下去,而GPT-4则指出了笔者的错误。

在九类内部对抗性设计的事实评估中,我们将 GPT-4(绿色)与前三个 ChatGPT 版本进行了比较。所有主题都有显着的收获。准确度为 1.0 意味着模型的答案被判断为与评估中所有问题的人类理想回答一致。

“GPT-4可以说是工程的胜利,”AI应用DrawThings开发者Liu Liu认为,从目前的论文和展示来看GPT-4可以说是符合业内人士的预期,也就是human level intelligence with a lot of caveats(加了很多限制条件的人类水平的智能)。不过,大众对GPT-4的预期可能更高。

“GPT-4目前可以说是具备了基本的推理能力和逻辑能力。但是应该还不能处理复杂问题,或者我们不知道怎么给prompt(提示词)。所以现在还只是一个知识特别丰富,但是只有基本推理逻辑能力的AI。”Liu Liu解释说,这里的复杂推理能力,可以简单理解为“玩星际争霸2或者Dota2”这样的复杂任务。

对此,牛津大学计算机学院院长迈克尔·伍尔德里奇教授认为,LLM(大型语言模型)在涉及语言问题时表现的通用能力很强,但它并不是AGI。它只是为了执行特定的、狭隘领域的任务而构建和优化的软件组合。我们需要更多的研究和技术进步才能实现AGI。

“它不存在于现实世界中,也无法理解我们的世界。”在一次采访中,伍尔德里奇教授给虎嗅举了这样一个例子,如果你现在开始与ChatGPT进行对话,说完一句之后就去度假了。当你出游一周回来时,ChatGPT仍然在那里耐心地等待你输入下一个内容,它不会意识到时间已经过去或者世界发生了哪些变化。

商业化能力再提升,GPT-4能去赚钱了?

“GPT-4已经突破了落地的问题,采用云的方式,用的人越多,成本越低。”云舟集成电路创始人兼CEO赵豪杰认为,GPT-3会更偏向NLP,而GPT-4在各方面的能力都更强一些。他给虎嗅举了这样一个例子,GPT-3就像初中生,还不能出来工作赚钱,GPT-4应该已经职校毕业,可以上班赚钱了。

GPT-4的能力虽然在很多现实场景中不如人类,但在各种专业和学术基准测试中表现出了与人类相当的水平。不管怎么说,GPT-4确实在商业化上更进一步了。

GPT-4和GPT-3.5的部分考试成绩

在此之前,ChatGPT以及GPT-3在专业领域的表现一直被人们认为差强人意,在美国的律师资格考试Uniform Bar Exam (MBE MEE MPT)中,GPT-4的成绩甚至可以排到前10%,而GPT-3.5只能排在倒数10%。GPT-4在专业领域的能力实现了巨大提升,在一些专业领域已经开始逐渐接近甚至超过人类,这给GPT-4在很多ToB商业领域提供了更多可能性。

例如,专业技能辅助工具,知识检索类的应用,职业教培辅导等领域,GPT-4的能力将是革命性的。

对于GPT-4在专业技能上的突破,如果再进一步思考,或许未来人类的职业技能,将被AI重构。而在教育和技能培训方面,或许现在就该开始思考,哪些技能AI无法取代,我们应该学习什么知识和技能,以保持身为“人类”的不可替代性。

相比于GPT-3和GPT-3.5,GPT-4的智力更强,更不易出错,这显然有利于商业落地,而新增的图片识别功能则给OpenAI找到了更多的应用场景。

GPT-4能够基于视觉信息做逻辑推理,不仅告诉用户眼前发生了什么,更能说出发生的事代表了什么。目前,OpenAI已经给GPT-4找到了一个社会价值非常高的应用场景——助残。

BeMyEyes 是一家总部位于丹麦的公司,他们致力于在日常生活中帮助视障人群。BeMyEyes的基础功能是在App中招募,通过链接志愿者和视障人士,为他们提供“视力”帮助。

OpenAI 此次公布GPT-4时,也公布了他们和BeMyEyes的密切合作,通过GPT-4的多模态识别功能,为视障人士提供更便捷的“虚拟志愿者”(Be My Eyes Virtual Volunteer™)。用户可以通过该应用程序将图像发送给给予GPT-4的“虚拟志愿者”, AI将为各种任务提供即时识别、解释和对话式的“视力”帮助。

目前该功能正处于封闭测试阶段,预计将在接下来的几周内扩大 Beta 测试人员群体,并有希望在未来几个月内广泛提供虚拟志愿者。该应用在中国App Store亦可下载中文版本,目前也已经开放了公测排队。Be My Eyes声称“该工具将对所有使用 Be My Eyes 应用程序的盲人和低视力社区成员免费。”

“真正的多模态大模型还没有来,期待GPT-4.5和GPT-5,还会在多模态上有很大进展。”源码资本执行董事陈润泽告诉虎嗅,多模态大模型还有很大发展空间,未来也会带来更多的应用场景。

虽然GPT-4大幅拓宽了大模型可能落地的商业化场景。但算力、研发成本,仍被很多人认为是大模型落地过程中很难跨过的障碍。毕竟大模型的研发、算力支出在目前看来高的吓人,此前ChatGPT公开的单次训练、日常运营开支都是以百万美元为单位的,短期内想要商用可能很难控制成本。

不过,陈巍认为,在商业化方面GPT-4更容易落地。成本是否更高要看多方面因素,GPT-4总的固定研发成本(含预训练模型的训练成本,不是增量成本)高于ChatGPT,但可以看到OpenAI已将GPT-4开放在ChatGPT Plus生产环境中,因此不排除GPT-4模型运行成本更低的可能。

在NLP研究领域,专家们一直在尝试不依赖大算力来进行LLM训练,但目前还没有特别好的解决方案。从仿生学上来看,人脑本身是不需要依赖非常大量算力进行学习的,因此随着脑科学技术研究的深入,未来应该会有一种技术替代现在的暴力训练方式。但是即便不考虑训练,大算力确实会给模型的部署应用带来更好的性能提升。

陈巍认为,存算一体(CIM)架构或类脑架构(并不特指SNN架构),或者两者的异构结合,这两类架构都更接近人脑的逻辑结构,可以有效的提升有效的训练算力,给AI训练和研发提供更高效的算力工具。(当然并不排斥这两者与现有CPU或GPU技术的异构整合)

事实上,OpenAI的大模型在成本方面正在以肉眼可见的速度下降。3月1日,ChatGPT刚刚公布开放API时,即已声明成本比最初降低了90%。目前,已公开的GPT-4的API价格则大概是纯文本输入每1k个prompt token定价0.03美元,每1k个completion token定价0.06美元。默认速率限制为每分钟40k个token和每分钟200个请求。对此,赵豪杰表示:“GPT-4已经突破了落地的问题,采用云的方式,用的人越多,成本越低。”

除了成本,利润也是非常关键的,陈润泽认为,OpenAI在GPT-4的论文中用了大量篇幅讲述他们在安全可控方面的努力。“GPT-4(launch)做了更好的安全约束。技术的进步是多要素综合,利润也会与之一起驱动商业化落地。”

GPT-4都发了,“中国的OpenAI”们路在何方

“各家模型之间没有明显可比性,他们的区别主要在于投入市场的节奏,以及用户数量。”伍尔德里奇教授认为,OpenAI的大模型从技术上来讲,优势并没有那么夸张。相对于其他产品来说,只是问世更早而已。然而,正是因为比其他产品更早投入市场,也意味着它比其他人获得了更多的用户,以及反馈数据。

GPT-4发布之后,OpenAI在产品上又领先了全球一步。在国内追赶ChatGPT的队伍中,百度的文心一言或许是最接近的,目前已经官宣了3月16日发布,然而GPT-4又比百度早发一天,从这方面上看,重压之下,国内厂商追赶OpenAI看起来也越发困难了。

不过,对于中国的大型语言模型市场,多数专家认为,中文实际上是“原发”劣势。基于中文的模型与英文模型差别很大,中文互联网的复杂程度远高于英文,而且数据、信息量也更大,这使得语料收集、建模、训练,都要比英文困难很多。“中文本来就难,不过在中文大模型这方面,先不管好不好用,必须要有。”赵豪杰对虎嗅如是说。

“GPT-4和ChatGPT都是AI技术进步道路上的短暂风景。包括开源社区也在推进OpenAssitant等类ChatGPT开源模型。”陈巍表示,“我们提倡的思路是,产业界参考OpenAI的路线迅速追击,勤劳的同胞可在垂域上做出更好的细分领域模型;学术界则尝试更高效率的训练方法或更高性能的模型结构,尝试找到暴力训练之外的路径。”

目前看大模型和算力芯片已经成为AI产业发展的两个主驱动轮,两个都要持续投入和推进才能获得更好的产业地位和战略优势。

OpenAI在发布GPT-4的同时,还公布了一项有意思的开源。即用于评测大语言模型的OpenAI Evals框架,该框架可以通过数据集自动生成提示(Prompt),评估模型生成的回答/补全(completion)的质量,比较不同数据集或模型的性能。

“这类评测框架在各NLP企业中一直存在,但较少开放。”陈巍对虎嗅表示,OpenAI这一举措可能有助于NLP领域建立起统一的LLM评测标准,可能节约小企业建立评测体系和训练数据集的时间和成本。

不过,陈巍同时提示,有一点需要注意,就是在Evals的免责声明(Disclaimer)中,OpenAI 保留在其未来产品中使用这些Evals用户上传的数据的权利。

正在改变与想要改变世界的人,都在 虎嗅APP

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
10万出头买家用代步小车,选宝骏云朵,还是欧拉好猫?..
五菱汽车的电动车阵容正在不断壮大,继缤果、悦也之后,近日又带来了宝骏..
深蓝G318亏电油耗实测,5米多的四驱方盒子SUV,这油耗怎么样?..
一台5米多的方盒子SUV,到底油耗会多高?基本上很多朋友都会答,至少10升..
价格战后,汽车业开始“卷”高管
里斯品类创新战略咨询中国区合伙人何松松图/IC《财经》:“一号位”有职..
不愧是大众的旗舰轿车,速腾的销量依旧坚挺,鹤立鸡群..
速腾,一款销量很高,知名度很高的家用车,在合资品牌中有着不错的竞争力..
北京:汽车以旧换新细则公布!申请时间截至
5月31日,北京市商务局等8部门发布《2024年北京市汽车以旧换新补贴实施细..
外媒:日本丰田汽车面临车辆认证违规指控,多部门展开调查..
来源:环球网 【环球网科技综合报道】6月3日,据路透社等媒体消息,日本..
新能源汽车到底值不值得买?没这条件买了就后悔,都是真心话..
新能源车到底值不值得买?其实只要看一个条件就行了,如果你没有这一个条..
最后倔强!丰田、斯巴鲁、马自达抱团取暖,榨干内燃机最后的价值..
无论是去年的东京车展,抑或今年的北京车展,日系在电动化上的布局稍显迟..
速览!5月汽车圈31件大事要闻 | 车事月报
来源:【中国汽车报】国际风云1.法国财长:若比亚迪在法建厂,将非常欢迎..
关于作者
兰花草(普通会员)
文章
705
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40378 企业收录2981 印章生成225173 电子证书981 电子名片58 自媒体40120

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索