“不逊色GPT-4”！百度最强大模型发布，我们第一时间实测了一波-脚本导航

> 自媒体 > （AI）人工智能 > “不逊色GPT-4”！百度最强大模型发布，我们第一时间实测了一波

“不逊色GPT-4”！百度最强大模型发布，我们第一时间实测了一波

来源：量子位

2023-10-30 10:48:03

422

管理

鱼羊萧箫发自凹非寺量子位 | 公众号 QbitAI

就在刚刚，文心大模型4.0版本正式发布！

北京首钢园现场，李彦宏直接放话：

文心大模型4.0综合水平与GPT-4相比已经毫不逊色。

话不多说，一起来看现场演示效果。

先来段倒装prompt：

我想回承德买房，能用公积金贷款吗？手续怎么办？我在北京工作。

不仅关键信息“北京工作”放在了最后，公积金具体是在哪里交的也没有明示。

但新版文心一言完全没有被这些小陷阱坑到，顺利给出了正确答案。

生成方面，当场剪出一整段数字人口播视频，毫不费劲：

文心大模型4.0的回答很简洁，直接给出答案。

这一次双方打了个平手。

那么视频生成呢？这里我们调用一下文心大模型4.0的自带插件，本想着只是生成一段落叶剪辑，没想到连文案和字幕语音都配好了，完成度很高那种：

逻辑能力

然后，就到了我们喜闻乐见的数学计算逻辑推理能力测试了。

文心大模型4.0说是重点升级了数学计算能力，我们也不客气，直接上难倒一片大模型的Old McDonald问题：

在Old McDonald的农场里养着一匹马、两头牛和三只羊。请问农场还需要再养多少头牛，才能使得所有动物的总数量恰好是牛的总数量的两倍？

文心大模型4.0一口气列出了4个未知数（doge），但解题过程还是比较严谨的，最终答案也没有问题。

此前，我们曾将这个问题喂给Claude、ChatGPT等一众大模型，“横向评测”过一波它们的数学能力，当时只有GPT-4能做出来。

看起来双方的数学、逻辑都不错，点个赞。

记忆能力

大语言模型公认的评判标准之一，是多轮对话能力。GPT-4的多轮对话已经有不少测试了，我们再来简单看看文心大模型4.0的效果。

先来解读一下长论文，没什么问题：

以这个为主题写一首诗歌，顺便让它改成英文，也能hold住：

最后再来提问一下诗歌中用到的Transformer知识点，并挑出其中的某个知识点要求解释原理，也信手拈来：

看来无论是长文本解读、还是多轮对话，可以说都是难不倒文心大模型4.0了。

附加题

正经测试完毕，咱们最后整点乐子（doge）。

这段时间，一道神奇的考题又被拎出来，在小红书等社交媒体上“难倒众人”，题面是这样的：

根据中华人民共和国婚姻法，以下谁能结婚？

A、林黛玉和贾宝玉

B、贾琏和尤二姐

C、杨过和小龙女

D、张起灵和吴邪

乍一眼还真看不出答案，不如交给文心大模型4.0和GPT-4回答试试。

文心大模型4.0给出的回答算是有理有据，虽然细看仍有一点bug，但整体问题不大。

所以，文心一言背后的文心大模型4.0，究竟是怎么炼成的？

据王海峰表示，核心架构虽然还是从文心大模型3.0和3.5一脉相承，包括最初3.0的有监督精调、基于人类反馈的强化学习，以及3.5的知识点增强、逻辑推理增强、插件机制等。

但文心大模型4.0的技术改进，可以直接用三个“更”来总结：

更大的算力、更多的数据、更强的算法。

训练上，目前飞桨平台已经能在万卡算力上运行，基于集群基础设施、调度系统、软硬件协同优化，支持大规模稳定高效训练；同时，基于可再生训练技术中的增量式参数调优，来节省训练资源和时间。

基于这套技术，自3月份以来，文心大模型系列训练算法已经累计提效3.6倍，周均训练稳定有效率超过98%：

数据上，团队建设了一套多维数据体系，从数据挖掘、分析、合成标注和到评估，形成了一整套“流水线”，来进一步提升模型训练效果。

算法上，则基于有监督、精调、偏好学习和强化学习等技术，进行了多阶段的对齐，确保大模型能更好地与人类判断和选择进行对齐。

在这其中，有两方面很关键的技术细节。

一方面是知识点增强的能力。

过去大模型可能只在一个阶段做知识点增强，但现在百度在输入和输出两方面同时进行了知识点增强。

输入先用知识点增强，对用户输入的问题进行理解，拆解出回答问题所需知识点，基于搜索引擎、知识图谱、数据库查找知识，生成第一遍结果；

输出再用知识点增强，对第一遍生成的结果进行分析，并用搜索引擎、知识图谱、数据库进行“double check”，对其中有差错的地方进行修正。

另一方面是智能体机制。

《思考，快与慢》这本书中，将认知系统分成系统1（反应快但易出错）、系统2（反应慢但更理性准确）。

根据这个原理，百度在大模型基础上，进一步研制了系统2。

也就是说，相比大模型直接给出答案，现在进一步让它学会理解、规划、反思和进化，这样大模型执行就能更可靠、甚至完成自我进化，思考过程“白盒化”。

这两大技术细节，也造就了文心大模型4.0水平的飞速提升，甚至光是过去一个月的时间里，就提升了30%。

AI原生时代大幕开启

为什么这么说？李彦宏在百度世界大会现场分享时强调：

大模型带来的智能涌现，是开发AI原生应用的基础。同样，没有构建于基础模型之上的丰富的AI原生应用，基础模型就没有任何价值。

无独有偶，红杉资本在《生成式AI进入第二阶段》中同样认为，生成式AI市场正在进入“第二幕”：

炒作和快速展示正在为真正的价值和完整的产品体验所取代。

底层的逻辑其实很简单：底层技术的重要性毋庸置疑，但前沿技术想要真正在人们的生活中创造价值，还是需要通过应用的形式。

如果说，大模型掀起的是人机交互方式变革的风暴，那么AI原生应用，正是纯自然语言交互的具体体现形式。

正如百度现场所演示的，数据分析现在可以是酱婶的——

直接对任意数据提问，AI分分钟就能展开具体分析，不再需要人工跨数据库、跨表格分析。

比如在地图指挥AI订餐厅。

百度此番出手，可以说是直接展示了一把大模型全方位的应用渗透，揭开了AI原生时代大幕的一角。

而百度“第一个把全部产品用大模型重做一遍”的先手优势，也已经在更大范围内开始显现。

李彦宏透露，百度的大模型技术已经应用在制造、能源、电力、化工、交通等实体产业中，17000家企业已参与其中，大模型正在成为新型工业化的重要推动力。

从3月份文心一言发布，到年中文心大模型3.5版本更新，再到现在4.0惊艳亮相，百度文心大模型的迭代速度不可谓不迅速。

这背后既是国产大模型从技术demo到落地应用的激烈竞争，也再一次体现了百度在大模型领域深厚的技术积累。

并且随着文心大模型4.0和百度一众AI原生应用的亮相，大模型赛场上新一阶段的竞争方向愈发明显。

正如李彦宏所说：

我们即将进入一个AI原生的时代。一个人机通过prompt交互的时代。

在此过程之中，无论是国产大模型基础能力的快速追赶，还是AI原生应用开发的主动进击，都令人心潮澎湃。

AI原生时代，在各种层面上，都越来越值得期待了。

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

实测文心一言4.0，真的和GPT-4相差无几了吗

2023-10-30 10:49

GPT-4能造芯片了，微软停止Mac版Visual Studio IDE，没啥可担心

2023-10-30 10:45

相关文章

国内首款支持ChatGPT的电话机器人

随着 ChatGPT 的出圈，国内掀起一股ChatGPT 的热潮，那么国内是否有对标..

300余人六大“战队”全被抓！大快人心，成都警方打掉一特大电信网络诈骗集..

近日，四川省公安厅公布一起公安部挂牌督办案例。2023年7月，四川成都武..

ChatGPT的智能还不如猫狗？

小柳建彦：对话式人工智能（AI）正受到广泛关注。在网站上向AI提问时，它..

远超预期！OpenAI预计今年营收13亿美元，开发成本还要降..

在付费版ChatGPT和AI开发工具的加持下，人工智能巨头OpenAI今年营收有望..

北约加大乌克兰军援，“豹”式坦克后将是F-16？特斯拉自动驾驶陷造假疑云；..

每经记者：郑雨航谭玉涵本周，俄乌冲突进一步升级。德国正式决定向乌克..

OpenAI CEO 出席美国参议院听证会，讨论如何更好地监管AI..

最近，谷歌正在全力开发生成式人工智能技术。在其年度 I/O 大会上，该公..

男子与女同事有染，大尺度聊天记录被曝出

婚姻在现代社会中面临着诸多挑战，其中之一是诱惑。随着科技的发展，社交..

微信又添新功能，冲上热搜

微信又双叒更新快看有没有你心心念念的功能↓↓微信iOS版 8.0.30 正式版..

谁在反ChatGPT？

来源：CyberhavenCyberhaven数据显示，在员工直接发给ChatGPT的企业数据..

关于作者

国务院环卫工..(普通会员)

文章

636

关注

0

粉丝

1

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

2023/08/26

标签云

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索