鱼羊 萧箫 发自 凹非寺量子位 | 公众号 QbitAI
就在刚刚,文心大模型4.0版本正式发布!
北京首钢园现场,李彦宏直接放话:
文心大模型4.0综合水平与GPT-4相比已经毫不逊色。
话不多说,一起来看现场演示效果。
先来段倒装prompt:
我想回承德买房,能用公积金贷款吗?手续怎么办?我在北京工作。
不仅关键信息“北京工作”放在了最后,公积金具体是在哪里交的也没有明示。
但新版文心一言完全没有被这些小陷阱坑到,顺利给出了正确答案。
生成方面,当场剪出一整段数字人口播视频,毫不费劲:
文心大模型4.0的回答很简洁,直接给出答案。
这一次双方打了个平手。
那么视频生成呢?这里我们调用一下文心大模型4.0的自带插件,本想着只是生成一段落叶剪辑,没想到连文案和字幕语音都配好了,完成度很高那种:
逻辑能力然后,就到了我们喜闻乐见的数学计算 逻辑推理能力测试了。
文心大模型4.0说是重点升级了数学计算能力,我们也不客气,直接上难倒一片大模型的Old McDonald问题:
在Old McDonald的农场里养着一匹马、两头牛和三只羊。请问农场还需要再养多少头牛,才能使得所有动物的总数量恰好是牛的总数量的两倍?
文心大模型4.0一口气列出了4个未知数(doge),但解题过程还是比较严谨的,最终答案也没有问题。
此前,我们曾将这个问题喂给Claude、ChatGPT等一众大模型,“横向评测”过一波它们的数学能力,当时只有GPT-4能做出来。
看起来双方的数学、逻辑都不错,点个赞。
记忆能力大语言模型公认的评判标准之一,是多轮对话能力。GPT-4的多轮对话已经有不少测试了,我们再来简单看看文心大模型4.0的效果。
先来解读一下长论文,没什么问题:
以这个为主题写一首诗歌,顺便让它改成英文,也能hold住:
最后再来提问一下诗歌中用到的Transformer知识点,并挑出其中的某个知识点要求解释原理,也信手拈来:
看来无论是长文本解读、还是多轮对话,可以说都是难不倒文心大模型4.0了。
附加题正经测试完毕,咱们最后整点乐子(doge)。
这段时间,一道神奇的考题又被拎出来,在小红书等社交媒体上“难倒众人”,题面是这样的:
根据中华人民共和国婚姻法,以下谁能结婚?
A、林黛玉和贾宝玉
B、贾琏和尤二姐
C、杨过和小龙女
D、张起灵和吴邪
乍一眼还真看不出答案,不如交给文心大模型4.0和GPT-4回答试试。
文心大模型4.0给出的回答算是有理有据,虽然细看仍有一点bug,但整体问题不大。
所以,文心一言背后的文心大模型4.0,究竟是怎么炼成的?
据王海峰表示,核心架构虽然还是从文心大模型3.0和3.5一脉相承,包括最初3.0的有监督精调、基于人类反馈的强化学习,以及3.5的知识点增强、逻辑推理增强、插件机制等。
但文心大模型4.0的技术改进,可以直接用三个“更”来总结:
更大的算力、更多的数据、更强的算法。
训练上,目前飞桨平台已经能在万卡算力上运行,基于集群基础设施、调度系统、软硬件协同优化,支持大规模稳定高效训练;同时,基于可再生训练技术中的增量式参数调优,来节省训练资源和时间。
基于这套技术,自3月份以来,文心大模型系列训练算法已经累计提效3.6倍,周均训练稳定有效率超过98%:
数据上,团队建设了一套多维数据体系,从数据挖掘、分析、合成标注和到评估,形成了一整套“流水线”,来进一步提升模型训练效果。
算法上,则基于有监督、精调、偏好学习和强化学习等技术,进行了多阶段的对齐,确保大模型能更好地与人类判断和选择进行对齐。
在这其中,有两方面很关键的技术细节。
一方面是知识点增强的能力。
过去大模型可能只在一个阶段做知识点增强,但现在百度在输入和输出两方面同时进行了知识点增强。
输入先用知识点增强,对用户输入的问题进行理解,拆解出回答问题所需知识点,基于搜索引擎、知识图谱、数据库查找知识,生成第一遍结果;
输出再用知识点增强,对第一遍生成的结果进行分析,并用搜索引擎、知识图谱、数据库进行“double check”,对其中有差错的地方进行修正。
另一方面是智能体机制。
《思考,快与慢》这本书中,将认知系统分成系统1(反应快但易出错)、系统2(反应慢但更理性准确)。
根据这个原理,百度在大模型基础上,进一步研制了系统2。
也就是说,相比大模型直接给出答案,现在进一步让它学会理解、规划、反思和进化,这样大模型执行就能更可靠、甚至完成自我进化,思考过程“白盒化”。
这两大技术细节,也造就了文心大模型4.0水平的飞速提升,甚至光是过去一个月的时间里,就提升了30%。
AI原生时代大幕开启为什么这么说?李彦宏在百度世界大会现场分享时强调:
大模型带来的智能涌现,是开发AI原生应用的基础。同样,没有构建于基础模型之上的丰富的AI原生应用,基础模型就没有任何价值。
无独有偶,红杉资本在《生成式AI进入第二阶段》中同样认为,生成式AI市场正在进入“第二幕”:
炒作和快速展示正在为真正的价值和完整的产品体验所取代。
底层的逻辑其实很简单:底层技术的重要性毋庸置疑,但前沿技术想要真正在人们的生活中创造价值,还是需要通过应用的形式。
如果说,大模型掀起的是人机交互方式变革的风暴,那么AI原生应用,正是纯自然语言交互的具体体现形式。
正如百度现场所演示的,数据分析现在可以是酱婶的——
直接对任意数据提问,AI分分钟就能展开具体分析,不再需要人工跨数据库、跨表格分析。
比如在地图指挥AI订餐厅。
百度此番出手,可以说是直接展示了一把大模型全方位的应用渗透,揭开了AI原生时代大幕的一角。
而百度“第一个把全部产品用大模型重做一遍”的先手优势,也已经在更大范围内开始显现。
李彦宏透露,百度的大模型技术已经应用在制造、能源、电力、化工、交通等实体产业中,17000家企业已参与其中,大模型正在成为新型工业化的重要推动力。
从3月份文心一言发布,到年中文心大模型3.5版本更新,再到现在4.0惊艳亮相,百度文心大模型的迭代速度不可谓不迅速。
这背后既是国产大模型从技术demo到落地应用的激烈竞争,也再一次体现了百度在大模型领域深厚的技术积累。
并且随着文心大模型4.0和百度一众AI原生应用的亮相,大模型赛场上新一阶段的竞争方向愈发明显。
正如李彦宏所说:
我们即将进入一个AI原生的时代。一个人机通过prompt交互的时代。
在此过程之中,无论是国产大模型基础能力的快速追赶,还是AI原生应用开发的主动进击,都令人心潮澎湃。
AI原生时代,在各种层面上,都越来越值得期待了。
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
相关文章
猜你喜欢