> 自媒体 > (AI)人工智能 > 独家测试:我们收集了几十个问题,而「文心一言」是这么回答的…… | Chat AI
独家测试:我们收集了几十个问题,而「文心一言」是这么回答的…… | Chat AI
来源:36氪
2023-04-21 12:05:29
319
管理

随着ChatGPT登台亮相,从科技从业者,到投资圈,再到普罗大众,越来越多人再次关注到了“过气”的AI,及其所能带来的价值和改变。

商业界也的确源源不断贡献着更多新的素材:OpenAI、微软、Google、Meta、百度、字节、腾讯等大厂,以及众多创业公司,都开始从自己擅长的角度切入竞争……

为了帮助读者能够持续关注由ChatGPT引发的科技圈海啸,36氪推出「Chat AI」栏目,从中立的第三方视角,探索、分析每一次热点背后的商业观点。

文|沈筱、王与桐

编辑 | 石亚琼

3月16号,百度文心一言上线,但是仅仅开放申请。据悉,截至发布会结束当晚21点,已经有6.5万家企业申请百度文心一言API调用测试。目前,个人用户也可以通过访问官网参与内测排队。

发布会我们已经有文章报道过,在此不做赘述。总的来说,透过这场发布会,百度表达了以下核心观点和内容:承认差距、阐述能力、展望未来。

而目前大家更感兴趣的,或许是文心一言所谓的智能对话能力,到底怎么样?

36氪拿到了内测权限,在朋友圈征集了一些问题,并将某些问题与ChatGPT的回答进行对比(之所以如此,是因为百度文心一言一直对标ChatGPT,也被人嘲讽为“ChinaPPT”)。

先说结论:

1、百度文心一言对开放式问题回答更好,对于任务和逻辑问题回答稍弱。

2、百度文心一言在第一次给出答案时不够稳定,容易输出奇怪答案,质量不够统一。

3、视频和语音生成功能暂时无法体验,百度的说法是,成本太高。

4、单轮对话效果优于连续对话。

5、比预期要好。

文心一言和ChatGPT(GPT-4)的互评

首先,让「文心一言」和「ChatGPT(GPT-4)」互评。

双方的回答方向都很“官方”,先陈述事实,再列出优点和缺点,中规中矩。所谓知己知彼,百战不殆。目前来看,AI大模型本身似乎还不能做到这一点。但是,对OpenAI、Google、百度等企业的决策者,以及开发AI大模型的人来说,应该不是难事。

ChatGPT(GPT-4)对百度文心一言的评价

这里需要做个小笔记:GPT-4训练数据截止日期是2021年9月,而此前公布的ChatGPT数据库的最后更新时间是2021年的12月31日。

ChatGPT(GPT-4):多次未能完成的散文创作

诗词创作的例子,这里就不再展示了。但值得一提的是,利用文心一言生成散文后,笔者继续要求其将上述散文改写成一首诗。文心一言生成了一首现代诗,其中两段是这么写的:

在夜晚的寂静中

我听到了一声叹息

那是我思乡的呼唤

像一抹温柔的月光

把我的心带回故乡

故乡的山川是如此美丽

那些熟悉的景色让我沉醉

小溪流淌,树木婆娑

仿佛时光倒流,回到了过去

数理逻辑推算

针对鸡兔同笼问题,我们选择了与文心一言展示案例不同的提问方式。遗憾的是,没能得到满意答案——文心一言认为题目出错了(当然没有出错,有正确回答)。

为了验证是否因为表述不够详细才导致这样的结果,笔者尝试了其他几种表述方法,其回答仍然如此。而依着不撞南墙不回头的性格,笔者最后选择直接告诉文心一言:“上面的题目是正确的,重新回答”。此时,文心一言终于能给出部分正确的解题思路——列出了正确的方程式,但答案依旧错误。

需要指出的是,从文心一言第二次回答描绘的已知信息来看,它好像真的没有准确get到题目的内容。难不成真是笔者的表述问题?希望有兴趣、能拿到内测资格的读者能够帮我解决这个问题。

同样的,ChatGPT(GPT-3.5)也未能正确回答。其第一遍回答尽管展示了解题思路,但是方程式列错了,回答错误。第二遍尝试虽然方程式列对了,但是答案却错了。

相较之下,ChatGPT(GPT-4)给出了满意答案——鸡有80只,兔子有20只。但不得不说,解题步骤显得有些冗长了(完全没必要那么复杂),以至于无法在电脑网页上获得完整截图。

这么来看,GPT-4的数理逻辑推算能力确实是提升了。

文心一言对“鸡兔同笼”问题的第二遍回答

ChatGPT(GPT-3.5)对“鸡兔同笼”问题的回答

文心一言对“日出江花红胜火”的理解

ChatGPT(GPT-4)对“日出江花红胜火”的理解

文心一言:发布会发言稿生成

提纲看起来质量OK

但是却非常笃定认为狂飙和飞驰人生是同一个

有懂代码的读者可以判断一下写得怎么样

但是正月剪头的习俗似乎ChatGPT知道

在文心一言生成的散文中,有这样一句话:“在这个浮躁的世界里,思乡之情变得越来越珍贵,它如同一盏明灯,指引着我前行的方向。”

大西洋对岸,ChatGPT已经催生了生成式AI的淘金热,资本开始疯狂搜寻领域内有潜力的创业公司。而有了OpenAI为同盟的微软,也已经和“单打独斗”的谷歌形成扭打之势。这让人不由得感叹,新一轮AI发展热潮已经开始,再不跟上可能就真的落后了。

有人感叹OpenAI独孤求败。事实确实如此,其3月15日发布的GPT-4又一次将各路竞争对手甩开一截。就在今天凌晨,GPT-4已经登陆微软全家桶。

但我们终该抱有信心,有了benchmark,就像是缓慢前行的巨轮在大海上中航行有了灯塔,即便走得慢,但知道路在何方。

在这个浮躁的世界里,专一且笃定变得越来越珍贵。

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
CV不存在了?Meta发布“分割一切”AI 模型,CV或迎来GPT-3时刻..
机器之心报道机器之心编辑部CV 研究者接下来的路要怎么走?在此之前,分..
OpenAI COO 谈论 ChatGPT 的发布和公司的发展:AI 技术不会迅速改变企业运..
站长之家(ChinaZ.com) 12 月 5 日消息:在 2022 年 11 月 OpenAI 发布 Ch..
每天生产45亿词,GPT3已渗透300+应用,网友:边吃边拉
萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI现在,GPT-3每天都生产约45..
去年业绩未达预期,ChatGPT翻倍牛股浪潮信息还潜藏哪些风险?..
界面新闻记者 | 牛其昌界面新闻编辑 | 作为ChatGPT概念的翻倍牛股,浪潮..
ChatGPT突现惊天大BUG!全功能GPT-4免费用,网友玩嗨了
编辑:好困 润【新智元导读】ChatGPT11月16号突现惊天大BUG,免费用户可..
OpenAI 透露未来路线图:开源GPT-3、翻倍模型规模、整更多GPU..
OpenAI CEO Sam Altman 与AI开发平台 HumanLoop 创始人 Raza Habib 等20..
OPEN AI时代,才算是真正让底层人逆袭翻盘的时代
很有意思,从最近关于chatgpt4.0的舆论,可以看出什么是弱者思维,什么是..
能写文章、能改Bug,ChatGPT要来抢饭碗了吗?
浙江宣传 | 作者 之江轩“我所热爱的是我真实的生活,因为它包含了我所有..
GPT-4最大竞争对手Claude 2震撼发布!一次10万token免费用..
编辑:编辑部【新智元导读】等了这么久,Claude 2终于可以免费上手试用了..
关于作者
朴一生(普通会员)
文章
368
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186632 电子证书794 电子名片49 自媒体20815

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索