模型微调、交互强化学习、SFT、RLHF、prompt等技术方法,百度其实也早就熟悉掌握,随时可以迅速在大模型中进行部署。
换言之,生成式AI产品的底层技术和模型,百度一直有在研发。作为国内人工智能的先锋和领军企业,多年下来积累了在人工智能技术上的先发优势,是它能快速推出文心一言的首要因素。
业内专家指出,ChatGPT的核心优势其实不在于底层技术,而是高质量训练数据集。据悉,ChatGPT的数据来源主要包括:网络上的文本数据、社交媒体数据、问答网站数据、新闻站数据、文学作品数据等。这些数据可以通过爬虫程序自动收集,也可以由相关的机构提供。同时,ChatGPT还可以利用比较成熟的语料库,比如GloVe、Bert等。但是,OpenAI从来没有公开过训练ChatGPT的相关数据集来源和具体细节,后来者只能靠自己摸索。
高质量训练数据集这个难倒众多大厂的短板,恰恰是百度的长处,这是它的第二个独特优势。因为它不缺可供训练的优质中文数据资源。。
搜索业务20多年来,百年积累了全球丰度最大和质量最优的海量中文数据资源。加上文心大模型数年来的训练成果,还有月活6亿的搜索用户群体,非常有望在较短时间内构建成自己的高质量训练数据集,反哺文心一言大模型,实现功能上的飞轮效应。
百度更懂中文,其实就是本土化优势。中国用户的问题,文心一言解决得更为得心应手。在今天的发布会上,文心一言就显示出这方面的优势:既读得懂“洛阳纸贵”的古文梗,又解得了难倒ChatGPT的“鸡兔同笼”问题。
此外,生成式AI的资金投入巨大,在百度这里也不是问题。过去10年,百度的研发投入超过了1400亿元,并且几乎每一年的同比增长都超过100%。2022年全年达到214.16亿元,占百度核心收入比例达22.4%,是国内最舍得研发投入的高科技企业之一。近三年来,其研发投入平均每年超过200亿元,足以保障文心一言项目的正常运转。百度智能云近年来无论是规模还是性能都大为提升,可以为文心一言提供充沛的算力支持。
换言之,文心一言是百度基于诸多优势下多年以来在人工智能上的集大成者,只是ChatGPT的出现加快了它的面世。
02
中国版ChatGPT为什么是百度?
OpenAI 的ChatGPT面世之后,不少国内科技互联网企业表示自己也正在研发类似的产品。当时不少网友揶揄,抨击它们盲目跟风。百度在今年2月7日官宣中国版ChatGPT——文心一言时,同样遭到了一些网友的调侃,以为也是追风口。
不过,这些网友误解了百度。如果说大部分国内企业的本意是在追风口的话,那么百度推出文心一言却是认真的。社长要说,文心一言是百度近年来最正确、最果断的一次战略决策。
因为从竞争分析的角度来看,生成式AI的本质是搜索产品的战略升级,百度无法回避。以前用户需要手动去搜索想了解的信息,现在生成式AI不但帮你查,而且还帮你甄选、归纳和分析,将结果、方案直接给你。不但速度远远高于人类,而且连整体准确性都比你高。正如家有智能音箱的用户几乎不会再手动查询天气预报一样,生成式AI同样将不可避免地抢占相当部分的搜索市场份额。作为国内搜索行业的老大,百度怎么能够无视其中的风险呢?
即便退一步说,OpenAI无意深度涉及搜索市场,那百度也难以置身度外。因为虽然OpenAI是一家创业公司,但它的背后是微软——全球第二大的搜索引擎公司。这些年来,微软在搜索市场拳打两头,国外与谷歌竞争,国内和百度对抗。可惜的是表现一直不是很好,国外不敌谷歌,国内也落后于百度,ChatGPT的成功让它重新燃起雄心。
2月8日,微软宣布将与 OpenAI 合作,在其新版 Bing 搜索和 Edge 浏览器集成聊天机器人ChatGPT,用 AI 带来全新的搜索体验。正是在此之后,必应搜索的全球日活用户首次突破了1亿,加成效果非常明显。
这种情形之下,百度作为搜索巨头无法漠视ChatGPT带来的挑战。如果自己没有相应的产品,将在未来的市场竞争中失去优势,甚至淘汰出局也有可能。毕竟现在的用户已经被科技狠活惯得越来越“懒”,操作便利性和先发优势,足以改变用户多年形成的使用习惯。
事关生死存亡,百度必须跟进这场高成本、强烈度的竞争。它将此产品提高到长期战略的高度,并给予了强大的资源支持。
2023年2月7日,百度正式官宣自己的中国版ChatGPT项目——文心一言,团队阵容之强大,令人咋舌。百度CTO王海峰任项目总指挥,百度集团副总裁吴甜(同时担任深度学习技术及应用国家工程研究中心副主任)、百度技术委员会主席吴华等人担任高管,足以看出百度对该项目的重视程度。
事实上,不只是百度在ChatGPT大热之后宣布推出自己的生成式AI产品,同样做的还有谷歌——它的主要身份同样也是搜索巨头。今年2月9日,也就是百度官宣文心一言后的第三天,谷歌发布了自己的聊天机器人Bard,尽管现场演示“翻车”,但却明白地表现了自己的战略意图,要与微软、OpenAI在搜索引擎市场打一场聊天机器人的持久大战。这恰好也证明了百度战略的正确性和及时性。
虽然百度没有提出“All in文心一言”的口号,但从其随后的动作来看几乎“All in”其中了。官宣不久,百度陆续将小度、百度智能云等旗下多个重磅产品与文心一言融合,旨在增强场景应用和训练,加快其学习成长过程。2月22日发布2022年财报时,李彦宏称计划将多项主流业务与文心一言整合,并且不讳言此举的目的是“将帮助百度增加用户粘性”。
除了事关搜索核心业务之外,文心一言的研发也有积极的外在因素。生成式AI的市场需求很旺盛,在很多行业都有广泛的应用场景。据悉,目前美国已经有上百家垂直小公司用ChatGPT的API打造垂直场景。
中国也是类似的情况,百度的很多产品,从搜索到智能云,再到自动驾驶,市场和合作伙伴都有明确需要,期待尽早用上最新最先进的大语言模型,来提升服务能力和效率。这也是为什么短短一个月内宣布加入文心一言生态的合作伙伴就超过650家的原因。
生成式AI非常烧钱,不但投入研发成本巨大,而且带宽、算力的运营成本也居高不下。但是它的市场前景也非常看好,几乎所有数字化的行业都适用,生态规模至少万亿级别。这么大的超级蛋糕,哪家巨头会不动心呢,百度自然也不例外。
文心一言的推出,百度既可守住现有的搜索基本盘,又能攻取未来人工智能的增量市场,可谓是一举两得。这个战略制高点,必须抢!
03
中国需要更多的百度
应该承认,文心一言作为一个刚刚发布的新产品,拿它和历经几个月上亿用户训练过的GPT-4相比,在功能上仍有着一定的差距。
李彦宏对于此非常了解,他并没一味地自我夸耀,而是有着清醒的认识。他甚至在发布会上坦承,“从我自己在内测过程中体验到的文心一言的能力来说,(当前)确实不能叫作‘完美’”。社长觉得这个态度非常务实,承认差距才能不断提高。社长相信,随着大模型的不断优化迭代和互动训练,文心一言的功能会越来越强大。
在国内,科技互联网公司更喜欢将资金投入到商业应用上,因为风险小见效快。真正的前沿科技研发,反而很少有企业舍得投入。以至于前两年有央媒看不下去,喊话互联网巨头“别只惦记几捆白菜”,期待互联网巨头科技有更多的创新。
百度正是国内少有的几家坚持科研驱动的公司之一,近年来它在人工智能、智能云、自动驾驶、移动生态等方面表现不俗。今天,它又率先在国内推出了生成式AI产品,走在科技创新的前列。
在当前国际关系变幻的背景下,中国科技产业需要更大的独立自主性,以保障经济和信息安全,这样的公司显得更为难得。社长认为,一个百度太少了,中国需要更多的百度。
相关文章
猜你喜欢