整理 | 明明如月 责编 | 屠敏
出品 | CSDN(ID:CSDNnews)
ChatGPT 风靡全球,引得无数大厂竞折腰。在过去六个月间,究竟是什么让 ChatGPT 于一夕之间爆红?其背后蕴藏哪些技术实现?如果想要复刻 ChatGPT 的成功,又需要满足哪些条件?中国有机会做出自己的 ChatGPT 吗?我们距离通用人工智能(AGI)还有多远?
怀揣着种种疑问,在最新的一期《开谈》栏目中,我们邀请到了长期耕耘于知识图谱、自然语言领域的 360 人工智能算法专家的刘焕勇,同济大学百人计划专家、特聘研究员、博士生导师王昊奋,达观数据副总裁、高级工程师王文广,齐聚线上,围绕 ChatGPT 这一现象级应用,进行了深入探讨,也希望通过这一场酣畅淋漓的分享,为身处在 AI 新时代中的工程师、开发者带来一些思考。
中国谁最有希望优先做出最接近 ChatGPT 的产品?
王文广:做出 ChatGPT 有些难度,但是要引领一个技术,要在创新层面走出一条道路,就对团队的要求非常高,就会难上加难。那么,中国谁最有希望优先做出最接近 ChatGPT 的产品?
王昊奋:国内有多家公司都在研发类似 ChatGPT 的产品。百度 3 月份也推出自家版 ChatGPT,成为国内首个推出该产品的公司。百度由于其搜索业务积累了大量数据,对用户行为也有深入了解,正在做文心大模型且已经有了飞桨 PaddlePaddle 等基础框架,因此推出类 ChatGPT 的产品具备一定的基础条件。当然和百度这种情况类似的还有很多,只是目前还处在静默期,都在努力去做出这样一款产品。
我们需要走出中国特色。因为 ChatGPT 并不完美,也存在一些如准确性和真实性等方面的缺陷,这也是为什么微软急于将其与其它产品(如 Bing)相结合的原因。在行业细分太细的情况下,ChatGPT 可能存在一些难以判断的问题,因此各行各业都在努力结合自己的特点来开发相应版本的 ChatGPT。例如,网易即将推出某款游戏试水其 ChatGPT,司法、金融和医疗等领域也都在研发相应的版本的 ChatGPT。但同时,抄作业容易,抄完作业后如何做变革,如何做出一个具有垂域特点的 ChatGPT,由于 OpenAI 或者说全世界没有给出一个标准的解法,需要根据以往的经验结合前面讲到的数据、算法、工程、产品和运营,让这个飞轮转起来,才能看到很多的东西。
从 OpenAI 的角度来看,ChatGPT 并没有一个明确的商业模式,而对于商业公司来说,盈利模式是必须要考虑的问题。这也是谷歌等公司无法完全放弃搜索和广告等业务的原因之一。像谷歌的 Bard 出来之后,大家对谷歌的宽容度并不高,都认为谷歌应该可以做得更好,怎么会出现这种错误。其实这种错误 ChatGPT 也会犯。如果国内一些巨头公司做出来之后也会面临相似的问题。在已经出现了像 ChatGPT 这种比较难超越的标杆之后,国内巨头该怎么做也是一个值得思考的问题。
当然,ChatGPT 的出现也面临着一些挑战。首先,训练一个大型的人工智能模型需要耗费大量的时间、资源和资金。此外,运营这一技术也需要巨大的投资。据悉,每一条查询的成本约为一美分,这也意味着需要一定的优化才能实现盈利。
在一个 SaaS 的商业模式下,利润是至关重要的。创业者需要通过各种手段来确保自己的产品能够带来一定的利润。因此,除了技术问题,还需要考虑其他非技术因素对于商业模式的影响。
如何确保自己的产品不仅仅是一个技术问题,还涉及到很多非技术的因素。除了抄作业之外,创业者需要进行微创新和开创性的探索,以便在市场上占据一席之地。这些探索的过程可能需要自己去不断挑战和探索,后面一定会有一些经验甚至是最佳实践产出。或许很多商业公司不愿意披露这些信息,但是我相信一定会有一些开源机构或科研机构会将这些信息陆陆续续揭露给大众,以便更多人可以进入这个领域,从而产出一些新的范式上的变革。
大家要以发展的眼光看待这件事,貌似 OpenAI 好像抢占了先机,其实就像冰山一样暗流涌动,国内很多科研机构和大厂都在开展相关工作,说不定什么时候一家就会比另外一家更好。如果这个市场足够大,也不可能出现一家独大,后面一定会出现百花齐放、百家争鸣的现象。
刘焕勇:大家都有机会,而且 ChatGPT 可能会有很多版本,如很多垂类的版本,这样大家做出来的机会更多。只要大家有意愿,并且能够坚持解决上述问题,都有机会做出来。现在谈论“谁最有希望优先做出最接近 ChatGPT 的产品?”为时过早,现在是一个大变革的时代,谁也说不准,静待花开即可。
王文广:其实现在只是刚刚开始,随着 ChatGPT 的出现一石激起千层浪,引发了整个社会的讨论。现在那么多聪明的人和资本已经投入到这个领域,国内的研发也处在加速阶段,对整个社会发展起到促进作用。由于这个变革比较大,我写一个“人工智能江湖的倚天屠龙记” 系列来讲述人工智能的发展。GPT 就像一把屠龙宝刀,屠龙宝刀初出江湖,引起江湖纷争。
AGI = 大模型 知识图谱 强化学习?
王文广:在 ChatGPT 出现之前, RPA (机器人流程自动化)并不容易被不懂相关技术的人使用,但现在通过知识图谱和大模型的支持,可以通过自然语言描述业务逻辑,生成自动化流程,从而真正实现自动化。这是一个非常大的机遇,因为微软的 Power Automation 也在做类似的事情。
如果我们忘记过去,只看现在,我们会发现一切都是机会。对于不同的公司和组织来说,ChatGPT 可能是机遇,也可能是危机。ChatGPT 对 OpenAI 和微软来说是一个机会,而对谷歌则是危机并存。
从个人技术成长的角度来看,我们不应该过于沉迷于历史上的技术和概念,而是应该从目前的技术水平出发,思考如何利用它们实现个人价值和目标。当前的技术发展充满了机遇,例如可以利用技术进行个人博客的推广、营销以及其他各种有益的事情。此外,技术的发展也为创业等更大的事业提供了良机。因此,我们应该积极抓住这些机遇,发挥技术的作用。
在讨论人工智能的发展方向时,我们已经涉及到了知识图谱、大模型、强化学习等多个方面。对于熟悉人工智能历史的人来说,这些技术实际上是人工智能三大范式的总结:连接主义、符号主义和行为主义。而强化学习则是行为主义研究的重点之一。知识图谱和神经符号学则继承了符号主义的思想,而大模型则代表了连接主义的成果。这三个方面的组合已经在一些产品中得到了应用,当然 ChatGPT 目前没有将知识图谱集成进去,但是像谷歌的 bard 和 Meta 的 Toolformer 等。从认知科学、认知神经科学等角度来看,人类智能可能就是这三个主义的组合。
因此,我提出了一个公式:AGI(通用人工智能) = 大模型 知识图谱 强化学习,这可能是通用人工智能的基础。虽然这个公式可能不完全准确,但它可以启发我们思考人工智能的未来发展方向。
王昊奋:这三个参数可以作为一个未知函数的三个变量。大模型虽然已经证明了其性能的优越性,但是它存在一些其他的问题,比如站在 ESG(环境、社会和公司治理)的角度而言,它对环境不友好的内容。其次,知识图谱并不一定是体现知识的唯一方式,因为数据和知识需要相互支持。知识的组织表征和推理能力是知识图谱中的重要方面。最后,一个合格的智能体不仅需要知识和相对聪明的系统,还需要持续进化。行为主义、强化学习、巨声智能等方法都是重要的要素,它们之间存在千丝万缕的关联。
因此,一个合格的智能体需要具备获得认知能力的大量数据和学习知识的能力,还需要具备持续学习的能力,并且可以从感知、认知、决策三个方面进行综合考虑。
另外,更重要的是将 GPT 这个个体部署到各个领域中去,例如数字人、助理和虚拟人等,形成一个复杂的社会结构,类似于人类社会中的群体行为和属性。这种情况下,对于多个智能体的协作、竞争和互补等复杂行为的涌现现象,需要考虑更大的社会范畴。因此,定义单个智能体的能力需要叠加成多个智能体,或者考虑整个社会域中的一些智能体,这将会更有意思。
总之,GPT 这个概念可能会在文化广泛传播的情况下扩散到更广泛的领域。
刘焕勇:我们不需要急于对通用人工智能下定义。其实在 GPT 出现之前,我们对这个东西并不知晓。就当前时间来看,它可能是一个最好的范例,但其中仍然存在很多问题。如果我们进行一些映射,例如对于一个智能体,它可能具备一定的模仿能力,就像小孩一样,他们有模仿能力。这种模仿能力实际上可以连接到当前的大规模语言模型,该模型通过大量的训练可以模仿人类的语言表达形式。知识图谱会有一些常识性的东西,它能规范并且控制住这种模仿能力。
另外,强化学习实际上是一种有反馈的学习方式,可以与周围的人产生各种关系,这种反馈意识可以帮助它更快地学习。如果将这个过程持续下去,至少有一些模仿,那么我认为这是一个比较好的范式。但是其中存在的问题,在不久的将来可能会有其他解决方案出来。
王文广:我们知道现有的模式,包括两位老师也都认为,至少目前比较智能的智能体应该将这三大主义融合在一起,包括知识图谱、大型语言模型和强化学习的组合。虽然我们不知道它的确切组合方式,但某种组合对于当前的智能体来说是必要的。在现实中,包括骨科和病理学等领域也正在融合这三者,这已经在某种程度上实现了。
未来,我相信国内的许多公司都在努力制造类似百度的文心一言等智能体,他们也在考虑如何将这些点融合在一起。
如何做到和 GPT 同级别或者超越它的大模型?
王文广:做到至少与 GPT 同级别,甚至超越它的大模型,这个难度有多高?我们需要多少资金才能实现这一目标?
王昊奋:要想实现至少与 GPT 同级别、甚至超越它的大模型,难度非常高。
这是因为在训练大模型时需要大量的数据,并且数据要具有多样性,涉及到的任务数也要丰富,每个任务所涉及的样例也要足够多。另外,还需要强大的算力支持,通常需要使用大量的 GPU 来进行训练。对于数据量,例如 GPT-3,其训练所需的 token 数量达到了 5000亿,从 davinci 到 text-davinci,我们可以看到训练中使用了大量来自包括维基百科、图书等数据。对于 ChatGPT 这样的模型,还需要大量的对话数据和问答数据作为输入,这是一个动态变化的过程。token 的数量是决定了模型的容量因素之一。数据的多样性,包括涉及的任务数,每个任务当中能看到的例子的不同等,也非常关键。要想出彩,还需要遵循 scaling law (标度律)。
第二点是算力方面,GPT-3 训练需要 1 万个 V100 GPU,根据 V100 和 A100 的算力计算,相当于 3000个左右的 A100,1000块 这样的卡在公有云上训练一个月可能也能训练出来。原本训练一次需要花费 460 万美元,现在可能就变成了 150万美元左右,不过之前总的训练费用大概是 1000 万美元。大家如果去看 OpenAI 首席执行官 Sam Altman 的访谈的话就会发现,未来随着可控核聚变等技术的应用,数据和算力的成本会逐渐下降。也有很多架构方面的优化,例如英伟达推出的 H100 显卡,这相当于是大模型与硬件的摩尔定律比怎样可以做得更好。
此外,另外一个重要的事情是 ARK Invest (方舟投资) 的报告,他们对这一领域做了许多预测。基本上可以考虑到 2030 年左右,同等规模的模型训练成本可能会降低 60 倍或 50 倍。更多详细内容需要大家去阅读报告了解。大家还可以关注英伟达这种机构,了解显卡本身的进化情况,如多卡集群。通过模型和显存的优化,成本一定可以做到更低。
刘焕勇:大规模模型训练需要以经济代价和时间成本为基础,我们应该以发展的眼光去看待这个问题。
经济代价包括模型规模、使用的硬件(如 A100卡)数量以及训练时间等因素,这些可以通过计算来得出具体的成本,大家可以去看一些权威解读。
除了经济代价,时间成本也是一个很大的问题。因为模型训练需要很长的时间,而且需要花费大量的人力和物力来标注、定义和收集数据。时间代价可能会因为不同的人而有所不同,如果时间周期拉得很长,这个代价就会很大。我们可以查看一些报告,例如数据集标注的时间和花费,来计算出时间成本。时间成本带来外部资本的变化,也是一个需要考虑的问题。
我们应该用发展的眼光去看成本和代价的问题,并将其分为不同的阶段和领域。如果我们要做一个完全通用的 ChatGPT 生成模型,那么它的成本将会很高,难度也会很大。
因此,我们可以选择分阶段和分领域的方式来研发 ChatGPT 模型。比如我们不要求它可以话题,只可以聊天就可以,这样成本就会比较低。例如,我们可以在第一个阶段解决 QA 问题,第二个阶段解决代码生成问题,第三个阶段再解决绘制表格和计算公式的问题。这样做的好处是成本会比较低,接受度也会比较高。
虽然 ChatGPT 让人耳目一新,但是我们最好先不要做过多评判谁会先做出来,以及实现的难度有多大的问题。我们应该扎扎实实从技术角度去实现,不管是学术界还是工业界,应该把这个技术应用好,把底层的基础设施建设好,走出一条中国的道路才是我们需要关注的问题。
王昊奋:从用的角度来看,从 ChatGPT 出现以后,尤其是 ChatGPT 整合到了 New Bing 以后,三大流派至少有了一个比较夯实的基座,在上面做一些延伸的事情,开启了一个新的阶段。我相信会有很多有趣的场景会被挖掘出来。从自建的角度来讲,我们如果想造一个和 ChatGPT 类似的东西的话,多说无益,做就可以了。上半年会有若干和 ChatGPT 类似的产品出来,但这并不是终点,这只是一个起点,最后一定能走出一条适合我们的道路。垂类的 GPT 的难度和价值还未被真正解锁,这才是我们下一步要去探索和开启的东西。
王文广:我写了一篇《从Transformer到ChatGPT,通用人工智能曙光初现》文章。随着 ChatGPT 、 New Bing 和谷歌的 Bard 出现,我认为融合了行为主义、连接主义和符号主义的通用人工智能的雏形已经出现。
未来我们还要不断研究如何将这三者更好地组合起来,帮助我们实现更加通用的智能,帮助人来提升智能化水平。我们希望社会能够发展越来越好,生活能够更加美好。我们能够每天最好工作四个小时、每周工作三天,其他的所有事情交给 AGI 来实现,那么我们的日子就过得舒服,就能够去享受我们的生活。希望随着大家的能力,曙光可以变成正午的阳光!
今天《开谈》节目到此结束。
相关文章
猜你喜欢