京东副总裁何晓冬：GPT-3后，人机对话与交互何去何从？| CCF-GAIR 2020-脚本导航

> 自媒体 > （AI）人工智能 > 京东副总裁何晓冬：GPT-3后，人机对话与交互何去何从？| CCF-GAIR 2020

京东副总裁何晓冬：GPT-3后，人机对话与交互何去何从？| CCF-GAIR 2020

来源：雷峰网

2023-04-28 17:42:04

641

管理

另外，我们可以通过在连续空间里面投影我们的知识，再把这个知识的点和整个知识图谱都投影到一个连续语义空间里面，在这个空间里面做很多直接的计算，判断这个知识的一致性，并进行知识的补全。

我们还可以通过建立跨模态知识库连接视觉、语言和实体的信息。这是我们之前做的一个全球名人数据库 “MS-Celeb-1M”（见下图），把人的图像信息和知识图谱里面的实体信息进行连接。在这张图片里，我们不光识别出一个人，我们还知道她是1982年出生的，是一个美国人，在某一个剧里演了某个角色，这样我们对这个实体的人的了解知识迅速丰富起来。

除此之外，我们可以通过多模体做视觉信息到语义推理的问答。基于一张简单的图片或者问题，我们有没有可能建造一个模型帮助我们回答疑问？这就意味着我们需要建设一系列语言模型、视觉模型，特别是需要建立一个多层的语言和视觉信息交换的模型，可以提取出最好的信息，帮助我们在语言和视觉之间联合理解蕴涵的多模态信息。

我们还可以先理解语言再创作图画。我们把“一只红羽毛白肚子点短咀小鸟”这句话梳理文字给AI的时候，有没有可能AI在画这只小鸟的时候，学会对应看那个语言对应的语义，知道什么地方应该画什么颜色，比如肚子上要画白色，羽毛上画红色，在头部画一个短嘴，最后凭空合成这么一张小鸟图片。

通过一系列的模型，我们可以在视觉和语言这两个最重要的模态中间建立信息的交换、融合。我们也可基于这类模型做艺术创作，让计算机学会怎么创作一个艺术地图、怎么写书法。

大家知道《兰亭集序》开头的4个字“永和九年”（如下图）。这里面有4个字是王羲之写的，另外四个是AI模仿王羲之的风格写的。大家能看出哪些是王羲之胁的，哪些是AI写的？确切来说，圈出来的字是AI写的。AI书写还有一些瑕疵，比如“九”字是有瑕疵的，“和”“年”这两个字则十分完美。而且AI还可以写出带有不同情绪的书法，兴奋时写得比较轻快，悲伤时写得比较顿挫。

基于这种新的多模态交互技术，配上之前的人机对话任务，有可能让我们的模型在GPT-3后更向前走一步。

【图片来源：null所有者：null 】

上图所示是京东的一个人类顾客与机器客服的交流，交流过程中双方使用了大量图片直接表达信息。

这是一个实际的产业应用的例子。在我们生活中，人和人、人和客户交互，肯定不止是语言和对话，肯定有多模态、视频、图像。有时候图片表达比文字表达更直接有效，这也从应用角度反过来驱动我们更好地把对话或者语言模型进一步向多模态智能模型提升。

四、人机对话系统落地

产业界对人机对话系统的需求很大。在过去的几年里也出现了一些特定领域的应用，比如京东的智能客服、微软小冰、亚马逊智能音箱等等。我们发现在特定领域确实对话系统通常表现好，在很多时候能提升我们的工作效率，降低工作成本，甚至可以提升顾客体验。但是在开放领域、对可靠性有很高要求的时候，对话系统还是一个很大的挑战。

京东深耕智能对话与交互平台的应用，比如智能客服、智能营销、导购、智能消费媒体等等，希望把人机对话技术在产业界落地，创造新价值，引发新思考。

我们将TTS、ASR、语义理解跟工单结合，打通工单系统与快递系统，谋求一体化，给客户提供一个比较无缝的售中/售后服务体验。

销售AI比客服AI的发明过程更难。客服只负责让你满意，销售必须让顾客下单。我们在销售智能这一块投入了许多，比如摸索如何通过多模态的卖点营销，把商品最亮的亮点给用户一下提出来；如何通过对话式的商品推荐，把最合适的商品推荐给用户；我们甚至可以通过智能系统促进下单成交。比如用户咨询以后，如果有一段时间没有反应，我们可以再跟进一下。比如上次咨询某个产品很好，现在它的优惠快过期了，用户要不要下单。这是我们从金牌销售的技巧中学到的，但我们并不是让金牌销售手把手教AI，而是通过大量的学习、甚至通过某种程度的强化学习，让AI从金牌销售那里学到该怎么交流，怎么对话能更有效。我们内部也在看人工导购和通过机器辅助导购的转化率，发现机器导购可以带来转化率的直接提升。

在衡量对话系统成功的指标时，我们发现，在导购场景下，顾客和客服聊的时间越长，他下单的概率越大；但如果是售后场景，顾客跟客服聊得越长，他越不满意。

除了对话营销之外，我们还可以通过多模态的交互技术生成消费媒体。这个可以看成是广义的对话，它不是一轮一轮的应答，而是某种程度上产生信息的交互，使得用户感知到这些信息，促进用户做下一轮的行为。这些是针对新的商品在不同的情况下给出不同的销售文案（如下图），在京东网页客服对话的情景下，用不同的形式、不同的风格、不同的语气来表达商品的特点，使用户更能体会到商品的优点。我们达到了风格多变、可控的结果。

我们还可以通过数字人多模态交互，综合语音、情绪、视觉形象等等做一种更加自然、更加拟人化的人和机器的交互。通过人工智能技术，我们希望可以为数以亿计的每一个商品都配上一个带货主播和专属客服。

此外，我们通过智能对话技术赋能IoT设备，使得硬件更好地连接起来，使得我们可以开拓更多的新市场。

从研究到应用之间往往存在一个期望的不匹配，一个“技术应用鸿沟”。很多时候，当一个新技术刚出来，人们往往希望在短时间内就看到它的爆发或者巨大的价值增长，但实际上，我们往往高估了它短期带来的价值，但低估了它的长远价值。因为很多时候，单项新技术的价值往往是有限的，需要跟其他技术连接之后，才能构成一个技术的网格、真正解决我们的问题，提高价值。比如很多年前语音识别就能提供API，但是价值一直没有得到很好的体现。如果我们把语音识别、语言理解、计算机视觉、IoT和云计算综合起来，就可以创造更大的能力，解决更大的问题，带来更大的价值。

另一方面，新的技术是需要一个应用生态的。如果一项技术只是为了服务单一的应用，开发技术的成本往往会显得特别高，没有被摊平。如果有一个繁荣的应用生态，技术可以复用，那么技术开发成本就会迅速降低，产生的价值也会继续增长。所以在探索智能对话和交互技术的时候，我们会考虑客服、交互营销、消费媒体、创意产业、智能硬件。长期来看，未来10年AI技术带来的价值将呈非线性的迅速增长，而目前来看，我们需要进一步促进技术联接和培养应用生态。参考文献：

Computing Machinery and Intelligence (Alan Turing, 1950)

Anderson, He, Buehler, Teney, Johnson, Gould, Zhang, “Bottom-Up and Top-Down Attention”, CVPR 2018

Adiwardana, Luong, So, Hall, Fiedel, Thoppilan, Yang, Kulshreshtha, Nemade, Lu, Le, "Towards a Human-like Open-Domain Chatbot", https://arxiv.org/abs/2001.09977

Brown et al., “Language Models are Few-shot learners,” 2020.

Vaswani et al., "Attention is all you need." 2017

Fang, Gupta, Iandola, Srivastava, Deng, Dollar, Gao, He, et al., “From Captions to Visual Concepts and Back,” CVPR2015

Guo, Zhang, Hu, He, Gao, “MS-Celeb-1M”, ECCV 2016

He, Chen, He, Gao, Li, Deng, Ostendorf, “Deep Reinforcement Learning with a Natural Language Action Space,” ACL2016

Huang, He, Gao, Deng, Acero, Heck, “Deep Structured Semantic Model”, CIKM2013

Liu et al., Mappa Mundi: An Interactive Artistic Mind Map Generator with Artificial Imagination, IJCAI 2019雷锋网

Chen et al., MaLiang: An Emotion-Driven Chinese Calligraphy Artwork Composition System, ACM MM 2020雷锋网

Smith, Williamson, Shuster, Weston, Boureau, “Can You Put it All Together: Evaluating Conversational Agents' Ability to Blend Skills," ACL 2020

Xu, Zhang, Huang, Zhang, Gan, Huang, He, “AttnGAN,” CVPR 2018

Yang, He, Gao, Deng, Smola, “Stacked Attention Networks,” CVPR 2016

Yang, Yang, Dyer, He, Smola, Hovy, “Hierarchical Attention Networks”, NAACL 2016

Yang, Yih, He, Gao, Deng, “Embedding entitles and relations for learning and inference in knowledge bases”, ICLR 2015雷锋网

Zhang, Yang, He, Deng, “Multimodal Intelligence: Representation Learning, Information Fusion, and Applications”, IEEE JSTSP, March 2020

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

单个GPU无法训练GPT-3，但有了这个，你能调优超参数了

2023-04-28 17:44

GPT-3的七夕问候：温哥华小哥的AI哲学家告诉你什么是爱

2023-04-28 17:40