也有人表示,“图灵测试实际上是一种超窄的方法。图灵令人难以置信的优点是毋庸置疑的。但图灵测试范式对于几十年来人工智能的项目和发展来说绝对是致命的。”
比较人类和机器的智能水平,引发争议的图灵测试
所谓图灵测试,是由英国数学家和计算机科学家艾伦·图灵(Alan Turing)于 1950 年提出的一个测试概念,用于评估机器是否具有人类智能。这个测试的核心思想是,一个人类评判者通过对话形式,与一个机器和一个人类进行交互,然后在不知道对话对象的真实身份前提下,判断哪个是机器,哪个是人类。
具体来说,图灵测试的步骤如下:
1. 一个评判者(通常是人类)在与两个对话对象进行文本交流时,其中一个是机器,另一个是人类。这个交流可以通过键盘和在屏幕输入进行,以确保评判者无法通过声音或外观来判断对话对象的身份。
2. 评判者的目标是在与两个对象交流后,准确地区分出哪个是机器,哪个是人类。
3. 如果机器成功地使评判者无法区分其回答与人类的回答,那么这台机器被认为通过了图灵测试,表现出具有人类智能的迹象。
值得注意的是,图灵测试并没有明确规定机器需要模仿人类的所有方面,而是强调机器是否能够在对话中表现出类似于人类思维和智能的特征。图灵测试成为人工智能领域中一个重要的思想实验,用于探讨和评估机器智能的发展。
研究人员希望利用图灵测试来了解聊天机器人的人性化特征。不过一直以来,因为主观性和相对性、缺乏客观标准等因素,图灵测试就成了确定机器模仿人类对话能力的一个著名但有争议的基准。
研究人员变化了提示的几个方面, 包括模型是否应产生拼写、语法和大小写错误;模型应该采用的人格;模型被告知其是人类还是假装是人类的 AI。所有提示都包含关于游戏说明的通用信息,以及它们的训练结束日期之后发生的重要事件。在每场游戏开始时,会从一个列表中为模型的人格生成一个建议名称。提示还包括游戏创建的时间戳和最新消息的时间戳。
值得一提的是,这项研究获得了加州大学圣地亚哥分校 IRB 的批准,所以研究人员 Cameron Jones(认知科学专业博士生)和 Benjamin Bergen(该校认知科学系教授)建立了一个名为 turingtest.live 的网站,此网站提供一个看起来像一个传统的消息应用程序的聊天界面。
然后,参与者进入等待室,在那里他们会被随机分配与另一个人类或 AI 进行游戏。调查员发送第一条消息,每个用户一次只能发送一条消息。整个对话有 5 分钟的时间限制,单个消息有 300 个字符的限制。
在双方聊天过程中,调查员最常用的策略包括闲聊以及询问相关知识和时事。
相关文章
猜你喜欢