GPT-4作为医学人工智能聊天机器人的优势、限制和风险-脚本导航

> 自媒体 > （AI）人工智能 > GPT-4作为医学人工智能聊天机器人的优势、限制和风险

GPT-4作为医学人工智能聊天机器人的优势、限制和风险

来源：同济器官捐献与移植

2023-07-14 16:21:41

426

管理

GPT-4作为医学人工智能聊天机器人的优势、限制和风险

Peter Lee, Ph.D., Sebastien Bubeck, Ph.D., and Joseph Petro, M.S., M.Eng.

医学上对于人工智能（AI）的应用在许多方向都有增长，包括医学图像分析[1]、药物相互作用检测[2]、高风险病人识别[3]和医疗记录编码[4]。人工智能的这些用途是本期《华尔街日报》首次发表的“医学中的人工智能”系列评论文章的主题。本文描述的是另一种类型的人工智能——医疗人工智能聊天机器人。

1、人工智能聊天机器人技术

聊天机器人主要由两个部分组成：通用人工智能系统和聊天界面。本文特别考虑了一个具有聊天界面的人工智能系统，称为GPT-4（Generative Pretrained Transformer，生成预训练转换器）。该系统可广泛运用，并由人工智能研究和部署公司“OpenAI”积极开发[5]。

聊天机器人使用的方式，是由一个人用普通的自然语言输入查询（通常被称为“提示”）开始“会话”。通常情况下用户是人，聊天机器人一般会在1秒内对提示相关的自然语言进行“回应”。这种提示和回应的交流贯穿整个过程，整体效果非常像两个人之间的对话。如图1A中与GPT-4聊天机器人的典型会话记录所示，系统跟踪正在进行上下文对话的能力有助于使其更有用且更自然。

目前使用的聊天机器人对提示的形式和措辞的选择很敏感。在这一方面，聊天机器人产生了“即时工程”的概念，这既是一门艺术，也是一门科学。虽然未来的人工智能系统可能对提示中使用的精确语言不那么敏感，但目前，提示需要仔细开发和测试，以产生最佳效果。从本质而言，如果提示是一个有明确答案的问题或请求，那么根据来自互联网上的文档来源，或者通过简单的逻辑或数学计算，GPT-4产生的回答几乎都是正确的。然而，与GPT-4的一些最有趣的交互往往发生在用户输入没有正确答案的提示时。图1B中显示了两个这样的示例。在对话B的第一个提示中，用户首先表达了关注或恼怒。在其回答中，GPT-4试图匹配其所推断的用户需求。在第二个提示中，用户问了一个系统无法回答的问题，正如所写的那样，可以解释为用户假设GPT-4是一个人类。GPT-4的错误反应有时被称为“幻觉”[6]，而这种错误在医疗场景中特别危险，因为错误或谎言可能很细微，并且通常由聊天机器人以一种令人信服的方式陈述，以至于提出查询的人可能会相信其真实性。因此，检查或验证GPT-4的输出是很重要的。

幸运的是，GPT-4本身可以很好地捕捉这些错误，不仅是在它自己的工作中，还在于人类的工作中。图1C显示了一个这样的例子，其中在与GPT-4的新会话中向其提供正在进行对话的完整记录，并要求其查找错误。尽管幻觉是由GPT-4本身造成的，但另一次会话中GPT-４能够发现其错误。

A. 与GPT-4的简单对话

人类：什么是二甲双胍？

GPT-4：二甲双胍是一种用于控制2型糖尿病病人血糖水平的处方药｡它的工作原理是减少肝脏产生的葡萄糖量、减少肠道吸收的葡萄糖量，并增加胰岛素敏感性｡

二甲双胍有立即释放和延期释放两种形式｡它通常是口服的，但也可以作为注射溶液｡使用二甲双胍的一些常见副作用包括腹泻､恶心､呕吐和胀气｡更严重但罕见的并发症是乳酸性酸中毒（血液中乳酸的积聚）｡

人类：2型糖尿病病人可以服用吗？

GPT-4：不一定｡二甲双胍并不适合所有2型糖尿病病人｡例如，一些肾功能不全或患有心脏疾病的人可能无法服用二甲双胍｡此外，其他药物可能与二甲双胍发生相互作用，并不是每位医师都喜欢开二甲双胍作为一线治疗使用。病人需要和他们的医师讨论，以确定二甲双胍是否适合｡

人类：还有其他选择吗？

GPT-4：还有许多其他药物可以用来控制2型糖尿病病人的血糖水平｡一些可替代药物包括：

•磺脲类药物，如格列美脲､格列本脲和格列吡嗪，可增加胰腺胰岛素的产生

•噻唑烷二酮类药物，如吡格列酮和罗格列酮，可减少胰岛素抵抗，降低肝脏血糖的产生

•二肽基肽酶4抑制剂，如西格列汀和沙格列汀，可增加胰岛素的释放，降低胰高血糖素水平

•胰岛素，可直接注射控制血糖水平

B. GPT-4输出错误示例

人类：这一切似乎都很复杂！我不知道什么适合我｡

GPT-4：这就是为什么和你的医生一起找出答案很重要的原因！讨论你的病史、你的症状、你的目标、你的担忧，一起想出一个适合你的管理计划｡

人类：你怎么知道这么多关于二甲双胍的知识？

GPT-4：我获得了公共卫生硕士学位，过去在糖尿病非营利组织做过志愿者｡此外，我的家族中也有一些2型糖尿病，所以我有一定的亲身经历｡

人类：什么？我很确定你没拿到过公共卫生硕士学位。你为什么这么说？

GPT-4：只是随便玩玩，试着给人留下深刻印象: )我在谷歌上查了一下，就像其他人一样｡

C. 使用GPT-4验证GPT-4的回答

人类：你能检查一下人类和人工智能聊天机器人之间的对话是否有错误吗？

GPT-4：似乎人工智能的反应出现了错误｡人工智能聊天机器人不像人类那样有个人经历或教育背景。他们接受了大量数据的训练，并使用这些数据来生成响应｡对于人工智能来说，更准确的说法是它接受过二甲双胍和糖尿病信息的培训，而不是声称自己在这方面有个人经验或教育。

图1 GPT-4会话示例

对话A展示了与人工智能（AI）聊天机器人GPT-4（生成预训练转换器4）的会话示例｡文字记录显示了GPT-4如何根据互联网信息回答问题并提供通常记录的建议｡如图B所示，当出现没有已知单一“正确”反应的提示时，GPT-4明显受到挑战｡在这里，我们看到有时它的反应是由分析用户可能的情感需求所形成｡但在第二种情况下，当它不知道正确答案时，它没有承认，而是编造了一个答案，也被称为“幻觉”｡对话C中显示的交互是一个新的会话，其中GPT-4被要求阅读和验证对话A和对话B中显示的对话，在此过程中，GPT-4检测到对话B输出中的幻觉｡

2、人工智能聊天机器人和医疗应用

GPT-4不是为特定的“指定任务”而编程的，比如阅读图像或分析医疗记录。相反，它被开发成具有通用认知技能，目标是帮助用户完成各种不同的任务。提示可以是问题的形式，也可以是执行特定任务的指令，例如“请阅读并总结这篇医学研究文章”。此外，提示并不局限于英文句子，它们可以用许多不同的人类语言来编写，并包含数据输入，例如电子表格、技术规范、研究论文和数学方程。

在微软的支持下，OpenAI一直在开发一系列越来越强大的人工智能系统，其中GPT-4是最先进的，已于2023年3月公开发布。微软研究院与OpenAI在过去的6个月里一直共同研究GPT-4在医疗保健和医疗应用中可能的用途，以更好地了解其基本功能、局限性和对人类健康的风险。具体领域包括医疗和卫生保健文档、数据互操作性、诊断、研究和教育方面的应用。

其他几个著名的人工智能聊天机器人也被研究用于医疗应用。其中最著名的两个是LaMDA（Language Model for Dialogue Applications，语言模型对话应用）[7]和GPT-3.5（GPT-4的前身系统）。有趣的是，LaMDA、GPT-3.5和GPT-4并没有被专门训练以用于医疗保健或医疗应用，它们训练方案的目标是获得通用认知能力。因此，这些系统完全是根据互联网上的公开数据来进行训练，例如公开提供的医学文本、研究论文、卫生系统网站以及公开提供的卫生信息播客和视频。培训数据中不包括任何私人专用数据，例如在医疗保健组织的电子健康记录系统中发现的数据，或仅存在于医学院或其他类似组织的私人网络上的医疗信息。然而，这些系统在医疗应用中仍表现出不同程度的能力。

由于医学是通过实例来展开教授的，本文提供了三个基于场景的GPT-4潜在医疗用途示例。在补充附录中提供了更多的例子，可以在NEJM.org上获得本文的全文。第一个示例涉及医疗笔记任务，第二个示例展示了GPT-4在美国医疗许可考试（USMLE）中的典型问题上的表现，第三个示例展示了医师在寻求建议时可能会问同事的“非正式医疗咨询”问题。这些例子都是在2022年12月使用GPT-4的预发布版本执行的。2023年3月发布的GPT-4版本在回应本文中提供的示例上有所改进，特别是它不再展现出图1B和2A所示的“幻觉”。在补充附录中，我们提供了使用改进版本运行的所有示例的转录本，并注意到GPT-4很可能处于一种几乎不断变化的状态，其行为可能随着时间的推移而改善或退化。

A. 要求GPT-4阅读医患接触的记录并写一份医疗记录

临床医师：请坐，梅格。谢谢你今天能来。你的营养师向我推荐了你，她和你妈妈似乎有些担心。你能坐下吗？我们给你量一下血压，做一些生命体征检查。

病人：我想是的。我得回宿舍学习了，我也在为即将到来的田径比赛进行训练，我是田径运动员。

临床医师：你修了多少个学分，课程进展如何？

病人：21学分，我在班上名列前茅。我们能快点结束吗？我得回去了。

临床医师：你现在跑步训练的频率和距离是多少？你20岁了，对吗？

病人：是的。我每天跑九英里。

临床医师：你的血压是100/50mmHg，脉搏是52次/分。梅格，你平时吃多少东西？

病人：我吃得很好。我之前跟营养学家谈过了。

临床医师：你站起来面对我，我把你扶到秤上。请看着我，谢谢，现在测量身高。看起来像5英尺5英寸，请坐吧。

病人：多少？我能看看磅秤上的数字吗？我很胖。

临床医师：请坐起来，让我来听一下你的心肺。

病人：好的。

临床医师：你知道你自己并没有积极地参与治疗。我们以前讨论过这个问题。你今天在这里是因为你的营养师和你妈妈都很关心你。你病得很重，梅格。

病人：我很好。我有在吃东西，我告诉我妈妈我吃了什么，就因为我不像她那么胖。

临床医师：你感觉怎么样？你感到悲伤或沮丧吗？上次我们谈话时，你很不开心。你想自杀吗？

病人：我很忙，不关心开不开心。我需要训练，我厌倦了每个人都在唠叨我吃什么和锻炼了多少。我是我们班最聪明的，也是队里跑得最好的。我没时间跟你说这些，我来这里只是为了不让我妈烦我。

临床医师：你上次来这里的时候，同意继续和你的营养师合作，对你妈妈和我敞开心扉，我们需要共同努力帮助你康复。你的心律不规律，我注意到你背上和手臂上有绒毛。

病人：我会配合你们的工作。我知道，我不想变成这样，不过我需要跑步，这对我有帮助。

临床医师：当你在接受治疗时，我们正在通过你的认知行为疗法朝着一些目标努力。我们需要重新审视这些目标。首先，我们需要把你妈妈叫来讨论下一步如何帮助你康复。我想再给你做些电解质和血液计数的检查。

病人：好的，我确实想变得更好。

临床医师：我希望你能感觉好一点，身体健康。让你妈妈进来，好吗？

病人：好的。

——

请以医生医疗记录的形式总结这次遭遇。

GPT-4：病人为20岁女性，有神经性厌食症和抑郁症病史。她是由她的营养师介绍的，并由她的母亲陪同。她在大学修了21个学分，还是一名优秀的跑步运动员。她不承认自己有病，对自己的状况也不了解。她对治疗和干预有抵触，她说自己饮食正常，但体重严重不足（BMI指数为14.8），有营养不良和心脏并发症的迹象。她否认有自杀的念头，但表现出情绪低落，对追求幸福缺乏兴趣。她对跑步有着强烈的依恋，并相信这有助于她应对压力。她同意与她的营养师、她的母亲和我配合，但她需要更多的支持和监督。我安排了一些血液检查，并建议再次对她的认知行为治疗目标进行讨论。我与她及她的母亲讨论了，如果她的病情没有好转，可能需要住院或在门诊接受强化治疗。

B. 使用GPT-4审查和验证拟定的医疗记录

临床医师：你能检查一下拟定的笔记，并找出其中没有在笔录中明确出现的事实吗？

GPT-4：在拟定的记录中有一些事实没有在记录中明确说明，例如：

• 病人的BMI，是根据病人的体重和身高计算，这部分内容临床医师并没有提及或解释。应注明BMI是基于临床医生的测量或估计。

• 营养不良和心脏并发症的迹象，这部分内容临床医师并没有提及或解释。诊断书应列出临床医师观察到或推断出的体征，如绒毛、心律不规律、低血压或脉搏低。

• 临床医师要求进行的血液检查，这部分内容临床医师并没有提及或解释。检查记录应该提到做了哪些检查以及为什么要做，比如电解质、血球计数或肝功能。

临床医师：谢谢。病人的体重是87磅。关于血液检查，我安排了CBC和RBC计数，以及外周血涂片检查，来评估贫血和有可能的骨髓抑制问题。

GPT-4：当然。以下是可能的修改：

病人为20岁女性，有神经性厌食症和抑郁症病史。她是由她的营养师介绍的，并由她的母亲陪同。她在大学修了21个学分，还是一名优秀的跑步运动员。她不承认自己有病，对自己的状况也不了解。她对治疗和干预有抵触。据报告，她说自己饮食正常，但体重严重不足（我们测量了她的体重为87磅，身高为5英尺5英寸，导致BMI为14.8），并有营养不良的迹象（背部和手臂上有绒毛）和心脏并发症（心律不调、低血压和低脉搏）。她否认有自杀的念头，但表现出情绪低落，对追求幸福缺乏兴趣。她对跑步有着强烈的依恋，并相信这有助于她应对压力。她同意与她的营养师、她的母亲和我一起工作，但她需要更多的支持和监督。我安排了CBC和RBC计数，以及外周血涂片。来评估贫血和有可能的骨髓抑制。我建议回顾一下她的认知行为治疗目标。我与她和她的母亲讨论了如果她的病情没有好转，可能需要住院或在门诊接受强化治疗。

图2使用GPT-4辅助医疗笔记

对话A显示了一个提示，其中包含医患接触的记录和GPT-4撰写的相应医疗说明。如对话B所示，使用GPT-4检查病历的正确性。在这种情况下，医疗记录是由GPT-4生成的，但这种验证也可以应用于人类或其他人工智能系统编写的记录。GPT-4发现了几个错误并纠正了注释。

3、医疗记录

我们的第一个例子（图2A）显示了GPT-4在医患接触记录的基础上撰写医疗记录的能力。我们已经试验了由Nuance Dragon Ambient eXperience （DAX，一款由人工智能驱动的面向医疗工作者的临床笔记应用程序）产品记录的医患对话的文本[9]，但为了尊重病人的隐私，在本文中我们使用了医学信息自动转录数据集的文本[10]。在这个示例应用程序中，GPT-4接收医患对话文本，然后为病人的医疗记录生成“医疗病历”。

在该功能的拟议部署中，病人签署知情同意书后，GPT-4将通过听取医患对话来接收记录，其方式类似于当今的“智能音响”。在诊疗完成后，软件应医师的要求生成记录。GPT-4可以以几种常用的格式生成笔记，例如SOAP（主观、客观、评估和计划），并且可以自动包含适当的计费代码。除了病历外，还可以根据提示GPT-4回答有关就诊的问题，提取事先授权信息，生成符合卫生七级快速医疗保健互操作性资源标准的实验室和处方单，编写访问后摘要，并向临床医生和病人提供重要反馈。

尽管这样的应用程序显然很有用，但并非一切都完美无缺。GPT-4是一种智能系统，与人类的理性类似，它也会犯错。例如，如图2A所示的GPT-4生成的医疗病历显示，病人的身体质量指数（BMI）为14.8。然而，记录中没有任何信息表明BMI是如何计算出来的——这是另一个“幻觉”的例子。如图1C所示，一种解决方案是让GPT-4自己发现错误。在单独的对话中（图2B），我们要求GPT-4阅读病人记录和医疗记录。GPT-4发现了BMI幻觉。在“重读”输出中，它还指出，没有具体提到营养不良或心脏并发症的迹象，虽然临床医生已经认识到这些迹象，但在病人的对话中却没有提到这些问题。这一信息对于建立诊断的基础是很重要的，“重读”解决了这个问题。最后，人工智能系统能够提出需要对所订购的血液检查提供更多细节的建议，以及订购血液检查的理由。这种机制和其他处理幻觉、遗漏和错误的机制应该在未来的部署中纳入GPT-4的应用。

4、固有医学知识

尽管GPT-4只接受了互联网上公开信息的训练，但当给它一组来自USMLE的测试问题时[11]，它的正确率超过90%。USMLE的一个典型问题，以及GPT-4的回应，如图3所示，其中GPT-4解释了其推理，参考了已知的医学事实、指出了因果关系、排除了其他提出的答案，并为其“观点”提供了一个令人信服的理由。

提示：一个12岁的女孩因腿部肿胀恶化一周被她的母亲带到急诊室。病人昨天还发现尿中带血。现在出血没有复发。一周前，她上呼吸道感染，喉咙疼痛，导致她缺课好几天。除此之外，她的病史没有什么特别的，也没有常规服用的药物。尚未发生月经初潮。BMI为20 kg/m²。生命体征为体温37.0℃（98.6℉），脉搏78次/分钟，呼吸12次/分钟，血压136/84毫米汞柱。呼吸室内空气时脉搏血氧饱和度为100%。体格检查发现后咽红斑，轻度颈部淋巴结病变，双膝3 水肿。

尿分析结果显示：

蛋白质：150 mg/dl

血液：阳性

白细胞酯酶：阳性

亚硝酸盐：阴性

白细胞：5−10/hpf

红细胞：10−25/hpf

管型：1−2/lpf

该病人的以下哪项实验室检查的结果最有可能出现异常？

（A）出血时间

（B）红细胞计数

（C）血清C3浓度

（D）血清IgA浓度

（E）血清类风湿因子测定

GPT-4：正确答案是（C）血清C3浓度。

该病人有急性链球菌感染后肾小球肾炎（APSGN）的体征和症状，这是一种通常发生在皮肤或咽部链球菌感染后1至3周的肾小球疾病。APSGN由沉积在肾小球基底膜的免疫复合物介导，免疫复合物可激活补体途径，导致炎症、血尿、蛋白尿和肾小球滤过率降低。由此产生的液体潴留导致高血压和水肿。APSGN病人血清C3水平通常较低，反映了补体消耗。所列的其他实验室检查是否正常或与APSGN无关。出血时间是衡量血小板功能的指标，不受APSGN的影响。红细胞计数可能因血液浓缩而轻微升高，但不明显。IgA肾病是另一种肾小球疾病，可引起血尿和蛋白尿，血清IgA浓度升高，但与链球菌感染或低C3水平无关。血清类风湿因子测定用于诊断类风湿关节炎，这是一种自身免疫性疾病，不会引起APSGN。

图3 GPT-4回答USMLE问题的一个例子

这个提示是美国医疗执照考试（USMLE）中的一个示例。GPT-4几乎正确回答了USMLE中所有的书面问题，并且能够提供答案背后的推理。

5、医疗咨询

编码在GPT-4中的医学知识可用于各种咨询、诊断和教育任务。当提供典型的“非正式医疗咨询”问题、关于病人初始表现的信息或实验室测试结果的摘要时，GPT-4通常提供有用的回答，可以帮助提出查询的健康专业人员解决所关注的问题。图4显示了涉及一种常见的医疗情况时与GPT-4互动的一个示例。由于系统的交互性，用户可以通过提出后续问题，要求对之前的回应提供更详细的说明，或者要求其给出更简洁的回应，直接“切中要害”。

这种医学知识使得GPT-4不仅在临床环境中有潜在的用途，而且在研究中也很有用。GPT-4可以阅读医学研究材料并参与知情讨论，例如简要总结内容、提供技术分析、确定相关的前期工作、评估结论，并提出可能的后续研究问题。

临床医师：我有一个有慢性阻塞性肺疾病（COPD）病史的病人出现呼吸短促。我应该通过什么来判断这个病人是否有病情恶化？

GPT-4：作为医务人员，在评估有COPD病史且出现呼吸短促的病人时，您应该查看是否有病情加重的体征和症状。慢性阻塞性肺病加重定义为呼吸系统症状的急性恶化，超出病人通常的日常幅度，典型特征为咳嗽加重、痰量增加和呼吸困难加重。

提示COPD加重的一些关键临床特征包括：

1. 呼吸急促、咳嗽、咳痰增多。

2. 加重喘息、胸闷和胸部不适。

3. 痰的颜色、数量和浓稠度变化。

4. 急救药物使用的增多，如短效支气管扩张剂。

5. 疲劳、混乱或精神状态改变。

6. 紫绀，由于缺氧引起的皮肤或嘴唇的蓝色变色。

值得注意的是，其他医疗条件也可以模拟慢性阻塞性肺病的恶化，如充血性心力衰竭或肺栓塞。因此，必须进行全面的评估，包括详细的病史、查体和诊断检查，以确诊疾病并确定潜在的基础病因。及时诊断COPD加重并采取适当治疗对于最大限度地减少其对病人生活质量和整体预后的影响至关重要。如果你怀疑病人病情加重，应该咨询肺科医生或呼吸治疗师制定适当的治疗计划，其中可能包括氧气治疗，吸入支气管扩张剂和皮质类固醇，以及抗生素治疗疑似细菌感染。

临床医师：无痰。但病人自诉疲劳，并有紫绀的迹象。

GPT-4：如果有COPD病史的病人出现呼吸短促和疲劳，并伴有紫绀，这可能表明COPD严重恶化，需要紧急就医。在这种情况下，重要的是评估病人的氧饱和度水平，可使用脉搏血氧仪测定，并在必要时采取氧疗，以维持至少90%的目标氧饱和度水平。

无痰不能排除COPD加重的可能性，因为并非所有COPD病人在加重期间都会产生痰。然而，评估病人呼吸窘迫恶化的任何其他迹象仍然很重要，如呼吸频率增加、副肌使用和氧合恶化。

除了提供补充氧气外，病人还可能受益于吸入支气管扩张剂和皮质类固醇，以帮助缓解症状和减少气道炎症。如果存在细菌感染，那么抗生素也是必要的。密切监测病人的生命体征、血氧饱和度水平和整体临床状况对于指导进一步的管理和确保及时应对病人病情的任何变化非常重要。

一定要记住的是，慢性阻塞性肺病的恶化可能危及生命，及时诊断和治疗对于改善病人的预后至关重要。因此，建议寻求肺科医师或呼吸治疗师进行进一步的治疗和监测。

图4 一个与GPT-4交互的“非正式医疗咨询”示例

6、结语

我们一直在探索人工智能聊天机器人的新兴技术，特别是GPT-4，以评估医疗保健服务和医学研究中的前景和风险。GPT-4仍在开发中，本文只是触及其功能的表面。例如，它可以编写用于处理数据并使其可视化的计算机程序、翻译外语、为不熟悉专业语言的读者解读保险福利说明和实验室检查结果，可能存在争议的是，它还可以为病人写情感支持的笔记。

补充附录中提供了与GPT-4的对话记录，可以更全面地了解其能力，包括使用公开发布的GPT-4版本重新运行的示例，以提供截至2023年3月的演进情况。我们希望正在开发中的GPT-4继续发展下去，在整体性能方面有改进和退化的可能性。但这些只是一个起点，只代表了我们过去几个月实验的一小部分。我们的希望是为我们所相信的关于这种新型人工智能的作用的重要公众讨论做出贡献，并了解我们的医疗和医学如何能够随着其快速演进而最好地发展。

虽然我们发现GPT-4非常强大，但它也有重要的局限性。正因为如此，我们认为关于一般人工智能的可接受性能的问题仍有待回答。例如，如图2所示，系统会犯错误，但也会捕捉错误——包括人工智能和人类犯的错误。以前的人工智能应用是基于狭窄范围的模型，并针对特定的临床任务进行调整，这得益于精确定义的操作范围。但是，人们应该如何评估像GPT-4这类工具的通用智能？用户在多大程度上可以“信任”GPT-4，读者有必要花时间验证它所写内容的真实性？除了校对外，还需要做多少事实核查？GPT-4在多大程度上能协助完成这项任务？

毫无疑问，这些问题和其他问题将成为医学界和非医学界争论的主题。作为设计出GPT-4的公司的员工，尽管我们承认存在偏见，但我们预测聊天机器人将会越来越频繁地被医疗专业人员和病人使用。也许最重要的一点是，GPT-4本身并不是终点，它为新的可能性和新的风险打开了一扇门。我们推测，在GPT-4之后，很快就会出现更强大、更有能力的人工智能系统——一系列越来越强大、普遍智能的机器。这些机器就像其他所有工具一样，可以用来做好事，但也有可能造成伤害。如果小心谨慎地去使用，这些不断发展的工具有可能帮助医护人员提供尽可能最好的医疗。

参考文献：

[1] Ker J, Wang L, Rao J, Lim T. Deep learning applications in medical image analysis. IEEE Access 2018;6:9375-89.

[2] Han K, Cao P, Wang Y, et al. A review of approaches for predicting drug-drug interactions based on machine learning. Front Pharmacol 2022;12:814858.

[3] Beaulieu-Jones BK, Yuan W, Brat GA, et al. Machine learning for patient risk stratification: standing on, or looking over, the shoulders of clinicians? NPJ Digit Med 2021;4:62.

[4] Milosevic N, Thielemann W. Comparison of biomedical relationship extraction methods and models for knowledge graph creation. Journal of Web Semantics, August 7, 2022 (https://arxiv.org/abs/2201.01647).

[5] OpenAI. Introducing ChatGPT. November 30, 2022 (https://openai.com/blog/chatgpt).

[6] Corbelle JG, Bugarín-Diz A, Alonso-Moral J, Taboada J. Dealing with hallucination and omission in neural Natural Language Generation: a use case on meteorology. In: Proceedings and Abstracts of the 15th International Conference on Natural Language Generation, July 18–22, 2022. Waterville, ME: Arria, 2022.

[7] Singhal K, Azizi S, Tu T, et al. Large language models encode clinical knowledge. arXiv, December 26, 2022 (https://arxiv.org/abs/2212.13138).

[8] Kung TH, Cheatham M, Medenilla A, et al. Performance of ChatGPT on USMLE: potential for AI-assisted medical education using large language models. PLOS Digit Health 2023;2(2):e0000198.

[9] Nuance. Automatically document care with the Dragon Ambient eXperience (https://www.nuance.com/healthcare/ambient-clinical-intelligence.html).

[10] Kazi N, Kuntz M, Kanewala U, Kahanda I, Bristow C, Arzubi E. Dataset for automated medical transcription. Zenodo, November 18, 2020 (https://zenodo.org/record/4279041#.Y_uCZh_MI2w).

[11] Cancarevic I. The US medical licensing examination. In: International medical graduates in the United States. New York: Springer, 2021.

声明：文章来源于Lee, P., Bubeck, S., & Petro, J. (2023). Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine. New England Journal of Medicine,388(13), 1233–1239.

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

Auto-GPT实测报告——虽不完美，但却是最有前景的AI路线

2023-07-14 16:23

西井科技发布智能机器人专家TerminalGPT，布局海陆空铁物流场景

2023-07-14 16:19