最新版本的人工智能聊天机器人ChatGPT(Chat Generative Pre-trAIned Transformer),能够通过放射科医师的专业考试,这是加拿大多伦多大学的一项新研究发现的。这项研究于2023年5月16日发表在放射学会北美分会(RSNA)的期刊《放射学》上。研究者使用了150道选择题,模拟了加拿大皇家学院和美国放射科医师委员会的考试风格、内容和难度。由于ChatGPT目前还不能接受图像,所以研究者只使用了文本题。研究者将这些问题分别提供给了两个不同版本的ChatGPT:GPT-3.5和更新的GPT-4。
在这次考试中,GPT-4正确回答了81%(121/150)的问题,超过了70%的及格线。而GPT-3.5只正确回答了69%(104/150)的问题,接近及格线。尽管聊天机器人的准确率很高,但研究也发现了一些令人担忧的不准确之处。“放射科医生在解读医学图像时要做三件事:寻找发现、利用高级推理来理解发现的意义、然后将发现传达给患者和其他医生。”该研究的主要作者、多伦多总医院大学医学影像中心(University Medical Imaging Toronto)的腹部放射科医生兼技术负责人Rajesh Bhayana博士在一份声明中说。“放射科领域的大部分人工智能研究都集中在计算机视觉上,但像ChatGPT这样的语言模型实际上是在执行第二步和第三步(高级推理和语言任务),”她继续说。“我们的研究揭示了ChatGPT在放射科背景下的表现,突出了大型语言模型的惊人潜力,以及目前使其不可靠的局限性。”
也许LLM在放射科领域最大的局限性是它们无法解释视觉数据,而这是放射科至关重要的一个方面。Castro博士说。像ChatGPT这样的LLM也以其“幻觉”的倾向而闻名,即它们以自信地方式提供不准确信息。Bhayana博士指出。“与GPT-3.5相比,在GPT-4中‘幻觉’减少了,但仍然发生得太频繁,不能依赖于临床实践。”她说。“医生和患者应该了解这些模型的优势和局限性,包括知道它们目前不能作为唯一信息来源。”Bhayana博士补充说。Castro博士认同,在标准化考试中取得更高分数,并不一定意味着对放射科等医学主题有更深刻地理解。“它只说明了GPT-4更擅长基于其训练过程中获取到大量信息进行模式识别。”他说。虽然GPT-4取得了令人鼓舞地成绩,但Castro博士表示,“要确保AI工具在真实临床环境中准确、安全和有价值,还有很多工作要做。”
您怎么看《人工智能聊天机器人ChatGPT考过放射科,能力有多强?》,欢迎在评论区分享您的看法!
如果感兴趣,欢迎点赞关注转发给朋友!
相关文章
猜你喜欢