> 自媒体 > (AI)人工智能 > 开源中文医疗大模型华佗GPT来了,真人医生盲测效果优于ChatGPT
开源中文医疗大模型华佗GPT来了,真人医生盲测效果优于ChatGPT
来源:机器之心Pro
2023-06-17 20:52:27
1032
管理

机器之心专栏

机器之心编辑部

香港中文大学(深圳)和深圳市大数据研究院所在的王本友教授团队训练并开源了一个新的医疗大模型 ——HuatuoGPT(华佗GPT),以使语言模型具备像医生一样的诊断能力和提供有用信息的能力。

基于医生回复和 ChatGPT 回复,让语言模型成为医生提供丰富且准确的问诊。

论文地址:https://arxiv.org/pdf/2305.15075.pdf

github 地址:https://github.com/FreedomIntelligence/HuatuoGPT

Demo 地址:https://www.huatuogpt.cn/

该论文提出的语言模型训练方法可以结合医生和 ChatGPT 的数据,充分发挥它们的互补作用,既保留真实医疗数据的专业性和准确性,又借助 ChatGPT 的多样性和内容丰富性的特点。

HuatuoGPT 介绍

1. 混合数据集微调

HuatuoGPT 使用了四种不同的数据集,分别如下:

蒸馏 ChatGPT 指令数据集(Distilled Instructions from ChatGPT):这个数据集受到 Alpaca 模型创建指令集的方法启发,从 ChatGPT 中提炼出医疗相关的指令。与之前工作不同的是,本方法还加入了科室和角色信息,根据采样的科室或角色生成符合条件的指令数据集。

真实医生指令数据集(Real-world Instructions from Doctors):这个数据集来源于真实医生和患者之间的问答。医生的回复通常简洁且口语化,因此本方法通过润色以提高其可读性。

蒸馏 ChatGPT 对话数据集(Distilled Conversations from ChatGPT):这个数据集通过为两个 ChatGPT 模型提供共享的对话背景,让它们分别模仿医生和患者进行对话。

真实医生对话数据集(Real-world Conversations with Doctors):这个数据集来源于真实医生的对话,但对医生的回复使用模型进行了润色。

这些数据集共同为模型提供了一个统一的语言模式、医生的诊断能力以及指令跟随能力。

2. 基于 AI 反馈的强化学习

为了进一步提升模型生成的质量,HuatuoGPT 还应用了基于 AI 反馈的强化学习技术(RLAIF)。使用 ChatGPT 对模型生成的内容进行评分,考虑内容的用户友好程度,并结合医生的回答作为参考,将医生回复的质量纳入考量。利用 PPO 算法将模型的生成偏好调整到医生和用户之间的一致性,从而增强模型生成丰富、详尽且正确的诊断。

实验结果

在评估 HuatuoGPT 的性能表现上,团队成员采用了自动评估和人工评估两种方式相互验证,在单轮问答场景和多轮交互式诊断场景中分别进行了评估。

图:单轮问答场景的自动评测结果

针对单轮问答场景,团队成员精心收集了涵盖 10 个医疗领域意图的 100 个问题,并利用 GPT-4 进行自动评估。具体来说,团队提供了两个模型对同一问题生成回复,并使用 GPT-4 对每个模型的回复进行分析和打分。最终的测试结果显示,相较于基于 LLaMa 和 ChatGLM 的开源中文医疗模型,HuatuoGPT 表现显著优秀(以 HuatuoGPT 为基准)。这一优势得益于 HuatuoGPT 同时使用了从 ChatGPT 蒸馏的数据和真实世界数据进行训练,并借助来自 ChatGPT 和专业医生的混合反馈进行了优化。此外,HuatuoGPT 在总体性能上甚至超过了 GPT-3.5-turbo。

图:多轮诊断场景的自动评测结果

对于多轮问诊场景,团队成员收集了涵盖 20 个科室的 100 个多轮对话进行了评估。评估结果显示,HuatuoGPT 不仅全面优于目前的开源中文医疗模型,而且在大部分科室的表现上均优于 GPT-3.5-turbo,这为 HuatuoGPT 在处理更加复杂的多轮问诊场景中的优异性能提供了有力的证据。

在人工评估方面,团队成员使用了自动评估中的样本进行评估验证。团队成员邀请专业医生为模型的输出结果进行人工评估。下表是单轮问答场景和多轮诊断场景的评估结果。评估结果表明,无论是单轮的人工评测还是多轮的人工评测结果都与自动评估的结果保持了一致,这充分验证了模型性能评估的一致性和可靠性。

表:单轮问答场景人工评估结果

表:多轮问诊场景人工评估结果

访问方式:https://www.huatuogpt.cn/

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
深度关注丨汽车消费向“新”而行
中央纪委国家监委网站 李云舒图为近日,在河北省邯郸市永年区汽车促销活..
裁员、召回、无赔偿!理想汽车不谈“人文关怀”
原来车企不仅可以召回汽车,还可以“召回”员工。继大规模裁员一月之后,..
阿维塔总裁陈卓:中国汽车市场现状与重庆火锅非常相似,都是“热辣滚烫”..
“2024中国汽车重庆论坛(CACS2024)”于6月6日-8日举行。阿维塔科技总裁..
大众汽车集团三年内“动刀”裁员20%?最新回应→
每经记者:苗诗雨 每经编辑:王月龙,孙磊日前,《每日经济新闻》记者获悉..
2024款凯迪拉克锐歌Lyriq评测:超值的豪华电动汽车
2024 款凯迪拉克 Lyriq 的尾部无疑是其最具争议的角度。凯迪拉克尾部几乎..
宝马打五折,4S店仅剩1辆现车,合资豪华品牌汽车溢价能力遭重构..
风口财经记者 王贝贝近日“宝马i3腰斩式大降价”的话题登上热搜。官方报..
退市风险叠加人事更迭 极星汽车危机重重
经济观察报 记者 王帅国 连续十余天股价低于1美元面临退市风险,中国市场..
6大国产汽车品牌,高品质不贵,买车必看
质量最好,性价比高的汽车品牌,选择这6款国产品牌,准没错这车可是定位..
汽车认证存在造假行为,丰田、本田、马自达日本高管鞠躬道歉..
环球网及多家媒体报道,据日本国土交通省发布消息,鉴于日本大发工业等公..
关于作者
阳光下的微笑..(普通会员)
文章
1062
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40404 企业收录2983 印章生成238796 电子证书1060 电子名片60 自媒体58417

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索