联系热线:010-5231-2302

首页 > 科研动态

通过了美国医师考试的ChatGPT,会抢医生的饭碗吗?

浏览量:7323 2023/2/17

啥都能聊的人工智能ChatGPT又双叒叕封神了。


这一次,它挑战的是“史上最难标准化考试”:美国执业医师资格考试
(USMLE)。根据《科学公共图书馆·数字健康》杂志近日刊发的研究,未接受过任何医学训练的ChatGPT“裸考”参加USMLE,准确率达到或接近及格所需的60%。


还有考得更好的。2022年末的一篇预印版文章称,经过专业医学数据“集训”后,谷歌旗下Flan-PaLM的USMLE考试成绩准确率达67.6%。而它的微调、升级版Med-PaLM在多方面都逼近人类医生水平。


和ChatGPT一样,Flan-PaLM和Med-PaLM也是大型语言模型,它俩的核心能力都是理解和生成文本。简而言之,就是“懂人话”“说人话”。

上述研究都指出,其结果“为重新思考医疗人工智能(AI)的发展,提供了重要契机。”微软创始人比尔·盖茨(Bill Gates)近日接受采访称,ChatGPT等AI可以在医疗保健等领域切实提高工作效率,“想想医生在文书工作上花费时间,未来我们应该能避免。”


更有乐观者展望未来,认为ChatGPT给患者看病指日可待。新西兰惠灵顿维多利亚大学软件工程高级讲师西蒙·麦卡勒姆
(Simon McCallum)表示,随着技术不断发展,“我们可能很快会从AI医生处,得到医学方面的建议”。


考试So easy,医学要变天?
美国医疗保健初创企业安西布尔健康公司(Ansible Health)是把ChatGPT送上医学“神坛”的操刀者。这是一家聚焦慢性肺病管理的科技公司,提供在线诊疗、远程康复、生活方式干预等服务。


肺疾病医生维克多·曾
(Victor Tseng)是该司的医学主任。ChatGPT上线后,像亿万网友一样,他和同事们问了很多“有意思但没意义”的问题,想挑战AI的能力极限。他说,“我们输入很多信息,它能快速、准确地诊断出谁在装病。我们觉得,或许能让ChatGPT执行、处理一些复杂的医学和临床信息,比如协调患者治疗、护理等。但在此之前,我们先要证明,它确实迈进医学门槛,能干这个。”


维克多·曾等人选定的“门槛”就是USMLE。这是在美国获得行医资格的基础。考试结果只有“通过”和“不通过”两种。


考试分3个阶段,旨在评估参考者的基础医学科学、临床医学知识等掌握情况,以及评估临床知识在患者管理中的具体应用。每阶段考试都有计算机答题部分,第二阶段还会考标准化病人问诊。美国医学生大多在毕业后第一年当住院医师时,完成全部考试。


研究小组从2022年6月的USMLE真题库中,选出350道纯文字题。题型包括病因判断等选择题,根据提示、完成诊断等问答题。由于ChatGPT不会看图表,研究未纳入基于图像的问题。


3位USMLE委员会认证执业医师获邀为ChatGPT打分。结果显示,去除模糊不清的回答后,ChatGPT在3个阶段的得分率在52.4%-75%。

在“解释对/错”方面,ChatGPT展示出94.6%的响应一致性。在88.9%的问答题中,ChatGPT给出至少一个重要见解,其中有一些新鲜、有临床获益的解读。这表明它真的在“读题”“思考”,答案不是瞎蒙的。


“这项以难度而闻名的考试,通常需要300-400小时专业学习才能参加,涵盖从基础科学到生物伦理学的所有知识。”研究团队称,ChatGPT给出的结果令人信服,准确率较高。


也许很多普通吃瓜群众惊叹“医学要变天”,但医疗界的资深人士对ChatGPT的表现淡定很多。


其实,2022年,语言模型类AI进展迅猛,PubMed GPT、DRAGON、Galactica ……一个个都考了USMLE。当年年末,谷歌研究院和DeepMind团队联合研究更是考出了“史上AI最高分”。该团队指出,“回答医疗问题”极具挑战性。为了提供高质量的答案,AI需要理解医学背景、掌握适当的医学知识,并能对专家信息进行推理。


研究小组微调其语言模型、丰富数据集,由此生成Flan-PaLM模型。它拥有一组强大的医学问题问答数据集,涵盖医学考试、医学研究、消费者医学问题等多方面。其中包括USMLE真题库MedQA,和蕴涵海量健康话题搜索及结果的数据集HealthSearchQA。研究小组用真题库测试Flan-PaLM,发现其准确率达67.6%,比早先的AI模型高出17%。


研究小组通过调整问题指令,打造了另一个针对消费者医疗问题的Med-PaLM模型,测试发现,Med-PaLM在科学常识、理解、检索和推理等任务挑战中,水平直逼甚至战胜人类医生,且明显优于Flan-PaLM。


上述研究结论发布后,社交媒体推特出现大量评论,称:“AI医生终于来了。”


辅助医生,而不是替代
维克多·曾等人的研究刊发次日,USMLE项目回应称,“一点都不惊讶。非常感兴趣ChatGPT错在哪儿了”。该项目还表示,正确使用AI,将对构建考试方式、触动学生学习,产生积极影响。接下来会继续努力、优化USMLE,实现医学教育、医疗实践和技术等共同进步,甚至可能会在USMLE备考中,引入ChatGPT。


“或许有一天,真题就是AI编写的。” USMLE项目副主席阿莱克斯·麦卡博
(Alex Mechaber)表示,ChatGPT的文本数据中有不少医学知识,AI是最可能选对答案的。但其不足是只能看文字,无法回答图像或声音问题,也不能参加临床技能模拟考试。


这一回应体现出USMLE对自身的思考。《科学公共图书馆·数字健康》在发表前述研究的同日,配发评论指出,ChatGPT通过美国执业医师资格考试,让人们注意到医学教育的缺陷。


该文称,ChatGPT的成功,一方面反映出医学考试过于强调机械记忆,对疾病机理死记硬背,不能充分评估现代医疗实践所需技能。


Aligned AI的联合创始人兼首席研究员斯图尔特·阿姆斯特朗
(Stuart Armstrong)认为,USMLE对人而言肯定是困难的。但总有一天,在几乎所有的理论考试中,AI都能一骑绝尘。数据库越大、训练越多,其成绩就能进一步提高。2022年诸多语言模型类AI不断刷新USMLE考分记录,就是实证。另一方面,它折射出医学教学方式僵化,易让学生误以为医学问题“非对即错”。


事实上,现代医学以循证医学为基础,包括外部证据,医生个体经验和患者意图等多方面。临床中的“正确选择”含义丰富,既需要医生摒弃偏见、发挥创造力、展开批判性思考,也需要考虑众多现实因素。在这些方面,AI并无优势。


近日,北美华人医师联盟、美国华裔心脏协会采用群聊的形式,组织了一场高血压科普访谈。


该联盟主席、美国心脏病学会专家会员
(FACC)高磊称:“ChatGPT的能力不能小视。”


在分享中,主讲嘉宾、美国加州大学戴维斯医学中心临床科学教授范大立提问ChatGPT,让其解答一系列血压相关问题。结果“对错参杂”。


比如,ChatGPT回答:120/80毫米汞柱是“正常血压”,超过140/90毫米汞柱则是高血压。“那么,在这范围之间的血压是正常,还是高呢?”主持人之一、美国华裔心脏协会主席、美国凯撒医疗集团Fremont医学中心心脏科医生胡新歌分析,欧洲仍在使用140/90毫米汞柱诊断标准。但按照美国2017年指南,130/80毫米汞柱是一级高血压,140/90毫米汞柱是二级高血压。这或说明ChatGPT存在困惑,没搞明白这些数值背后的意义。


此外,血压=心输出量×动脉血管阻力,是心内科最重要的公式。高磊、胡新歌都表示,关于血压、用药的问题,多可以用这个公式来解释。ChatGPT对这一公式的回复是“看不懂。”


ChatGPT也有“神回答”。范大立连问几次,血压到130/80毫米汞柱要不要用药。ChatGPT回复称,这一数值属于边缘高血压,不一定要马上用药,可以通过生活方式改善等调节。“这个是有道理的,临床也在这么做。”胡新歌说。


“ChatGPT实际上并不懂任何东西。它是通过分析大量数据库、资料等,就任一主题构建听起来合理的句子。它可能异常聪明,也可能得出最荒谬的结论。”Science Alert文章指出。


USMLE项目在其回应中还担忧:大型语言模型可能带来潜在错误信息,存在使有害偏见固化的风险。在Med-PaLM相关研究中,研究小组就发现其答案的不完整性、不正确内容等,发生率都高于人类医生。


作为一线医生,上海市第十人民医院老年医学科主任彭沪曾就一些常见症状问询过ChatGPT。谈及AI能否取代医生,彭沪表示,医疗AI的发展目标应该是辅助医生,而非代替医生。AI可以帮助医生快速完成一些繁琐的重复性工作,从而提高工作效率、改善工作质量、提升治疗水平、减轻医务人员的工作负担。但最终的判断和决策,仍需要在医生的监督下进行。尤其在强医疗场景中,人工智能的应用还牵涉到伦理、政策、论证等多方面因素。


彭沪畅想的场景,在维克多·曾的日常工作中已经成为现实。他的临床医生同事已开始尝试将ChatGPT作为工作流程的一部分。“我们的医生会以安全的方式输入信息,要求ChatGPT协助完成一些传统、繁重的写作任务,比如向付款人写投诉信,简化放射报告中密集的专业术语,以便患者阅读、理解。遇到一些较难诊断的病例时,我们也会借助ChatGPT进行头脑风暴。”


维克多·曾说,“AI用于医疗的大门已经打开了。”

在线咨询

联系电话

业务咨询

招聘咨询

招聘咨询

返回顶部