通过了美国医师考试的ChatGPT，会抢医生的饭碗吗？-科研动态-SCI论文润色|SCI论文修改|SCI论文翻译|科研服务|生物医学研究-中科启帆医学编译

首页 > 科研动态

科研动态

通过了美国医师考试的ChatGPT，会抢医生的饭碗吗？

浏览量：8276 2023/2/17

啥都能聊的人工智能ChatGPT又双叒叕封神了。

这一次，它挑战的是“史上最难标准化考试”：美国执业医师资格考试（USMLE）。根据《科学公共图书馆·数字健康》杂志近日刊发的研究，未接受过任何医学训练的ChatGPT“裸考”参加USMLE，准确率达到或接近及格所需的60%。

还有考得更好的。2022年末的一篇预印版文章称，经过专业医学数据“集训”后，谷歌旗下Flan-PaLM的USMLE考试成绩准确率达67.6%。而它的微调、升级版Med-PaLM在多方面都逼近人类医生水平。

和ChatGPT一样，Flan-PaLM和Med-PaLM也是大型语言模型，它俩的核心能力都是理解和生成文本。简而言之，就是“懂人话”“说人话”。
上述研究都指出，其结果“为重新思考医疗人工智能（AI）的发展，提供了重要契机。”微软创始人比尔·盖茨（Bill Gates）近日接受采访称，ChatGPT等AI可以在医疗保健等领域切实提高工作效率，“想想医生在文书工作上花费时间，未来我们应该能避免。”

更有乐观者展望未来，认为ChatGPT给患者看病指日可待。新西兰惠灵顿维多利亚大学软件工程高级讲师西蒙·麦卡勒姆（Simon McCallum）表示，随着技术不断发展，“我们可能很快会从AI医生处，得到医学方面的建议”。

考试So easy，医学要变天？

美国医疗保健初创企业安西布尔健康公司（Ansible Health）是把ChatGPT送上医学“神坛”的操刀者。这是一家聚焦慢性肺病管理的科技公司，提供在线诊疗、远程康复、生活方式干预等服务。

肺疾病医生维克多·曾（Victor Tseng）是该司的医学主任。ChatGPT上线后，像亿万网友一样，他和同事们问了很多“有意思但没意义”的问题，想挑战AI的能力极限。他说，“我们输入很多信息，它能快速、准确地诊断出谁在装病。我们觉得，或许能让ChatGPT执行、处理一些复杂的医学和临床信息，比如协调患者治疗、护理等。但在此之前，我们先要证明，它确实迈进医学门槛，能干这个。”

维克多·曾等人选定的“门槛”就是USMLE。这是在美国获得行医资格的基础。考试结果只有“通过”和“不通过”两种。

考试分3个阶段，旨在评估参考者的基础医学科学、临床医学知识等掌握情况，以及评估临床知识在患者管理中的具体应用。每阶段考试都有计算机答题部分，第二阶段还会考标准化病人问诊。美国医学生大多在毕业后第一年当住院医师时，完成全部考试。

研究小组从2022年6月的USMLE真题库中，选出350道纯文字题。题型包括病因判断等选择题，根据提示、完成诊断等问答题。由于ChatGPT不会看图表，研究未纳入基于图像的问题。

3位USMLE委员会认证执业医师获邀为ChatGPT打分。结果显示，去除模糊不清的回答后，ChatGPT在3个阶段的得分率在52.4%-75%。
在“解释对/错”方面，ChatGPT展示出94.6%的响应一致性。在88.9%的问答题中，ChatGPT给出至少一个重要见解，其中有一些新鲜、有临床获益的解读。这表明它真的在“读题”“思考”，答案不是瞎蒙的。

“这项以难度而闻名的考试，通常需要300-400小时专业学习才能参加，涵盖从基础科学到生物伦理学的所有知识。”研究团队称，ChatGPT给出的结果令人信服，准确率较高。

也许很多普通吃瓜群众惊叹“医学要变天”，但医疗界的资深人士对ChatGPT的表现淡定很多。

其实，2022年，语言模型类AI进展迅猛，PubMed GPT、DRAGON、Galactica ……一个个都考了USMLE。当年年末，谷歌研究院和DeepMind团队联合研究更是考出了“史上AI最高分”。该团队指出，“回答医疗问题”极具挑战性。为了提供高质量的答案，AI需要理解医学背景、掌握适当的医学知识，并能对专家信息进行推理。

研究小组微调其语言模型、丰富数据集，由此生成Flan-PaLM模型。它拥有一组强大的医学问题问答数据集，涵盖医学考试、医学研究、消费者医学问题等多方面。其中包括USMLE真题库MedQA，和蕴涵海量健康话题搜索及结果的数据集HealthSearchQA。研究小组用真题库测试Flan-PaLM，发现其准确率达67.6%，比早先的AI模型高出17%。

研究小组通过调整问题指令，打造了另一个针对消费者医疗问题的Med-PaLM模型，测试发现，Med-PaLM在科学常识、理解、检索和推理等任务挑战中，水平直逼甚至战胜人类医生，且明显优于Flan-PaLM。

上述研究结论发布后，社交媒体推特出现大量评论，称：“AI医生终于来了。”

辅助医生，而不是替代

维克多·曾等人的研究刊发次日，USMLE项目回应称，“一点都不惊讶。非常感兴趣ChatGPT错在哪儿了”。该项目还表示，正确使用AI，将对构建考试方式、触动学生学习，产生积极影响。接下来会继续努力、优化USMLE，实现医学教育、医疗实践和技术等共同进步，甚至可能会在USMLE备考中，引入ChatGPT。

“或许有一天，真题就是AI编写的。” USMLE项目副主席阿莱克斯·麦卡博（Alex Mechaber）表示，ChatGPT的文本数据中有不少医学知识，AI是最可能选对答案的。但其不足是只能看文字，无法回答图像或声音问题，也不能参加临床技能模拟考试。

这一回应体现出USMLE对自身的思考。《科学公共图书馆·数字健康》在发表前述研究的同日，配发评论指出，ChatGPT通过美国执业医师资格考试，让人们注意到医学教育的缺陷。

该文称，ChatGPT的成功，一方面反映出医学考试过于强调机械记忆，对疾病机理死记硬背，不能充分评估现代医疗实践所需技能。

Aligned AI的联合创始人兼首席研究员斯图尔特·阿姆斯特朗（Stuart Armstrong）认为，USMLE对人而言肯定是困难的。但总有一天，在几乎所有的理论考试中，AI都能一骑绝尘。数据库越大、训练越多，其成绩就能进一步提高。2022年诸多语言模型类AI不断刷新USMLE考分记录，就是实证。另一方面，它折射出医学教学方式僵化，易让学生误以为医学问题“非对即错”。

事实上，现代医学以循证医学为基础，包括外部证据，医生个体经验和患者意图等多方面。临床中的“正确选择”含义丰富，既需要医生摒弃偏见、发挥创造力、展开批判性思考，也需要考虑众多现实因素。在这些方面，AI并无优势。

近日，北美华人医师联盟、美国华裔心脏协会采用群聊的形式，组织了一场高血压科普访谈。

该联盟主席、美国心脏病学会专家会员（FACC）高磊称：“ChatGPT的能力不能小视。”

在分享中，主讲嘉宾、美国加州大学戴维斯医学中心临床科学教授范大立提问ChatGPT，让其解答一系列血压相关问题。结果“对错参杂”。

比如，ChatGPT回答：120/80毫米汞柱是“正常血压”，超过140/90毫米汞柱则是高血压。“那么，在这范围之间的血压是正常，还是高呢？”主持人之一、美国华裔心脏协会主席、美国凯撒医疗集团Fremont医学中心心脏科医生胡新歌分析，欧洲仍在使用140/90毫米汞柱诊断标准。但按照美国2017年指南，130/80毫米汞柱是一级高血压，140/90毫米汞柱是二级高血压。这或说明ChatGPT存在困惑，没搞明白这些数值背后的意义。

此外，血压=心输出量×动脉血管阻力，是心内科最重要的公式。高磊、胡新歌都表示，关于血压、用药的问题，多可以用这个公式来解释。ChatGPT对这一公式的回复是“看不懂。”

ChatGPT也有“神回答”。范大立连问几次，血压到130/80毫米汞柱要不要用药。ChatGPT回复称，这一数值属于边缘高血压，不一定要马上用药，可以通过生活方式改善等调节。“这个是有道理的，临床也在这么做。”胡新歌说。

“ChatGPT实际上并不懂任何东西。它是通过分析大量数据库、资料等，就任一主题构建听起来合理的句子。它可能异常聪明，也可能得出最荒谬的结论。”Science Alert文章指出。

USMLE项目在其回应中还担忧：大型语言模型可能带来潜在错误信息，存在使有害偏见固化的风险。在Med-PaLM相关研究中，研究小组就发现其答案的不完整性、不正确内容等，发生率都高于人类医生。

作为一线医生，上海市第十人民医院老年医学科主任彭沪曾就一些常见症状问询过ChatGPT。谈及AI能否取代医生，彭沪表示，医疗AI的发展目标应该是辅助医生，而非代替医生。AI可以帮助医生快速完成一些繁琐的重复性工作，从而提高工作效率、改善工作质量、提升治疗水平、减轻医务人员的工作负担。但最终的判断和决策，仍需要在医生的监督下进行。尤其在强医疗场景中，人工智能的应用还牵涉到伦理、政策、论证等多方面因素。

彭沪畅想的场景，在维克多·曾的日常工作中已经成为现实。他的临床医生同事已开始尝试将ChatGPT作为工作流程的一部分。“我们的医生会以安全的方式输入信息，要求ChatGPT协助完成一些传统、繁重的写作任务，比如向付款人写投诉信，简化放射报告中密集的专业术语，以便患者阅读、理解。遇到一些较难诊断的病例时，我们也会借助ChatGPT进行头脑风暴。”

维克多·曾说，“AI用于医疗的大门已经打开了。”