由人工智能驱动的聊天机器人在回答普通用户的日常健康问题时,准确率接近76%,这引发了人们对其在真实世界客户应用中的可信度的担忧。一项发表在《JAMA网络开放获取》上的横断面研究使用数百个常见的、真实的患者生成问题(涵盖预防保健、药物信息、症状鉴别诊断、生活方式建议)对GPT-4进行了评估。研究将GPT-4的回答与由委员会认证的医生组成的专家小组对同一问题的回答进行了比较(盲法评估)。结果发现,总体准确率为75-80%,在药物相关问题上的准确性最高(85-90%),而在鉴别诊断(60-70%)以及营养与体重管理(65-75%)等领域的准确性较低。在10-20% 的案例中,人工智能的回答被专家评为具有“潜在危害性”(例如,忽略了关键的警示信号,或建议了不必要的检查/治疗)。该研究强调了在医疗咨询中使用大型语言模型时,进行严格的监督和制定相关法规的必要性。
人工智能在医疗领域的普及
患者越来越多地使用ChatGPT、谷歌的Bard和Bing Chat等人工智能聊天机器人来解答健康相关的问题,其使用的驱动因素包括医疗服务的可及性有限(需要等待数周才能约到医生)、医疗信息的复杂性(患者难以理解专业术语),以及对即时回答需求的日益增长。然而,人工智能聊天机器人可能会生成不正确或有偏见的输出结果(“幻觉”),这可能导致患者产生错误的健康信念,甚至延误治疗或造成伤害。
研究方法:横断面评估
问题集:研究者从在线健康论坛(如Reddit的“r/AskDocs”)、社交媒体平台以及初级保健实践中常见的患者咨询中,汇总了数百个真实的、患者生成的问题。
问题类别:药物信息、症状鉴别诊断、预防保健、营养与体重管理、以及心理健康。
人工智能聊天机器人:GPT-4(在2023年春季进行测试)。
医生小组:由委员会认证的医生(初级保健、急诊医学、内科、儿科)组成的专家组,通过盲法对人工智能的回答进行评估。
评分标准:准确性(回答在医学上是否正确且完整?);潜在危害性(如果患者据此采取行动,是否可能产生不良后果?);以及完整性(回答是否遗漏了重要的鉴别诊断或后续检查建议?)。
核心发现
1. 总体准确性
医生评估结果显示,GPT-4的总体准确率为75-80%。同时,仍有5-10% 的回答被判定为“明显错误”,以及10-20% 的回答被认为“不够完整”。
2. 不同类别的准确性差异
GPT-4在药物相关问题(剂量、副作用、药物相互作用)上的准确性最高(85-90%);在预防保健(疫苗接种安排、癌症筛查)上的准确性较高(80-85%);在症状鉴别诊断上的准确性较低(60-70%);而在营养与体重管理(65-75%)以及心理健康(65-75%)等领域的准确性也相对较低。
3. 潜在危害性
在10-20% 的案例中,GPT-4的回答被判定为具有“潜在危害性”。这些案例包括:未能识别出“红旗”征象(如未能建议患有急性剧烈头痛和局灶性神经功能缺损的患者进行紧急头部CT检查);建议进行不必要的检查或治疗(如建议对轻度上呼吸道感染症状使用抗生素);或者提供了不正确的用药信息(如提供儿童患者错误的药物剂量)。
4. 影响因素
较为复杂的问题(需要整合多种信息源)以及需要医生进行鉴别诊断的问题,其准确性更低。此外,GPT-4在回答需要获取患者完整病史(包括过去的医疗记录、过敏史和家族史)才能做出正确判断的问题时,表现尤为吃力。
临床意义
1. 对患者进行人工智能相关知识教育
初级保健医生应明确告知患者,人工智能聊天机器人可以作为获取初步健康信息的辅助工具,但不能替代医生。同时,也应提醒患者注意以下“红旗”警示:如果人工智能建议立即就医或拨打急救电话,请务必遵从;如果人工智能忽略了某些症状,但患者本人仍感到担忧,请咨询医生。
2. 人工智能回答的免责声明
生成式人工智能平台的开发人员应在生成答案时添加标准的免责声明:“该工具所提供的信息仅供科普参考,不能替代专业的医疗建议。如果出现医疗紧急情况,请立即拨打急救电话。”
3. 与循证数据库的整合
可以将人工智能聊天机器人与UpToDate、DynaMed、Micromedex等循证医学数据库进行对接,从而在生成回答时优先引用经过验证的高质量资料,减少对训练数据中隐含的非结构化内容的依赖。
局限性与未来方向
局限:
-
静态问题集:该研究所使用的数百个问题,可能无法代表真实世界中患者查询的全部多样性。
-
参考评分的局限性:医生的评估本身也具有主观性(即使医生之间也可能存在分歧),因此缺乏绝对的“金标准”。
-
人工智能的快速迭代:GPT-4自该研究完成以来已进行了多次更新,因此其现有版本的性能可能优于研究中报告的指标。
未来方向:
-
实时监测系统:开发自动化监测工具,当人工智能聊天机器人生成具有“潜在危害性”的回答时,能够及时上报给人类审核员,以便进行标记或修正。
-
对比研究:将GPT-4与GPT-3.5、谷歌的Bard,以及专为临床决策支持设计的专业医学人工智能(如Glass Health)进行横向对比。
-
人工智能回答的随机对照试验:将常见健康问题随机分配给GPT-4生成答案或由医生团队撰写答案,然后让患者对这两类答案的可理解性、可信任度以及行动意愿进行盲法评分。
结论
这项发表在《JAMA网络开放获取》上的研究对GPT-4在常见患者健康问题上的表现进行了横断面评估。 在数百个真实世界的患者问题中,GPT-4的总体准确率为76%。然而,其准确性在不同问题类别之间存在显著差异,在鉴别诊断(60-70%)以及营养与体重管理(65-75%)等领域的准确性较低。值得注意的是,有10-20%的人工智能回答被专家评为具有“潜在危害性”(如未能识别紧急征象,或建议了不恰当的检查/治疗)。这些发现强调了临床医生和患者在决定依赖人工智能聊天机器人获取医疗信息时必须保持谨慎,并提醒各方在人工智能生成的内容发布之前,需要设置严格的人工审核和质量控制环节。