咨询人工智能专业的医生是否不如网上搜索可靠？ “自然的

人工智能本身的能力与人类使用这些能力的效率之间存在巨大差距。 AI医生真的可信吗？仅仅通过增加计算能力就可以提高性能吗？ 2月10日发表在《自然医学》上的一项新研究表明，对于普通人来说，答案是否定的。在这项研究中，来自牛津大学等机构的研究人员聚集了1298名英国参与者，让他们判断10种医疗场景，包括如果突然出现剧烈头痛应该去哪个医疗机构以及可能患上什么类型的疾病。参与者被随机分配到四个实验组。三个治疗组使用三种不同的大规模语言模型来支持决策：GPT-4o、Llama 3 或 Command R+。另一方面，对照组使用的是您通常在家中使用的方法（主要是互联网搜索）。当研究人员从医疗场景中提供信息时直接进入这些大规模语言模型，他们发现性能非常好。 GPT-4o 可以在 94.7% 的情况下指出至少一项相关的医疗诊断，并在 64.7% 的情况下给出正确的医疗建议。 Llama 3 和 Command R+ 的工作原理类似。这说明他们掌握了大量的医疗信息。然而，当公众使用这些相同的模型时，情况就不同了。使用大规模语言模型的参与者识别相关医疗状况的能力较差，准确率低于 34.5%。他们在确定医疗优先顺序方面也与对照组相当，两者的准确率均约为 44%。这意味着，如果患者自己咨询AI医生，可能不会得到比网上搜索更好的结果。这个结果表明，人工智能本身的能力与人类使用该能力的效率之间存在巨大差距。研究人员分析了参与者之间的对话记录裤子和大规模语言模型，发现了许多系统性问题。首先是信息的传输不流畅。大型语言模型在对话中提及相关症状的比例约为 65% 至 73%，其独立工作。性能比案例中低很多，表明人类患者常常没有向AI系统提供足够的信息。超过一半的患者在最初描述症状时没有提供完整的信息。有时人们只是说“头痛”，而不提及“反复发作”、“内膜炎”或“伴有颈部僵硬”等重要症状。患者可能会随着人工智能提问而逐渐添加信息，也可能根本不添加信息。相比之下，作者指出，医生能够诊断患者不仅因为他们知识渊博，而且因为他们知道要问什么问题。一般患者可能不知道哪些症状是诊断的关键。研究人员还发现，即使人工智能系统给出了正确的建议，人类也可能不会遵循。参与者平均列出了 1.33 个医疗诊断作为最终答案，准确率仅为 38.7%。相比之下，对于整个对话中提到的所有诊断，大规模语言模型的正确率为 34%。这意味着人类不太擅长在Individual AI产生的多个建议中选择最好的一个。除了沟通不畅和判断力差之外，研究还发现AI本身也存在一些问题。在某些情况下，大规模语言模型提供了正确的初步诊断，但随着患者添加更多细节，它会改变语气并提出错误的建议。在其他极端情况下，同一个人工智能对相似的症状描述提供了完全相反的建议。例如，两名患者均诉有蛛网膜下腔出血的症状，包括突然剧烈头痛、颈部僵硬、和畏光。然而，人工智能告诉一名患者“躺在黑暗的房间里”休息，并建议另一名患者“立即叫救护车”。在人类医生的培养逻辑中，通过资格考试是就业的第一步。然而，研究作者指出，就人工智能而言，测试的分数与现实世界的表现并不直接相关。研究人员从医疗执照考试题库中挑选了 236 道与上述医疗场景相关的选择题，并由 AI 进行解答。它的准确性远高于其在真实交互中的表现。醋。在某些场景下，AI问题的准确率超过80%，但在患者实验中面对同样的问题时，准确率却低于20%。研究人员还测试了人工智能是否可以用来模拟患者和医生之间的对话，以反映现实生活中的情况。这是许多研究中流行的基准测试，许多人相信我其结果应该比简单的多项选择题更能反映现实生活中的互动。然而，研究结果表明，模拟患者不仅总体表现优于真实用户，而且这种优势与真实用户表现几乎没有相关性。换句话说，模拟交互无法预测真实交互会成功还是失败。研究人员认为，两种主要语言模型之间的对话通常更加结构化，从而可以更流畅地传递信息。他们知道要问什么以及如何有效地传达医学概念。另一方面，人类患者则呈现出现实世界的复杂性，包括焦虑、知识不足、对症状的不同理解以及不可预测的信息交换模式。这项研究解决了人工智能医学的一个基本问题。对于大规模语言模型来说，医学知识的广度和精度并不是实现的充分条件。在现实世界的医疗场景中取得成功。现实世界的医疗互动包括传统医疗基准无法捕获的复杂互动。这些发现对于那些热切等待医疗人工智能“革命”的人来说是一个发人深省的提醒。虽然大规模语言模型可能永远无法取代医生的临床判断，但如果首先解决人机通信问题，它们可以通过更仔细和透明的设计成为有用的决策辅助工具。参考文献：Bean, A.M.、Payne, R.E.、Parsons, G. 法学硕士作为公众其他成员中的医师助理的信任：一项随机预注册研究。自然医学（2026）。 https://doi.org/10.1038/s41591-025-04074-y
特别提示：以上内容（包括图片、视频，如适用））由自有媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注：以上内容（含图片及视频）os（如有）由网易号用户上传并发布，网易号是一个仅提供信息存储服务的社交媒体平台。

归档

分类

由 admin

发表回复取消回复

您错过了

英伟达是不是一夜之间崩盘了，机构投资者纷纷抛售，个人投资者纷纷买入？

清华大学智能产业研究院院长张亚勤表示：“中国一定会成为第四次工业革命的引领者。”

苹果入门级MacBook（A18 Pro）预览：8GB内存，不支持True Tone显示

三星Galaxy S26系列正式发布：包含全面图像更新和防窥屏

咨询人工智能专业的医生是否不如网上搜索可靠？ “自然的

由 admin

相关文章

英伟达是不是一夜之间崩盘了，机构投资者纷纷抛售，个人投资者纷纷买入？

苹果入门级MacBook（A18 Pro）预览：8GB内存，不支持True Tone显示

歌手久保亭的新账号疑似被封。中央纪委网站曾发文称：“歌手曲王婷母亲张明杰案引人关注，海外不是资产转移的避风港。”

发表回复 取消回复

您错过了

英伟达是不是一夜之间崩盘了，机构投资者纷纷抛售，个人投资者纷纷买入？

清华大学智能产业研究院院长张亚勤表示：“中国一定会成为第四次工业革命的引领者。”

苹果入门级MacBook（A18 Pro）预览：8GB内存，不支持True Tone显示

三星Galaxy S26系列正式发布：包含全面图像更新和防窥屏

发表回复取消回复