AI还做不了“万能医生”，却是当下最好的“场景工具包”-Axitrader外汇官网

在四天的万能医生时间里（2月6日-9日），两项接连发表于《自然-医学》的当下的场研究共同展示了AI在医疗领域应用的繁琐图景。

2月6日，最好谷歌DeepMind、景工具包斯坦福大学、万能医生谷歌Research的当下的场研究团队联合在《自然-医学》（Nature Medicine）发表研究论文A large language model for complex cardiology care ，介绍了一个基于Gemini 2.0 Flash大语言模型构建的最好医疗人工智能系统——AMIE（Articulate Medical Intelligence Explorer），专门用于处理繁琐的景工具包心脏病病例，能够综合分析多种检查结果，万能医生包括心电图、当下的场心脏超声、最好心脏磁共振成像和心肺运动尝试等。景工具包在临床数据测试中，万能医生AMIE能够显著提升心脏病医生的当下的场诊断质量、减少错误和关键信息遗漏，最好提高医生的工作效率和信心。

全球心脏病学亚专科资源不足，尤其在遗传性心肌病诊断中，大量患者因缺乏专家评估而延误治疗。AMIE能有效提升平常心脏科医生对繁琐心脏病的诊疗能力，减少错误和信息遗漏，为缓解专科资源不足提供了新路径。

值得注意的是，上述研究测试中有6.5%的案例AMIE出现了临床显著幻觉（如虚构影像报告的检查结果），但可通过医生的质疑及时纠正。这强调了在现阶段的诊疗流程中，人类医生的监督和质控不可或缺。

2月9日，牛津大学的研究团队在《自然-医学》（Nature Medicine）发表论文Reliability of LLMs as medical assistants for the general public: a randomized preregistered study 。该研究进行了一项大规模随机对照尝试，以测试大语言模型（LLM）作为公众医疗助手的实际效果，结果显示，在各种医学考试中表现优异、甚至堪比人类专家的大语言模型，却在真实的医疗场景中不能有效帮助公众诊断病痛并作出正确的康健决策。

研究团队在进一步的人工检查中发现，问题不在于LLM的医学知识储备，而在于人类与LLM的交互难题。在真实的医疗场景中，患者往往无法准确、完整地描述症状，而LLM可能过度依赖专业术语，未能将医学知识“翻译”成通俗语言，还会生成误导性的信息，导致沟通失效。研究团队建议，LLM在医疗领域大规模部署前需进行系统的人类用户测试。

刚刚过去的2025年，是全球“AI+医疗”大模型爆发的一年。

谷歌的MedGemma、OpenAI的o1模型凭借强大的多模态理解和逻辑推理能力，在繁琐的临床诊断任务中表现突出；Hippocra