Hugging Face推出医疗任务评估基准Open Medical-LLM，医学界警示声不断-金财在线

近日，Hugging Face发布了一项名为Open Medical-LLM的新基准测试，旨在评估生成式人工智能模型在医学相关任务上的表现。该基准是由Hugging Face与Open Life Science AI和爱丁堡大学自然语言处理小组的研究人员合作创建的，旨在标准化评估生成式人工智能模型在医学领域的性能。

Open Medical-LLM并非从零开始，而是由现有测试集如MedQA、PubMedQA、MedMCQA等拼接而成，涵盖了多个医学领域。基准测试包含多项选择和开放性问题，需要医学推理和理解，内容涵盖了美国和印度的医学执照考试以及大学生物学测试题库的内容。

尽管Hugging Face将Open Medical-LLM视为医疗界生成式人工智能模型的“健全评估”，但一些医学专家对此提出了警告。他们指出，基准测试结果不能替代在真实世界条件下的仔细测试，实际临床实践与医学问题回答之间存在较大差距。

Hugging Face的研究科学家克莱门汀・弗里尔在社交媒体上表示，这些排行榜只能作为探索特定用例的第一近似值，实际上需要进行更深入的测试阶段。她强调，医学模型绝不能单独由患者使用，而应该被训练成为医生的支持工具。

尽管Open Medical-LLM等基准测试具有一定的参考意义，但结果排行榜也反映出模型在回答基本健康问题时表现不佳。然而，这些基准测试都不能替代经过深思熟虑的真实世界测试。例如，谷歌曾试图将用于糖尿病视网膜病变筛查的人工智能工具引入泰国的医疗系统，但在实际测试中表现不佳，导致患者和护士对其结果的不一致性感到沮丧。

截至目前，美国食品药品监督管理局尚未批准任何使用生成式人工智能的医疗设备。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况，以及这些结果可能随时间变化的趋势，都是异常困难的。对于医学界来说，如何平衡人工智能技术的发展与实际临床需求之间的差距，仍然是一个��待解决的问题。

Hugging Face 发布医疗任务评估基准Open Medical-LLM