打破多语种医疗AI瓶颈:IndicBERT-HPA在骨科决策支持中的可靠性突破
针对低资源医疗场景下多语种临床文本分类的可靠性难题,研究提出IndicBERT-HPA框架。该模型基于IndicBERT引入骨科适配器,有效处理英、印地语及旁遮普语的混合脚本与专业术语。实验显示,零样本大语言模型在封闭集分类中存在显著的语言不稳定性,而IndicBERT-HPA在自然临床分布下表现最佳,平均Macro-F1达0.8792。此外,研究通过置信度门控与证据一致性检查实现选择性验证,在72.3%覆盖率下达到84.4%的准确率,为多语种临床决策提供了高可靠性的延迟机制。
在低资源医疗环境中,骨科临床决策支持系统面临着严峻的多语种挑战。临床叙事文本往往包含高度专业化的术语、混合书写系统、不完整的证据链以及标签不平衡问题,且不同语言具有独特的文档记录模式。现有的通用多语言模型难以充分捕捉这些细微差别,导致在英语、印地语和旁遮普语等语言上的表现不稳定。本研究旨在解决这一核心痛点,提出了一种面向可靠性的多语种骨科文本分类框架。其核心贡献在于构建了一个领域自适应编码器 IndicBERT-HPA,该模型不仅继承了多语言基础模型的通用表征能力,还通过引入语言感知的骨科适配器头,实现了对临床相关多语种表示的精细化学习。这一方法旨在提升模型在混合脚本和语言依赖型文档中的鲁棒性,从而为多语种医疗环境提供更精准、更可靠的辅助决策支持,填补了现有技术在低资源多语种骨科领域的空白。在技术方法层面,研究详细对比了多种模型架构的性能差异,包括任务对齐的多语言 Transformer 编码器、经过任务微调的 DistilBERT 基线、零样本指令微调的大语言模型以及本文提出的 IndicBERT-HPA。IndicBERT-HPA 的设计精髓在于其模块化架构:它在预训练的 IndicBERT 基础上,添加了专门针对骨科领域的适配器模块。
这种设计允许模型在不改变基础语言模型参数的前提下,通过轻量级的适配器注入领域知识,从而有效处理骨科特有的术语和语境。训练策略上,模型针对多语种混合输入进行了优化,特别关注语言感知的表征学习,确保模型能够区分并适应不同语言的结构特征。此外,研究还引入了确定性选择性验证层,该层结合了置信度门控、证据一致性检查和语言风险筛查机制。这种机制允许模型在置信度不足或证据矛盾时主动延迟判断,而非强行输出结果,从而在技术架构上实现了从"盲目分类"到"可靠决策"的范式转变。实验设置涵盖了广泛的评估维度,超越了传统的聚合准确率,深入分析了每类性能、ROC-AUC、AUPRC、期望校准误差、跨语言稳定性以及在不同分布下的鲁棒性。评估数据包括受控平衡分布和自然临床流行度分布。关键结果显示,在零样本设置下,大型语言模型在封闭集分类任务中表现显著低于任务自适应编码器,且表现出强烈的语言依赖性不稳定。相比之下,IndicBERT-HPA 在自然临床分布下展现出最强的整体性能,其平均 Macro-F1 达到 0.8792,Macro-AUROC 为 0.894,AUPRC 为 0.902。
在验证层测试中,研究使用了一个随机选取的 5,000 条记录的保留子集。结果显示,选择性验证层在 72.3% 的数据覆盖率下,实现了 84.4% 的选择性准确率和 0.76 的选择性 Macro-F1。这一结果与全接受预测的 71.5% 准确率和 0.65 Macro-F1 形成鲜明对比,证明了引入验证和延迟机制在提升特定子集预测质量方面的巨大潜力,同时也揭示了模型在自然分布下的校准能力。这项研究对开源社区、工业落地及后续研究具有深远意义。首先,IndicBERT-HPA 为低资源多语种医疗 AI 提供了一个可复现的高性能基线,促进了南亚语言医疗数据的开源共享与模型优化。其次,其提出的验证引导延迟机制为医疗 AI 的落地应用提供了关键的安全阀,解决了临床场景中"不可靠预测"带来的伦理和法律风险,使得 AI 系统能够在保证安全的前提下辅助医生工作。对于工业界而言,这种轻量级的适配器微调策略降低了多语种医疗模型部署的计算成本,提高了可扩展性。最后,本研究强调了跨语言稳定性和证据一致性在医疗决策中的重要性,为后续研究指明了方向,即未来的多语种医疗 AI 不应仅追求整体准确率,更应关注其在不确定性场景下的可靠性和可解释性,从而推动医疗 AI 向更负责任、更实用的方向发展。