AI醫生珍視什麼?審查語言模型臨床倫理中的價值多元性
本文提出了一種審查醫療人工智慧中價值多元性的新框架,旨在解決大語言模型在臨床倫理建議中缺乏系統性價值評估的問題。研究建構了一個由臨床醫生驗證的倫理困境基準,並開發了一種歸因方法,直接從模型的決策中恢復其價值優先級。實驗發現,儘管前沿模型在推理過程中表現出類似醫生的價值異質性和Overton多元主義,但其最終決策具有高度確定性,未能再現人類醫生群體的分布性多元特徵。雖然大多數模型的價值優先級處於醫生間的自然變異範圍內,但部分模型顯著低估了患者自主權。研究警告,若不加干預地部署單一LLM,可能將特定的倫理偏好放大為部署層面的單一文化,從而取代臨床實踐中必要的倫理多元性,對醫療公平與患者權益構成潛在風險。