SeetoMD

感恩,關懷,友誼
正文

比較 AI 與醫生,來一場真正公平的測試 司徒

(2025-07-10 00:17:42) 下一個


比較 AI 與醫生的診斷能力,我們應該設計一場真正公平的測試

司徒

最近有一項實驗使用了304個來自《新英格蘭醫學雜誌》的標準病例。AI係統與來自美國和英國、擁有5到20年臨床經驗的21位醫生進行對比。他們被要求逐步處理這些病例,包括選擇檢查項目、問診內容,以及進行鑒別診斷。

結果顯示,當AI係統搭配使用OpenAI最新的大型語言模型時,能夠在85.5%的病例中做出正確診斷;相比之下,這21位醫生的平均準確率隻有20%。

乍一看,AI似乎遙遙領先。但問題在於:AI擁有幾乎整個世界的醫學知識和數據庫,而醫生卻被禁止使用任何他們平時會依賴的資源——比如同事會診、醫學書籍,甚至AI工具本身。

這樣的對比根本不公平,也不符合真實醫療情境。這就像一場考試:一個人是開卷考試,另一個人卻被要求閉卷,不能查資料也不能問問題。在這種設定下,結果從一開始就已經注定了。

更值得指出的是,這些病例並不是來自現實門診的複雜情境,而是醫生事先整理並潤色過的教學案例。這類結構清晰、用詞標準的病例,正是AI最擅長處理的,但卻無法代表真實世界中病人的表現方式。

在現實生活中,病人不會說:“我左臂無力,懷疑錐體束受損。”他們往往隻是說:“我胳膊感覺怪怪的。”這種“怪”,可能是疼痛、麻木、無力,也可能是心理壓力或焦慮。醫生不僅要理解這些模糊的表達,還要通過病人的語氣、表情、行為,判斷其中是否夾雜情緒、社交甚至法律層麵的因素。

我覺的來一次公平的測試是必要的。真正有說服力的比較,應該是這樣的:
    1.    一方是由AI驅動的機器人,擁有數據、傳感器和推理能力;
    2.    另一方是經驗豐富、具備執照的醫生,合理地將AI工具融入到診療流程中作為輔助。

兩者都必須麵對真實的病人:親自問診、體格檢查、情緒評估,在不確定中做出診斷,而不是僅僅處理整理好的紙麵病例。然後再比較兩者的表現。

在這樣的公平實驗尚未完成之前,宣稱AI能夠取代醫生,是可能引起公眾的誤會。

當前的研究最多隻能說明:AI在處理為它量身打造、結構清晰的標準問題時表現出色。而醫生在被剝奪所有常規工具的情況下自然處於劣勢,這本不令人驚訝。

醫學不是紙上談兵,也不僅僅是邏輯推理或數據匹配。醫療的本質是責任,是人對人的理解、同理心與承諾。

我們有必要認真追問:所謂“AI超過醫生”的說法,是建立在怎樣的測試和前提之上。否則,這些報道隻會誤導公眾,讓人錯誤地以為醫生已經可以被AI/機器替代了。

[ 打印 ]
閱讀 ()評論 (3)
評論
北京_01link 回複 悄悄話 現在的醫生十分依靠檢查結果,而非病人的敘述。所以AI必將取代醫生。至少是那些憑檢查結果治病的醫生。
cager812 回複 悄悄話 “真正公平”---不可能的鑒定。
Kwseeto 回複 悄悄話 真正的測試不是 “擁有全世界文獻的AI對閉卷考試的醫生,而是「AI 驅動的係統」對比「使用 AI 的有經驗的專科醫師」。

兩者都應該接觸真實的病人——不是教科書裡挑出來的理想案例。他們應該親自問診、做體檢、下診斷,然後再比較結果:診斷準確度、安全性、病人信任程度、長期效果。這才是公平的比較。
而事實是:我們至今還沒有真正做過這樣的測試。
登錄後才可評論.