SeetoMD

感恩,關懷,友誼
正文

比較 AI 與醫生,來一場真正公平的測試 司徒

(2025-07-10 00:17:42) 下一個


比較 AI 與醫生的診斷能力,我們應該設計一場真正公平的測試

司徒

最近有一項實驗使用了304個來自《新英格蘭醫學雜誌》的標準病例。AI係統與來自美國和英國、擁有5到20年臨床經驗的21位醫生進行對比。他們被要求逐步處理這些病例,包括選擇檢查項目、問診內容,以及進行鑒別診斷。

結果顯示,當AI係統搭配使用OpenAI最新的大型語言模型時,能夠在85.5%的病例中做出正確診斷;相比之下,這21位醫生的平均準確率隻有20%。

乍一看,AI似乎遙遙領先。但問題在於:AI擁有幾乎整個世界的醫學知識和數據庫,而醫生卻被禁止使用任何他們平時會依賴的資源——比如同事會診、醫學書籍,甚至AI工具本身。

這樣的對比根本不公平,也不符合真實醫療情境。這就像一場考試:一個人是開卷考試,另一個人卻被要求閉卷,不能查資料也不能問問題。在這種設定下,結果從一開始就已經注定了。

更值得指出的是,這些病例並不是來自現實門診的複雜情境,而是醫生事先整理並潤色過的教學案例。這類結構清晰、用詞標準的病例,正是AI最擅長處理的,但卻無法代表真實世界中病人的表現方式。

在現實生活中,病人不會說:“我左臂無力,懷疑錐體束受損。”他們往往隻是說:“我胳膊感覺怪怪的。”這種“怪”,可能是疼痛、麻木、無力,也可能是心理壓力或焦慮。醫生不僅要理解這些模糊的表達,還要通過病人的語氣、表情、行為,判斷其中是否夾雜情緒、社交甚至法律層麵的因素。

我覺的來一次公平的測試是必要的。真正有說服力的比較,應該是這樣的:
    1.    一方是由AI驅動的機器人,擁有數據、傳感器和推理能力;
    2.    另一方是經驗豐富、具備執照的醫生,合理地將AI工具融入到診療流程中作為輔助。

兩者都必須麵對真實的病人:親自問診、體格檢查、情緒評估,在不確定中做出診斷,而不是僅僅處理整理好的紙麵病例。然後再比較兩者的表現。

在這樣的公平實驗尚未完成之前,宣稱AI能夠取代醫生,是可能引起公眾的誤會。

當前的研究最多隻能說明:AI在處理為它量身打造、結構清晰的標準問題時表現出色。而醫生在被剝奪所有常規工具的情況下自然處於劣勢,這本不令人驚訝。

醫學不是紙上談兵,也不僅僅是邏輯推理或數據匹配。醫療的本質是責任,是人對人的理解、同理心與承諾。

我們有必要認真追問:所謂“AI超過醫生”的說法,是建立在怎樣的測試和前提之上。否則,這些報道隻會誤導公眾,讓人錯誤地以為醫生已經可以被AI/機器替代了。

[ 打印 ]
閱讀 ()評論 (18)
評論
Kwseeto 回複 悄悄話 回複 '無名2024' 的評論 : 的確, 青年醫生拿起AI會勝過不懂AI的老醫生most of the time !
無名2024 回複 悄悄話 帖主要求的公平測試本身就點明了AI的重要性:再有經驗的醫生沒有AI就沒法贏就不公平。LOL

帖子開頭的測試大概也許隻是意圖說明AI的重要性。恐怕不是要徹底驅趕醫生。

不過AI的學習能力(或人類再疊加給AI的能力)是超越醫生學習能力的。特種AI代替部分醫生的日子可能不遠了(十年內?)比如普通日常家庭醫生的工作(年度檢查,看不了就轉專科)。

關鍵是政府監管能否通過 - 醫療事故找AI追責?像家庭醫生大概率不會涉及嚴重醫療事故的也許會先放行。
大河邊的人 回複 悄悄話 外行不要把當醫生想象得太簡單了,不說基本的望,聽,叩,導管,光纖鏡檢查和門診手術技術,很多病人腦袋根本就是沒有邏輯的或表達能力有障礙,甚至根本說不出話來。沒有醫生的引導連個主訴都歸納不出來。計算機輔助診斷早在計算機應用初期就試過,更本代替不了人的,和數據庫類似隻能做個工具。
Kwseeto 回複 悄悄話 回複 'earth2029' 的評論 : 使醫生知識庫迅速增長
Kwseeto 回複 悄悄話 回複 'Yangtsz' 的評論 : AI 的確很有重 尤其在醫生指導下
Yangtsz 回複 悄悄話 我對AI診斷報有極大的期待和信心。
1. AI非常耐心而且隨時服務,它可以長時間收集病人對症狀的描述,包括及時更新,判斷
2.AI非常專注。如果病人長期使用,它會記住所有曆史數據,檢查結果,以此幫助診斷
3. AI 可以自動聯接其它手機應用,對病人的生活習慣,旅遊地點,飲食,運動習慣了如指掌。
一般人沒有能力支付個人化的頂級醫療服務,AI 就是個人醫生的通用版。熱切期盼醫療專用AI的誕生。
earth2029 回複 悄悄話 應該是縮小了資深醫生和普通的差別、降低了醫生執業的門檻,以後醫生多了醫療費用就下降了。
Kwseeto 回複 悄悄話 回複 'hagerty' 的評論 : 使用AI也要經驗 就像用聽診器一樣
hagerty 回複 悄悄話 我個人直覺,一個醫學院畢業的學生精通AI的,會比一個不會AI的老醫生更準確的診斷病情。或者說,一旦都用了AI,新老醫生就一個水平了。所以我很想看到類似的測試。
Kwseeto 回複 悄悄話 回複 'hagerty' 的評論 : 這個問題問得好。AI的確可以提供無數文獻與資訊,但醫療現場不是文獻的複誦比賽。真正的病人,往往不是教科書裡的標準病例。有些病徵混雜,有些疾病表現方式變異不定,有些情況即使全世界的文獻資料庫裡也找不到先例。這時候,臨床經驗,就成了關鍵。
hagerty 回複 悄悄話 Kwseeto 發表評論於 2025-07-10 14:59:58
回複 'hagerty' 的評論 : 一定的個人經驗還是需要的
====
一個人再有經驗,比不過AI綜合所有人類經驗吧。
Kwseeto 回複 悄悄話 回複 'cager812' 的評論 : 把AI機器人送進病房單獨問病史檢查和診斷,對比真正的醫生(可查AI和問同事),這是較公平的對比
Kwseeto 回複 悄悄話 回複 '北京_01link' 的評論 : 如果醫生不聽病人敘述就沒有盡責
Kwseeto 回複 悄悄話 回複 'hagerty' 的評論 : 一定的個人經驗還是需要的
hagerty 回複 悄悄話 我希望看到的測試是,老醫生和醫學院剛畢業的學生,想用AI都可以。誰的診斷更準。
如果老醫生沒有更準,那就簡單了。未來不用專找老軍醫了;)
北京_01link 回複 悄悄話 現在的醫生十分依靠檢查結果,而非病人的敘述。所以AI必將取代醫生。至少是那些憑檢查結果治病的醫生。
cager812 回複 悄悄話 “真正公平”---不可能的鑒定。
Kwseeto 回複 悄悄話 真正的測試不是 “擁有全世界文獻的AI對閉卷考試的醫生,而是「AI 驅動的係統」對比「使用 AI 的有經驗的專科醫師」。

兩者都應該接觸真實的病人——不是教科書裡挑出來的理想案例。他們應該親自問診、做體檢、下診斷,然後再比較結果:診斷準確度、安全性、病人信任程度、長期效果。這才是公平的比較。
而事實是:我們至今還沒有真正做過這樣的測試。
登錄後才可評論.