SeetoMD

司徒醫生，俄勒岡/加州

首頁文章列表博文目錄

個人資料

Kwseeto (熱門博主)

給我悄悄話

博客訪問：

比較 AI 與醫生，來一場真正公平的測試司徒

(2025-07-10 00:17:42) 下一個

比較 AI 與醫生的診斷能力，我們應該設計一場真正公平的測試

司徒

最近有一項實驗使用了304個來自《新英格蘭醫學雜誌》的標準病例。AI係統與來自美國和英國、擁有5到20年臨床經驗的21位醫生進行對比。他們被要求逐步處理這些病例，包括選擇檢查項目、問診內容，以及進行鑒別診斷。

結果顯示，當AI係統搭配使用OpenAI最新的大型語言模型時，能夠在85.5%的病例中做出正確診斷；相比之下，這21位醫生的平均準確率隻有20%。

乍一看，AI似乎遙遙領先。但問題在於：AI擁有幾乎整個世界的醫學知識和數據庫，而醫生卻被禁止使用任何他們平時會依賴的資源——比如同事會診、醫學書籍，甚至AI工具本身。

這樣的對比根本不公平，也不符合真實醫療情境。這就像一場考試：一個人是開卷考試，另一個人卻被要求閉卷，不能查資料也不能問問題。在這種設定下，結果從一開始就已經注定了。

更值得指出的是，這些病例並不是來自現實門診的複雜情境，而是醫生事先整理並潤色過的教學案例。這類結構清晰、用詞標準的病例，正是AI最擅長處理的，但卻無法代表真實世界中病人的表現方式。

在現實生活中，病人不會說：“我左臂無力，懷疑錐體束受損。”他們往往隻是說：“我胳膊感覺怪怪的。”這種“怪”，可能是疼痛、麻木、無力，也可能是心理壓力或焦慮。醫生不僅要理解這些模糊的表達，還要通過病人的語氣、表情、行為，判斷其中是否夾雜情緒、社交甚至法律層麵的因素。

我覺的來一次公平的測試是必要的。真正有說服力的比較，應該是這樣的：
1. 一方是由AI驅動的機器人，擁有數據、傳感器和推理能力；
2. 另一方是經驗豐富、具備執照的醫生，合理地將AI工具融入到診療流程中作為輔助。

兩者都必須麵對真實的病人：親自問診、體格檢查、情緒評估，在不確定中做出診斷，而不是僅僅處理整理好的紙麵病例。然後再比較兩者的表現。

在這樣的公平實驗尚未完成之前，宣稱AI能夠取代醫生，是可能引起公眾的誤會。

當前的研究最多隻能說明：AI在處理為它量身打造、結構清晰的標準問題時表現出色。而醫生在被剝奪所有常規工具的情況下自然處於劣勢，這本不令人驚訝。

醫學不是紙上談兵，也不僅僅是邏輯推理或數據匹配。醫療的本質是責任，是人對人的理解、同理心與承諾。

我們有必要認真追問：所謂“AI超過醫生”的說法，是建立在怎樣的測試和前提之上。否則，這些報道隻會誤導公眾，讓人錯誤地以為醫生已經可以被AI/機器替代了。

[ 打印 ]

[ 加入書簽 ]

閱讀 ( ) ┆ 評論 (18)

評論

Kwseeto 2025-07-12 01:38:37 回複悄悄話回複 '無名2024' 的評論 : 的確, 青年醫生拿起AI會勝過不懂AI的老醫生most of the time !

無名2024 2025-07-11 18:05:08 回複悄悄話帖主要求的公平測試本身就點明了AI的重要性：再有經驗的醫生沒有AI就沒法贏就不公平。LOL

帖子開頭的測試大概也許隻是意圖說明AI的重要性。恐怕不是要徹底驅趕醫生。

不過AI的學習能力（或人類再疊加給AI的能力）是超越醫生學習能力的。特種AI代替部分醫生的日子可能不遠了（十年內？）比如普通日常家庭醫生的工作（年度檢查，看不了就轉專科）。

關鍵是政府監管能否通過 - 醫療事故找AI追責？像家庭醫生大概率不會涉及嚴重醫療事故的也許會先放行。

大河邊的人 2025-07-11 16:22:09 回複悄悄話外行不要把當醫生想象得太簡單了，不說基本的望，聽，叩，導管，光纖鏡檢查和門診手術技術，很多病人腦袋根本就是沒有邏輯的或表達能力有障礙，甚至根本說不出話來。沒有醫生的引導連個主訴都歸納不出來。計算機輔助診斷早在計算機應用初期就試過，更本代替不了人的，和數據庫類似隻能做個工具。

Kwseeto 2025-07-11 15:34:35 回複悄悄話回複 'earth2029' 的評論 : 使醫生知識庫迅速增長

Kwseeto 2025-07-11 15:33:51 回複悄悄話回複 'Yangtsz' 的評論 : AI 的確很有重尤其在醫生指導下

Yangtsz 2025-07-11 09:21:14 回複悄悄話我對AI診斷報有極大的期待和信心。
1. AI非常耐心而且隨時服務，它可以長時間收集病人對症狀的描述，包括及時更新，判斷
2.AI非常專注。如果病人長期使用，它會記住所有曆史數據，檢查結果，以此幫助診斷
3. AI 可以自動聯接其它手機應用，對病人的生活習慣，旅遊地點，飲食，運動習慣了如指掌。
一般人沒有能力支付個人化的頂級醫療服務，AI 就是個人醫生的通用版。熱切期盼醫療專用AI的誕生。

earth2029 2025-07-10 20:59:02 回複悄悄話應該是縮小了資深醫生和普通的差別、降低了醫生執業的門檻，以後醫生多了醫療費用就下降了。

Kwseeto 2025-07-10 20:52:11 回複悄悄話回複 'hagerty' 的評論 : 使用AI也要經驗就像用聽診器一樣

hagerty 2025-07-10 20:47:41 回複悄悄話我個人直覺，一個醫學院畢業的學生精通AI的，會比一個不會AI的老醫生更準確的診斷病情。或者說，一旦都用了AI，新老醫生就一個水平了。所以我很想看到類似的測試。

Kwseeto 2025-07-10 16:08:00 回複悄悄話回複 'hagerty' 的評論 : 這個問題問得好。AI的確可以提供無數文獻與資訊，但醫療現場不是文獻的複誦比賽。真正的病人，往往不是教科書裡的標準病例。有些病徵混雜，有些疾病表現方式變異不定，有些情況即使全世界的文獻資料庫裡也找不到先例。這時候，臨床經驗，就成了關鍵。

hagerty 2025-07-10 15:09:04 回複悄悄話 Kwseeto 發表評論於 2025-07-10 14:59:58
回複 'hagerty' 的評論 : 一定的個人經驗還是需要的
====
一個人再有經驗，比不過AI綜合所有人類經驗吧。

Kwseeto 2025-07-10 15:04:50 回複悄悄話回複 'cager812' 的評論 : 把AI機器人送進病房單獨問病史檢查和診斷，對比真正的醫生（可查AI和問同事），這是較公平的對比

Kwseeto 2025-07-10 15:01:11 回複悄悄話回複 '北京_01link' 的評論 : 如果醫生不聽病人敘述就沒有盡責

Kwseeto 2025-07-10 14:59:58 回複悄悄話回複 'hagerty' 的評論 : 一定的個人經驗還是需要的

hagerty 2025-07-10 14:21:26 回複悄悄話我希望看到的測試是，老醫生和醫學院剛畢業的學生，想用AI都可以。誰的診斷更準。
如果老醫生沒有更準，那就簡單了。未來不用專找老軍醫了;)

北京_01link 2025-07-10 12:24:45 回複悄悄話現在的醫生十分依靠檢查結果，而非病人的敘述。所以AI必將取代醫生。至少是那些憑檢查結果治病的醫生。

cager812 2025-07-10 12:14:13 回複悄悄話 “真正公平”---不可能的鑒定。

Kwseeto 2025-07-10 01:53:06 回複悄悄話真正的測試不是 “擁有全世界文獻的AI對閉卷考試的醫生，而是「AI 驅動的係統」對比「使用 AI 的有經驗的專科醫師」。

兩者都應該接觸真實的病人——不是教科書裡挑出來的理想案例。他們應該親自問診、做體檢、下診斷，然後再比較結果：診斷準確度、安全性、病人信任程度、長期效果。這才是公平的比較。
而事實是：我們至今還沒有真正做過這樣的測試。

登錄後才可評論.

SeetoMD

比較 AI 與醫生，來一場真正公平的測試 司徒

比較 AI 與醫生，來一場真正公平的測試司徒