中國的 AI 醫生，已經離實踐運用不遠了嗎？

作者 | 陳廣晶

每個人都是移動的“數據礦”，但是，還是養不活AI醫生。

“你的血壓在升高”“我這樣做能改善你的情緒嗎”……這是電影《超能陸戰隊》中健康管家“大白”的經典台詞。研究者給他安裝了“醫療芯片”賦予其治病救人的能力。

在全球都深陷“看病難看病貴”泥潭的今天，誰不想要一個24小時監測健康情況、隨時解決健康問題的“大白”？但是現實情況是，無論是用於嚴肅的醫療場景，還是日常健康管理，沒有足夠的數據，很多“大白”都是巧婦難為無米之炊。

在其背後，醫療數據領域長期存在的因醫療亂象而產生的“髒數據”，以及各家醫院分而治之導致的標準不統一、“數據孤島”等問題，都成了新技術在健康領域應用的桎梏。

為了解決數據問題，AI醫療、AI製藥公司，從合成數據到自建“數據礦”（自動化實驗室）想了很多辦法，但是核心的，與病人直接相關的數據，還是很難獲得。

現在情況正在改變。

就在8月30日，國務院常務會議剛剛審議通過了《網絡數據安全管理條例（草案）》。其中明確提到了“要厘清安全邊界，保障數據依法有序自由流動”，進而，為促進數字經濟高質量發展、推動科技創新和產業創新營造良好環境。

這意味著，大數據的價值被提到了新的高度，大數據交易的規則和路徑也在逐漸清晰。乘著這場東風，AI醫療發展的數據難題有望快速解決。

醫療數據能在陽光下“變現”了

胸科單一病種“數據集”，“賣”了150萬元；

經過資產登記、質量評估和資產價值評估，某醫院的抑鬱症病數據“賣”了500萬元；

在骨科機器人輔助下完成的骨科手術，相關數據按照1020萬元增資入股到了一家公司……

這是2024西普會“AI For Health”高峰論壇上，北京國際大數據交易所（簡稱“北數所”）副總經理潘衝分享的案例，就真實發生在中國醫療領域。

作為落地單位，潘衝所在的北數所推動“醫療健康數據流通試點”落地——該活動由北京市經濟和信息化局會同北京市醫管中心組織北京安定醫院、北京積水潭醫院等6家市屬醫院開展，已經完成了累計2000萬元的交易。

就在潘衝分享上述案例之前，心理應用大模型“洞見人和”，已經完成了數據資產評估，以3.25億元的高價刷新了行業認知。

這些事件都在傳遞一個信號，那就是醫療數據真的可以“變現”了，也真的可以體現在財務報表上，讓財務數據更好看。

數據的“錢”力不止於此。

僅在醫療領域，根據安永（Ernst & Young Global Limited）報告，NHS（英國國家醫療服務體係）的醫療數據，每年產生的總價值達到96億英鎊（約合897億元人民幣）。這些數據還隻覆蓋了5500萬人的電子病曆和觸及護理記錄、2300萬人的專科護理記錄以及10萬人左右的基因數據。

在患者更加眾多的中國——根據國家醫保局統計數據，僅住院就有2億人，門診慢特病有3.4億人，可以產生的數據量幾乎是英國的數倍之多，如果充分流通起來，這些數據能夠產生的價值將非常可觀。

按照國家工信安全中心測算，到2025年，數據交易將貢獻國內GDP增長的1.8%，數據要素的規模產值將突破1.5萬億元。醫療數據是其中重要組成部分，也將很快達到500億元規模。

而且，這潑天富貴中，也有普通人的一杯羹。

在“數據二十條”（全稱《中共中央國務院關於構建數據基礎製度更好發揮數據要素作用的意見》）裏，有關於“建立健全個人信息的數據確權授權機製，探索個人分享的數據價值收益的方式”的內容，北京市的“數據二十條”裏麵也專門提到了相關內容。

為此，北數所也建立了數據授權平台，可以對接到個人和企業。對接到北數所平台上的個人數據，如果被申請使用，這個人就會收到授權請求信息，在充分了解誰將在什麽場景使用數據的情況下，選擇同意或拒絕授權對方使用。如果同意授權，這個人就可以從該交易中分到一筆收益。

“我們每個人名下都有成千上萬條這樣的數據，它們都是個人的數據資產。”潘衝說。

事實上，數據的價值，特別是醫療數據的價值，被覬覦已久。在數據交易通道沒有打開之前，數據也在灰色地帶持續交易著，隻是在那裏，個人的隱私得不到保護，更不用說獲得收益了。

數據交易放到陽光下以後，交易的數據要脫敏，獲取方式也要合規，這樣就可以形成多方獲益的局麵了——除了直接地惠及醫生和患者，因為具有幫助快速把握事物規律的屬性，這些數據也將在新藥開發、公共衛生管理等方麵給出更多支撐。

中國“AI醫生”不能再等了

在AI快速發展的今天，數據交易已經日漸成為“剛需”了。

盡管ChatGPT等人工智能大模型，已經給碳基生命帶來了太多震撼，但是，它們還是沒法在缺乏專業數據的情況下，成為任何領域的專家。以ChatGPT為例，它可以通過語言文字認識顏色，了解沒有見過的事物，但是沒有受過訓練的情況下，也沒法很好地勝任健康谘詢的任務。

2023年，一份發表在權威期刊JAMA（美國醫學會雜誌）上的試驗結果顯示，ChatGPT在根據現行臨床指南針對心血管疾病預防保健提出建議時，雖然有84%的回答是合理的，但是另外4個答案，不僅錯誤，而且有害，是嚴肅的臨床診療中絕對不允許出現的。更多試驗中，還進一步發現了倫理、法律等方麵的問題。

這既提示了對ChatGPT“行醫”需要有更多人工複核、監督的問題，也說明專業數據對特定領域的人工智能，特別是醫學、生命科學等容錯率非常低領域的人工智能，是足以扼住咽喉的影響因素。

從整體來看，人工智能已經是國家競爭力比拚的關鍵，如果在這方麵落後於人，並不隻是導致某個產業的落後，更會在經濟增長、科技創新等各個方麵拖後腿，甚至會在社會問題，如城鄉差距、老齡化等問題的解決上落後於人。

由於大模型逐漸在AI世界占據主導，作為“燃料”，數據已經成了下一階段各國AI競爭的關鍵，甚至有業內人士稱其為人工智能的“護城河”。

正因為此，國家層麵對數據如何在安全有序的前提下，順暢交易，已經越來越重視。除了前述提到的《網絡數據安全管理條例（草案）》，此前還有諸多文件發布，包括綱領性的“數據二十條”，推動落地、列出時間表的《“數據要素X”三年行動計劃（2024-2026年）》等。

在今年全國兩會期間，“數據交易”也是被頻頻提到的熱詞。還有相關專家建議建立國家級數據交易市場，方便“數據要素”在全國範圍內自由交流、交易。

在AI最為重視的生命科學領域，各方都更加迫切地需要數據流通起來。有AI製藥頭部公司聯合創始人直言，AI製藥接下來的競爭將在數據領域。

這種緊迫感，隨著全球AI+醫療、製藥競爭的白熱化，也在不斷升級。

從公開數據看，2012年到2022年，美國食品藥品監管部門FDA批準的AI相關醫療器械數量增長了45倍以上。

全球領先的醫療大模型穀歌的Med-PaLM2，在此前的測試中已經表現出了與醫生基本相當，甚至超過人類專家的實力。2023年發表在《急診醫學年鑒》上的一項研究顯示，歐洲研究者向AI提供了30名急診患者的症狀、體檢和化驗結果記錄後，AI對患者作出正確判斷的比例為97%，超過人類醫生的87%。

這當然不意味著人類醫生會被AI取代，但是，意味著，在接下來生命科學領域的尖端探索中，沒有AI輔助工具的醫生，很可能會遠遠落後於有AI輔助的醫生。

而在國內外醫療“AI助手”成長為“AI醫生”的道路上，一定規模的高質量臨床數據也必不可少。

從這個意義上講，中國醫療領域的AI，也不能再受限於數據了。

還隻是開始

客觀來說，中國在打破“醫療數據孤島”方麵也做了很多努力，也有了一些初步的成果。

比如：北京、上海等城市已經建立了區域統一的醫療數據平台；浙江省部分醫療影像數據已經可以在公立醫院之間共享了；如前所述，醫療數據的交易也在多個示範區悄然開始了。

對於藥械企業來說，今年1月份以來，數據也可以作為資產列入財務報表了。根據公開信息，截至上半年，已經有125家企業加入到了數據資產入表的行列，涉及多家藥械企業。

臨床方麵，在中國，支付寶、百度、騰訊等互聯網巨頭，都在嚐試將AI技術與診療活動、健康管理結合起來，清華大學的“AI醫院”也曾引起過大眾的一波關注熱潮。

盡管如此，其背後的支撐因素，充分利用醫療數據才剛剛開始，挑戰仍然很多。潘衝直言，醫療數據交易非常敏感，大家操作的時候都是小心翼翼的，所以必須一步一步通過試點推開。

實際上，中國並不缺少醫療數據。國家衛健委發布的最新版衛生年鑒顯示，2023年，全國衛生機構總診療人次達到96億人，由此產生的醫療數據預計早已超過百億條。業界認為，如此龐大的數據儲備規模，已經堪稱是國家重要的基礎性戰略資源了。

但是，因為各家醫院標準不統一，數據參差不齊，存在數據精準度不夠，數據一致性不夠，原始數據在錄入過程中數據錯漏、數據不完整等問題。此外，由於大量醫療數據是以文本、影像、圖像等非結構化方式儲存的，這些數據的管理和整合也非常困難。

（虎嗅注：非結構化數據，是指數據結構不規則或不完整，沒有預定義的數據模型，難以用數據庫二維邏輯表來表現的數據。）

同時，這些醫療數據還涉及患者的個人隱私等問題，有醫療數據領域法學專家曾指出：“如果沒有每個醫療機構對數據按照統一技術標準清洗處理和合規治理，很難想像醫療數據可以安全有效地開放利用。”

而要把這些數據，通過治理變成分門別類、清晰準確、可以用的狀態，也就是成為“產品”，這件事本身難度就非常大，也需要巨大的資金投入。

更為棘手的是，作為數據供給方，醫療機構和藥企，都還缺乏拿數據賺錢的動力。當下，由衛健委、醫保局或者地方政府主導，匯總醫療機構數據，做一部分治理以後形成公共數據，再將這些公共數據的使用權賣給有需要的AI企業的模式，反而成了當下最行之有效的通路。

實際上，即便是沒有做任何治理，隻是備份數據，就已經很令醫療機構頭疼了。隨著數據積累越來越多，一些大三甲醫院的信息科負責人已經在抱怨，現在設備越來越先進、越來越精準，導致數據量越來越多。

“目前的數據治理能力跟不上數據資源的膨脹速度。”華通智研院副總經理、青島數據資產登記評價中心主任趙傳啟告訴虎嗅。

即便是高質量的數據，也存在場景評估和價值評定標準缺失的問題；這些數據如果沒有應用場景，也無法形成交易。而且很多涉及個人的數據，在采集過程中沒有獲得個人授權，這也會在交易環節帶來合規問題。

醫療行業是一個強監管的行業，任何新技術進入其中都會受到慎重的評估。疊加上同樣嚴格的數據管理規則，業界人士擔心，立法過於嚴格會限製行業的發展。“現在的一些法律如果嚴格執行，很多事情就做不了了。”

這些問題的解決需要業界付出更多努力，需要政策、技術上有更多突破。在此之前，潘衝認為，“當前的第一步，是一定要把數據拿出來，要交易，要讓數據進入市場。”

實踐會解決很多問題，比如：如何定價。“就像超市裏的商品，沒有權威機構給它定價，有市場規律在起作用。”潘衝認為，充分的流通交易後市場會給出一個合理的價格。數據的價值也有望在使用中充分體現，甚至不斷增值。

對於如何激發供方參與積極性，趙傳啟認為，“建立起讓各方受益的利益分配機製，或許是較好地解決問題的方式。”

無論如何，醫療數據交易的閘門已經打開了，新技術對生命科學這個傳統行業的衝擊也洶湧而至。按照中康科技董事長吳瀚的預測，未來三五年，大數據也好、AI也好，新技術會廣泛滲透到健康產業的各個環節。

屆時，每個人擁有自己的“大白”或許也不再是奢望了。