朱頭山

無意邀眾賞，一心追殘陽

首頁文章列表博文目錄

個人資料

朱頭山 (熱門博主)

給我悄悄話

博客訪問：

DeepSeek 查偽的意義

(2025-01-27 10:20:54) 下一個

就在美國推出高達5000億美元的星際門計劃時，中國一款AI模型震動了矽穀，華爾街，也使人們對這個巨大的星際門計劃的意義產生了懷疑。

1月20日，中國新興公司深度求索（DeepSeek）發布了推理AI大模型最新版DeepSeek-R1.經第三方試用和論證，其性能和ChatGPT-o1追平。問題是，DeepSeek R1真正與眾不同之處在於它的成本——或者說成本很低。DeepSeek的R1的預訓練費用隻有557.6萬美元，僅是OpenAIGPT-4o模型訓練成本的不到十分之一。同時，DeepSeek公布了API的定價，每百萬輸入tokens 1元（緩存命中）/4元（緩存未命中），每百萬輸出tokens 16元。這個收費大約是OpenAI o1運行成本的三十分之一，也因此，DeepSeek被稱為AI界的“拚多多”。

按深度求索的說法，在構建和訓練模型時，隻用了2048張H800顯卡，價格隻有被美國限製銷往中國的H100（3萬美元每張）的三分之一。而OpenAI的第一代ChatGPT模型用了20000張A100 （2萬美元每張），新一代的具體數量不詳，但從其每年幾千億的耗費來看，DeepSeek的性價比至少在ChatGPT最新型號的30倍以上。

AI投資中最大的就是芯片，其次是訓練費用。而AI是個耗電大戶，降溫也是個大問題，美國最近的星際門計劃，把核電廠都考慮上了。能玩得起AI模型的都是大廠，投資都是以每年上千億美元來計的。投資的目的是盈利，據估算，需要每年收入6000億美元，才能實現基本的break even。可以想象，AI必然是要收費的。

但DeepSeek卻是開源的，任何人都可以利用其源代碼，來開發自己的產品，不用支付專利費。測評家最大的詬病，是DeepSeek無法問詢政治敏感詞，如台灣和習近平。但這是可以改變的，開發者在原有框架下加入這方麵內容訓練，就可以搜尋了。如果OpenAI花了大價錢開發的模型，遇見了一個不需要專利費的競爭對手，那它的最大盈利目標專利使用權就落空了。現在我使用的AI多是免費的，就算收費的ChatGPT-1o也隻要20美元每月，靠這點錢，OpenAI要猴年馬月才能收入6000億美元？

DeepSeek在華爾街引起恐慌，顯卡生產商英偉達（Nvidia)的股價大跌。它的顯卡利潤率達90%，幾乎每個員工都是富翁，如果以後別人都用普通的遊戲機顯卡搞AI，英偉達如何活？租用英偉達顯卡的大型數據中心如何活？AI畫的餅，讓大量投資進入該行業，一旦了解到盈利前景很差，投資必然大減，科技巨頭必然減緩購買和投入，英偉達破產不說，全靠投資撐著的OpenAI也得破產，一大堆AI初創企業全得破產！

這對美國的戰略也產生了影響。本來，通過控製AI芯片出口，美國意在壓製中國AI產業的發展。現在，高級芯片可有可無了，而DeepSeek的開源技術，顯然能吸引更多的開發者以中國技術為基礎平台開發產品，以後的全球AI以中國平台為基礎了，就像現在全球的電腦都以微軟的操作係統為基礎，那如何來卡中國的脖子？如此，還搞星際門幹嘛？

於是，出現了一波質疑DeepSeek成就的聲音。有個初創公司老板Alexander　Wang認為，DeepSeek在說謊，它至少用了５萬張H1００芯片，因為這是對中國禁運的，但通過黑市不難搞到。為了避免法律官司，所以DeepSeek聲稱使用了中國可以得到的H８００降能芯片。另外，OpenAI也聲稱 DeepSeek非法使用蒸餾技術獲取自己的數據。

專家們對於的DeepSeek的分析，認為它確實有些創新，包括以下方麵：

數據蒸餾技術： DeepSeek 采用了數據蒸餾技術，從海量數據中提取最關鍵的信息，生成高質量的訓練數據集。這大大降低了對數據量的需求，提高了訓練效率，並增強了模型訓練效果。
FP8 混合精度框架： DeepSeek 使用 FP8 混合精度框架進行低精度計算。這在保證模型計算精度的前提下，大幅度減少了內存使用和計算成本。
強化學習的創新應用： DeepSeek 在 R1 模型的訓練中，直接嚐試了三種不同的技術路徑，包括直接強化學習訓練、多階段漸進訓練和模型蒸餾，並且都取得了成功。其中，直接強化學習的成功應用尤為重要，DeepSeek-R1 是首個證明該方法有效的模型。他們通過硬編碼規則計算真實獎勵，避免使用容易被破解的獎勵模型，從而使模型產生自我反思和探索行為。
開源和低成本 API： DeepSeek 不僅開源了模型，還提供了定價極低的 API 服務，進一步降低了用戶的使用成本。
專注技術而非硬件堆砌： DeepSeek 並沒有像一些公司那樣依賴大量的昂貴硬件，而是更注重技術創新和軟件優化，以更少的資源達到更好的效果。

總而言之，DeepSeek 的成功並非偶然，而是通過一係列技術創新和策略選擇實現的。他們的方法為 AI 領域的低成本高效訓練提供了重要的借鑒意義。但Wang的說法也不無可能，也就是說，如果真的是這樣的話，說明芯片能力還是決定性的，而DeepSeek因為其欺騙行為，將麵臨法律和信譽上的損失。

為此，Meta開始依據DeepSeek 論文描述的方法，使用2048張H800顯卡進行訓練和開發，看是否能重複其結果。而別的廠家，也打算靜觀Meta的結果，可能也會從不同側麵去重複結果。

Peer Review and reproduce（同行檢驗和重複）是科學技術發展的試金石。記得去年有個韓國試驗室宣稱發現了常溫超導合金，結果在同行驗證下無法重複結果，被否認了。還有一個中國科學家聲稱發現了一種可以進行基因編輯的技術，還發表在Nature上，結果也被否認了！

和以上情況不同，就算對DeepSeek 的查偽結果不佳，DeepSeek的真實性不存在問題，隻是其低成本宣稱不實。但即使DeepSeek擁有５萬塊H１００，也隻是美國AI大佬的零頭，依然不能否定其在工程技術，特別是技術路線上的創新。至於OpenAI的指責，在法律上的問題倒並不大，根據知識產權法律，AI產品不擁有知識產權，再說OpenAI收集的那麽多信息，也沒支付別人知識產權費用。

DeepSeek是開源的，代碼都公布了，別人可以隨便用。因此，這些查偽的結果無論如何，對一個非盈利產品，意義不大。就像有人老在文學城查抄襲，文學城博文沒有稿費也沒有打賞，屬於非盈利作品，查實了也隻是打打嘴仗，不會有法律後果。

DeepSeek對美國國家利益和AI公司的商業利益都有很大衝擊，也深刻影響了國際政治。如果美國的公司都以DeepSeek的產品開發應用平台，美國的AI大公司要虧錢，美國技術領域也被中國牽著鼻子走了；如果朝鮮，伊朗也用DeepSeek的產品開發軍事應用，那對美國的安全利益有著嚴重的影響。

因此，下一步，美國一定會在本國以及其勢力範圍內限製甚至禁用DeepSeek，　其次，不排除美國會和中國談成一個限製AI擴散的協議，就像當初美蘇關於核武器擴散的協議一樣。

[ 打印 ]

[ 加入書簽 ]

閱讀 () ┆ 評論 (8)

評論

cager812 2025-02-01 21:31:52 回複悄悄話搞前沿上的玩意發大財的機會比後知後覺的要多得多。

朱頭山 2025-01-28 05:26:40 回複悄悄話很多矽穀大佬，包括馬斯克，都認同Wang的觀點，但也有人說，就算Deep Seek真的使用了5萬塊H100，取得這樣的成就也很了不起。AI大公司的目標是億塊GPU了，現在都在十萬，百萬級別了，DS的衝擊還是很大的。

無頭無腦 2025-01-27 19:14:35 回複悄悄話按方法論角度分析，deepseek沒有低層的理論突破是不可能“遙遙領先的”，然而在算法或策略上的改進能提高目前AI的水平是可能的，這種差異更象豐田車與道奇車之前的差異。

閑聊幾句 2025-01-27 17:09:17 回複悄悄話所以啊今天軟件公司的股票沒怎麽跌，而硬件公司的股票跌的稀裏嘩啦

上海大男人 2025-01-27 17:06:37 回複悄悄話一般專家都知道deep seek用的技術，美國人也應該知道，何況還有頂級芯片的優勢。

閑聊幾句 2025-01-27 16:59:23 回複悄悄話好在有搞AI的專業人士會搞清楚，外行憑喜好都是瞎掰

soullessbody 2025-01-27 16:27:48 回複悄悄話想彎道超車遙遙領先的，大概率是吹牛或者會失控翻車。

矽穀工匠 2025-01-27 14:22:42 回複悄悄話 Thanks. I think it will be difficult to reproduce, since everything is so sensitive. The biggest problem of AI LLM is that it is basically useless - no use except as a calculator or minor assistant.

登錄後才可評論.