朱頭山

無意邀眾賞,一心追殘陽
個人資料
朱頭山 (熱門博主)
  • 博客訪問:
正文

DeepSeek 查偽的意義

(2025-01-27 10:20:54) 下一個

就在美國推出高達5000億美元的星際門計劃時,中國一款AI模型震動了矽穀,華爾街,也使人們對這個巨大的星際門計劃的意義產生了懷疑。

1月20日,中國新興公司深度求索(DeepSeek)發布了推理AI大模型最新版DeepSeek-R1.經第三方試用和論證,其性能和ChatGPT-o1追平。問題是,DeepSeek R1真正與眾不同之處在於它的成本——或者說成本很低。DeepSeek的R1的預訓練費用隻有557.6萬美元,僅是OpenAIGPT-4o模型訓練成本的不到十分之一。同時,DeepSeek公布了API的定價,每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens 16元。這個收費大約是OpenAI o1運行成本的三十分之一,也因此,DeepSeek被稱為AI界的“拚多多”。

按深度求索的說法,在構建和訓練模型時,隻用了2048張H800顯卡,價格隻有被美國限製銷往中國的H100(3萬美元每張)的三分之一。而OpenAI的第一代ChatGPT模型用了20000張A100 (2萬美元每張),新一代的具體數量不詳,但從其每年幾千億的耗費來看,DeepSeek的性價比至少在ChatGPT最新型號的30倍以上。

AI投資中最大的就是芯片,其次是訓練費用。而AI是個耗電大戶,降溫也是個大問題,美國最近的星際門計劃,把核電廠都考慮上了。能玩得起AI模型的都是大廠,投資都是以每年上千億美元來計的。投資的目的是盈利,據估算,需要每年收入6000億美元,才能實現基本的break even。可以想象,AI必然是要收費的。

但DeepSeek卻是開源的,任何人都可以利用其源代碼,來開發自己的產品,不用支付專利費。測評家最大的詬病,是DeepSeek無法問詢政治敏感詞,如台灣和習近平。但這是可以改變的,開發者在原有框架下加入這方麵內容訓練,就可以搜尋了。如果OpenAI花了大價錢開發的模型,遇見了一個不需要專利費的競爭對手,那它的最大盈利目標專利使用權就落空了。現在我使用的AI多是免費的,就算收費的ChatGPT-1o也隻要20美元每月,靠這點錢,OpenAI要猴年馬月才能收入6000億美元?

DeepSeek在華爾街引起恐慌,顯卡生產商英偉達(Nvidia)的股價大跌。它的顯卡利潤率達90%, 幾乎每個員工都是富翁,如果以後別人都用普通的遊戲機顯卡搞AI,英偉達如何活?租用英偉達顯卡的大型數據中心如何活?AI畫的餅,讓大量投資進入該行業,一旦了解到盈利前景很差,投資必然大減,科技巨頭必然減緩購買和投入,英偉達破產不說,全靠投資撐著的OpenAI也得破產,一大堆AI初創企業全得破產!

這對美國的戰略也產生了影響。本來,通過控製AI芯片出口,美國意在壓製中國AI產業的發展。現在,高級芯片可有可無了,而DeepSeek的開源技術,顯然能吸引更多的開發者以中國技術為基礎平台開發產品,以後的全球AI以中國平台為基礎了,就像現在全球的電腦都以微軟的操作係統為基礎,那如何來卡中國的脖子?如此,還搞星際門幹嘛?

於是,出現了一波質疑DeepSeek成就的聲音。有個初創公司老板Alexander Wang認為,DeepSeek在說謊,它至少用了5萬張H100芯片,因為這是對中國禁運的,但通過黑市不難搞到。為了避免法律官司,所以DeepSeek聲稱使用了中國可以得到的H800降能芯片。另外,OpenAI也聲稱 DeepSeek非法使用蒸餾技術獲取自己的數據。

專家們對於的DeepSeek的分析,認為它確實有些創新,包括以下方麵:

  • 數據蒸餾技術: DeepSeek 采用了數據蒸餾技術,從海量數據中提取最關鍵的信息,生成高質量的訓練數據集。這大大降低了對數據量的需求,提高了訓練效率,並增強了模型訓練效果。
  • FP8 混合精度框架: DeepSeek 使用 FP8 混合精度框架進行低精度計算。這在保證模型計算精度的前提下,大幅度減少了內存使用和計算成本。
  • 強化學習的創新應用: DeepSeek 在 R1 模型的訓練中,直接嚐試了三種不同的技術路徑,包括直接強化學習訓練、多階段漸進訓練和模型蒸餾,並且都取得了成功。其中,直接強化學習的成功應用尤為重要,DeepSeek-R1 是首個證明該方法有效的模型。他們通過硬編碼規則計算真實獎勵,避免使用容易被破解的獎勵模型,從而使模型產生自我反思和探索行為。
  • 開源和低成本 API: DeepSeek 不僅開源了模型,還提供了定價極低的 API 服務,進一步降低了用戶的使用成本。
  • 專注技術而非硬件堆砌: DeepSeek 並沒有像一些公司那樣依賴大量的昂貴硬件,而是更注重技術創新和軟件優化,以更少的資源達到更好的效果。

 

總而言之,DeepSeek 的成功並非偶然,而是通過一係列技術創新和策略選擇實現的。他們的方法為 AI 領域的低成本高效訓練提供了重要的借鑒意義。但Wang的說法也不無可能,也就是說,如果真的是這樣的話,說明芯片能力還是決定性的,而DeepSeek因為其欺騙行為,將麵臨法律和信譽上的損失。

為此,Meta開始依據DeepSeek 論文描述的方法,使用2048張H800顯卡進行訓練和開發,看是否能重複其結果。而別的廠家,也打算靜觀Meta的結果,可能也會從不同側麵去重複結果。

Peer Review and reproduce(同行檢驗和重複)是科學技術發展的試金石。記得去年有個韓國試驗室宣稱發現了常溫超導合金,結果在同行驗證下無法重複結果,被否認了。還有一個中國科學家聲稱發現了一種可以進行基因編輯的技術,還發表在Nature上,結果也被否認了!

和以上情況不同,就算對DeepSeek 的查偽結果不佳,DeepSeek的真實性不存在問題,隻是其低成本宣稱不實。但即使DeepSeek擁有5萬塊H100,也隻是美國AI大佬的零頭,依然不能否定其在工程技術,特別是技術路線上的創新。至於OpenAI的指責,在法律上的問題倒並不大,根據知識產權法律,AI產品不擁有知識產權,再說OpenAI收集的那麽多信息,也沒支付別人知識產權費用。

DeepSeek是開源的,代碼都公布了,別人可以隨便用。因此,這些查偽的結果無論如何,對一個非盈利產品,意義不大。就像有人老在文學城查抄襲,文學城博文沒有稿費也沒有打賞,屬於非盈利作品,查實了也隻是打打嘴仗,不會有法律後果。

DeepSeek對美國國家利益和AI公司的商業利益都有很大衝擊,也深刻影響了國際政治。如果美國的公司都以DeepSeek的產品開發應用平台,美國的AI大公司要虧錢,美國技術領域也被中國牽著鼻子走了;如果朝鮮,伊朗也用DeepSeek的產品開發軍事應用,那對美國的安全利益有著嚴重的影響。

因此,下一步,美國一定會在本國以及其勢力範圍內限製甚至禁用DeepSeek, 其次,不排除美國會和中國談成一個限製AI擴散的協議,就像當初美蘇關於核武器擴散的協議一樣。

 

 

 

 

 

[ 打印 ]
閱讀 ()評論 (8)
評論
cager812 回複 悄悄話 搞前沿上的玩意發大財的機會比後知後覺的要多得多。
朱頭山 回複 悄悄話 很多矽穀大佬,包括馬斯克,都認同Wang的觀點,但也有人說,就算Deep Seek真的使用了5萬塊H100, 取得這樣的成就也很了不起。AI大公司的目標是億塊GPU了,現在都在十萬,百萬級別了,DS的衝擊還是很大的。
無頭無腦 回複 悄悄話 按方法論角度分析,deepseek沒有低層的理論突破是不可能“遙遙領先的”,然而在算法或策略上的改進能提高目前AI的水平是可能的,這種差異更象豐田車與道奇車之前的差異。
閑聊幾句 回複 悄悄話 所以啊今天軟件公司的股票沒怎麽跌,而硬件公司的股票跌的稀裏嘩啦
上海大男人 回複 悄悄話 一般專家都知道deep seek用的技術,美國人也應該知道,何況還有頂級芯片的優勢。
閑聊幾句 回複 悄悄話 好在有搞AI的專業人士會搞清楚,外行憑喜好都是瞎掰
soullessbody 回複 悄悄話 想彎道超車遙遙領先的,大概率是吹牛或者會失控翻車。
矽穀工匠 回複 悄悄話 Thanks. I think it will be difficult to reproduce, since everything is so sensitive. The biggest problem of AI LLM is that it is basically useless - no use except as a calculator or minor assistant.
登錄後才可評論.