6710億參數的事情人家已經用論文詳細闡述了,deepseek不是石頭縫裏麵蹦出來的,先後發表了13篇論文,一步一步闡述自己的算法發展過程,開源了訓練方法和訓練結果,用多少張卡人家也公開了。多卡並行計算的時候CUDA效率不高,人家繞過CUDA,采用接近匯編語言的方法重寫了通訊協調過程,大大提升了計算效率,更有意思的是,這個匯編語言代碼,人家也開源了。
再去質疑人家的數據就顯得是沒有身份的死纏爛打了。
至於550W美元,並不是deepseek自己說的,是好事者根據耗用的GPU機時數估算出來的,並不準確。真實的開發成本,人力永遠是大頭。 deepseek有140人,按照國內人均100萬的行情,一年1.4億,加上試錯的算力成本,deepseek一年花費2~3億是合理推斷。但就算這個成本,也是讓人絕望的成本。1/10的訓練成本,1/20的推理成本,1/50的人力成本,不要說領先,就算落後1年,領先者也沒有任何盈利可能。因為開源,企業可以私有化部署,對公共AI需求就會大幅度降低。他們永遠賺不回燒掉的錢,一旦不燒錢,馬上落後。
至於美國有人拿出1個億美元,組300個人的夢幻團隊,山寨deepseek的技術路線,中國人會怕嗎?睡著都會笑醒。先不說1億美元在美國組建不了夢幻團隊。開源的LLaMa團隊一年花幾十億美刀,成果擺在那裏。難道2018年圖靈獎得主Yann André LeCu領銜的團隊不夠夢幻?說到技術路線,法國豪華團隊Mistral走的就是MoE(混合專家路線),他們兩個連富二代阿裏的Qwen都打不過。而且阿裏是要商用部署的,通常會先在阿裏雲商用,過6個月開源,確保自己的商業利益。現在阿裏的開源版本都領先LLaMa和Mistral,說明中國AI是湧現式的崛起了。
任何指數增長的領域,早期的投入會換來巨大的飛躍,後麵的增長必然進入線性區。這個時候有人手拿無限美刀進來,複製deepseek的技術路徑,去海量砸錢,等於替中國人驗證各種算法的靠譜程度。等到你驗證完畢,我隻要輕車熟路就可以跟上了。如果美國人靠錢多算力多開路,你說我們開不開森?
真要比拚算力,就要看今年下半年了。華為的升騰910C和升騰920,會真正讓美國人體會到什麽叫算力。十萬卡陣列?800G光通訊?那是華為的強項。能源供應?那是中國的強項。
在AI的鬥獸場上,是頂級精英的較量,也是中國生死存亡的較量。以中國人的種族天賦,鬥爭精神和人才厚度,任何一個維度都遠超白人,他們有什麽理由贏?