胡思亂想錄二十七 - Deepseek解讀

金灣居士 (2025-01-29 16:08:10) 評論 (3)

      春節期間被Deepseek霸屏了, 每一塊液晶屏上都是國產AI的勁爆新聞,媒體掙流量的本質體現的淋漓盡致,可能對皮衣黃早有不滿的華爾街更是趁火打劫,NVDA跳水16%,對AI股大有要開類似本世紀初互聯網泡沫崩塌的第一槍的架勢。國內更是吹上了天, 將其上升到國運級別,國人終於可以在AI競賽中揚眉吐氣了一把。

     於是嚐試讀了一下deepseek的論文,並沒有基礎架構的創新(仍基於transformer),但在微架構上的嚐試和創新的確值得讚譽(MLA,不用SFT等),在沒有算力支撐的情況下,看得出來他們花了很多力氣嚐試達到四兩撥千斤的效果,結果非常reasonable。

    deepseek的訓練是否真的隻花了5百萬美金是個問號, 本人想起若幹年前在某初創公司花費三個多月做個了個DSP仿真器,因此對該架構了如指掌,後續公司新買了個EDA計工具,由於對要做什麽非常清楚,用那個工具一周完成了一個和自己從零做的同樣仿真器, 於是成了該EDA公司的成功案例模版,在外麵到處吹其客戶一周完成DSP仿真器設計,顯然沒有前麵那三個月,何來那一周?有報道稱deepseek的母公司幾年前就聚集了萬張顯卡做machine learning(用於量化炒股),沒有那些積累,估計也不會有什麽五百萬美金訓練處frontier模型的神話。

  deepseek用到的trick,openai或anthropic他們是不懂怎麽做嗎?我認為也未必,隻是如果如Altman所言, Scaling Law還遠未結束,他們認為這是觸手可得的成果和路徑,所謂low hanging fruit,又沒什麽芯片管製,於是資源都朝著堆算力方向投去。今天看到Mark Chen的推,言下之意,deepseek的部分算法和openai是不謀而合,說明openai內部也許已經知道訓練的成本可以降下來,但作為AI標杆初創,降本顯然不是他們需要吹噓的。 至於 deepseek的模型是否有缺陷呢?其實都不知道,還是讓子彈飛一會兒最佳。