BeijingGirl1

BeijingGirl1 名博

當DeepSeek遇上國粹和習 普 川

BeijingGirl1 (2025-02-04 05:25:59) 評論 (228)

繼小紅書的“難民”事件後,杭州深度求索人工智能基礎研究技術有限公司的產品 DeepSeek (DS)再度成為蘋果店應用下載第一名,大吸眼球。 如果說前者隻是圍繞著一款抖音國際版軟件被封,其用戶成了“政治難民”和小紅書網民開了一場party; 後者則震動了西方,特別是科技領軍者美國的 AI 業界。

我以前從沒用過 ChatGPT。 這次深度求索引起了我的興趣。 一是因為它是中國的產品,美國 IT 業和AI領域對其驚奇和讚賞有加; 二是因為WXC裏興起了一股打卡風, 不少人讓 AI 評價自己的博客文章,然後記錄、發表出來。 

國內媒體對 DS 沒有那麽熱。可能因為我不看中國的媒體不知道。 我們社區網上也無人提及這事。 英美的媒體倒是很多評論。我的博文裏,一位網友說 DS 的詩詞很強, 給它四個詞 - 窗口、白發老人、秋雨、落葉, 讓它做一首“一剪梅”, 結果很不錯。

我就試了一下, 結果 DS 兩秒鍾之內就出來一首:《一剪梅·秋窗獨望》 

  • 窗口輕開對晚風,白發如霜,獨倚樓中。
  • 秋雨綿綿濕舊夢,點滴敲心,寒意漸濃。
  • 落葉紛飛舞半空,一地金黃,幾許朦朧。
  • 歲月無聲催人老,回首前塵,淚眼朦朧。

懂的人請任意評說。 之後我讓它再做一首, 這一次調換了詞的順序 - 秋雨、落葉、窗口、白發老人。 結果是《一剪梅·秋思》: 

  • 秋雨瀟瀟洗舊塵, 落葉飄零,滿地黃昏。
  • 窗口獨坐白發人, 靜看風來,心事如雲。
  • 歲月無聲染鬢痕, 幾度春秋,幾度寒溫。
  • 回首前塵似夢真, 一瞬繁華,一瞬孤身。

可以看到詞的名字已經換了, AI根據幾個重點詞的順序推斷詩的中心意思有不同。 其中秋雨、落葉、窗口, 都用了原詞, 但是“白發老人”有所發揮。 詞是 ‘真文’韻(‘en’ ‘un’ 視為通韻)。 這就是AI “訓練”的結果。 而訓練費用是這款產品中最讓AI業驚奇的事情,它說明很多問題。

OpenAI 的老板 Sam Altman 在討論 GPT-4 時提到的其訓練費“超過 1 億美元”。 DS 的訓練費用僅是其 6%。 “訓練”是在海量的信息中準確提取定位、計算推理得出結論的過程。這其中主要的花費 -

  • 大規模模型需要大量GPU或TPU, 昂貴的高性能計算集群; 
  • 數據收集和處理
  • 電力消耗和基礎設施(存儲、網絡帶寬等)
  • 人力和軟件開發、或購買許可的費用。

深度求索的領軍人梁文鋒是80後, 出生於廣東一個五線小城市。 本碩畢業於浙江大學的信息工程和計算機專業。 曾經供職於幻方(High-Flyer)對衝基金。這家基金用人工智能分析財務數據來做投資決策, 即所謂的量化交易。2019 年,幻方成為中國首家募資超過 1000 億元人民幣的基金。

2022年美國禁止了向中國出口高端芯片。 幻方手裏有大約5萬枚存儲。 2023年7月梁文鋒成立了深度求索,公司100多人。 用大約1萬枚高端芯片和中低端芯片配合,構建了強大的人工智能模型。 這個消息說明了華盛頓的芯片“圍剿”失敗 - 本來美國認為不給芯片, 中國就造不出自己的AI。

2025年1月20號,DS-R1 問世。 中國沒聲響,美國精英們用過之後掀起了大波 - 物美價廉啊。 1月27號,Nvidia 股票大跌17%,科技股為主的納斯達克指數下跌超過 3%。 至今還在恢複中。

DS是開源應用。有人說它所以物美價廉是抄別人的。 美國的科技精英們又不是傻子,如果是抄的, 一開源就會被發現。 現在美國很多頂級科研機構和公司都下載了深度求索。 連我伯克利的老師都開始用了。 等等看就知道了。

在做中國詩詞這事上, 大約沒得可抄。 它的核心算法和推理應該是自己的。 當然除了做詩詞,我還詢問了深度求索的金融和科學問題。 比如, 解微分方程。

不過我問了下麵這個問題, 深度求索就舉白旗了。 嗬嗬。