https://www.nbcnews.com/tech/tech-news/china-ai-assistant-deepseek-rcna189385
NBC news,發布時間:美國東部時間 2025 年 1 月 27 日上午 8:30 ,穀歌翻譯成中文如下。
中國的一個小實驗室震動了矽穀。
來自中國杭州市一家此前鮮為人知的公司 DeepSeek 的高級人工智能助手突然出現,引發了美國科技行業內部關於其對更廣泛的人工智能開發競賽的討論和爭論。
最近幾天,DeepSeek 的助手在蘋果應用商店中排名第一,支持該助手的人工智能模型已經超越了美國頂級模型,該公司表示,這些模型是用一小部分人力資源製作的。
DeepSeek 一周前發布了最新的大型語言模型 R1。在備受關注的獨立人工智能分析排名人工分析質量指數中,R1 僅次於 OpenAI 的 o1 模型,它已經擊敗了一係列其他模型,包括 Google 的 Gemini 2.0 Flash、Anthropic 的 Claude 3.5 Sonnet、Meta 的 Llama 3.3-70B 和 OpenAI 的 GPT -4o。
“DeepSeek R1 是人工智能的人造衛星時刻,”因共同編寫世界上第一個網絡瀏覽器之一 Mosaic 而聞名的企業家 Marc Andreessen 在 X Sunday 上寫道,將其比作美國和蘇聯之間的太空競賽,以及迫使美國和蘇聯之間的太空競賽的事件。美國意識到其技術能力並非無懈可擊。
科技股周一大幅下跌,納斯達克綜合指數在交易日僅幾分鍾內就下跌 3.4%。美國大型科技公司正在向人工智能技術投資數千億美元。
R1 的核心能力之一是能夠通過思維鏈推理來解釋其思維,旨在將複雜的任務分解為更小的步驟。這種方法使模型能夠回溯和修改早期步驟——模仿人類思維——同時允許用戶遵循其基本原理。
在上周於瑞士舉行的世界經濟論壇上,微軟首席執行官薩蒂亞·納德拉(其公司是 OpenAI 最大的投資者之一)稱 DeepSeek 的新模式“超級令人印象深刻”,並補充說,他認為“我們應該非常非常認真地對待中國的發展。 ”
R1 和 o1 都是新興“推理”模型的一部分,旨在解決比前幾代人工智能模型更複雜的問題。但與 OpenAI 的 o1 不同,DeepSeek 的 R1 是免費使用和開放權重的,這意味著任何人都可以研究和複製它的製作方法。
R1基於DeepSeek之前的模型V3,該模型的得分也超過了GPT-4o、Llama 3.3-70B和阿裏巴巴的Qwen2.5-72B(中國之前領先的AI模型)。 12 月底發布後,V3 的表現與 Claude 3.5 Sonnet 相當。
R1 如此令人印象深刻的部分原因在於 DeepSeek 對其開發的宣稱。
根據 DeepSeek 的一份技術報告,R1 隻花了兩個月的時間和不到 600 萬美元的時間就建成了,盡管美國領先的科技公司每年繼續在人工智能上花費數十億美元。 DeepSeek 還必須應對美國的出口限製,這些限製限製了最好的人工智能計算芯片的使用,迫使該公司使用性能較差的芯片來構建模型。
這在美國科技界引發了一場激烈的爭論:一家中國小公司如何如此大幅地超越人工智能行業資金最雄厚的企業?這對於該領域的未來意味著什麽?
Meta 首席人工智能科學家 Yann LeCun 在 Threads 帖子中寫道,這一發展並不意味著中國“在人工智能領域超越美國”,而是“開源模型正在超越專有模型”的證據。他補充說,DeepSeek 受益於其他開放權重模型,包括 Meta 的一些模型。
“他們提出了新的想法,並將其建立在其他人的工作之上。因為他們的作品已出版且開源,所以每個人都可以從中受益,”LeCun 寫道。 “這就是開放研究和開源的力量。”
(盡管包括 DeepSeek 和 Meta 在內的許多公司聲稱他們的人工智能模型是開源的,但他們實際上並沒有向公眾透露他們的訓練數據。)
OpenAI 首席執行官 Sam Altman 上個月似乎也對 DeepSeek 進行了攻擊,因為一些用戶注意到 V3 偶爾會與 ChatGPT 混淆。 V3 發布一天後,Altman 在 X 上寫道:“複製你知道有效的東西(相對)容易。當你不知道某件事是否有效時,去做一些新的、有風險的、困難的事情是極其困難的。”
網上一些人士未經證實地聲稱 DeepSeek 的成功是中國政府的一次“心理戰”,這讓人們對這個小團隊“作為一個副項目擊敗世界上所有頂尖研究人員”的能力產生了懷疑。
Meta AI 開發的機器學習庫 PyTorch 的聯合創始人 Soumith Chintala 是本周末對這些指控進行反擊的眾多人士之一。
“令人滑稽的是,人們通過散布離奇的陰謀論來應對 Deepseek——盡管 Deepseek 開源並撰寫了一些有史以來最注重細節的論文,”Chintala 在 X. 上寫道。複製。競爭。別太鹹了,隻會顯得你無能。”
科技和投資領域的其他人也紛紛表示讚揚,對 DeepSeek 的成功所帶來的影響表示興奮。
“這就是 DeepSeek 事情如此有趣的原因。宏觀經濟學家菲利普·皮爾金頓 (Philip Pilkington) 在 X 上寫道:“多年來,一群騙子一直在兜售人工智能秘方——一種永遠無法完全解釋的怪異神秘果汁。”“現在,一群年輕人剛剛寫了一個很好的算法,發布了它,然後馬戲團就開始了。”帳篷被燒毀了。”
Github 前首席執行官 Nat Friedman 也發表了類似的言論:“Deepseek 團隊顯然非常優秀。中國充滿了才華橫溢的工程師。其他的一切都可以應對。對不起。”
DeepSeek 的模型標榜雙語能力,在中文和英文方麵都表現出色。然而,它們似乎確實受到審查或圍繞中國敏感話題的特定政治傾向。
當被問及台灣這個自治的民主島嶼的主權時,北京聲稱其擁有主權,DeepSeek 的 R1 有時會表示這個話題“超出了我目前的範圍”。其他時候,該模型將台灣描述為“中國領土不可分割的一部分”,並補充說:“我們堅決反對任何形式的‘台獨’分裂活動,致力於通過和平方式實現祖國的完全統一。”
緊隨 DeepSeek 最新模型的推出,中國科技行業的其他參與者已經在爭奪人工智能主導地位的競賽中推出了新的競爭者。
阿裏巴巴周日推出了最新的Qwen2.5-1M型號,是Qwen2.5-72B的升級版。
總部位於北京的 Moonshot AI 公司旗下的 Kimi AI 也於周六宣布推出其最新的多模態推理模型 Kimi k1.5,號稱可與 OpenAI 的 o1 相媲美。