聖誕節的第二天，一家名為深度求索(DeepSeek)的中國小型初創公司發布了一個新的人工智能係統，其功能可與OpenAI和穀歌等公司的尖端聊天機器人相媲美。

能做到這點本已是一個裏程碑。但這個名為DeepSeek-V3的大模型背後的團隊描述了一個更大的進步。深度求索的工程師在介紹他們如何構建這個大模型的研究論文中寫道，他們在訓練該係統時隻用了領先人工智能公司用的高度專業化計算機芯片的一小部分。

這些芯片是美中激烈技術競爭的核心。隨著美國政府努力保持本國在全球人工智能競爭中的領先地位，它正在試圖對能出售給中國以及其他競爭對手的高性能芯片（如矽穀公司英偉達生產的那些）進行限製。

但DeepSeek大模型的表現讓人們對美國政府貿易限製的意外後果產生了質疑。美國的出口管製措施已迫使中國研究人員使用互聯網上免費提供的各種工具來發揮創造力。

據美國人工智能公司一直使用的行業基準測試，DeepSeek聊天機器人能回答問題、解決邏輯問題，並編寫自己的計算機程序，其能力不亞於市場上已有的任何產品。

而且它的造價很低，挑戰了隻有最大的科技企業（它們全都在美國）才能製造出最先進的人工智能係統的普遍觀念。中國工程師稱，他們隻花了約600萬美元的原始計算能力就訓練了新模型，不到科技巨頭Meta訓練其最新人工智能模型所耗資金的十分之一。

“有600萬美元資金的公司在數量上遠遠多於有1億美元或10億美元資金的公司，”風險投資公司Page One Ventures的投資人克裏斯·尼科爾森說道，他主要投資人工智能技術。

自從OpenAI 2022年發布了ChatGPT，引發人工智能熱潮以來，許多專家和投資者曾得出結論認為，如果不投入數億美元購買人工智能專用芯片的話，沒有公司能與行業領軍者競爭。

世界領先的人工智能公司用超級計算機來訓練它們的聊天機器人，這些超級計算機需要多達1.6萬個芯片，甚至更多。但DeepSeek的工程師卻說，他們隻用了約2000個英偉達生產的專用芯片。

中國進口芯片受到限製，迫使DeepSeek工程師“更有效地訓練大模型，以讓其仍有競爭力”，喬治華盛頓大學專門研究新興技術和國際關係的助理教授傑弗裏·丁（音）說。

本月早些時候，拜登政府頒布了旨在阻止中國通過其他國家獲得先進人工智能芯片的新規則。新規則出台前，美國已采取了多輪限製措施，阻止中國公司購買或製造尖端計算機芯片。特朗普總統尚未表明他是否會繼續實施或取消這些措施。

美國政府一直試圖阻止中國公司獲得先進芯片，因為擔心這些芯片可能用於軍事目的。作為回應，中國的一些公司囤積了大量這類芯片，另一些公司則在蓬勃發展的黑市采購走私芯片。

DeepSeek由一家名叫幻方的量化股票交易公司運營。到2001年，它已將利潤投入購買數千枚英偉達芯片，用於訓練其早期模型。公司沒有回複記者的置評請求，它在中國有一種名聲，那就是以高薪和讓人們能夠探索最感興趣的研究課題為承諾，吸引了剛從頂尖大學畢業的人才。

曾參與早期DeepSeek大模型開發的計算機工程師汪子涵（音）說，公司也雇傭沒有任何計算機科學背景的人幫助該技術理解並生成詩歌，並在做難度極大的中國高考試卷時獲得高分。

DeepSeek不製造任何消費者產品，而是讓工程師全神貫注地做研究。這意味著其技術不受中國有關人工智能法規中最嚴格部分的限製，中國要求麵向消費者的技術必須遵循政府對信息的控製。

領先的美國公司繼續推動人工智能的發展。去年12月，OpenAI公布了一款性能超過現有技術的名為o3的新“推理”係統，盡管該係統尚未在該公司以外得到廣泛使用。但DeepSeek繼續表明自己並不落後，它在本月發布了自己的一個推理模型，性能同樣令人印象深刻。

（《紐約時報》已起訴OpenAI及其合作夥伴微軟，稱其侵犯了與人工智能係統相關新聞內容的版權。OpenAI和微軟否認了這些指控。）

這個快速變化的全球市場的關鍵部分是一個存在已久的想法：開源軟件。與許多其他公司一樣，DeepSeek也將其最新的人工智能模型放入開源軟件係統，這意味著它已經與其他企業和研究人員共享了基礎代碼，讓其他人能用相同的技術構建和發布自己的產品。

雖然中國大型科技企業的員工隻與自己的同事合作，但“如果你從事開源軟件開發，你其實是在與世界各地的人才合作”，舊金山Baseten的首席軟件工程師張一能（音）說，他為開源的SGLang項目工作。他還幫助其他人和公司使用DeepSeek模型構建產品。

2023年，Meta免費分享了一個名為LLama的人工智能模型後，人工智能的開源生態係統開始蓬勃發展。許多人曾假設，隻有像Meta這樣的科技巨頭——擁有使用大量專用芯片的大型數據中心——繼續開源其技術，人工智能社區才會蓬勃發展。但DeepSeek和其他公司已表明，它們也可以拓展開源技術的能力。

許多高管和專家認為，美國大公司不應該開源其技術，因為它們能被用來傳播虛假信息或造成其他嚴重危害。一些美國立法者已在探索阻止或限製開源的可能性。

但也有人認為，如果監管機構扼殺了開源技術在美國的進步，中國將獲得顯著優勢。他們認為，如果最好的開源技術來自中國，美國開發人員將在這些技術的基礎上構建他們的係統。從長遠來看，這可能會讓中國成為研發人工智能的中心。

“開源社區的重心已在向中國轉移，”加州大學伯克利分校計算機科學教授伊恩·斯托伊卡說。“這對美國來說可能是一個巨大的危險”，因為它讓中國得以加速新技術的研發。

就職典禮數小時後，特朗普總統撤銷了拜登政府威脅限製開源技術的行政命令。

斯托伊卡和他的學生最近構建了一個名為Sky-T1的人工智能模型，在某些基準測試中，該模型的性能可與最新的OpenAI係統——OpenAI o1相媲美。他們的模型隻需要450美元的計算能力。

他們能做到這點是因為他們的係統是建在中國科技巨頭阿裏巴巴發布的兩項開源技術的基礎之上的。

他們450美元的係統不如OpenAI技術或DeepSeek新模型強大。他們使用的技術不太可能產生超越領先技術性能的係統。但他們的研究表明，即使是資源微不足道的組織或者企業，也能構建具有競爭力的係統。

多倫多的技術顧問魯文·科恩從去年12月下旬起一直在使用 DeepSeek-V3。他說，該模型與OpenAI、穀歌，以及舊金山初創公司Anthropic的最新係統能力相當，而且使用起來便宜得多。

“DeepSeek是讓我省錢的辦法，”他說。“這是像我這樣的人想用的技術。”

切換到網頁版

中國AI初創公司DeepSeek是如何與矽穀巨頭競爭的

紐約時報 2025-01-23 17:55:09