紐時:中國AI初創公司DeepSeek是如何與矽穀巨頭競爭的

聖誕節的第二天,一家名為深度求索(DeepSeek)的中國小型初創公司發布了一個新的人工智能係統,其功能可與OpenAI和穀歌等公司的尖端聊天機器人相媲美。
能做到這點本已是一個裏程碑。但這個名為DeepSeek-V3的大模型背後的團隊描述了一個更大的進步。深度求索的工程師在介紹他們如何構建這個大模型的研究論文中寫道,他們在訓練該係統時隻用了領先人工智能公司用的高度專業化計算機芯片的一小部分。
這些芯片是美中激烈技術競爭的核心。隨著美國政府努力保持本國在全球人工智能競爭中的領先地位,它正在試圖對能出售給中國以及其他競爭對手的高性能芯片(如矽穀公司英偉達生產的那些)進行限製。
但DeepSeek大模型的表現讓人們對美國政府貿易限製的意外後果產生了質疑。美國的出口管製措施已迫使中國研究人員使用互聯網上免費提供的各種工具來發揮創造力。
據美國人工智能公司一直使用的行業基準測試,DeepSeek聊天機器人能回答問題、解決邏輯問題,並編寫自己的計算機程序,其能力不亞於市場上已有的任何產品。
而且它的造價很低,挑戰了隻有最大的科技企業(它們全都在美國)才能製造出最先進的人工智能係統的普遍觀念。中國工程師稱,他們隻花了約600萬美元的原始計算能力就訓練了新模型,不到科技巨頭Meta訓練其最新人工智能模型所耗資金的十分之一。
“有600萬美元資金的公司在數量上遠遠多於有1億美元或10億美元資金的公司,”風險投資公司Page One Ventures的投資人克裏斯·尼科爾森說道,他主要投資人工智能技術。
自從OpenAI 2022年發布了ChatGPT,引發人工智能熱潮以來,許多專家和投資者曾得出結論認為,如果不投入數億美元購買人工智能專用芯片的話,沒有公司能與行業領軍者競爭。
世界領先的人工智能公司用超級計算機來訓練它們的聊天機器人,這些超級計算機需要多達1.6萬個芯片,甚至更多。但DeepSeek的工程師卻說,他們隻用了約2000個英偉達生產的專用芯片。
中國進口芯片受到限製,迫使DeepSeek工程師“更有效地訓練大模型,以讓其仍有競爭力”,喬治華盛頓大學專門研究新興技術和國際關係的助理教授傑弗裏·丁(音)說。
本月早些時候,拜登政府頒布了旨在阻止中國通過其他國家獲得先進人工智能芯片的新規則。新規則出台前,美國已采取了多輪限製措施,阻止中國公司購買或製造尖端計算機芯片。特朗普總統尚未表明他是否會繼續實施或取消這些措施。
美國政府一直試圖阻止中國公司獲得先進芯片,因為擔心這些芯片可能用於軍事目的。作為回應,中國的一些公司囤積了大量這類芯片,另一些公司則在蓬勃發展的黑市采購走私芯片。
DeepSeek由一家名叫幻方的量化股票交易公司運營。到2001(注:原文可能有誤,很可能是2021)年,它已將利潤投入購買數千枚英偉達芯片,用於訓練其早期模型。公司沒有回複記者的置評請求,它在中國有一種名聲,那就是以高薪和讓人們能夠探索最感興趣的研究課題為承諾,吸引了剛從頂尖大學畢業的人才。
曾參與早期DeepSeek大模型開發的計算機工程師汪子涵(音)說,公司也雇傭沒有任何計算機科學背景的人幫助該技術理解並生成詩歌,並在做難度極大的中國高考試卷時獲得高分。
DeepSeek不製造任何消費者產品,而是讓工程師全神貫注地做研究。這意味著其技術不受中國有關人工智能法規中最嚴格部分的限製,中國要求麵向消費者的技術必須遵循政府對信息的控製。
領先的美國公司繼續推動人工智能的發展。去年12月,OpenAI公布了一款性能超過現有技術的名為o3的新“推理”係統,盡管該係統尚未在該公司以外得到廣泛使用。但DeepSeek繼續表明自己並不落後,它在本月發布了自己的一個推理模型,性能同樣令人印象深刻。
這個快速變化的全球市場的關鍵部分是一個存在已久的想法:開源軟件。與許多其他公司一樣,DeepSeek也將其最新的人工智能模型放入開源軟件係統,這意味著它已經與其他企業和研究人員共享了基礎代碼,讓其他人能用相同的技術構建和發布自己的產品。
雖然中國大型科技企業的員工隻與自己的同事合作,但“如果你從事開源軟件開發,你其實是在與世界各地的人才合作”,舊金山Baseten的首席軟件工程師張一能(音)說,他為開源的SGLang項目工作。他還幫助其他人和公司使用DeepSeek模型構建產品。
2023年,Meta免費分享了一個名為LLama的人工智能模型後,人工智能的開源生態係統開始蓬勃發展。許多人曾假設,隻有像Meta這樣的科技巨頭——擁有使用大量專用芯片的大型數據中心——繼續開源其技術,人工智能社區才會蓬勃發展。但DeepSeek和其他公司已表明,它們也可以拓展開源技術的能力。
許多高管和專家認為,美國大公司不應該開源其技術,因為它們能被用來傳播虛假信息或造成其他嚴重危害。一些美國立法者已在探索阻止或限製開源的可能性。
但也有人認為,如果監管機構扼殺了開源技術在美國的進步,中國將獲得顯著優勢。他們認為,如果最好的開源技術來自中國,美國開發人員將在這些技術的基礎上構建他們的係統。從長遠來看,這可能會讓中國成為研發人工智能的中心。
“開源社區的重心已在向中國轉移,”加州大學伯克利分校計算機科學教授伊恩·斯托伊卡說。“這對美國來說可能是一個巨大的危險”,因為它讓中國得以加速新技術的研發。
就職典禮數小時後,特朗普總統撤銷了拜登政府威脅限製開源技術的行政命令。
斯托伊卡和他的學生最近構建了一個名為Sky-T1的人工智能模型,在某些基準測試中,該模型的性能可與最新的OpenAI係統——OpenAI o1相媲美。他們的模型隻需要450美元的計算能力。
他們能做到這點是因為他們的係統是建在中國科技巨頭阿裏巴巴發布的兩項開源技術的基礎之上的。
他們450美元的係統不如OpenAI技術或DeepSeek新模型強大。他們使用的技術不太可能產生超越領先技術性能的係統。但他們的研究表明,即使是資源微不足道的組織或者企業,也能構建具有競爭力的係統。
多倫多的技術顧問魯文·科恩(Reuven Cohen, a technology consultant in Toronto)從去年12月下旬起一直在使用 DeepSeek-V3。他說,該模型與OpenAI、穀歌,以及舊金山初創公司Anthropic的最新係統能力相當,而且使用起來便宜得多。
“DeepSeek是讓我省錢的辦法,”他說。“這是像我這樣的人想用的技術。”

所有跟帖: 

投壇有沒有懂AI算法的,DeepSeek是不是算法很先進? -玻璃坊- 給 玻璃坊 發送悄悄話 玻璃坊 的博客首頁 (121 bytes) () 01/24/2025 postreply 00:00:27

小紅書上有人轉了個blind上的貼。說Meta GenAI 整個org正在panicking. -Maui2021- 給 Maui2021 發送悄悄話 (0 bytes) () 01/24/2025 postreply 00:14:47

不需要看投壇的建議,看看X/LinkedIn 有沒有反駁的建議 -study169- 給 study169 發送悄悄話 (0 bytes) () 01/24/2025 postreply 01:03:16

是的,具體技術細節你可以自己搜下。當然這裏的人是不會承認的。中國的,肯定是坑蒙拐騙偷來的假貨歪貨,怎麽可能。。。 -bulubulu- 給 bulubulu 發送悄悄話 (173 bytes) () 01/24/2025 postreply 01:16:24

那,美國的下一代怎麽辦。。。 -Maui2021- 給 Maui2021 發送悄悄話 (167 bytes) () 01/24/2025 postreply 02:24:48

如果你有很多錢留給後代,怕什麽?這個是拚爹的時代。 -wlwt123- 給 wlwt123 發送悄悄話 (0 bytes) () 01/24/2025 postreply 05:28:00

如果Trump放鬆AI chips control to China, then game over for US. -Maui2021- 給 Maui2021 發送悄悄話 (120 bytes) () 01/24/2025 postreply 00:17:39

我認為沒什麽,因為: -BrightLine- 給 BrightLine 發送悄悄話 BrightLine 的博客首頁 (794 bytes) () 01/24/2025 postreply 03:43:39

Top 5 cs大學研究生院用算法常搞些比chat GPT便宜多的東西、哪裏還是一堆中國研究生.這些人回國 -BBL123- 給 BBL123 發送悄悄話 (39 bytes) () 01/24/2025 postreply 04:13:47

神特麽匯編語言是為了省內存和”算力“ -bulubulu- 給 bulubulu 發送悄悄話 (109 bytes) () 01/24/2025 postreply 08:02:46

問了一個海盜分金的邏輯問題,比之ChatGPT,DeepSeek邏輯上不自洽。 -t130152- 給 t130152 發送悄悄話 t130152 的博客首頁 (4449 bytes) () 01/24/2025 postreply 04:40:24

答案分別是? -玻璃坊- 給 玻璃坊 發送悄悄話 玻璃坊 的博客首頁 (0 bytes) () 01/24/2025 postreply 06:52:07

我覺得最安全的是5個海盜平分,大家都不會被扔下船。 -羽衣甘藍- 給 羽衣甘藍 發送悄悄話 羽衣甘藍 的博客首頁 (700 bytes) () 01/25/2025 postreply 00:47:40

用OpenAi的LLM(Large Language Model)訓練自己的LLM,這是創新,彎道超車還是偷雞摸狗? -parentb- 給 parentb 發送悄悄話 parentb 的博客首頁 (0 bytes) () 01/24/2025 postreply 05:24:07

我覺得是創新,從而它發展出左右互搏。OPENAI也可以用自己的LLM去訓練自己更牛的LLM啊,沒人攔著啊,近水樓台啊, -雲崖水暖- 給 雲崖水暖 發送悄悄話 (86 bytes) () 01/24/2025 postreply 07:34:12

它用OpenAI的輸出訓練,這種“自我迭代”還有很多問題沒有解決,所以大家不在這上麵浪費精力而已。忘了華為7納米了?:) -kl3527- 給 kl3527 發送悄悄話 kl3527 的博客首頁 (199 bytes) () 01/24/2025 postreply 12:18:00

現在訓練越來越快,OpenAI的o1到o3, 隻用了3個月。我猜測DeepSeek的訓練是基於Meta的開源LLM -未知- 給 未知 發送悄悄話 未知 的博客首頁 (114 bytes) () 01/24/2025 postreply 12:33:26

據說他的強項是推理和解題 -wjhwsh- 給 wjhwsh 發送悄悄話 wjhwsh 的博客首頁 (0 bytes) () 01/25/2025 postreply 08:17:57

請您先登陸,再發跟帖!