深度求索使用了一些技術手段，大大降低了構建係統的成本。

上個月，一家名為“深度求索”(DeepSeek)的中國初創公司表示，它用比許多專家認為的最低限度要少得多的芯片，打造出世界上最強大的人工智能係統之一，隨後美國金融市場出現暴跌。

人工智能公司通常使用裝有1.6萬枚或更多專用芯片的超級計算機來訓練聊天機器人。但深度求索表示，該公司隻用了大約2000枚芯片。

正如深度求索工程師在聖誕節甫一過後發表的一篇研究論文中詳細說明的那樣，這家初創公司使用了一些技術手段，顯著降低了係統構建成本。它的工程師隻需要約600萬美元的純算力，大約是Meta在構建其最新人工智能技術時所花費的十分之一。

深度求索到底做了什麽？這裏是一些介紹。

AI技術是如何構建的？

領先的人工智能技術基於科學家所說的神經網絡，即通過分析大量數據來學習技能的數學係統。

最強大的係統需要花費數月時間分析互聯網上幾乎所有的英文文本，以及許多圖像、聲音和其他多媒體內容。這需要龐大的運算能力。

大約15年前，人工智能的研究者意識到，一種被稱為圖形處理單元(GPU)的專用計算機芯片是進行這種數據分析的有效方式。像矽穀芯片製造商英偉達這樣的公司最初設計這些芯片是為了在電腦遊戲中渲染圖形。但GPU也擅長運行推動神經網絡的數學運算。

隨著各家公司將更多的GPU集成到計算機數據中心，它們的人工智能係統可以分析更多的數據。

但最先進的GPU每塊售價在4萬美元上下，而且需要大量的電力。在芯片之間傳輸數據比運行芯片本身更耗電。

深度求索是如何把成本降下來的？

它做了很多工作。其中最值得注意的是，它采用了一種所謂的“混合專家”法。

公司通常會創建一個單一的神經網絡，學習互聯網上所有數據的所有模式。這樣做的成本很高，因為它需要大量的數據在GPU芯片之間傳輸。

如果一枚芯片正在學習如何寫一首詩，而另一枚芯片正在學習如何編寫計算機程序，它們還是需要相互交流，以防詩歌和編程之間出現某種重疊。

研究人員嚐試通過混合專家法來解決這個問題，他們將係統拆分成許多神經網絡：一個用於詩歌，一個用於計算機編程，一個用於生物學，一個用於物理學，等等。這樣較小的專家係統可能多達100個。每個專家都可以專注在特定領域。

許多公司在嚐試這種方法時並不順利，但深度求索能夠很好地做到這一點。它的訣竅是將那些較小的“專家”係統與一個“通才”係統配對。

專家係統仍然需要相互交換一些信息，而通才係統可以幫助協調專家係統之間的互動。通才係統對每個主題都有不錯的理解，但比較粗略。

這有點像一個主編負責一個全是專業記者的新聞編輯室。

這樣做的效率更高嗎？

高很多。但深度求索做的不僅僅是這些。它還掌握了一個涉及小數的簡單技巧，隻要你還記得小學數學，就能理解。

這裏涉及數學？

還記得你的數學老師講過的π嗎？圓周率，也就是π，是一個無限數字：3.14159265358979……

你可以用π來做一些有用的計算，比如確定圓的周長。當你做這些計算時，你會把π縮短到僅幾位小數：3.14。使用這個更簡單的數字，你就能很好地估算出一個圓的周長。

深度求索在訓練它的人工智能技術時做了類似的事情，不過規模要大得多。

讓神經網絡識別文本模式的數學實際上隻是乘法——很多很多很多的乘法。我們說的是數千枚計算機芯片進行持續數月的乘法運算。

通常，芯片會將能放入16位存儲器的數字相乘。但深度求索將每個數字壓縮到隻有八位的存儲器中，節省了一半的空間。實際上就是在每個數字中刪掉了幾位小數。

這意味著每次計算的準確性都會降低。但這並不重要。這些計算準確度足以產生一個非常強大的神經網絡。

就這麽簡單？

這個嘛，他們另外還有一招。

在將每個數字塞進八位存儲器後，深度求索在將這些數字相乘時采取了不同的方法。在確定每個乘法問題的答案時——進行有助於決定神經網絡將如何運作的關鍵計算——它將答案擴展到32位存儲器中。換句話說，這樣就保留了更多的小數，使得答案更為精確。

所以高中生都能做到這一點嗎？

當然不是。深度求索的工程師在論文中表明，他們也非常擅長編寫非常複雜的計算機代碼，告訴GPU該做什麽。他們知道如何從這些芯片中榨取更高的效率。

具備這種技能的人不多。但一個人工智能實驗室隻要有心成事，就能找到與深度求索所做的事情相匹配的優秀工程師。

那為什麽他們沒有早些做到這一點呢？

一些人工智能實驗室可能已經在使用相同的技巧了，至少是其中的一部分。像OpenAI這樣的公司並不總是透露他們在幕後所做的事情。

但顯然還是有人對深度求索的工作感到驚訝。要做到這家初創公司所做的事情，並不簡單。找到這樣的突破點所需的實驗，需要用到數百萬甚至數十億美元的電力。

換句話說，需要冒巨大的風險。

西雅圖艾倫人工智能研究所的研究員蒂姆·德特默斯說，“你必須投入大量資金來嚐試新事物——而且它們往往會以失敗告終。”德特默斯從事構建高效人工智能係統的探究，之前曾在Meta擔任人工智能研究員。

“這就是為什麽我們看到的創新沒有那麽多的原因：人們害怕大量投入都打了水漂，”他補充道。

許多專家指出，深度求索的600萬美元隻涵蓋了這家初創公司在訓練係統最終版本時的費用。深度求索的工程師在論文中表示，他們在最終的訓練運行之前，還在研究和實驗上花費了額外的資金。但任何尖端人工智能項目都是如此。

深度求索進行了嚐試，並取得了成功。現在，由於這家中國初創公司已經與其他人工智能研究人員分享了方法，它所采用的技術手段有望顯著降低構建人工智能的成本。

切換到網頁版

紐約時報：DeepSeek是如何把價格"打下來"的

紐約時報 2025-02-12 23:12:59