閑聊AI大模型開發之競爭

近年來,人工智能(artificial intelligent, AI)領域最引人矚目的進展莫過於大型語言模型(Large Language Models, LLMs)的崛起。說起人工智能, 世界上最有名的AI應該是OpenAI公司的ChatGPT。它自從2022年末誕生至今一直就是AI領域的領頭羊。後來也出來了很多優秀的AI應用,比如說,穀歌的Gemini,微軟的Copilot,Anthropic公司的Claude,臉書的Llama,以及馬斯克xAI的Grok-3。這些語言大模型AI各有特點,都展現了前所未有的人類語言理解和生成能力,甚至在某些方麵超越了人類水平。本貓都有試過,都非常的好,但是無一能夠撼動ChatGPT的一哥位置。ChatGPT之所以厲害,是因為它有世界上最好的AI大模型。OpenAI通過GPT係列模型建立了強大的先發優勢,並圍繞其模型構建了龐大的開發者生態。這不僅僅意味著商業利益,更關乎技術標準的製定、行業規則的塑造以及未來AI發展方向的主導權。

要開發出一個聰明的AI大模型,需要幾樣基本的東西。一是算力,二是高質量的數據,三是算法。這和培養一個孩是很像的。要培養出一個優秀的孩子,首先就是需要這孩子他本身智商就高,這就是AI的算法的部分。然後是他要能夠學習到非常精良的知識,這就是高質量的數據。但是開發AI大模型和培養人有一個地方不一樣,就是這個算力的部分。因為人類大腦結構是固定的,它已經不能改變了。理論上來說,一個大腦的神經元越多,編織的神經元網絡越複雜,這個大腦就會越聰明,所以人類卻無法提升自己大腦的算力。但對於AI開發來說就不一樣了,AI的算力部分是可以靠堆芯片來提升的。也就是可以用不斷更新的高級芯片來增加它的神經元和複雜它的神經網絡,從而讓它變得更聰明。由此可知,在理論上,AI的智商是一定會超過人類的,因為它可以無限地聰明下去。而人類的大腦結構決定了我們的智商是有上限的。而這個“堆芯片”就是AI的算力部分。也就是說,AI的智商其實是用算力和算法共同作用的結果。

從開發AI大模型角度來看,在算法和數據的部分,世界頂尖的幾家AI公司之間都是差不多的。一是因為構建AI大模型的算法部分都是基於公開發表的論文,所以各自AI大模型的底層邏輯都是差不多的。二是訓練AI大模型的數據也都是來自互聯網的公開數據,所以數據這部分也沒有什麽太多競爭的餘地。而大家可以競爭的就是算力部分了。也就是說,誰能往AI係統裏堆更多的計算芯片讓它的神經元更多,神經網絡更複雜,誰的AI大模型就更聰明。

英偉達(NVIDIA)是目前最受矚目的計算芯片公司,在芯片市場長期占據壟斷地位,憑借其CUDA架構和其高性能圖形處理器(GPU)產品,在AI計算領域占據了主導地位。最新的Hopper架構GPU也為大模型訓練提供了強大的算力支持。然而,隨著AI應用的不斷發展,GPU的局限性也日益顯現,例如,通用性強但能效比不高,價格昂貴等。英偉達最先進的芯片型號是B200,一張卡的價格在4萬美金左右,相當於一輛高級家用車。而且這個芯片的產量是有限的。據說OpenAI就一直在囤積英偉達的卡,基本上就是有多少就要多少。就目前來說,ChatGPT-4模型是用了5萬張H100的卡,還不是現在最先進的(是上一代最先進的),而很快它們需求就要達到100萬張左右了,需求量就是這麽大!

芯片一直是美國的強項。美國之所以能夠在科技領域一直領先,也是因為它在芯片領域是全球最頂尖的,處於霸權的地位。也就可以保證像OpenAI,穀歌這一眾美國的AI公司的算力一直就是世界最頂尖的,也就保證了美國在AI領域的領先。

然而,最近美國公司在AI領域中領先的情況突然間發生了變化。有一家中國杭州的公司DeepSeek悄無聲息的撼動了ChatGPT在AI領域的地位。在2025年1月27號這一天,多年霸榜手機應用榜首的ChatGPT變成了第二名。第一名出現了一個新的名字DeepSeek。為什麽說是悄無聲息,一是因為DeepSeek從來沒有宣傳過它這個產品,二是DeepSeek這個公司在AI領域不是很有名的。它的手機應用1月15號才剛剛上架,僅僅過了兩周就超過了ChatGPT。

之前不論AI怎麽爭,都是美國的公司之間在爭。美國也一直深信,他們就是AI界的老大,霸權的地位是不可能被動搖的。結果沒想到一個沒聽說過的中國公司一下子就要改變了這個局勢。這一下子,使整個美國所有搞AI的人都緊張了起來。

ChatGPT現在有兩個主力模型一個叫4o,一個叫o1。這兩個模型是兩個不一樣的的大腦,其中4o是處理日常業務的,它很聰明,反應也很快。而o1是深度思考模型,它反應慢點,但是思索更深。所以4o相當於你的一個私人助理,而o1是一個顧問。實際生活中,也不是所有事情都要問顧問的,有些簡單事情4o就解決了。而DeepSeek也出了兩個模型,叫V3和R1,其中V3對標4o,R1對標o1。性能幾乎是一樣的,能打個平手。

除了手機應用之外,ChatGPT還有一個掙錢的地方,就是應用程序編程接口(API)調用。當企業在使用ChatGPT的API調用時要另付費。比如說客服。以前客服是有人在接電話,或者在網上回答你的問題,但是現在就漸漸變成AI客服了,要比人工客服是便宜很多。所以現在很多企業都使用ChatGPT的調用服務。不僅是AI客服,還可以用AI來導航,帶有AI的遊戲,或者AI的股票分析係統,都是同樣原理。ChatGPT不僅通過這個來掙錢,還可以通過這個方式來鎖定客戶。一旦企業把你的所有的客服都給辭掉了,用了ChatGPT服務以後,你就停不下來了。DeepSeek也提供類似的API調用服務。

引發大衝擊的主要原因,是DeepSeek把它這個大模型給開源了。人人都可以下載到這個大模型,然後在你自己本地的電腦上運行。這開源對全世界的企業和個人來說吸引力就太大了。而對像OpenAI這樣的閉源的AI公司就是一個極大的打擊。因為你把人家吃飯的碗給砸了。OpenAI賺錢靠什麽,就是靠鎖住他的大腦,沒有人能夠看到他的大腦是怎麽思考的。你隻能問,他隻會給你答案,所以靠這一問一答來賺錢的嘛。

所以DeepSeek一出來,美國金融市場的反應就炸鍋了。DeepSeek登頂當天(2025年1月27日),美國所有和AI相關的股票全麵大跌。跌得最嚴重的就是英偉達,股價一天就跌了17%,市值蒸發6000億美元,創下美國股市曆史最大單日跌幅。為什麽英偉達會跌那麽多?原因就是DeepSeek的開發成本也超級低。DeepSeek之所以能開源,很大的一個原因就是它開發AI大模型沒花幾個錢。

OpenAI做這兩個頂級AI大腦4o和o1,據說花了數十億美金。主要錢都花在買英偉達的芯片上。而DeepSeek的這兩個同等級別的AI大腦v3和R1,據說做出來隻花了560萬美元,保守估計是OpenAI的1%。而且它不是用最高端的芯片做出來這個大腦,它之所以沒有用最高端的芯片,是因為美國是有芯片禁令的。也就是說DeepSeek用很少的錢,用比較低端的工具,就把美國投入了幾十億美元,甚至上百億美元的事情給辦了。所以市場普遍認為,當初對英偉達芯片的估值過高,於是就紛紛拋售英偉達的股票。很多美國AI公司和技術專家對DeepSeek為何能用如此低的成本和如此短的時間開發訓練造出如此好的模型表示不可思議。

也有人懷疑DeepSeek是不是有使用不正當的手段彎道抄車。比如說DeepSeek有抄襲ChatGPT之類的說法。但是這個明顯是不可能的,因為ChatGPT是閉源的,而DeepSeek是開源的。閉源的係統顯然是無法抄襲。就像現在市麵上的蘋果操作係統和微軟操作係統,之所以不能被抄襲就因為它們都是閉源的。如果DeepSeek真的有抄襲ChatGPT的話,那在它開源的一瞬間,OpenAI就會發現。

事實上,DeepSeek開源之後,全世界最頂尖的學者和技術大神們就開始研究DeepSeek的文檔和代碼。結果發現一個令人驚奇的事情,就是他們發現DeepSeek使用了一個完全創新的技術訓練大模型,才能夠使得大模型在短短兩個月的時間之內完成訓練。這個全新的技術就是繞過了英偉達計算芯片上麵特有的CUDA計算平台,利用英偉達的底層技術直接調用芯片的算力。DeepSeek使用了NVIDIA的低級編程語言PTX(Parallel Thread Execution)來增加芯片的算力。這種方法允許他們實現更精細的優化,從而顯著提高了AI模型的效率。DeepSeek的這種創新方法使他們的AI訓練效率提高了10倍,比傳統方法更高效。所以發現了這個事情當天,1月29號那天英偉達和微軟的股價再次大幅下跌。而第二天英偉達,微軟,亞馬遜都表示他們的計算平台可以使用DeepSeek。

麵對質疑,DeepSeek也從來沒解釋過什麽。其實也根本不需要解釋,開源的東西都擺在這 你想看就看嘛。對於此事,美國川普總統在1月27號也發表了回應,他說DeepSeek的出現,是對美國科技主導地位的挑戰,應該成為美國AI行業的警鍾。特朗普還稱讚了DeepSeek的低成本模式,認為這會對AI領域帶來了積極影響,可能會減少巨額支出並取得相同成果。說的很誠懇。

事實上,AI大模型開發的競爭是一場關乎未來科技格局和產業變革的戰略性競爭。AI技術突破與生態建設將成為兩大核心驅動力,共同推動著AI大模型技術的進步。可以預言,AI大模型的競爭將更加激烈,技術創新將更加活躍,應用場景將更加廣泛。但是值得注意的是,如果在AI大模型開發過程中沒有任何人性倫理和社會責任的考量,人類被AI全麵“碾壓”的時代也許會很快到來。




更多我的博客文章>>>
請您先登陸,再發跟帖!