費城加菲貓

喜歡逍遙自在的碼字,興趣廣泛,常常有感而發,並不拘泥於什麽主題。
個人資料
費城加菲貓 (熱門博主)
  • 博客訪問:
正文

閑聊AI大模型開發之競爭

(2025-03-13 09:54:26) 下一個

近年來,人工智能(artificial intelligent, AI)領域最引人矚目的進展莫過於大型語言模型(Large Language Models, LLMs)的崛起。說起人工智能, 世界上最有名的AI應該是OpenAI公司的ChatGPT。它自從2022年末誕生至今一直就是AI領域的領頭羊。後來也出來了很多優秀的AI應用,比如說,穀歌的Gemini,微軟的Copilot,Anthropic公司的Claude,臉書的Llama,以及馬斯克xAI的Grok-3。這些語言大模型AI各有特點,都展現了前所未有的人類語言理解和生成能力,甚至在某些方麵超越了人類水平。本貓都有試過,都非常的好,但是無一能夠撼動ChatGPT的一哥位置。ChatGPT之所以厲害,是因為它有世界上最好的AI大模型。OpenAI通過GPT係列模型建立了強大的先發優勢,並圍繞其模型構建了龐大的開發者生態。這不僅僅意味著商業利益,更關乎技術標準的製定、行業規則的塑造以及未來AI發展方向的主導權。

要開發出一個聰明的AI大模型,需要幾樣基本的東西。一是算力,二是高質量的數據,三是算法。這和培養一個孩是很像的。要培養出一個優秀的孩子,首先就是需要這孩子他本身智商就高,這就是AI的算法的部分。然後是他要能夠學習到非常精良的知識,這就是高質量的數據。但是開發AI大模型和培養人有一個地方不一樣,就是這個算力的部分。因為人類大腦結構是固定的,它已經不能改變了。理論上來說,一個大腦的神經元越多,編織的神經元網絡越複雜,這個大腦就會越聰明,所以人類卻無法提升自己大腦的算力。但對於AI開發來說就不一樣了,AI的算力部分是可以靠堆芯片來提升的。也就是可以用不斷更新的高級芯片來增加它的神經元和複雜它的神經網絡,從而讓它變得更聰明。由此可知,在理論上,AI的智商是一定會超過人類的,因為它可以無限地聰明下去。而人類的大腦結構決定了我們的智商是有上限的。而這個“堆芯片”就是AI的算力部分。也就是說,AI的智商其實是用算力和算法共同作用的結果。

從開發AI大模型角度來看,在算法和數據的部分,世界頂尖的幾家AI公司之間都是差不多的。一是因為構建AI大模型的算法部分都是基於公開發表的論文,所以各自AI大模型的底層邏輯都是差不多的。二是訓練AI大模型的數據也都是來自互聯網的公開數據,所以數據這部分也沒有什麽太多競爭的餘地。而大家可以競爭的就是算力部分了。也就是說,誰能往AI係統裏堆更多的計算芯片讓它的神經元更多,神經網絡更複雜,誰的AI大模型就更聰明。

英偉達(NVIDIA)是目前最受矚目的計算芯片公司,在芯片市場長期占據壟斷地位,憑借其CUDA架構和其高性能圖形處理器(GPU)產品,在AI計算領域占據了主導地位。最新的Hopper架構GPU也為大模型訓練提供了強大的算力支持。然而,隨著AI應用的不斷發展,GPU的局限性也日益顯現,例如,通用性強但能效比不高,價格昂貴等。英偉達最先進的芯片型號是B200,一張卡的價格在4萬美金左右,相當於一輛高級家用車。而且這個芯片的產量是有限的。據說OpenAI就一直在囤積英偉達的卡,基本上就是有多少就要多少。就目前來說,ChatGPT-4模型是用了5萬張H100的卡,還不是現在最先進的(是上一代最先進的),而很快它們需求就要達到100萬張左右了,需求量就是這麽大!

芯片一直是美國的強項。美國之所以能夠在科技領域一直領先,也是因為它在芯片領域是全球最頂尖的,處於霸權的地位。也就可以保證像OpenAI,穀歌這一眾美國的AI公司的算力一直就是世界最頂尖的,也就保證了美國在AI領域的領先。

然而,最近美國公司在AI領域中領先的情況突然間發生了變化。有一家中國杭州的公司DeepSeek悄無聲息的撼動了ChatGPT在AI領域的地位。在2025年1月27號這一天,多年霸榜手機應用榜首的ChatGPT變成了第二名。第一名出現了一個新的名字DeepSeek。為什麽說是悄無聲息,一是因為DeepSeek從來沒有宣傳過它這個產品,二是DeepSeek這個公司在AI領域不是很有名的。它的手機應用1月15號才剛剛上架,僅僅過了兩周就超過了ChatGPT。

之前不論AI怎麽爭,都是美國的公司之間在爭。美國也一直深信,他們就是AI界的老大,霸權的地位是不可能被動搖的。結果沒想到一個沒聽說過的中國公司一下子就要改變了這個局勢。這一下子,使整個美國所有搞AI的人都緊張了起來。

ChatGPT現在有兩個主力模型一個叫4o,一個叫o1。這兩個模型是兩個不一樣的的大腦,其中4o是處理日常業務的,它很聰明,反應也很快。而o1是深度思考模型,它反應慢點,但是思索更深。所以4o相當於你的一個私人助理,而o1是一個顧問。實際生活中,也不是所有事情都要問顧問的,有些簡單事情4o就解決了。而DeepSeek也出了兩個模型,叫V3和R1,其中V3對標4o,R1對標o1。性能幾乎是一樣的,能打個平手。

除了手機應用之外,ChatGPT還有一個掙錢的地方,就是應用程序編程接口(API)調用。當企業在使用ChatGPT的API調用時要另付費。比如說客服。以前客服是有人在接電話,或者在網上回答你的問題,但是現在就漸漸變成AI客服了,要比人工客服是便宜很多。所以現在很多企業都使用ChatGPT的調用服務。不僅是AI客服,還可以用AI來導航,帶有AI的遊戲,或者AI的股票分析係統,都是同樣原理。ChatGPT不僅通過這個來掙錢,還可以通過這個方式來鎖定客戶。一旦企業把你的所有的客服都給辭掉了,用了ChatGPT服務以後,你就停不下來了。DeepSeek也提供類似的API調用服務。

引發大衝擊的主要原因,是DeepSeek把它這個大模型給開源了。人人都可以下載到這個大模型,然後在你自己本地的電腦上運行。這開源對全世界的企業和個人來說吸引力就太大了。而對像OpenAI這樣的閉源的AI公司就是一個極大的打擊。因為你把人家吃飯的碗給砸了。OpenAI賺錢靠什麽,就是靠鎖住他的大腦,沒有人能夠看到他的大腦是怎麽思考的。你隻能問,他隻會給你答案,所以靠這一問一答來賺錢的嘛。

所以DeepSeek一出來,美國金融市場的反應就炸鍋了。DeepSeek登頂當天(2025年1月27日),美國所有和AI相關的股票全麵大跌。跌得最嚴重的就是英偉達,股價一天就跌了17%,市值蒸發6000億美元,創下美國股市曆史最大單日跌幅。為什麽英偉達會跌那麽多?原因就是DeepSeek的開發成本也超級低。DeepSeek之所以能開源,很大的一個原因就是它開發AI大模型沒花幾個錢。

OpenAI做這兩個頂級AI大腦4o和o1,據說花了數十億美金。主要錢都花在買英偉達的芯片上。而DeepSeek的這兩個同等級別的AI大腦v3和R1,據說做出來隻花了560萬美元,保守估計是OpenAI的1%。而且它不是用最高端的芯片做出來這個大腦,它之所以沒有用最高端的芯片,是因為美國是有芯片禁令的。也就是說DeepSeek用很少的錢,用比較低端的工具,就把美國投入了幾十億美元,甚至上百億美元的事情給辦了。所以市場普遍認為,當初對英偉達芯片的估值過高,於是就紛紛拋售英偉達的股票。很多美國AI公司和技術專家對DeepSeek為何能用如此低的成本和如此短的時間開發訓練造出如此好的模型表示不可思議。

也有人懷疑DeepSeek是不是有使用不正當的手段彎道抄車。比如說DeepSeek有抄襲ChatGPT之類的說法。但是這個明顯是不可能的,因為ChatGPT是閉源的,而DeepSeek是開源的。閉源的係統顯然是無法抄襲。就像現在市麵上的蘋果操作係統和微軟操作係統,之所以不能被抄襲就因為它們都是閉源的。如果DeepSeek真的有抄襲ChatGPT的話,那在它開源的一瞬間,OpenAI就會發現。

事實上,DeepSeek開源之後,全世界最頂尖的學者和技術大神們就開始研究DeepSeek的文檔和代碼。結果發現一個令人驚奇的事情,就是他們發現DeepSeek使用了一個完全創新的技術訓練大模型,才能夠使得大模型在短短兩個月的時間之內完成訓練。這個全新的技術就是繞過了英偉達計算芯片上麵特有的CUDA計算平台,利用英偉達的底層技術直接調用芯片的算力。DeepSeek使用了NVIDIA的低級編程語言PTX(Parallel Thread Execution)來增加芯片的算力。這種方法允許他們實現更精細的優化,從而顯著提高了AI模型的效率。DeepSeek的這種創新方法使他們的AI訓練效率提高了10倍,比傳統方法更高效。所以發現了這個事情當天,1月29號那天英偉達和微軟的股價再次大幅下跌。而第二天英偉達,微軟,亞馬遜都表示他們的計算平台可以使用DeepSeek。

麵對質疑,DeepSeek也從來沒解釋過什麽。其實也根本不需要解釋,開源的東西都擺在這 你想看就看嘛。對於此事,美國川普總統在1月27號也發表了回應,他說DeepSeek的出現,是對美國科技主導地位的挑戰,應該成為美國AI行業的警鍾。特朗普還稱讚了DeepSeek的低成本模式,認為這會對AI領域帶來了積極影響,可能會減少巨額支出並取得相同成果。說的很誠懇。

事實上,AI大模型開發的競爭是一場關乎未來科技格局和產業變革的戰略性競爭。AI技術突破與生態建設將成為兩大核心驅動力,共同推動著AI大模型技術的進步。可以預言,AI大模型的競爭將更加激烈,技術創新將更加活躍,應用場景將更加廣泛。但是值得注意的是,如果在AI大模型開發過程中沒有任何人性倫理和社會責任的考量,人類被AI全麵“碾壓”的時代也許會很快到來。

[ 打印 ]
閱讀 ()評論 (10)
評論
費城加菲貓 回複 悄悄話 回複 '老北京炸醬麵' 的評論 : 謝謝閱讀和評論。是的,DS沒有說明是使用了蒸餾技術。其實,數據蒸餾是大型 AI 模型開發中一種常見且有效的技術。其主要目的是將大型複雜模型(通常稱為“教師模型”)的知識轉移到較小的模型(“學生模型”),從而在保持性能的同時顯著降低計算複雜度和存儲要求。DS的成本報告,得到很多的質疑,也許有虛假成分,但我覺得一定是要比ChatGPT的成本少很多。
老北京炸醬麵 回複 悄悄話 你回避了DS用的蒸餾技術,而且DS也沒有說成本的造假,不回答,是因為自己沒有信心,也不敢名的撒謊而已。如果自己做得真的那麽光明磊落,為什麽不出來講一下呢?還是不敢?另外他那隻是小模型,跟Cant級別的大模型根本不可相比
費城加菲貓 回複 悄悄話 回複 '槍迷球迷' 的評論 : 謝謝閱讀和評論。是的,AI客服的水平目前還沒有令人基本滿意的結果,但不妨礙ChatGPT用它賺錢。 有點像馬斯克的FSD,雖然沒有非常滿意的結果,但是在不斷地進步,也早就開始在賺錢了。
費城加菲貓 回複 悄悄話 回複 '矽穀工匠' 的評論 : Thanks for your reading and comments. Yes, data distillation is a common and effective technique in the development of large AI models. Its main purpose is to transfer the knowledge of a large and complex model (usually called a "teacher model") to a smaller model ("student model"), thereby significantly reducing computational complexity and storage requirements while maintaining performance.
槍迷球迷 回複 悄悄話 AI客服代替人工目前好像還沒有令人滿意吧。 試過AI通過chat做用戶技術指導, 還初級得很, 稍複雜點的問題就胡扯。
費城加菲貓 回複 悄悄話 回複 '大號螞蟻' 的評論 : 謝謝閱讀和評論。是的,在算法和算力相當的情況下,數據的數量和質量就是AI大模型的成敗的關鍵。防火牆和敏感詞都會降低數據挖掘的水平。
費城加菲貓 回複 悄悄話 回複 'ahhhh' 的評論 : 謝謝閱讀和評論!我想,評論中的那些個問號,應該不是在問問題吧。
對於用戶來說,可以低價格使用AI大模型當然是件好事啦。
ahhhh 回複 悄悄話 In AI world, open source really does not mean much? 為啥META 要開源LLAMA?不就是去打chatgpt?
價格低不好?Google Gemini 不就是打低價?
大號螞蟻 回複 悄悄話 還是數據挖掘水平
矽穀工匠 回複 悄悄話 Interesting to learn about the lower level coding. Interesting. In AI world, open source really does not mean much. The parameter library is not open or portable. Deep Seek's API per token charge is only 1/100 of Optn AI, the "China price". The Open Source is like a great hotel that allows anyone to stay and visit, but you can not take anything with you. The lower level foundation model is unsupervised learning based on the corpus of training. But Deep Seek distilled the Open AI API and got rid of a lot of garbage.
登錄後才可評論.