貓語閑聊:AI大模型開發之傳奇DeepSeek
說起人工智能(artificial intelligent, AI), 世界上最有名的AI應該是OpenAI公司的ChatGPT。它自從2022年末誕生至今一直就是AI領域的領頭羊。後來也出來了一些優秀的AI應用,比如說,穀歌的Gemini,微軟的Copilot,Anthropic公司的Claude,以及臉書的Llama。這些本貓都有試過,都非常的好,但是無一能夠撼動ChatGPT的一哥位置。ChatGPT之所以厲害,是因為它有世界上最好的AI大模型,也就是人工智能大腦。理論上來說,一個大腦的神經元越多,編織的神經元網絡越複雜,這個大腦就會越聰明。所有的AI公司都是在模仿人類的大腦來開發AI大模型。
要開發出一個聰明的AI大模型,需要幾樣基本的東西。一是算力,二是高質量的數據,三是算法。這和培養一個孩是很像的。要培養出一個優秀的孩子,首先就是需要這孩子他本身智商就高,這就是AI的算法的部分。然後是他要能夠學習到非常精良的知識,也就是高質量的數據。但是開發AI大模型和培養人有一點不一樣,就是還有個算力的部分,這是人類沒有的。因為人類大腦結構是固定的,它已經不能改變了。但AI不一樣,它可以靠堆芯片,也就是用不斷更新的計算芯片來增加它的神經元和複雜它的神經網絡,從而讓它變得更聰明。由此可知,在理論上,AI的智商是一定會超過人類的,因為它可以無限地聰明下去,而人類的大腦結構決定了我們的智商是有上限的。而這個“堆芯片”就是AI的算力部分。也就是說,AI的智商其實是用算力和算法共同作用的結果。
從開發AI大模型角度來看,在算法和數據的部分,世界頂尖的幾家AI公司之間都是差不多的。一是因為構建AI大模型的算法部分都是基於公開發表的論文,所以各自AI大模型的底層邏輯都是差不多的。二是訓練AI大模型的數據也都是來自互聯網的公開數據,所以數據這部分也沒有什麽太多競爭的餘地。而可以競爭的地方就是算力部分了。也就是說,誰能往AI係統裏堆更多的計算芯片讓它的神經元更多,神經網絡更複雜,誰的AI大模型就更聰明。
英偉達(NVIDIA)是目前最受矚目的計算芯片公司。最先進的芯片型號是B200,一張卡的價格在4萬美刀左右,相當於一輛高級家用車。而且這個芯片的產量是有限的,不是有錢就能買到的。據說OpenAI就一直在囤積英偉達的卡,基本上就是有多少就要多少。就目前來說,ChatGPT-4模型是用了5萬張H100的卡,這還是上一代最先進的,而很快它們需求就要達到100萬張左右了,需求量就是這麽大!
芯片一直是美國的強項。美國之所以能夠在科技領域一直領先,也是因為它在芯片領域是全球最頂尖的。這就保證了像OpenAI,穀歌這一眾美國的AI公司的算力一直就是世界最頂尖的,也就保證了美國在AI領域的領先。
然而,美國公司在AI領域中領先的情況突然間發生了變化。有一家中國杭州的公司DeepSeek悄無聲息的撼動了ChatGPT在AI領域的地位。在2025年1月27號這一天,多年霸榜手機應用榜首的ChatGPT變成了第二名。第一名出現了一個新的名字DeepSeek。為什麽說是悄無聲息,一是因為DeepSeek從來沒有宣傳過它的產品,二是DeepSeek這個公司在AI領域不是很有名的。它的手機應用1月15號才剛剛上架,僅僅過了兩周就超過了ChatGPT。這一下子,不僅ChatGPT慌了,整個美國所有搞AI的人都慌了。
之前不論AI怎麽爭,都是美國的公司之間在爭。美國也一直深信,他們是AI界老大的地位是不可能被動搖的。結果沒想到一個沒聽說過的中國公司一下子就要改變了這個局勢。現在到手機應用商店搜DeepSeek,就能看到這個軟件。可以下載下來試試看看,它和ChatGPT幾乎是一樣功能的軟件。就是你問他問題,他就能回答。當然,DeepSeek的回答也沒有比ChatGPT要更高級。那麽這個和ChatGPT差不多的東西,為什麽能夠撼動ChatGPT的地位?其實就4個字:物美價廉
物美體現在它的性能是可以比肩ChatGPT目前在市場上的旗艦模型。ChatGPT現在有兩個主力模型4o和o1。這兩個模型是兩個不一樣的的大腦,其中4o是處理日常業務的,它很聰明,反應也很快。而o1是深度思考模型,它反應慢點,但是思索更深。所以4o相當於你的一個私人助理,而o1是一個顧問。實際生活中,也不是所有事情都要問顧問的,有些簡單事情4o就解決了。而DeepSeek也出了兩個模型,叫V3和R1,其中V3對標4o,R1對標o1。性能幾乎是一樣的,能打個平手。
DeepSeek真正令人驚豔的是它的價格,也就是價廉。ChatGPT雖然免費用戶也是可以使用的,但是有很多的限製。ChatGPT付費用戶一個月20美刀,專業用戶一個月200美刀。而DeepSeek是免費的,誰都可以免費使用它最聰明的大腦。除了手機應用之外,ChatGPT還有一個掙錢的地方,就是應用程序編程接口(API)調用。當企業在使用ChatGPT的API調用時要另付費,比如說客服。以前很多企業的客服是有人在接電話,或者在網上回答你的問題。現在人工客服已經漸漸變成AI客服了,是要比人工客服便宜很多。所以現在很多企業都使用ChatGPT的API調用服務。不僅是AI客服,還可以用AI來導航,帶有AI的遊戲,或者AI的股票分析係統,都是同樣原理。ChatGPT不僅通過這個來掙錢,還可以通過這個方式來鎖定客戶。一旦企業把你的所有的客服人員都給辭掉了,用了ChatGPT服務以後,你就停不下來了。而DeepSeek也提供相同的API調用服務,價錢是ChatGPT的十分之一。
但是,物·美廉價隻是DeepSeek的一個特點而已,還不是足以引發全球大衝擊的真正原因。真正引發大衝擊的原因,是DeepSeek把它的AI大模型給開源了。你可以下載這個AI大模型,然後在你自己本地的電腦上運行,你就有著像OpenAI一樣的能力。你甚至可以開一個像OpenAI一樣的公司去賺錢。這開源對全世界的企業和個人來說吸引力就太大了。而對像OpenAI這樣的閉源的AI公司來說,就是一個極大的打擊。因為把人家吃飯的碗給砸了。用一個通俗點的例子來說,就好比OpenAI訓練了一個非常厲害的律師,你要有任何法律問題,都可以問他這個律師,但是你就需要交谘詢費。但DeepSeek不一樣,它把自己訓練的律師公開了,誰都可以免費地把這個律師領回家,讓他成為你的私人顧問。那是什麽感覺? 再好比,地球上原先隻有少數幾家公司會打水井,你想喝水就隻能給打井公司交錢。結果冒出一個DeepSeek,造了一個打井器,還免費送。人人都可以把這個打井器帶回家,鑽你自己的水井。就算你不會用打井器,你也不想用打井器自己打井,你依然可以喝DeepSeek井裏的水,價錢隻有其他打井公司的十分之一。你說那些打井公司能不著急嗎?
所以DeepSeek一出來,美國就炸鍋了。DeepSeek登頂當天(2025年1月27日),美國所有和AI相關的股票全麵大跌。跌得最嚴重的就是英偉達,股價一天就跌了17%,市值蒸發6000億美元,創下美國股市曆史最大單日跌幅。為什麽英偉達會跌那麽多?原因就是DeepSeek不僅是物美價廉和開源這麽簡單,而且它的開發成本也超級低。DeepSeek之所以能開源,就是因為它開發AI大模型沒花幾個錢。據說OpenAI做那兩個AI大模型4o和o1,花了不下數十億美刀。估計主要錢都花在買英偉達的芯片上。
而DeepSeek的這兩個同等級別的AI大模型V3和R1,做出來隻花了560萬美元,保守估計是OpenAI的1%。因為美國對中國是有芯片禁運的限製,DeepSeek並沒有用最高端的芯片來開發出它的AI大模型。雖然傳說中國在早期曾經囤積了一些高級的芯片,但是也囤積不了多少。也就是說DeepSeek用很少的錢,用比較低端的芯片,就把美國投入了幾十億美元,甚至上百億美元的事情給辦了。所以市場普遍認為,對英偉達芯片的估值過高,於是就紛紛拋售英偉達的股票。美國AI公司和AI專家學者對DeepSeek為何能用如此低的成本,在如此短的時間開發訓練出如此好的AI大模型表示不可思議,因為感覺DeepSeek其實沒有那麽強大的AI開發背景。
DeepSeek全稱叫杭州深度求索人工智能基礎技術研究有限公司,是一家成立於2023年7月份的公司。這個公司的創始人叫梁文峰,他曾經是中國知名量化對衝基金幻芳量化的創始人。而這個幻芳量化就是DeepSeek的母公司,是10年前成立的一家對衝基金和人工智能公司。是一家搞投資的公司,主營業務是量化投資。所謂量化投資,就是利用數理統計方法和計算機程序對大量數據進行分析,以製定投資策略的投資方式。簡單來說,就是人工智能加上計算機來進行自動投資運作的公司。DeepSeek就是它的一個子公司,專門研究底層AI技術,因為它需要這個技術來進行量化投資。所以DeepSeek的AI研發背景其實是相當強大的。
但是美國那邊覺得這不足以說明它為什麽能夠在這麽短的時間內研發出最頂尖的人工智能。所以就懷疑DeepSeek是不是有使用不正當的手段彎道抄車。比如說DeepSeek有抄襲ChatGPT之類的說法。但這個明顯是不可能的,因為ChatGPT是閉源的,而閉源的係統顯然是無法抄襲。如果DeepSeek真的有抄襲ChatGPT的話,在它開源的一瞬間,OpenAI就會發現。
事實上,DeepSeek開源之後,全世界最頂尖的學者和技術大神們就開始研究DeepSeek的文檔和代碼。結果發現一個令人更加驚奇的事情,這就使DeepSeek成為了一個AI開發競爭中的傳奇。原來他們發現DeepSeek使用了一個完全創新的技術來訓練AI大模型,才能夠使得AI大模型在短短兩個月的時間之內完成訓練。這個全新的技術就是繞過了英偉達計算芯片上麵特有的CUDA計算平台,利用英偉達的底層技術直接調用芯片的算力。DeepSeek使用了NVIDIA的低級編程語言PTX(Parallel Thread Execution)來增加芯片的算力。這種方法允許他們實現更精細的優化,從而顯著提高了AI模型的效率。DeepSeek的這種創新方法使他們的AI大模型訓練效率比傳統方法提高了10倍。所以發現了這個事情當天,英偉達和微軟的股價再次大幅下跌。而第二天,英偉達,微軟,亞馬遜都表示他們的計算平台都允許可以使用DeepSeek。
之所以本貓說DeepSeek是AI開發中的傳奇,在一夜之間改變了這個世界的AI格局,是因為DeepSeek創新的思路和高超的技術是有目共睹的。麵對質疑,它也從來沒解釋過什麽。也不需要解釋,開源的東西都擺在這 你想看就看嘛。對於此事,美國川普總統在1月27號也發表了回應,他說DeepSeek的出現,是對美國科技主導地位的挑戰,應該成為美國AI行業的警鍾。特朗普還稱讚了DeepSeek的低成本模式,認為這會對AI領域帶來了積極影響,可能會減少巨額支出並取得相同成果。川普說的是很誠懇的。