Deepseek將AI做成白菜價

在需要英雄的時候，中國本土出現了英雄。這次Deepseek崛起的特點是原創的群體幾乎都沒有海外留學經曆。Deepseek創辦者是廣東人梁文鋒，他的本科和研究生來自浙江大學，這真是了不起，他是以前應用量化理論投資或抄股的年輕人。

這是浙大難得的好消息，當然也僅限製在技術層麵，而不是科學創新，前不久剛出現浙大偽造劍橋錄取信和頂尖浙大畢業生被MIT開除的醜聞。我曾經就周圍教授作為例子比較過杜克和芝大畢業生的不同，發現後者思想和工作的深刻度比前者強很多。雖然樣本不大，但是差別很明顯。類比中國的大學，與杜克相似的就是比較虛的浙大，相當於芝大的中國大學是中國科大和華中科大。

主導Deepseek技術層麵的關鍵人物是四川人和95後女生羅福莉，她是雷軍想用千萬雇用的人才。她的本科讀的是北師大計算機係，從北大計算機碩士畢業後在工業界發展。令美國人擔心的是，中國擁有源源不斷的人才，中國培養工程師的數量是美國的幾倍，他們到美國留學也多在STEM領域。那片土壤最大的困境是獨裁的體製與思想的禁錮，所以我們對中國的啟蒙努力仍然任重道遠。

斯坦福本科和華大MD老爸：“今天股市血流成河。估計你我的401K 要打個對折201K了[憨笑]”。這家夥是500萬美金的主，我才不會動搖長線投資呢，我們在6年多前冒險拿退休金出來買古董房，現在退休金早已經超過了當年的額度。

這些高科技很多是忽悠錢的，美國有點中國的競爭也是好事。Deepseek是站在OpenAI的巨人肩膀上，使用的是開源材料，從零到1仍然是個問題，況且中國的信息是封閉的，最終很難與美國競爭。美國在發射衛星和送人去太空方麵也曾經落後於蘇聯，然後猛醒後才遙遙領先的。現代經濟學有個理論，共產黨國家如果人均GDP達到美國的30%，就會因為體製原因而回頭，以前的蘇聯和現在的中國都是如此。

浙大青年才俊創辦的Deepseek讓矽穀和華爾街震顫，昨天創下近年來華爾街最大的降幅，英偉達昨日降了17%。我們當然最為關心的是自己的錢包，專門去查了403K的賬戶。自己的退休金在1月27日隻是下了一點毛毛雨，證明基金的搭配能夠抗拒股市的波動。

同濟美國牛人：“連縱坐標都沒有啊！你的401表現其實不好啊，即使讓你高興的這兩天的漲幅也不大啊。你不給坐標，但坡度放在那，你唬得住牛人？”

我的回複：“不露聲色[Chuckle]。學術機構叫403b，這上升曲線已經很好了，隱藏縱軸是不想露富。縱軸的scale沒放，你無從評價起。你還要注意橫縱，那裏無法看出兩天的變化”。

Deepseek將AI做成了白菜價，如果說英偉達以前存在泡沫，Deepseek也當然是泡沫之一。Deepseek R1的價格隻是ChatGPT o1的價格的3%，你們說這如何讓西方的相應產品生存？相應的非技術層麵的西方規則會聯合起來抗付Deepseek的產業化。現在Deepseek已經規定隻有國內手機才能下載軟件，因為需求量太大。

一旦做到白菜價就失去了逐利的研發動力，太陽能板是美國開創的，中國把它做成了白菜價，導致中國和美國都無人有興趣研發使太陽能板更有效。從這些轉換看，AI並不是什麽大不了的高科技，似乎幾個小孩就能撼動世界。華爾街幾乎可以肯定是反應過度，絕對會糾偏的。

Deepseek隻創立了18個月，中國事情是否吹牛很難說。他們聲稱隻使用了2個月，在600萬美元的投資下，製備出了對標OpenAI投資幾十億美元的ChatGPT o1的產品。效果已經接近，雖然還有些差距，人家畢竟是原創。

昨天導致英偉達縮水5890億美元市值，黃仁勳的個人財產縮水200億美元，黃的個人財產降至1036億美元。總體Nasdaq降了3.1%或612點，昨天英偉達的崩潰是美國股票史上最大公司股票的單日降幅記錄。與此同時，穀歌降4%，微軟降2.14%, Oracle降14%，Tesla降2.3%。我在美國生活了30多年，從來沒有見過一個外國公司的科研產品對美國股市產生如此重大影響的。

矽穀核心人物從小紮到微軟總裁都盛讚Deepseek, 優秀的產品自證優秀。Scale AI總裁Alex Wang說了些華裔背景的話： “DeepSeek-V3展示給外界的教訓是：在美國人休息時，中國人在工作，並以更便宜、更快、更強的產品迎頭趕上”。這家夥當年從MIT退學還令老爸生氣，現在為最年輕的美國億萬富翁，老爸也應該釋懷了吧。

最先催生Deepseek熱議的是矽穀風險投資家Marc Andreessen，他是川普參謀。他在社交媒體平台X上稱讚了DeepSeek為“Sputnik moment”。Sputnik是1957年蘇聯發射的首顆人造衛星的名字，當年是蘇聯現在是中國在刺激美國。川普也就Deepseek發表談話，認為是個wake-up call, 這也是好事，將激勵美國人更加努力。Deepseek像Sputnik那樣超過美國ChatGPT嗎？還沒有。Deepseek是在開源的情況下的工程進步，相當大的漸進性的發展，不是從0到1的範式飛躍。我們不能說Deepseek是山寨，但是取名上山寨穀歌的DeepMind是很明顯的。

Deepseek聲稱自己隻使用了2000多個芯片，具體使用的哪家公司的芯片存疑，因為OpenAI需要上萬的高端英偉達GPU才能達到ChatGPT o1的水準。中興芯片雖然追趕美國的速度驚人，但是離英偉達顯卡的質量還是有相當的距離。這就引出了一個關鍵的質疑，Deepseek到底使用了多少英偉達的芯片？什麽型號的芯片？英偉達隻能出口低端芯片給中國。媒體傳言Deepseek擁有上萬個英偉達芯片，馬斯克附和這種說法，他也參與指控Deepseek在關鍵技術指標上扯謊。

要麽是OpenAI過份誇張高端芯片在AI應用的重要性，要麽是Deepseek在開源條件下成功突破了對高端芯片的依賴性，這裏的真實性隻有時間才能給出答案。應該也不難弄清楚，因為Deepseek是完全開源的，現在是矽穀那幫年輕人不睡覺的時候了。

自媒體稱Deepseek將會全麵引領，這是極其誇張的說辭，即使開源的東西也是美國的技術。如果應用到商業很大可能是會受專利保護的。完全開源會因為資金緊缺很難前行，還需要施法獨立，才會有繁榮的商務。中國這些條件都不具備，沒有人會與你玩。正如我說的，華爾街是反應過度，今天英偉達股票反彈了6%。

牛頓創立經典力學後，中學生就可以學，麥克斯維爾的電磁理論和愛因斯頓的相對論也是突破奇難，後人學起來容易。分子生物學創立遺傳信息的中心法則經曆了幾十年，現在我的學生半天就學會了。以前美國是使用舉國之力，耗費30億美元和曆時13年，才測定清楚了人類基因組的序列，現在精準醫學可以隻花1000美元就測序個人的全基因組。

沒有Meta的開源，Deepseek什麽都不是，中國人稍微好些就鼓足勁頭吹牛，跟以前吹噓的五G那樣。中國人應該記住美軍官員對中國軍方高級將領參觀五角大樓所說的話：be humble！

國內朋友稱Deepseek是Deepsick, 因為即使通過模型Deepseek可以識別坦克人的照片，但是它們的後台不敢說那是發生在天安門廣場。這就是我說的信息管製的問題，華爾街的那幫家夥不懂中文，隻看到它便宜就sale off美國高科技股票。使用Deepseek的信息安全也會存在抖音般的問題，他們可能弄清你手機裏的所有信息。恐怕同濟美國牛人的毛粉和貓兒粉的言論也會受到關注，他經常傳遞韶山紀念的人山人海，這家夥也渲染過美國北卡著名病毒學家做gain of function實驗。

朋友這樣告訴我：“deepseek隻能+86注冊是因為方便監管和監控。這邊所有app都是實名製，明白其中含義了吧。我一看這個就不用了，典型的智障，deepsick實至名歸”。

我們上周末在矽穀核心區的韶山印象餐廳看見過大量的老中，我們還是需要聽灣區工程師的點評，這些是清華校友和普林斯頓老爸在第一時間的分析：

“Deepseek 采用混合專家（Mixture-of-Experts，MoE）架構，創新之處主要包括細粒度專家細分和共享專家隔離，提升 MoE 架構的效率和性能。但是訓練它需要高質量的數據。它提出之初就有人懷疑利用chatgpt的輸出作為訓練數據。所以有人對Deepseek提問你是誰，deepseek回答:我是chatgpt. openAI是真正的從零開始，利用原始數據和追求通用智能。Deepseek所謂訓練量隻有chatGPT的1/30是誇大了，因為沒有計入獲取高質量數據的成本。現在也有質疑deepseek故意縮小了它擁有的GPU卡數量和訓練計算量。另外它的通用智能上限也不如從原始數據中生成的大模型高。再就是開源，拿訓練好模型的用，當然可以。但要驗證它的訓練量，要花大量金錢，它現在不怕訓練計算量的驗證，就是因為有這個花費的高門檻。

“我的比喻就是openAI花了幾十年學習研究歸納總結，學會了人類知識，寫了一本教材叫chatGPT，然後deep seek拿來學了一年，當然也從別的地方搞了點複習資料習題集之類的。然後兩個人一起去參加了一個考試，考了差不多的一個分數。然後deep seek的粉絲們說，你們openAI太笨了，花了幾十年學的那點東西，我們一年就學的差不多了。我們多NB，我們已經直道超車，我們大國撅起了，你們要完蛋了。版權所有，歡迎轉載…

“沒有第一個吃螃蟹的，就沒有後來的進步。不能因為有人花了大價錢搞出來，開源了，自己免費抄了，就說一開始就不需要花那麽多錢。如果自己從無到有研發出來，那還可以這麽claim. 比如starlink, 試驗回收，花了幾百億，搞成了。開源了。然後中國一家公司，山寨了，隻花了幾億也搞成了。不能吹自己比原創還NB。所以Meta開源是一個SB之舉，跟當年Tesla開源一樣，把自己的路堵了

“我就覺得很奇怪，deepseek 應該是用了Meta的開源llarma, 加以改進，達到了o1 的性能，就是山寨了一個。以後Meta不開源了，沒得抄了，他還能用這麽小的算力繼續match別人的效果嗎？別人花了大價錢訓練出來的，開了源公布了，他自然就省算力了，這並不說明今後也不需要的大算力了。從inference來說，他的參數比別人少很多嗎？如何不需大算力的？”

今日熱點

一周熱點