朱頭山

無意邀眾賞,一心追殘陽
個人資料
朱頭山 (熱門博主)
  • 博客訪問:
正文

AI大戰中國勝利的拐點

(2026-04-17 09:33:49) 下一個

如果說1991年的海灣戰爭,是晶體管芯片主宰的戰爭,那麽最近的伊朗戰爭,則是AI開始嶄露頭角,顯示了未來主宰者的雛形。


1991年1月17日淩晨,當美軍第一枚導彈砸向巴格達時,睡夢中被驚醒的薩達姆並不怎麽驚惶。此前幾個月,美國一直忙著調兵遣將,海灣地區已經集結起美軍六個航母戰鬥群,但薩達姆充分展示了楞的不怕橫的二愣子本色,在他看來,自己手下擁兵百萬,要人有人,要裝備有裝備,跟誰打也不怵。


單從紙麵上看,當時伊拉克軍隊常規武器裝備,比當時的中國軍隊還要強些。薩達姆的如意算盤很簡單:美國人接受不了多少犧牲,隻要把美軍拖入戰爭泥潭,遲早能把美國人的耐心耗沒,然後退兵。越南戰爭不就是如此麽?


但這一次,劇本變了。嚴陣以待的伊拉克軍隊,並沒有看到預想中的敵人,朝他們飛襲而來的,是100多枚來自美軍軍艦的“戰斧”式巡航導彈,代號“沙漠風暴”的軍事行動正式開始。此後一個多月時間裏,伊拉克軍隊始終沒有看見一個敵人,隻有數千枚導彈從天而降,將伊拉克的防禦係統摧毀殆盡。與以往司空見慣的地毯式轟炸不同,這一次取而代之的,是外科手術般的精確打擊:對伊拉克參謀部的空襲,炸彈直接準確地從煙囪裏鑽了進去;對飛機庫的轟炸,美軍先炸開大門,再把導彈送到機庫裏;裝備先進傳感器的預警機,使伊拉克飛機剛起飛便被發現擊落,根本沒有機會升空。


整個世界都看得目瞪口呆——原來,打仗還可以這樣打?


後來的地麵戰爭大同小異,看似強大的伊拉克百萬雄兵,在多國部隊的各種高精尖武器打擊下,如摧枯拉朽一般灰飛煙滅。這場仗打下來,美軍因戰事傷亡的士兵還不到200人,給全世界上演了一課什麽叫高科技戰爭。

當時冷戰已接近尾聲,包括中國在內的很多國家作戰思維還停留在二戰時期,以為隻要憑借鋼鐵洪流和人海戰術就能取得勝利。直到海灣戰爭才發現,時代變了。當時伊拉克軍隊裝備的是一水兒的蘇製武器,其中T-72坦克與美軍M1A1坦克的性能對比,成為舉世關注的焦點。

發生在巴士拉南部的坦克大戰中,美軍以近乎0的代價將200多輛伊軍坦克全殲,取得壓倒性的勝利。T-72和M1A1同屬第三代坦克, 為何差距如此之大?原因在於,兩者在信息化程度上存在巨大差距。M1A1普遍裝備熱成像儀、先進傳感器和計算機火控係統,使美軍能夠先敵發現,先敵開火。


這場戰爭,後來被媒體稱為“矽對鋼的勝利”。這是因為,美軍使用的諸多高科技武器,從導彈、預警機、電子幹擾機、隱形戰機,到幕後功臣GPS係統——所有這些高科技裝備,背後所倚賴的核心技術,都是半導體芯片技術。而這一切優勢的背後,是美國發達的半導體工業。蘇聯半導體技術的止步不前,使得第三代蘇式裝備與美軍有了明顯的性能差距:蘇-27裝備的火控雷達,計算速度隻有17萬次/秒,而美軍同代的F-15,已經達到了驚人的4000萬次/秒。蘇聯導彈命中率有60米的誤差,而美軍導彈隻有15米。

這種差距,追根溯源,來自過去半個世紀裏,兩國在半導體技術路線上的不同選擇。草蛇灰線,伏脈千裏,曆史的每一次轟然巨變,源頭往往都隱藏在並不起眼的細節裏。美國走在了按摩爾定律進化的芯片發展道路上,蘇聯則定格在了電子管世界裏。半個世紀後,蘇聯的敗局已定!

此次伊朗戰爭前,AI成為一個熱門名詞也就兩三年時間。這次,不再是美國一門獨大,中國沒有放棄,而且還創造了一個Deepseek時刻,讓美國大為吃驚。但對於AI的作用,很多人還是將信將疑,認為它是一個騙局的人大有人在。但伊朗戰爭,讓大家見識了AI的初步威力。

對於美國和以色列,AI已經從幕後的輔助工具,正式成為了決定戰爭節奏和強度的核心戰鬥力。

以下是美、以、伊三方在AI應用上的具體表現與特殊作用:

1. 美國:AI 驅動的“決策壓縮”與“目標工廠”。美國利用其在算力和數據整合上的絕對優勢,將戰爭推進到了**“高頻戰爭(Hyperwar)階段。

Maven 智能係統 (Project Maven): 這是美軍最核心的AI資產。它整合了數千個衛星圖像、無人機視頻流和電子監聽信號。在2026年2月28日的首輪打擊中,AI在24小時內識別並協助鎖定了超過1,000個目標,這在2003年伊拉克戰爭時期需要數周時間。

縮短 OODA 循環: 美軍高級將領確認,AI將從發現目標到下達打擊指令的時間縮短了 70-80%。這種“決策壓縮”讓伊朗的移動導彈發射車幾乎在冒頭瞬間就會被鎖定。

戰損實時評估: AI 能夠通過打擊後的衛星雲圖實時分析摧毀程度,自動決定是否需要“補刀”,大幅提高了巡航導彈的使用效率。

2. 以色列:AI 驅動的“目標生成器”與“激光防禦”。以色列更側重於將 AI 用於極其複雜的城市巷戰識別和多層防空攔截。

Lavender (薰衣草) 係統: 這是一個飽受爭議的AI輔助決策係統。它通過分析大數據(社交媒體、通訊記錄、位置信息),自動生成大規模的潛在目標清單。在對伊朗海外設施及代理人的打擊中,該係統曾一次性列出數萬個關聯目標。這次斬首伊朗領導人,該係統出了大力,戰果輝煌。

The Gospel (福音) 係統: 與 Lavender 配合,專門用於自動識別建築物。它能快速計算出摧毀一個地堡所需的最小彈藥量,以實現“流水線式”的打擊節奏。

Iron Beam (鐵束) 的AI指揮: 為了應對伊朗及其代理人的飽和式無人機攻擊,以色列啟用的激光攔截係統依賴 AI 進行微秒級的軌跡預測。AI 能在成百上千個假目標中識別出威脅最大的真彈頭,並引導激光束進行低成本攔截。

3. 伊朗這次也使用了AI,麵對美以的硬科技壓製,伊朗采取了“低成本、高頻率、智能化”的抗衡策略。

自殺無人機集群 (Drone Swarms): 伊朗的“見證者(Shahed)”係列無人機在2026年實現了初步的AI集群協同。即便在GPS信號被美軍電子幹擾的情況下,無人機可以通過AI視覺識別地形或通過相互間的通信維持陣型,利用飽和攻擊消耗美軍昂貴的攔截導彈。

AI 賦能的認知作戰 (Cognitive Warfare): 伊朗在社交媒體上大規模投放由 AI 製作的 Deepfake (深偽視頻) 和精準推送的信息流。目的是在美以國內製造混亂、動搖其盟友(如海灣國家)的參戰意誌。

智能網絡攻防: 伊朗利用 AI 自動探測中東美軍基地的工業控製係統漏洞。據評估,其AI驅動的網絡入侵成功率在戰爭初期達到了 45%-55%,曾一度導致部分地區網絡中斷。

與戰爭幾乎同時,中國AI頭部企業Deepseek作了一個舉動,被黃仁勳認為是中國在AI競爭正在走向勝利的拐點,他說,“如果 DeepSeek 的下一個版本(V4)首發運行在華為芯片上,對美國(的 AI 領導地位)來說將是災難。”

Deepseek 作了什麽?這裏有一個背景:按AI行業多年的慣例,模型公司在發布大模型前,都會提前把模型給英偉達、AMD等芯片大廠做性能適配和優化,這幾乎是鐵打的"規矩"。但這次,DeepSeek V4的早期訪問權限獨家給了華為和寒武紀,英偉達被排除在外。為此,DeepSeek還專門推遲了V4的發布時間,花了好幾個月和華為、寒武紀的工程師坐在一起,重寫了模型底層代碼的部分模塊,就為了確保V4能在華為最新的昇騰芯片上流暢跑起來。


AI模型的生命周期分兩個大階段,訓練和推理。很多人把這倆混為一談,其實它們的差別,大概相當於"從零培養一個學生讀完四年大學"和"讓這個學生坐進考場答卷子"的區別。訓練是"培養"的過程。你需要用海量數據、上萬塊芯片組成的超大集群,花幾個月時間,把一個模型從"什麽都不懂"訓練到"上知天文下知地理"。這個過程對芯片的要求極其苛刻。不僅單塊芯片算力要強,芯片之間的高速互聯也要跟上(因為上萬塊芯片要同步計算),而且整個過程不能崩、不能出錯,一次訓練動輒幾千萬甚至上億美金的成本,中途崩了就得從頭再來。


推理則是"答題"的過程。模型訓好之後,每天全球幾億用戶來問它問題、讓它寫代碼、幫你做PPT,每一次響應都是一次推理。這個過程對單塊芯片的算力要求比訓練低不少,但對效率和成本極其敏感,因為推理是7×24小時不間斷跑的,是持續性支出,是AI公司的"水電煤"。
 

DeepSeek曾經嚐試用華為昇騰芯片訓練推理模型R2,但遭遇了反複失敗。芯片穩定性有問題,集群互聯速度太慢,華為的軟件工具鏈也不成熟,訓練任務跑著跑著就崩了。最後DeepSeek不得不退回英偉達硬件做訓練。V4這次的突破發生在推理端。推理才是AI商業化真正燒錢的環節。推理端如能用國產芯片替代,這件事的經濟意義,可能比很多人想象的大得多。


很多人看到DeepSeek不給英偉達提前看V4這個細節,第一反應是政治正確或者民族情懷。其實想多了。美國對華芯片出口管製從2022年10月開始,到現在已經經曆了好幾輪加碼。從最初禁A100,到後來禁H100,再到限製H800的互聯帶寬,最後連特供版H20都一度傳出要禁。


在這種環境下,DeepSeek如果繼續把自己的模型生態綁死在英偉達上,就相當於把公司的命脈交到了美國商務部手裏。今天你還能買到H20做推理,明天美國一紙禁令下來,你整套推理部署體係瞬間作廢。所以DeepSeek現在做的事,用一句老話講,叫"天晴修屋頂"。趁英偉達芯片還能用的時候,提前把國產芯片的適配跑通,萬一哪天真被徹底斷供,至少有個兜底。


不過這隻是第一層,第二層,也是更深的一層,叫生態位卡位。這才是真正值得琢磨的。
DeepSeek現在是中國最強的開源大模型公司之一,如果它率先證明世界前沿的大模型可以在華為芯片上流暢運行,那它的身份就不僅僅是一個AI模型公司了——它會變成中國AI國產化進程的關鍵節點。這個身份意味著什麽?意味著政策層麵的優先支持,意味著華為會把最好的芯片資源和工程師團隊優先向它傾斜,意味著政府和國企客戶在采購AI服務時會優先考慮"全國產方案",意味著其他中國AI公司如果也想往國產芯片上遷移,可能要參照DeepSeek趟出來的路。


這就像當年智能手機剛起來的時候,三星率先all in安卓生態,別人還在猶豫,它已經和穀歌綁在了一起。後來安卓成了主流,三星自然就成了安卓陣營的老大。


過去兩年,關於中美AI競賽最主流的敘事是這樣的:美國封鎖芯片→中國買不到高端GPU→中國AI算力不足→中國AI要落後→中國AI要完。鏈條清晰,邏輯簡潔,聽起來很有道理。但DeepSeek在過去兩年裏不斷打破這個敘事。

先是2024年底發布的V3,用遠少於美國同行的算力和訓練成本,訓出了性能接近GPT-4o的模型,整個矽穀震動。2025年初R1發布,推理能力直接對標OpenAI的o1,訓練成本據稱隻有對方的零頭。現在V4又要證明,推理端可以跑在國產芯片上,不依賴英偉達也行。這一係列事件疊加在一起,傳遞的信號非常明確:中美AI競賽的核心變量,可能會從誰的算力多變成誰的算力效率高。


這個變化的意義是什麽?意義在於,如果拚的是誰的算力多,那中國鐵定輸。美國有台積電最先進的製程、有英偉達最頂級的芯片、有微軟和亞馬遜幾百億美金砸數據中心,中國在算力總量上沒法比。但如果拚的是誰的效率高,那比賽就沒有那麽一邊倒了。中國的AI研究者在資源受限的環境下,反而逼出了一套低算力高產出的打法,DeepSeek+華為的組合,本質上是在證明一件事:你可以用二流的硬件跑出一流的效果,隻要你的軟件和算法足夠聰明。


這讓我想起中國製造業過去幾十年走過的路。一開始用便宜的設備和人力做低端產品,被人嫌棄山寨、廉價。但在實戰中不斷迭代、不斷優化工藝,最後在一個又一個領域把便宜貨做成了好貨,甚至把原來的高端玩家擠出了市場。光伏、動力電池、新能源汽車、通信設備……一路走來都是這個劇本。


AI芯片生態的國產替代,某種程度上也在重演這個劇本的早期階段。產品粗糙(功耗高、軟件生態差),但有真實需求(出口管製)、有足夠大的市場(中國AI產業體量)、有足夠強的動力(國家安全考量+商業利益),還有像DeepSeek這樣願意"趟雷"的領頭羊。
所有這些條件湊在一起,能不能走通?曆史經驗告訴我們,不能保證一定行,但概率不小。


另一方麵,這件事對美國芯片封鎖策略的反噬效應正在顯現。黃仁勳在2025年多個公開場合明確表態反對過度限製對華芯片出口,他在今年CES的采訪中說得很直白:"如果你限製了中國客戶購買我們的芯片,他們不會停下來等——他們會去開發自己的芯片。" 一旦中國AI生態在國產芯片上跑通了,這些客戶大概率不會再回來了。 就像當年中國用華為設備替代了思科之後,就算後來不限製了,運營商也不會再換回思科。遷移成本太高,而且已經習慣了。


這就是封鎖的悖論。短期確實能卡你一下、慢你一步,但長期反而加速了對手的自主化進程,同時永久丟失了這個市場。美國商務部內部對此其實也有爭論。部分官員認為現行管製力度不夠,要進一步收緊;另一部分人則擔憂過度管製"把中國逼成了自力更生",適得其反。


這個爭論在美國新一屆政府上台後更加激烈,目前沒有明確結論。但不管華盛頓最終怎麽決策,DeepSeek V4跑在華為芯片上這件事,本身就已經是對"封鎖有效論"的一個有力反例。


Deepseek V4這件事,不一定說明中國贏了,但可能會成為讓美國改變AI政策的一個拐點。這裏有個典故,就是美蘇核競爭。當美國有原子彈,而蘇聯沒有,或不成熟時,美國是一個政策;但當蘇聯的核彈已經顯示了接近,甚至超越美國時,美國又是一個政策,采取了與蘇聯合作,製訂競爭規則,並一起壟斷技術,限製後來者。

中國的模型都采取開源,這很危險,被朝鮮這種國家利用,可以幹很壞的事。但因為中美競爭,中國為了取得更廣闊的市場占有率,不得已如此。AI技術擴散,對中美都沒什麽好處。當看到中國已經開始朝獨立的生態發展了,已經無法阻止其前進了,是美國開始反思的時刻了!



 

[ 打印 ]
閱讀 ( )評論 (25)
評論
dream_pillow 回複 悄悄話 勝利的拐點?似乎不太恰當。畢竟至目前為止,中國尚未卷入任何一場戰爭。若說是“發展的拐點”還比較貼切。
BeijingGirl1 回複 悄悄話 誰不是政治任務啊? 美國封鎖芯片、轟炸別國、不是政治任務呀? 脫鉤是好事兒, 從奧巴馬時代就使勁脫了。 不過至今還是脫不了。 DS v4 的實驗不就是為了脫鉤嗎? 幹嘛有人那麽不開心啊? 看來中國的做法真是把有人說的漢奸們給氣壞了。 嗬嗬嗬。
BeijingGirl1 回複 悄悄話 哦呦。 自封懂得人講不出道理,不會寫文,隻會噴。 隻有台灣1450和輪X功的拿錢發留言, 隻會造謠罵人。 才是宣兒呢。 大家看留言, 對號看人吧。
費城廢話 回複 悄悄話 *趨勢*
費城廢話 回複 悄悄話 不懂裝懂的大外宣!中美技術脫鉤是必然去世,大陸內循環是政治任務。其它都是扯蛋。
BeijingGirl1 回複 悄悄話 至於pen - zi - 說什麽美國一卡脖子就翻白眼, 嗬嗬, 美國還是先把伊朗給卡白眼吧。 要是那麽輕易就能卡住中國, 川總還那麽急慌慌地要去中國幹什麽啊, 還好朋友, 直接掐死中國算了。 掐死中國,美國的農民就要想掐死川總了, lol。
BeijingGirl1 回複 悄悄話 回複 '白釘' 的評論 : 摳字眼沒什麽意思。 你前麵說了半天蒸餾, 本身就不嚴謹。 “不根本對”, 嗬嗬。
BeijingGirl1 回複 悄悄話 我在前麵的蒸餾是用了“” 號的。 因為小模型可以從大模型“蒸餾”出來, 也可以用其他方法得到。 隻不過我前麵的留評提到“蒸餾”,我就使用了這個詞而已。

朱博的文, 不是聚焦在 Deepseek V4 上, 而是 V4 要應用在華為自己的芯片和OS上。 這是一個完整的閉環, 不必再依靠任何人的芯片和OS。 不在受製於人。 吃紅燒肉不一定要從養豬開始, 但人家卡住你, 不給你豬肉, 隻能自己養豬唄。
白釘 回複 悄悄話 回複 BeijingGirl1, 就是不完全對。
BeijingGirl1 回複 悄悄話 Deepseek 現在和華為合作, 是為了它的AI應用可以用在華為的芯片和自己的OS上。 我並沒有關注這件事, 不過從朱博的文章中可以理解這件事的意義, 和黃為什麽會著急。 我是按照自己的知識來看這件事, 和某個人去AI,自己根本不懂是兩碼事。 噴-子- 的胡扯更不屑一顧。
BeijingGirl1 回複 悄悄話 回複 '白釘' 的評論 : “不根本對”, 和根本不對是不同的意思。 對吧?
白釘 回複 悄悄話 @BeijingGirl1 "所有的手機AI應用都是小模型, 必須“蒸餾”。" 這話不根本對。
現在用的一些蒸餾模型和 Deepseek 一開始用蒸餾方法得到的初始模型是兩回事。本想寫點蒸餾技術的ABC,但手懶就罷了。
ytwadk 回複 悄悄話 中共的統治根本就搞不了革新發明,隻要中共繼續偷就永遠受製於美國,隻要美國卡住中共的脖子,中共就會翻白眼,永遠沒有出頭那天,拐點?這就和中共的收複台灣一樣,永遠就是個夢。
BMC 回複 悄悄話 中國AI 勝利, 如果勝利了的話,的拐點在於與美國公司取得同樣的芯片。現在說中國ai 超越美國的主要論據是中國ai在企業和app應用上取得的成就,這沒錯,同時也必須認識到,這些應用都是低級的應用,相比於Antropic而言,那才是ai 應用的number 1. Antropic 的成功主要依靠算法和軟件,(前提是其算力不受限製)。而這些正好是中國人的長處。如果中國芯片供應不受限製,我不相信中國出不了antropic 這樣的公司,那一天才真正是中國ai的拐點。
BeijingGirl1 回複 悄悄話 所有的手機AI應用都是小模型, 必須“蒸餾”。 DS和 華為合作,當然會如此。 這裏拚的不是什麽算力和大模型, 而是DS的AI 和全部中國產的硬件接軌。 這才是一個完整的產業鏈。

中國就是不應該去和美國拚什麽大模型。 現在的美國的AI就是這樣越來越大,實際應用卻沒有。一些人玩了幾把AI 的搜索寫文就來胡扯。 但是這種越來越大終歸還是要到盈利上來才行,研發要落地,否則就是燒錢而已。
白釘 回複 悄悄話 @fafa999 查了一下,

當前美國 AI 公司對“蒸餾”的態度(基於最新公開報道)
OpenAI、Anthropic、Google 正在聯合封鎖來自中國實驗室的“對手方蒸餾”攻擊
三家公司通過 Frontier Model Forum 共享情報,專門用來檢測並阻斷中國 AI 實驗室(如 DeepSeek、Moonshot、MiniMax)利用大量偽造賬號對其模型進行能力提取。

這些中國實驗室曾通過 24,000 個虛假賬號、超過 1600 萬次交互來蒸餾 Claude
Anthropic 官方披露了這一規模,並明確指出這是“工業級能力抽取”,違反其服務條款。

美國公司認為未經授權的蒸餾是國家安全風險,而非單純商業問題
因為被蒸餾出來的模型通常缺乏安全防護,可能被用於網絡攻擊、生物威脅、監控等用途。

美國國會正在推動立法製裁進行“模型複製/蒸餾”的中國公司
包括 DeepSeek、Moonshot、MiniMax 等,明確將“蒸餾”列為需要懲罰的行為。
faf999 回複 悄悄話 現在美國各大AI都屏蔽了蒸餾了吧?
laopika 回複 悄悄話 很遺憾,DeepSeek已經被我棄用了,主要是時效性太差。現在用的豆包不錯,盡管與chatGBT 還是有距離。
硬碼工 回複 悄悄話 訓練和推理的關係
如果僅僅中國國產的芯片能做推理,也是很好的。推理連接著物理AI的市場。推理AI芯片,可以讓AI應用的市場。這個市場很大
另一個消息,之所以deepseek沒有將代碼送給英偉達,是美國禁止美國公司給中國公司適配模型
訓練仍然是很重要的,但一步一步來,推理能賺到錢,在做訓練的事,畢竟中國是發展中國家,落後是正常的
BeijingGirl1 回複 悄悄話 回複 '白釘' 的評論 : 是啊, 沒有字典和上幾年學, 你也寫不成或不懂下麵這段話。 問題是,是否每個學生都要從甲骨文、小篆開始學漢字?
白釘 回複 悄悄話 我們不能捧殺DeepSeek,雖然為它感到自豪。

DeepSeek 的真正優勢來自蒸餾與 MoE,但必須承認--沒有 洋人Teacher,它什麽都做不了。
圍繞 DeepSeek V4 的討論中,許多敘事被放大成“國產芯片突破”“中美 AI 拐點”“封鎖反噬”等宏大主題。但如果回到技術本質,DeepSeek 的核心競爭力其實來自兩個關鍵技術路線:

知識蒸餾(Distillation)
專家混合架構(Mixture?of?Experts, MoE)

而其中最關鍵的一點常被忽略:
沒有一個已經訓練好的大模型(Teacher),DeepSeek 的蒸餾路線根本無法成立。

一、DeepSeek 的成本優勢來自蒸餾,但蒸餾的前提是:必須有一個強大的 Teacher
DeepSeek 能以遠低於行業平均的成本訓練模型,最關鍵的原因是蒸餾。
而蒸餾並不是中國發明的,它由 Geoffrey Hinton、Oriol Vinyals、Jeff Dean 在 2015 年就正式提出。

蒸餾的核心機製是:

讓小模型(Student)直接學習大模型(Teacher)的最終能力,從而跳過最昂貴的基礎預訓練階段。

為了讓邏輯更清晰,我們拆開來看:
1. 傳統大模型訓練最貴的部分是什麽?
是 基礎預訓練(pretraining):

需要數萬億 token,需要上千張 GPU,需要連續訓練數周甚至數月,成本動輒上億美元。
這是 OpenAI、Anthropic、Google 的路線。

2. 蒸餾為什麽便宜?因為它跳過了這一步。
但它之所以能跳過,是因為:

Teacher 已經替 Student 付過了這筆天價成本。
Teacher 已經:學會語言規律,學會世界知識,學會推理鏈條,學會對齊(alignment),學會風格與邏輯。

Student 隻是把這些“現成能力”壓縮、模仿、遷移。
換句話說:蒸餾不是創造能力,而是複製能力。沒有能力可複製,蒸餾就無從談起。

3. 所以必須強調:沒有 Teacher,DeepSeek 什麽都做不了。

DeepSeek 的蒸餾路線依賴:
開源大模型(如 LLaMA、Qwen)
甚至可能依賴閉源模型的輸出(如 GPT、Claude)
以及整個行業過去十年積累的基礎模型成果

如果沒有這些 Teacher:
DeepSeek 必須自己從零訓練一個 GPT?4 級 Teacher

成本會從“幾百萬美元”變成“幾億美元”,整個蒸餾路線會瞬間失效。

因此必須明確:

DeepSeek 的效率奇跡不是“憑空創造”,而是“站在巨人的肩膀上”。

二、MoE 是 DeepSeek 的第二根支柱,讓模型“又大又省”
DeepSeek 的模型(V3、R1、V4)都采用了 MoE(專家混合) 架構。
MoE 也不是中國發明的,它由 Michael I. Jordan、Ronald Jacobs、David Hinton 在 1991–1993 年提出。

MoE 的核心思想是:

模型可以非常大,但每次推理隻激活少數專家,從而大幅降低計算量。
它帶來的優勢包括:

參數規模巨大 → 能力強,實際計算量很小 → 成本低,推理速度快 → 商業化友好,
DeepSeek 的 MoE 調度策略更激進,使得:

同樣算力 → 能訓練更強模型 同樣模型 → 推理成本更低。
但必須強調:
MoE 解決的是“推理成本”,不是“能力來源”。
能力來源仍然來自 Teacher。

如果有人不信本評論,可以轉給DeepSeek老板梁文鋒,看看他怎麽說。

BeijingGirl1 回複 悄悄話 不管哪個國家的管控, 都是有利有弊。 就看取舍和著重點。 謝謝分享了。
遠遠的霧 回複 悄悄話 謝謝你的分享!信息非常新穎,觀點也很有啟發性。讚!
BeijingGirl1 回複 悄悄話 如果DS v4 能在華為的芯片上訓練出來, 那這一整套就是中國製造了。 這確實是很大的一步。 等看。
BeijingGirl1 回複 悄悄話 有意思的文。 在國內鮮聽看到人談論AI的技術, 說的也都是浮皮潦草,搞幾個機器人上春晚, 以為就是AI了。 知其然不知其所以然。 前些天扯什麽120萬億token, 說的人根本也不了解什麽意思。
登錄後才可評論.