百度的屈辱:吳韌的厄運 (1)

伽馬波 (2026-02-07 04:56:21) 評論 (0)

吳韌的厄運 (1)

2015年是百度人工智能史上的至暗時刻與分水嶺,更是其在AI爭奪戰中由盛轉衰的轉折點。一場震撼世界的“醜聞”,伴隨著核心技術人才的大規模流失,加之宏觀環境頂頭颶風般的衝擊,百度從技術領先全球的巔峰跌落。多重打擊之下,百度自此陷入了長期的戰略被動。

2015年5月11日,百度研究院異構計算團隊在嵌入式視覺峰會(Embedded Vision Summit)上宣布:其深度學習超級計算機“岷蛙”(Minwa)在 ImageNet 分類任務中,將 Top-5 錯誤率降至 4.58%。

中國公司的AI科技領先世界。這是一個裏程碑事件!

讓全世界的科技巨頭們驚掉下巴。

眾人一時不知所措:中國人幹的?中國人有這個本事?

懷疑多於肯定!那時候的世界,還沒有準備好應對這一時刻!

這一數據在當時的全球學術界與工業界引發了巨大震動。它不僅優於穀歌於同年3月公布的 4.82% 和微軟的 4.94%,更在測試表現上超越了人類的平均水平(約 5.1%)。這一成績將百度深度學習研究院推向了全球 AI 競賽的舞台中心。

領隊吳韌在發布現場表示:“百度正處於計算機智能競賽的世界領先地位。”

消息傳回國內,迅速引發了廣泛的技術討論與輿論關注。當時的國內媒體(如《科技日報》、中新網等)和各大科技門戶網站幾乎用“橫掃”、“碾壓”這類詞匯來報道。標題大多是《百度AI世界第一,超越穀歌微軟》、《百度“岷蛙”震撼全球,中國技術登頂》等。輿論將此事件與“中國製造”轉型“中國創造”掛鉤。在知乎、虎撲等社區,網民的情緒極度高昂,認為中國在AI這個最前沿的賽道上終於擁有了技術霸權

岷蛙是百度於 2014 至 2015 年間投入重金研發的計算集群,由上千塊 NVIDIA GPU 構成,專為大規模深度學習訓練量身定製。依托這一平台,團隊研發的“Deep Image”模型實現了從 1 月份論文公布的 5.98% 到 5 月份 4.58% 的性能跨越。

這不僅是算法的優化,更是一場極致的工程實踐成果:通過算力集群的深度整合、超參數的大規模並行調優,百度向業界展示了其在處理超大規模數據與構建“重型工業化”算力體係上的硬實力。

與國內的狂熱構成巨大反差的是,大洋彼岸的味道截然不同。當百度在 5 月中旬宣布超越穀歌和微軟時,《紐約時報》、CNN 以及《Wired》、《MIT 科技評論》等頂級媒體悉數出動。字裏行間,滿是“狼來了”的警覺。

美國媒體的邏輯簡單而粗暴:他們反複強調百度擁有吳恩達這一事實,自以為是地認定,百度之所以能取得這樣的成績,僅僅是因為“挖走了矽穀的大腦”。那種隱隱的擔憂背後,是更深的傲慢。他們認為中國公司依然隻是“模仿者”,無非是靠著暴力計算資源,在 AI 的核心戰場上暫時壓製了美國巨頭。

潛台詞呼之欲出:你偷走了吳恩達,才有這點成績。況且,你也隻有一個吳恩達而已!

2015年5月11日那天,百度的股價隻是小幅震蕩。即便“岷蛙”刷出的 4.58% 在中文互聯網瘋狂刷屏,但在華爾街看來,這件“小事”還遠未到能撩撥投資者神經的地步。在那時的全球資本敘事裏,AI 還是個邊緣劇本,華爾街根本不在乎。

深度學習在矽穀也隻是實驗室裏的前沿實驗,離變成“改變世界”的生產力工具還有好幾年距離。投資者看百度,更多在意的是移動搜索流量被微信分流、PC端紅利見頂、廣告變現壓力這些老問題。ImageNet上的一個基準成績,再亮眼,也隻是學術圈的“實驗室冠軍”,換不來二級市場的狂熱買入。

這恰恰說明了AI影響力的真實演進路徑:從2012年的AlexNet到2015年的Minwa,技術突破一直在發生,但資本市場真正開始“神經緊繃”,要等到2017–2018年AlphaGo擊敗李世石,2019–2020年Transformer和大模型敘事成型,2022年底ChatGPT引爆大眾想象之後。

之前的所有高光,都還停留在“科學家很興奮,工程師很激動,投資者很淡定”的階段。

岷蛙的4.58%像顆信號彈,照亮了中國AI在硬核基準上追趕甚至短暫領先的可能性,但它還沒亮到能點燃華爾街的估值之火。那時的市場,還需要更多“從實驗室到產品、從產品到千億美金敘事”的證據,才能真正把AI當成決定股價的變量。

可惜,高光隻亮了不到三周。美國人終於找到了反擊的契機!

2015年5月19日,競賽官方,斯坦福視覺實驗室,先發了一個模糊公告,說發現某團隊通過多賬號繞過了“每周最多2次測試提交”的規則。

6月2日,才開始直接點名百度。

為了繞開競賽關於“每周僅限提交兩次”的硬性規定,從 2014 年 11 月到 2015 年 5 月,百度團隊使用了至少 30 個虛假注冊賬號,向測試服務器發起了超過 200 次違規提交。

在衝刺最激烈的 3 月 15 日至 19 日,短短五天內,他們利用這些“馬甲”賬號瘋狂刷榜多達 40 餘次。這種做法本質上是通過高頻測試,強行試出了服務器後台的測試規律,讓最終那個傲視群雄的 4.58% 蒙上了一層利用規則漏洞的陰影。

斯坦福如此的猶豫和遲疑,意味深長,耐人尋味。

在最終的判決書下達前,斯坦福內部,曾爆發過一場極具專業深度的爭論。並非所有人都主張對百度施以極刑。幾位資深的算法研究員對著後台那200多次提交記錄,陷入了長久的沉默。在他們看來,這與其說是“作弊”,不如說是一場關於“規則極限”的瘋狂測試。

“他們並沒有修改測試數據,也沒有竊取答案,”一位年輕的副教授在內部會議上據理力爭,“他們隻是利用了規則沒有明文禁止的漏洞,去壓榨算法的性能上限。這種對算力的極致調動,難道不正是深度學習未來的方向嗎?”

就學術上的正義感而言,科學的本質是探索邊界,百度異構計算團隊表現出的,是一種近乎偏執的技術貪婪。如果僅僅因為他們“提交得太多”就徹底否定那驚人的 4.58%,對於那些日夜守在服務器前的中國工程師來說,是否過於殘酷?

然而,這種微弱的正義之聲,很快就被另一種更宏大、更冰冷的邏輯所淹滅。

實驗室的執掌者們必須考慮,ImageNet 是全球 AI 界的“度量衡”。如果默許這種繞過規則的“刷榜”,那麽這個榜單的公正性將瞬間崩塌。更何況,當時的空氣中已經彌漫著一種不安的政治寒意。大洋彼岸的巨頭們正盯著這裏,他們需要一個結果,一個能證明“中國式領先”帶有原罪的證據。

最終,學術的寬容讓位於“規則”的威嚴,理性的辯論被定性後的通告取代。

測試集對選手是完全封閉的。選手的常規流程是在訓練集上建模,隨後將代碼提交至官方服務器進行黑盒評估。由於測試過程存在隨機波動,官方將提交頻率限製為每周兩次,以防止選手通過高頻反饋推測測試集的分布,進而針對性地微調參數。這種行為在學術界被視為“偷窺答案”後的定向刷分。

百度通過多賬號操作,實質上擊穿了這一規則紅線。他們將每周兩次的配額放大至百倍,通過上百次的試錯反饋,強行讓模型在海量嚐試中捕捉到了那個極低的測試得分。這種做法讓最終的數據不再是算法能力的自然演進,而變成了一場利用規則冗餘進行的概率狩獵。

6月2日,調查報告公開,國際學術圈隨之引發劇烈震動。《麻省理工科技評論》以《百度如何在AI測試中作弊》為題,將其定性為“機器學習領域的首例醜聞”。主流媒體蜂擁而至,將其比作“AI界的興奮劑事件”。加州大學伯克利分校的 Jitendra Malik 教授對此評價道:“如果你跑出了 9.5 秒的百米成績,卻是靠服用藥物實現的,那這個成績還有什麽意義?”

百度隨後發表聲明,將違規歸因為“對規則的誤解”,並重申其對“公平與透明”的立場。

然而內部調查顯示,這並非無心之失,而是異構計算團隊負責人吳韌指示下屬故意繞過規則。6月11日,百度宣布開除吳韌。盡管吳韌在給媒體的郵件中堅稱,規則是指“每人每周”而非“團隊總限”,認為 200 次提交在邏輯上合理,但這種辯解在學術界公認的準則麵前顯得蒼白無力。

美國人很在乎事後懲罰,清算結果帶有毀滅性。百度在 ImageNet 上的所有成績被取消,並被處以禁賽一年的重罰。原本那個領先全球的 4.58% 從排行榜上徹底消失,百度也從技術領跑者瞬間跌落為“帶有汙點的爭議者”。

穀歌與微軟借此機會迅速反超。輸掉一場競賽事小,由此帶來的更深遠的影響是,這場風波不僅透支了百度的學術信譽,也讓其在全球頂級人才的吸引力上,蒙受了不可逆的巨大長期損失。

【節選自 《AI霸權:紀元啟示錄》(汪翔,即將出版)(第八章:百度的輝煌與屈辱)】