個人資料
  • 博客訪問:
正文

AI 科普係列·第 12 篇:1000 層神經網絡:為什麽越深越能“開竅”?一篇 RL 圈忽然靜了三秒的研究

(2025-12-03 15:27:49) 下一個

人工智能研究裏最有意思的時刻,並不是某個華麗的新算法問世,而是有人做了一件看似“簡單得不應該有效”的事,卻把整個領域的默認常識敲出一個坑。這篇 NeurIPS 2025 oral 論文就是這樣的案例:研究者沒有發明新獎勵、沒有設計新技巧,而是提出一個簡單的問題——如果把強化學習裏常用的 2~5 層 MLP,一口氣堆到 1000 層,會發生什麽?

按照過去幾十年的經驗,這種行為無異於往火場裏潑汽油:深度越多,訓練越不穩定,梯度像喝醉一樣搖擺,模型半小時就能崩潰。可結果卻像驚悚片突然轉成家庭喜劇:性能提升了 2 倍、10 倍,某些任務甚至達到 50 倍,機器人還學出了從前沒教過的動作。就好像一個平時走路都磕磕絆絆的孩子,突然自己學會了繞桌角、擠過窄道、提前旋轉手腕避免碰撞,讓大人懷疑他半夜是不是偷偷被外星人升級了腦子。

要理解為何這件事震動整個 RL 社區,需要先講一點曆史。強化學習長期被認為“深不起來”,不是因為研究者保守,而是因為 RL 的訓練目標太不穩定:獎勵一會兒有一會兒沒有,值函數像神經質一樣時漲時跌,策略更新又彼此影響。深網絡夾在這種混亂生態裏,很容易出現梯度爆炸、梯度消失、行為發散等問題,像一個人一邊過獨木橋一邊被三個人推著跑。因此,淺網成為默認配置,大家也逐漸形成一種溫和的偏見:RL 不適合深度模型。

作者不認這一套。他們懷疑問題不是“深度不行”,而是“訓練方式不對”。於是這項研究把整個 RL 最容易失控的地方拆下來、換掉、重裝,讓深度網絡第一次能夠在 RL 中“活得像深度網絡該有的樣子”。

他們做的第一件事,說簡單也簡單:把強化學習裏最“愛鬧情緒”的部分直接換掉。傳統的 RL 讓模型判斷每個動作“好不好”,這就好比讓一個孩子一邊考試一邊自己打分,情緒波動稍大,分數就亂跳,訓練自然不穩定。論文改用 CRL(Contrastive Reinforcement Learning),它不讓網絡評判動作價值,而是問一個極樸素的問題:“這兩個狀態算不算同一條軌跡上的片段?” 你可以把它理解成把哲學題變成了連連看,任務本質從“評價”變成“分辨”。而深度學習過去十幾年最穩定、最成熟的任務就是分類,激活函數、梯度傳播、初始化、優化器,全為它鍛煉得極其紮實。於是深網在 RL 中不再像風暴裏跳舞,而是幹回老本行,訓練穩定許多。

第二件事更直覺:讓 agent 放養,拚命玩。以往 RL 要獎勵、示範、精心設計目標,像個事無巨細的家長,而這篇論文選擇“放手育兒”。研究者什麽獎勵都不給、不設目標,隻把 agent 丟進模擬器裏讓它亂跑亂爬、隨便撞牆、卡住、跌倒、嚐試,靠無數次失敗和成功積累經驗。模擬器的好處是快、便宜、能並行,一天能“摔”出別人一年都收集不到的數據。一千層的網絡最怕吃不飽,而這裏恰好給了它一整個自助餐。深網絡天然喜歡大數據,它越深,越有能力從這些雜亂軌跡裏找出“動作屬於哪一類”“狀態如何關聯”。

第三件事聽起來技術,但其實一句話:給這棟 1000 層的大樓裝上鋼筋、防震和穩壓係統,讓它別塌。 深網最大的問題就是層數多了容易斷梯度、失記憶、內部表示亂跑。論文用的三件武器——殘差結構(ResNet)、LayerNorm、Swish 激活——分別解決“梯度走不動”“狀態漂移”“信號太硬太脆”這些老毛病。名字雖然技術,但做的事情非常樸素:讓深網絡別暈車、別斷片、別抽風。等這些“安全設備”全裝好,訓練 1000 層不再像煉丹,而像組裝工業級架構,穩定得出奇。

當這三件事組合在一起,故事就開始“跑偏”——偏得令人喜悅。網絡不僅指標提高,還學出了淺網完全不具備的動作智慧。機器人在狹窄空間裏會自動側身前行,好像意識到自己的寬度;機械臂在抓取前會提前轉腕,為即將遇到的障礙讓路;迷宮中的 agent 會在轉角前幾步就開始調整方向,而不是現場慌張反應。更詭異的是:這些行為沒有獎勵塑造、沒有專家示範,全是深網絡從海量軌跡中自己總結出來的。這是一種典型的“湧現”:你沒教,但它自己悟了。

而這一點,正是這篇論文讓人興奮的核心。深度第一次賦予 RL“跨時間拚接經驗”的能力。淺網隻能記短反應,深網卻能把許多小動作縫成長鏈策略,把碎片經驗組織成結構。這類能力正是高級動作、靈活智能的關鍵。RL 長期以來缺的不是技巧,而是深度帶來的表達空間。

有了這樣的基礎,應用前景幾乎一眼可見:家用機器人可靠自監督學會整理與操作;倉儲機械臂無需大量人工規則即可完成複雜抓取;無人機在陌生環境中自學習避障;自動駕駛可以從無標簽視頻中吸收駕駛直覺;遊戲裏的智能體則能像人一樣根據曆史經驗推斷長鏈操作。更重要的是:RL 終於擁有一條類似 NLP、CV 的“規模化路線圖”——堆深、堆大、堆數據就能變強。

當然,實驗背後的難度遠比論文寫得輕鬆。訓練 1000 層網絡像建一千層大樓,任何小參數出錯都可能導致全麵坍塌。RL 的內在不穩定性又讓失敗不是緩慢滑落,而是突然跳崖式崩潰。作者必須通過大量 ablation 實驗逐一確認:哪些結構必需、哪些超參敏感、哪些技巧可以避免訓練中途“發瘋”。這種工程量堪比重新發明一套穩定訓練指南。

也正因此,學界反應格外整齊:這篇論文不僅提高性能,更重要的是它展示了 RL 也可能遵循與大模型類似的 scaling law——深度越大,能力越多,有時還會突然出現意外之“悟”。這意味著 RL 的未來或許不是調參、不是獎勵工程,而是徹底擁抱深度與規模。

總結一下就是:我們以為強化學習像一個沒獎勵、沒指導的孩子,因此學得慢、行為怪。結果這篇論文輕輕告訴你:孩子不是笨,隻是腦子不夠深。給他一千層大腦,他自然會把世界想明白。

[ 打印 ]
評論
目前還沒有任何評論
登錄後才可評論.