獅山巡禮

投資雜談

首頁文章列表博文目錄

個人資料

lionhill

給我悄悄話

博客訪問：

上下文即權重，穀歌找到了繞過GPU訓練的新範式｜DeepMind新論文解讀

(2025-12-08 00:45:57) 下一個

如果說2024年是長文本的軍備競賽，那到了25年年末，隨著自進化模型、持續學習成為模型下一步核心瓶頸，戰場已經轉到了對記憶能力的全麵加強上。

而在這場戰爭中，Google DeepMind 左右出擊，在一個月內發布了兩篇論文，試圖在兩條截然不同的路線上攻克這一難題。

11月初，DeepMind 發布了關於 Nested Learning（嵌套學習）的重磅研究，提出了 HOPE 架構。

這是一場典型的重工業革命，穀歌試圖通過重構 Transformer 的底層，讓AI擁有永久的長期記憶和臨時的短期突觸，讓它從死的知識庫記憶體，變成活體的學習者。

從價值上講，作為第一個全開放權重的模型，它絕對稱得上是一種範式革命。但要落地，得對現有的 AI 基礎設施進行一場傷筋動骨的腦外科手術，舊模型是完全不兼容的。

然而，僅僅幾周後，11月27日，DeepMind的另一個團隊聯合UIUC拋出了另一篇論文《Evo-Memory》。

這篇論文沒有試圖去動哪怕一個模型參數，卻找到了一條新路，賦予模型持續學習的能力。

它向整個行業提出了一個新可能：一個被凍結的LLM大腦，能夠通過不斷反思和重構自己的記憶，表現得像是一個被訓練過的模型。

雖然看起來它沒那麽底層，但從工程和應用角度來講，這無疑也是一場範式革新。

在過去，我們認為，上下文工程隻是人類教 AI 做事的權宜之計。但Evo-Memory證明了，當上下文具備了自我反思、自我修剪、自我沉澱的能力時，它就不再是靜態的提示詞，它變成了流動的權重。

具體來說，它意味著記憶不再是固定不變的上下文提示詞，而是能夠在推理過程中主動檢索、修剪和重組的可編輯對象，就像神經網絡中的權重參數一樣可以動態調整和優化。

而且，靠著它，我們不需要等待遙遠的架構重構，也能讓模型持續學習。通過元推理，我們現在就可以讓那個參數凍結的AI，在每一次交互中生長出新的智慧。

RAG 的困境

說到AI的記憶係統，就繞不開RAG（檢索增強生成）。

過去兩年，RAG幾乎成了大模型應用的標配。無論是客服機器人、代碼助手還是知識問答係統，背後都離不開這套架構。

在很長一段時間裏，RAG 被視為解決大模型健忘和幻覺的解藥。它的邏輯簡單粗暴：模型記不住私有數據？沒關係，把數據切塊存進向量數據庫。用戶問什麽，我們就檢索什麽，喂給模型照著念。

然而一個可檢索的筆記本，並不是記憶。因為記憶不是錄像，而是壓縮。

傳統的 RAG 係統就像是一個沒有辨別能力的圖書管理員，隻管把所有的對話曆史、操作日誌一股腦地存進倉庫。它不會學習，隻會按關鍵字檢索。

所以當你第一次問AI如何解一元二次方程，它會從知識庫裏檢索到公式，給你正確答案。第一百次、第一千次，依然如此。它永遠不會因為回答過一千次同類問題，就形成某種經驗性的快速響應機製。

更可怕的是，它檢索到的內容可能包含矛盾、過時或無關的信息，但它沒有能力判斷哪些記憶是有價值的，哪些是噪音。遇到同樣的問題，係統檢索到十條相關記錄，其中三條是已解決的舊問題，兩條是誤報，剩下五條才真正有用。但RAG會把這十條一股腦塞給模型，讓模型在混亂的信息中自己摸索。

這說明，現有的記憶係統大多停留在對話回憶(Conversational Recall) 的層麵，它隻記得說了什麽，卻不記得學到了什麽。這種靜態的、被動的召回機製，導致智能體在麵對連續的任務流時，無法積累經驗，隻能機械地重複過去。

在這個範式下，RAG作為一個隻增加不減少、隻存儲不反思的記憶庫，最終注定會被噪音淹沒。數據越多，RAG反而可能越多錯。

什麽叫學習？就是給記憶加上反思的濾網

那怎麽能讓這些放在RAG裏的信息更有用，更像學習？這裏需要參考人類是如何變強的路徑。如果在打遊戲中，我們死於一次埋伏，下一次絕不會原樣再死一次。人類會思考，會總結。

這就叫學習而來的熟練。學習的本質就是真正的記憶。它不是存儲，而是篩選、組織和進化。

論文設計了一個名為ReMem的框架，它的運作方式顛覆了傳統RAG的檢索和生成二段式流程。它引入了一個全新的維度Refine（優化）。在每次任務執行過程中，AI不再隻是被動檢索和應用記憶，而是主動評估、重組甚至修剪自己的記憶庫。

在增加新記憶的過程中，模型會曆遍這樣幾個步驟：

經曆：智能體在環境中執行任務（比如在 AlfWorld 裏找東西）。

反饋：環境告訴它是成功還是失敗。

元推理（Refine）：在存入記憶之前，智能體必須進行一次內省。係統會問它：基於剛才的結果，哪一步是廢話？哪一步是關鍵？如果你失敗了，原因是什麽？。

沉澱：智能體執行 Pruning（修剪）和 Reorganizing（重組），把 20 步的曲折探索，壓縮成一句直接去櫃台找杯子的黃金法則，存入數據庫。

這不僅僅是加了一個步驟，這是賦予了智能體編輯自己大腦的權利。

這種機製的效果是立竿見影的。在Alf World這個虛擬家居環境中，把冷藏過的西紅柿放進微波爐這個任務，基準模型平均需要22.6步才能完成。而配備了ReMem的模型，隻需要11.5步。因為它學會了識別哪些過往任務的經驗可以遷移，哪些細節差異需要警惕，從而少走了近一半的彎路。

在ToolBench數據集上，配備經驗檢索的ExpRAG模型，API調用準確率從61%提升到73%。模型不僅學會了調用API，還學會了如何思考調用API。它能從過去失敗的嚐試中總結教訓，從成功的案例中抽象策略。

通過ReMem，RAG不再是那個隻會照單全收的圖書管理員，它學會了學習中最重要的部分，提純和遺忘。人類專家之所以高效，不是因為他們記住了所有細節，而是因為他們知道什麽時候該忽略什麽。ReMem讓AI通過記憶，獲得了這種選擇性注意的能力。

它帶來的真正範式轉變，是上下文即權重

如果說這個論文帶來的隻是上麵所說的對RAG的升級，那它的價值似乎非常有限。

但它其實揭示了一個足以改變整個訓練模式的轉變。即上下文可以成為新的權重（Context is the new Weight）。

在過去，我們認為隻有通過反向傳播（Backpropagation）修改了模型權重的參數，模型才算學到了東西。這就是訓練、後訓練、SFT等做的工作。一旦訓練完成，模型就被凍結了，它在部署階段不會再記住任何新東西，所有適應都通過調整輸入的上下文來實現。

但過去的上下文工程本質上是人類教AI規則。我們精心設計少樣本示例，編寫詳細的指令，試圖通過上下文窗口向模型灌輸正確的行為模式。這種上下文雖然確實可以改變模型的行為，但仍然是外部的、靜態的，不會隨著模型的使用而進化。

但ReMem證明了，如果一個凍結的模型能夠通過反思，不斷重構輸入給自己的上下文，那麽上下文在數學效果上，就等同於權重。

之所以這麽說，首先是因為上下文的積累實際上就是無監督訓練。在這個新範式中，上下文不再是靜態的規則不再依賴人類提供的標準答案。它自己在環境中試錯，通過與環境的交互（Interactions），自己生成數據，並自我強化。

其次，這個自我強化的方法也和訓練過程非常相似。在一般的訓練階段，模型依靠梯度下降（Gradient Descent）降低錯誤路徑的權重，提升正確路徑的權重。而 ReMem 在推理階段，則是通過對記憶的沉澱與修剪調節了其選擇權重，完美複刻了這一過程。

比如，當模型在任務中失敗，ReMem 通過元推理分析原因，會將失敗路徑標記為反麵教材或直接修剪掉。在下一次檢索中，這段被處理過的上下文會在注意力機製中產生強烈的抑製作用，迫使模型避開錯誤選項。這在效果上，等同於對該路徑進行了 RLHF（人類反饋強化學習）的負向懲罰。

而當模型總結出一條捷徑並存入記憶，這條經驗在未來的推理中會被高優召回，直接提升生成正確動作的概率。

論文中的數據也支撐了這一觀點。在引入包含失敗經驗的數據集時，普通的 RAG 係統因為無法區分好壞，性能直接下降；而 ReMem 卻能通過反思機製變廢為寶，保持極高的成功率。

這證明了上下文已經具備了權重的核心屬性：抗噪性、糾錯性和泛化性。模型在沒有更新任何參數的情況下，通過在記憶中沉澱經驗，實現了行為的永久性矯正。

在以後，我們也許不需要真的去算梯度，不需要更新參數。僅僅通過自然語言層麵的反思和沉澱，就能讓模型表現出好像被訓練過一樣的行為矯正。

元推理（Meta-Reasoning）是穀歌這篇論文的另一個重點概念。

什麽是元推理？在傳統的 Chain-of-Thought (CoT) 中，模型是在推理任務本身。這依然是在做題。

而ReMem 引入的元推理，是對推理過程的推理。它要求模型跳出任務本身，以第三視角的上帝視角審視剛才的思維鏈路，指出錯誤，提煉正確路徑。

這個邏輯本身並不是什麽新鮮事。早在23年，就已經有人在研究相關的領域，提出了Reflexion架構，用來引導模型的元認知能力。今年，Karpathy也曾經多次講過模型需要一個反思能力。而反思的過程，正是元推理。

這種能力此前之所以沒有被充分利用，是因為以前的模型大多隻是優秀的做題家，而缺乏成為出題人（評價指令）所需的深刻內省能力。ReMem 證明了，當今的 SOTA 模型（如 Gemini 2.5 和 Claude 3.7）已經具備了這種能力。它們不僅能生成答案，還能評價答案的質量，並將其轉化為策略知識而非僅僅是事實知識。

另外一個元推理在過去無法應用的原因，是策略知識的特殊屬性。策略是由經驗歸納出來的產物，比如遊戲的技巧。這種知識絕不可能從單次經曆中產生，必須有足夠多的例子，才能歸納出一條策略。

在 Evo-Memory 之前，記憶係統往往是短視的。受限於上下文窗口或簡單的檢索邏輯，模型往往隻能看到最近的一兩次交互。它也許能記住剛才撞牆了，但它記不住上周、昨晚、大前天都撞牆了。

沒有足夠多的例子，元推理就失去了燃料。

ReMem 的成功，某種程度上是因為它利用了現代大模型對長上下文的處理能力和結構化記憶的積累，讓模型終於湊齊了歸納策略所需的臨界樣本量。它讓這種元推理能力變成了一種真正能起到遠期效果的語義壓縮算法。

這是使得上下文即權重成立的核心邏輯。

係統2的完整拚圖

這一範式的確立，讓我們終於看清了下一代 AI 的完整形態。

最近大火的 DeepSeek V3.2 在工具使用中展示了行動前的規劃能力，它會在調用 API 之前進行大量的思維鏈推導。而 ReMem 展示了行動後的反思能力，它會在任務結束後進行深度的複盤。

這兩者結合，構成了完整的係統 2思維閉環。以前我們認為 RAG 是外掛的硬盤，是存儲問題；現在我們明白，記憶是計算問題。隻有經過元推理（清洗、壓縮、結構化後）的信息，才有資格進入上下文，進而在這個凍結的神經網絡中扮演權重的角色。

Evo-Memory 告訴我們，我們不需要等到 Nested Learning 這種重型架構普及的那一天。隻要底座模型足夠聰明，能夠理解反思的指令，我們現在就可以通過讓模型在記憶中自我訓練，實現某種程度上的 AGI（通用人工智能）原型：一個參數不變，但智慧隨時間持續生長的數字生命。

[ 打印 ]

[ 加入書簽 ]

閱讀 () ┆ 評論

評論

目前還沒有任何評論

登錄後才可評論.