人類對知識的征途，或許才剛剛開始。

去年，AI 能解出博士級別的數學題，已是轟動一時的大新聞；而今年，能攻克「未解之謎」級別的數學難題的 AI 已經來了。

5 月 15 日，Google DeepMind 發布了全新編程智能體 AlphaEvolve。

不同於傳統的編程 Agent，它專注於通用算法的自動發現與持續優化。顧名思義，AlphaEvolve 擅長在「進化」中尋找更優解，它模擬自然選擇機製，能在代碼中不斷迭代、演化出創新算法。

隻要問題能用程序表達、結果能用函數評估，AlphaEvolve 就能迭代算法。Google 表示，在組合數學、幾何學、數論等超過 50 個未解問題中應用後，AlphaEvolve 在約 20% 的問題上超越了人類現有解法。

DeepMind 研究員 Matej Balog 表示：「AlphaEvolve 在十多個公開的數學問題上取得了突破。但最讓我激動的是：它找到了 56 年以來，4x4 複數矩陣乘法算法的首次改進。這個結果，來自它自創的一種複雜搜索算法。」

AlphaEvolve 的價值不僅在數學，它展現出的是一種通用的「算法發現能力」。Balog 表示：「我們對 AlphaEvolve 的應用，還隻是觸及表層。」

01

問題能用程序表達、結果能用函數評估，

AlphaEvolve 就能迭代算法

Google DeepMind 表示，AlphaEvolve 能夠在多個複雜問題中取得突破，關鍵在於其背後運作的是一整套自動進化機製，能持續優化算法並提升性能。

從本質上看，AlphaEvolve 解決的是一個通用的黑盒優化問題：maximize h(f)。其中，f 是由大型語言模型生成的程序，h 是衡量該程序質量的評估函數。

在實際流程中，AlphaEvolve 首先通過提示采樣器（prompt sampler）組裝提示詞，引導語言模型生成代碼。DeepMind 使用了兩個不同的 Gemini 模型協同工作：Gemini Flash 以更高速度生成大量候選方案，擴展思路的廣度；Gemini Pro 則提供更深入的結構性建議。二者結合，使模型能產出具備實際可行性和算法深度的程序。

生成的程序會被送入自動評估係統，經過驗證、運行和打分後，寫入程序數據庫。數據庫中運行著一套進化算法，會從已有程序中挑選表現最好的方案，為下一輪提示提供方向，不斷迭代出更優解。

AlphaEvolve 的一個核心點就是這套自動評估指標。它能對生成程序進行驗證、運行和評分。每一個程序都會被 h 函數衡量其準確性、運行效率、代碼質量等維度。這些評分標準是客觀、量化的，使 AlphaEvolve 能夠在無需人類直接幹預的前提下持續優化。

圖片來源：Google

不過，這裏的 h 函數依然由人類研究人員定義，可以是準確率、運行時間，甚至代碼可讀性等維度的組合。AlphaEvolve 負責的隻是在給定 h 的前提下去尋找最優的 f。對於一些數學問題或研究任務，Google 也可能預設 h。

這也說明了 AlphaEvolve 當前的邊界：它適用於那些「成果是否優秀」可以自動量化判斷的問題。但如何定義「優秀」，仍需人來給出。在需要人類實驗才能確定是否優秀的問題上，AlphaEvolve 就無法評估了。

以 DeepMind 研究員提到的 4×4 複數矩陣乘法為例，研究人員設置了一組任務目標，包括達到的最低乘法次數（即張量分解的秩）以及達到該結果的隨機種子比例。這些信號構成了 AlphaEvolve 的優化目標，引導它在複雜的搜索空間中穩步「爬山」。

AlphaEvolve 從問題定義出發，基於標準的梯度優化流程（包括初始化器、重建損失函數、Adam 優化器等），演化出了一係列高質量的張量分解算法。最終，它在 14 個矩陣乘法結構上超越了已知最優結果。其中最引人注目的，是它提出了曆史上第一個能用 48 次乘法完成 4×4 複數矩陣乘法的算法——打破了 56 年未被突破的記錄。

圖片來源：Google

AlphaEvolve 的技術路線可追溯到 DeepMind 早期提出的 FunSearch 係統。FunSearch 同樣利用語言模型引導程序進化，曾被用於發現數學結構或在線算法策略。但與之相比，AlphaEvolve 的擴展性顯著提升：它可以修改完整程序，處理多個函數、組件、甚至跨語言結構協同優化，而不僅限於 Python 中的單一函數。

這種更高的通用性，使 AlphaEvolve 不再隻是一個「智能改函數」的工具，而像是一個可以自主演化大型算法係統的「程序設計夥伴」。

據 DeepMind 披露，AlphaEvolve 已被應用於 50 多個數學難題，涵蓋數學分析、幾何學、組合數學與數論等領域。大多數實驗都能在數小時內完成部署。

在約 75% 的問題中，它成功重新發現了當前的最優解。更令人驚喜的是，在約 20% 的問題中，它給出了比已知方法更好的解法。比如在數學界研究了 300 多年的「接吻數問題」中，AlphaEvolve 構造出由 593 個球體組成的新結構，在 11 維空間中刷新了下界。

除了數學，AlphaEvolve 也已在 Google 內部實際落地應用，解決了計算棧中多個層麵的工程問題，包括：為 Borg 係統設計新的調度啟發式；優化大語言模型訓練時使用的矩陣乘法內核；改寫 TPU 芯片中的算術電路；加速 Transformer 注意力機製的執行速度。

這些任務之間跨度極大，但都具備一個共性：問題能用程序表達、結果能用函數評估。隻要這兩點成立，AlphaEvolve 就可以發揮作用。

02

更多的智能供給，帶來無限的遊戲

此次發布來自 Google DeepMind，這一團隊曾推出 AlphaGo、AlphaFold 等具有裏程碑意義的 AI 係統，在博弈智能與科學發現領域顯著擴展了人工智能的能力邊界。

AlphaEvolve，與依賴強化學習和自我博弈（如 AlphaGo）的係統不同，是通過語言模型生成大量程序候選，結合自動評估與進化機製，篩選出更優的算法方案。它更像是一種可編排、可擴展的算法構造與發現框架。

相比 AlphaGo 展示的是人工智能如何在規則明確定義的博弈中超越人類，AlphaEvolve 的意義可能更在於：它為研究者提供了一種持續、可擴展的算法生成與優化能力。

算法設計與調優曆來是一種高度稀缺的技術能力。算法工程師在就業市場上普遍享有更高的薪酬與職位門檻，足以反映其複雜性與稀缺性。

而現在，隻要設定明確的評估方式，AlphaEvolve 就有可能以接近無限的算力和耐心，自動探索並優化算法解法。這意味著，「發現並改進算法」這項曾依賴個體經驗的能力，開始從稀缺、手工、不可複製，變為可自動化、可規模化的智能供給。

尤瓦爾·赫拉利曾經有一個比喻，形容 AlphaGo 為人類帶來的衝擊。

人類一直在圍棋星球上探索如何下圍棋，不斷有人畫出路線圖，探索圍棋星球的樣貌。直到 AI 出現，人類才驚覺，自己不過是在圍棋星球的一座小島上原地打轉，而真正的星球遼闊無邊，未曾涉足的區域遠超想象。

而去年到今年，在科研領域，我們也不斷地看到 AI 正在做同樣的事情。2024 年，AI 相關成果首次同時獲得諾貝爾物理學獎與化學獎，而這很有可能成為未來的科研常態。

從某種程度上說，AlphaEvolve 所做的，是以前所未有的速度加快這張科研的「未知地圖」的展開。以無限的智能供給，讓每個領域都有可能被再探索一遍。

當「能被發現的算法」不再稀缺，人類對知識的征途，或許才剛剛開始。

切換到網頁版

56年無人解開的數學難題，被穀歌的新AI突破了

極客公園 2025-05-18 00:19:24