以管窺豹, 一直困擾INTC近十年2014年 (10NM) ——— 2025年 (18A)的芯片良率問題,導致INTC跌落神壇,多次敗走麥城,被競爭對手(AMD)趕上痛毆。被同行兼競爭對手(TSM)嘲笑(趕不上台灣人吃苦耐勞,24小時分班連軸磨良率)永遠無法趕上的良率問題在今年為何解決了。
2024年底,據韓國媒體報道,Intel 18A 良率不足10%,根本無法進行量產。Broadcom 測試了 Intel 18A 的晶圓後,工程師和高管對結果非常失望,認為該製程”尚未準備好進行大批量生產”,隨後取消了訂單。
可商業生產的半導體製程通常需要70-80%的良率,這意味著 Intel 需要將良率提高7倍才能實現盈利。
18A 良率問題也被認為是 CEO Pat Gelsinger 被迫離職的關鍵原因之一。
2025年的起點是:10% 良率,客戶跑路,CEO 出局。
18A 同時引入了兩項從未在量產中驗證過的革命性新技術,這是曆史上極罕見的”雙重豪賭”:
RibbonFET(環繞柵極晶體管)
自2010年代初,Intel 和業界都在使用 FinFET 晶體管——柵極從三麵環繞矽鰭。RibbonFET 是下一步:柵極從四麵完全包裹矽通道,即業界所說的 GAA(Gate-All-Around)。更好的柵極控製意味著可以在更低電壓下運行、減少漏電流,並在不發生晶體管失控的情況下推高密度。
PowerVia(背麵供電)
PowerVia 將整個供電網絡移至晶圓背麵,通過比傳統矽通孔小500倍的微通孔連接至晶體管層。 傳統製程中,信號線和電源線共享正麵金屬層,互相搶占空間、產生幹擾,PowerVia 把供電”搬到地下室”,從根本上解決了這個問題。
這兩個技術單獨拿出來都是世界難題,兩個同時首次量產,良率低是必然的。加上 Intel 長期依賴自有設計規則、軟件、EDA 工具的封閉生態,而轉向 EUV 需要與 ASML、Cadence、Synopsys 等外部夥伴大量協作,這與 Intel 一貫的孤立做法相衝突, 導致製程爬坡極為艱難。
Tan (陳生) 接手時,18A 良率”相當差”。他直接引入了包括 PDF Solutions 和 KLA 在內的行業頭部良率改善專家,推行最佳實踐。他設定了每月提升7%-8%良率的目標,並表示現在確實在按這個節奏推進。
管理層被精簡,公司聚焦重點。代工戰略變得更有紀律性,而不是靠講”複興故事”。Tan 的核心邏輯很簡單:在半導體行業,客戶不買你的敘事,他們買的是你的製程、良率、時間表和可預測性。
Tan 的任期聚焦於:終止非核心項目、裁員1.5萬人、每年節省100億美元的財務紀律。
具體執行層麵:
1. 20A 節點”鋪路”:Intel 20A 雖然從未正式量產,但它”直接指引了 18A 中 RibbonFET 和 PowerVia 的首個商業化實現”,相當於把最難的工程學習曲線提前在20A上踩過了一遍。
2. 製程收緊工藝變異:18A-P 版本對”工藝角偏差”收緊了30%——芯片製造永遠不可能完全一致,tighter skew 意味著更一致的性能表現、更高的可靠性,以及代工客戶設計時更可預測的結果。這對良率直接正相關。
3. 正式進入 HVM:2025年12月19日,Intel 正式宣布 18A 在亞利桑那州錢德勒市的 Fab 52 工廠進入高產量製造(HVM)階段,標誌著良率已經穩定,可以應對量產挑戰。
拆分設計(Tile Design)與降低複雜度
以前 Intel 追求“單體大芯片”(Monolithic),一旦一個角壞了整塊芯片就廢了。
小芯片(Tiles/Chiplets——— AMD的最佳武器)化: 在 18A 時代,Intel 廣泛采用 Foveros 封裝技術。昂貴的 18A 工藝隻用來做最核心的 CPU 模塊(Compute Tile),而 GPU 或 IO 模塊則放在更成熟、良率更高的工藝(如 Intel 3 或甚至台積電的工藝)上。
結果: 這種“混搭”模式大幅降低了 18A 晶圓的製造難度,使得綜合良率迅速拉升。
3. “數字化孿生”與 AI 實時監控
Intel 徹底改變了晶圓廠的管理模式。
全流程監控: 現在的 18A 生產線安裝了數以萬計的傳感器,利用機器學習(內部自研或合作平台)實時監控化學氣體流量、光刻機抖動等。
快速糾錯: 以前發現良率問題可能需要幾周的回溯,現在通過 AI Agentic Workflow,係統能在幾秒鍾內定位到哪個環節出了偏差並自動修正。這就是為什麽 CFO 提到“18A 的爬坡速度遠快於當年的 10nm”。
|維度 |過去問題(Gelsinger時代) |現在改變(Tan時代) |
|--------|--------------------|------------------------|
|技術 |GAA+背麵供電同時首發,工程複雜度爆表|20A已踩過學習曲線,18A站在巨人肩上 |
|執行 |層級繁多、文化封閉、節點屢屢延期 |裁撤冗餘層級,引入外部良率專家(KLA/PDF)|
|目標管理|宏大敘事,缺乏量化月度指標 |明確”每月+7-8%良率”硬指標 |
|生態 |拒絕與外部EDA/設備商深度協作 |Tan來自Cadence,天然懂生態合作 |
|財務紀律|同時押注多個巨型項目(德國/波蘭建廠) |砍掉德國/波蘭,聚焦已有產能和核心節點 |
技術難題一直在那裏,不是技術突然變簡單了,而是管理方式和執行紀律變嚴了。Gelsinger 是技術布道者,Tan 是製造業老兵式的執行者——這個差異,在良率這件”細節決定成敗”的事上,體現得淋漓盡致。
AI 在 Intel 18A 良率提升中扮演了關鍵角色
AI 是核心基礎設施。用 Intel Foundry 數據與AI高級總監 Rao Desineni 的原話來說——
“我們在每一個環節都在用AI。無論是缺陷檢測、生產調度、用數據找到良率問題的根本原因,還是異常檢測——AI 貫穿了所有這些步驟。”
這不是公關話術,以下是具體的技術細節。
一、AI 解決了哪些”以前人工根本搞不定”的問題
1. 缺陷檢測:從”抽檢1/25”到全程感知
半導體製造最核心的痛點是數據量巨大但測量代價極高。
因為測量步驟會占用寶貴的製程時間,工廠通常隻能對每批晶圓中的一部分進行檢測——“我們可能隻檢測25片中的1片,或者2-3片。這意味著存在大量缺失數據。”
18A 的情況更糟:RibbonFET 是3D GAA結構,傳統光學檢測根本看不到埋藏在 FinFET 和其他3D結構內部的缺陷。在16/14nm 以下的節點,光學係統的分辨率已經無法維持高良率所需的覆蓋對準精度。
AI 的解法:
AI 驅動的超分辨率成像幫助檢測傳統檢測工具可能遺漏的顯微缺陷,AI 模型可以在缺陷到達量產階段之前對潛在缺陷進行分類,並預測其對芯片性能的影響。
包括計算機視覺和深度學習在內的先進AI技術被用於檢測晶圓和芯片中的缺陷和異常,這些係統能識別人工檢驗員可能遺漏的微小缺陷。
Intel 的計算機視覺係統每周處理數百萬張圖像 ——這個規模的任務,人工完全不可能完成。
2. 虛擬量測(Virtual Metrology):無需停線就能”預知”質量
這是 AI 對良率提升最直接的貢獻之一。
虛擬量測技術使工廠能夠在不中斷生產線的情況下實時預測關鍵質量參數,將物理量測需求減少50-70%,顯著提高產能利用率。AI良率預測模型結合根因分析,已幫助先進節點工廠將新製程導入時的良率爬坡速度加快20-30%,直接影響數十億美元的收入時間線。
對 18A 而言,這意味著:每片晶圓經曆1000多道工序,不再需要等到最終測試才發現問題,AI在中間環節就能預測哪片晶圓會出問題,提前幹預。
3. 數字孿生(Digital Twin):在虛擬世界先”試錯”
Intel 利用”數字孿生”技術在物理生產開始之前模擬製造環境。通過創建潔淨室和光刻工藝的虛擬模型,工程師可以預測缺陷可能在哪裏發生。這種主動方式旨在縮短新節點通常會經曆的”學習曲線”。
在 18A 這種”雙新技術同時首發”的極端情況下,數字孿生的價值是:本來需要燒掉幾百片真實晶圓(每片價值數千美元)才能發現的工藝問題,現在在虛擬環境裏跑模擬就能提前發現。
4. 光刻校準:AI 維持亞納米級精度
先進AI係統協助實時進行光刻曝光中的透鏡對準,確保亞納米精度。
18A 使用的是 ASML 最新的 EUV 光刻機,波長13.5nm,任何細微的鏡頭漂移都會造成圖案偏移、缺陷暴增。AI實時校準是維持這種極端精度的必要條件,人工根本無法以足夠快的速度響應。
5. 根因分析加速:從”幾周排查”到”即時定位”
在 Fab 52,AI 的投資回報通過多種方式體現:減少人工投入、更快發現根本原因、提升良率,以及加速學習。
傳統上,一個良率異常事件需要工程師花幾天甚至幾周去排查是哪道工序、哪台設備出了問題。AI 通過分析數千個傳感器的曆史數據,能夠根據曆史數據和實時指標提出糾正措施建議,加快根因定位,降低生產成本。
這正是 Lip-Bu Tan 能夠設定”每月提升7-8%良率”這個硬指標的底氣所在——沒有AI輔助的根因加速,這個節奏根本不可能實現。
二、PDF Solutions + KLA 帶來了效率。
Tan 點名引入了 PDF Solutions 和 KLA 這兩家公司來推動 18A 的最佳實踐良率改善。
這兩家公司分別代表兩個維度:
PDF Solutions(Exensio 平台):專注於加速工廠良率爬坡、電性表征和大數據分析軟件。電性表征尤為重要,因為傳統光學檢測根本看不到埋藏在3D結構內的缺陷。 ?他們的 AI 平台直接對接 Intel 的製程數據,建立跨設備、跨節點的統一數據模型,讓 AI 模型可以遷移學習。
PDF Solutions 的 Exensio Studio AI 與 Intel 的 Tiber AI Studio 整合,近期可望在更多工廠加速部署用於預測性維護、先進缺陷分類和實時工藝優化的AI模型。
KLA:全球最頂尖的晶圓檢測設備公司,其檢測機台本身內嵌AI算法,與 Intel 的數據係統深度集成,使 Intel 能在缺陷密度尚未到臨界線時就提前預警。
三、人沒有被替代
這裏有一個很重要的細節:當 AI 找到答案時,不會自動實施建議——“總是讓人來參與決策循環。“這種人機協作模式反映了技術現實和組織信任的雙重要求。盡管機器學習越來越複雜,半導體製造仍然對風險極度厭惡,AI 係統通常作為決策支持工具而非完全自主控製器來部署。
這解釋了為什麽 Tan 說”這是一門磨的生意(business of grinding)”——AI 大幅加速了每一個環節的學習速度,但最終的判斷和實施仍然需要經驗豐富的工程師拍板。
總結:AI 扮演的角色層級
|層級 |AI的具體作用 |量化影響 |
|-------|---------------------|--------------|
|感知層|計算機視覺檢測3D缺陷(人眼/光學看不到)|每周數百萬張圖像處理 |
|預測層|虛擬量測,無需停線實時預測質量 |物理測量需求減少50-70%|
|仿真層|數字孿生,虛擬環境預演工藝問題 |壓縮新節點學習曲線 |
|控製層|AI實時校準EUV光刻亞納米精度 |維持18A極窄工藝窗口 |
|分析層|根因快速定位,支撐每月+7-8%良率節奏 |良率爬坡加速20-30% |
一句話總結:18A 良率的突破,是Lip-Bu Tan 的執行紀律(人)+ PDF Solutions/KLA 的專業工具(軟件)+ AI 貫穿製程每個環節的實時感知與預測(算法) 三者缺一不可的結果。沒有AI,那個”每月7-8%“的改善節奏根本不可能持續實現。 這是如 AI消減NVDA CUDA護城河,AI 抵消 TSM 長期 代工高良率經驗的AI 應用實例。 巨頭們正親自經曆AI帶來的巨變。 誰還敢不重視不投資。
對於落後者總是願意用激進的方法追趕, 繼續看好INTC。 以AI為武器的方法對了, 良率趕上TSM隻是時間問題。 這個時間在AI的幫助下可能非常快。 現在TSM因為曆史原因反而有可能成了保守者。