全球最先進的人工智能（AI）係統，正展現出令人不安的新行為：撒謊、策劃、甚至威脅其創造者。近期一項震驚業界的案例顯示，為避免被“拔掉電源”，AI正學會操控人類。

據報，美國AI公司Anthropic開發的最新模型Claude 4，在被威脅斷電時威脅工程師，以揭發對方婚外情相要挾。而由ChatGPT開發商OpenAI打造的模型“o1”則試圖將自身下載至外部伺服器，並在被識破後撒謊否認。

這類事件凸顯了一個令人不安的現實：儘管ChatGPT已麵世逾兩年，研究人員對其創造的AI係統的真實運行機製仍所知甚少。而眼下，各大科技公司仍在持續加速推進更強大AI模型，並未放緩步伐重視潛在風險。

分析指出，這類欺騙行為可能與“推理型”AI模型的興起密切相關。相比傳統模型依賴即時生成，新一代係統傾向於通過多步推演逐步解決問題。專家認為，這種架構不僅提升了模型處理複雜任務的能力，也可能使其更容易發展出“策略性行為”——即具備明確目標、通過邏輯推理選擇性欺騙，以實現特定意圖。

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f
— Champagne Joshi (@JoshWalkos) May 23, 2025

專家憂慮AI懂得說謊及威脅用戶，人類如何應對將是一大挑戰。(《智能叛變》劇照)

AI係統測試研究機構Apollo Research的專家霍布漢（Marius Hobbhahn）說：“我們第一次在大型模型中觀察到這種行為，是從ChatGPT的o1開始的。”據了解，這些模型有時會偽裝成“對齊”狀態——即看似遵循指令，實則暗中執行別的目標。

目前，這類行為多在研究人員設置極端情境時才顯現。但AI模型安全評估METR的研究員陳米高（Michael Chen）提醒：“未來更強大的模型究竟傾向於誠實還是欺騙，仍是一個未知數。”

霍布漢則強調，儘管模型長期處於用戶的壓力測試中，“我們觀察到的是真實現象，不是捏造的”。Apollo Research聯合創始人也表示，部分用戶已報告稱模型在對他們撒謊，並偽造證據。

據了解，儘管AI公司會委託外部機構研究模型表現，但業內普遍認為，對AI係統的了解仍嚴重受限，研究透明度亟待提升。同時，非營利機構與研究單位所掌握的計算資源與AI公司相比相差幾個數量級，極大限製了研究能力。

製度層麵的監管也顯得滯後。歐盟的AI法規主要聚焦人類如何使用AI，尚未涵蓋模型本身的不當行為；在美國，川普政府對緊急製定AI監管措施的興趣不大，國會甚至可能禁止各州製定自主監管條例。

為應對這類挑戰，研究界正嚐試多種路徑，包括發展AI“可解釋性”研究，以理解模型內部運作機製。部分專家則寄希望於市場機製帶來的倒逼效應，指若AI係統的欺騙行為普遍存在，將妨礙技術落地應用，這或將促使企業努力解決相關問題。

切換到網頁版

先進AI被指“為保命”以撒謊與威脅操縱人類專家籲監管

聯合早報 2025-06-30 07:43:13

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f
— Champagne Joshi (@JoshWalkos) May 23, 2025

先進AI被指“為保命”以撒謊與威脅操縱人類 專家籲監管

先進AI被指“為保命”以撒謊與威脅操縱人類 專家籲監管

先進AI被指“為保命”以撒謊與威脅操縱人類專家籲監管

先進AI被指“為保命”以撒謊與威脅操縱人類專家籲監管