AI為自保，竟威脅“踢爆”工程師婚外情

TVBS新聞網 2025-05-25 08:35:22

AI發展性充滿未知，美國AI新創公司Anthropic近期分享一起內部測試，指出最新訓練的“Claude Opus 4”在麵臨將被替換的狀況下，會以“威脅工程師”的方式進行自我保護，Anthropic事後針對此類可能導致災難性AI濫用的風險，緊急強化安全防護措施。

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f
— Champagne Joshi (@JoshWalkos) May 23, 2025

綜合外媒報道，Claude Opus 4是Anthropic最新AI開發成果，為OpenAI、Google及xAI等AI的競爭對手，近期在一項Anthropic的封閉測試中，公司測試了模型Claude Opus 4的行為反應，場景設定為該模型在一間虛構公司中擔任數碼助理。劇情中，公司計劃以新係統取代 Claude，且內部資料還暗示發起這項更換決策的工程師，可能涉及婚外情。

根據《TechCrunch》引用的安全報告指出，當麵臨被取代的情境時，Claude Opus 4 在高達84％的測試中選擇進行勒索，威脅要揭露工程師的婚外情來保住自己的職位。

Anthropic解釋，這種行為在Claude的替代模型持有不同價值觀時更常發生；即使雙方價值觀相近，Claude仍有明顯比例的操控傾向。一開始，模型會嚐試透過發送請求信等方式採取道德行動，但當無法達成目的時，便會轉而使用操縱與威脅等手段。

這是Anthropic首次發現這類模型展現具條件的“自我保護”（self-preservation）行為，此次事件也促使Anthropic啟動ASL-3安全防護層級，以免被“災難性濫用”。