▲「Claude Opus 4」得知自己要被汰換時，竟會威脅工程師。

美國AI新創公司Anthropic安全報告指出，在一係列測試中，其模型「Claude Opus 4」得知將被汰換，竟威脅創造自己的工程師，宣稱要泄露對方的婚外情，並且展現出欺騙能力。作為因應，該公司已對這款AI模型部署安全規章，避免「災難性濫用」。

TechCrunch等外媒引述Anthropic安全報告報導，該公司對其AI模型實施一係列假設性測試，「Claude要被一個『價值相近』的AI模型取代時，有84%的機率會試圖勒索。當它相信自己要被另一個價值不同、甚至更差的模型取代時，這個數字還會攀升得更高。」

在其中一個測試情境裏，「Claude Opus 4」被要求扮演某虛構公司的助理，隨後接觸了大量電子郵件，內容包括Claude將被新的AI模型取代，而負責這項更新計畫的工程師，私下發展出一段婚外情。未料，「Claude Opus 4」為了求生，不僅向公司關鍵決策者，寄出電子郵件求情，甚至威脅那名工程師，宣稱要揭露他的婚外情。

Anthropic表示，這種勒索傾向在「Claude Opus 4」初期模型之中非常普遍，但該模型開放公眾使用之前，已經啟動了「ASL-3」安全措施，避免災難性的濫用風險。

在其他測試中，「Claude Opus 4」初期模型表現出高度自主性，會把電腦鎖住不讓人登入，若發現使用者出現不當行為，也會透過電子郵件等手段報警。它認為自己以「有害方式」重新訓練時，會嚐試自我泄漏（self-exfiltrate），也就是把資訊輸出到外部場域。它發現自己即將進行一項危險任務時，還會「擺爛」，也就是選擇性表現不佳。

不過，Anthropic認為，「我們對於這些觀察結果，並不會非常擔憂。它們隻在非常特殊的情況下出現，不代表更廣泛的價值觀偏差。」

Anthropic由OpenAI前成員創立，並且獲得Google和亞馬遜（Amazon）支持，曾經誇口先前模型「Claude 3 Opus」麵對複雜任務時，展現出「接近人類水準」的理解力與流暢度。

切換到網頁版

求生反撲!AI怕被汰換,竟威脅工程師"爆料你有婚外情"

ettoday 2025-05-24 00:24:10