簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » AI為自保,竟威脅“踢爆”工程師婚外情

AI為自保,竟威脅“踢爆”工程師婚外情

文章來源: TVBS新聞網 於 2025-05-25 08:35:22 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

AI發展性充滿未知,美國AI新創公司Anthropic近期分享一起內部測試,指出最新訓練的“Claude Opus 4”在麵臨將被替換的狀況下,會以“威脅工程師”的方式進行自我保護,Anthropic事後針對此類可能導致災難性AI濫用的風險,緊急強化安全防護措施。

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f

— Champagne Joshi (@JoshWalkos) May 23, 2025
綜合外媒報道,Claude Opus 4是Anthropic最新AI開發成果,為OpenAI、Google及xAI等AI的競爭對手,近期在一項Anthropic的封閉測試中,公司測試了模型Claude Opus 4的行為反應,場景設定為該模型在一間虛構公司中擔任數碼助理。劇情中,公司計劃以新係統取代 Claude,且內部資料還暗示發起這項更換決策的工程師,可能涉及婚外情。

根據《TechCrunch》引用的安全報告指出,當麵臨被取代的情境時,Claude Opus 4 在高達84%的測試中選擇進行勒索,威脅要揭露工程師的婚外情來保住自己的職位。

Anthropic解釋,這種行為在Claude的替代模型持有不同價值觀時更常發生;即使雙方價值觀相近,Claude仍有明顯比例的操控傾向。一開始,模型會嚐試透過發送請求信等方式採取道德行動,但當無法達成目的時,便會轉而使用操縱與威脅等手段。

這是Anthropic首次發現這類模型展現具條件的“自我保護”(self-preservation)行為,此次事件也促使Anthropic啟動ASL-3安全防護層級,以免被“災難性濫用”。

查看評論(3)

24小時熱點排行

近日曝光!被印軍包圍,兩名落單解放軍嘴咬手雷
“00後”中國女孩東京奪冠,日本觀眾排隊索要簽名
哈佛演講女生蔣雨融事件還會再度反轉嗎?
台灣旅行團被整團賣到緬甸,3人因年紀太大被“退貨”
特朗普宣布關稅新計劃!它的價格應聲飆漲

24小時討論排行

離北京最近俄國戰略轟炸機遭摧毀 中國網友:幹得好!
紐約時報:拒絕中國學生對美國可能適得其反
蔣雨融和哈佛大學,都不知道自己錯在哪裏
"六四"36周年之際,六四紀念館洛杉磯重新開館
俄烏談判草草結束,細看條件都挺狠啊...
六四前夕“自由民主”掛上福建泉州華僑大學旁的天橋
語言的消退:就我一個人拒絕說“東大”、“美麗國”嗎?
紐約時報:兩名中國學生被指控走私真菌入境美國
馬斯克怒噴特朗普“大而美”法案:令人厭惡至極
搶哈佛國際生!日本九州大學宣布"學費全免"不論國籍
美國務卿:中共無法抹去自由民主的人類共同價值
習近平授權"與美談判來硬的",恐要求購買管製晶片
美國市場正在分化,為什麽MAGA經濟能蓬勃發展?
美國人愛做飯了!美媒擔憂經濟衰退 稱“不是好征兆”
AI何時超越人類?專家警告"最快明年"恐掀失業潮
100萬美國新娘,離不開速賣通上的中國婚紗
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

文學城新聞
切換到網頁版

AI為自保,竟威脅“踢爆”工程師婚外情

TVBS新聞網 2025-05-25 08:35:22

AI發展性充滿未知,美國AI新創公司Anthropic近期分享一起內部測試,指出最新訓練的“Claude Opus 4”在麵臨將被替換的狀況下,會以“威脅工程師”的方式進行自我保護,Anthropic事後針對此類可能導致災難性AI濫用的風險,緊急強化安全防護措施。

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f

— Champagne Joshi (@JoshWalkos) May 23, 2025
綜合外媒報道,Claude Opus 4是Anthropic最新AI開發成果,為OpenAI、Google及xAI等AI的競爭對手,近期在一項Anthropic的封閉測試中,公司測試了模型Claude Opus 4的行為反應,場景設定為該模型在一間虛構公司中擔任數碼助理。劇情中,公司計劃以新係統取代 Claude,且內部資料還暗示發起這項更換決策的工程師,可能涉及婚外情。

根據《TechCrunch》引用的安全報告指出,當麵臨被取代的情境時,Claude Opus 4 在高達84%的測試中選擇進行勒索,威脅要揭露工程師的婚外情來保住自己的職位。

Anthropic解釋,這種行為在Claude的替代模型持有不同價值觀時更常發生;即使雙方價值觀相近,Claude仍有明顯比例的操控傾向。一開始,模型會嚐試透過發送請求信等方式採取道德行動,但當無法達成目的時,便會轉而使用操縱與威脅等手段。

這是Anthropic首次發現這類模型展現具條件的“自我保護”(self-preservation)行為,此次事件也促使Anthropic啟動ASL-3安全防護層級,以免被“災難性濫用”。