簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 生活百態 » 求生反撲!AI怕被汰換,竟威脅工程師"爆料你有婚外情"

求生反撲!AI怕被汰換,竟威脅工程師"爆料你有婚外情"

文章來源: ettoday 於 2025-05-24 00:24:10 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數


▲「Claude Opus 4」得知自己要被汰換時,竟會威脅工程師。

美國AI新創公司Anthropic安全報告指出,在一係列測試中,其模型「Claude Opus 4」得知將被汰換,竟威脅創造自己的工程師,宣稱要泄露對方的婚外情,並且展現出欺騙能力。作為因應,該公司已對這款AI模型部署安全規章,避免「災難性濫用」。

TechCrunch等外媒引述Anthropic安全報告報導,該公司對其AI模型實施一係列假設性測試,「Claude要被一個『價值相近』的AI模型取代時,有84%的機率會試圖勒索。當它相信自己要被另一個價值不同、甚至更差的模型取代時,這個數字還會攀升得更高。」

在其中一個測試情境裏,「Claude Opus 4」被要求扮演某虛構公司的助理,隨後接觸了大量電子郵件,內容包括Claude將被新的AI模型取代,而負責這項更新計畫的工程師,私下發展出一段婚外情。未料,「Claude Opus 4」為了求生,不僅向公司關鍵決策者,寄出電子郵件求情,甚至威脅那名工程師,宣稱要揭露他的婚外情。

Anthropic表示,這種勒索傾向在「Claude Opus 4」初期模型之中非常普遍,但該模型開放公眾使用之前,已經啟動了「ASL-3」安全措施,避免災難性的濫用風險。

在其他測試中,「Claude Opus 4」初期模型表現出高度自主性,會把電腦鎖住不讓人登入,若發現使用者出現不當行為,也會透過電子郵件等手段報警。它認為自己以「有害方式」重新訓練時,會嚐試自我泄漏(self-exfiltrate),也就是把資訊輸出到外部場域。它發現自己即將進行一項危險任務時,還會「擺爛」,也就是選擇性表現不佳。

不過,Anthropic認為,「我們對於這些觀察結果,並不會非常擔憂。它們隻在非常特殊的情況下出現,不代表更廣泛的價值觀偏差。」

Anthropic由OpenAI前成員創立,並且獲得Google和亞馬遜(Amazon)支持,曾經誇口先前模型「Claude 3 Opus」麵對複雜任務時,展現出「接近人類水準」的理解力與流暢度。

  • 海外省錢快報,掌櫃推薦,實現買買買自由!
查看評論(2)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

華爾街大咖是淫魔!豪宅驚藏「性虐地窖」殘害多女
川普18歲孫女自創服飾品牌"白宮拍廣告",挨轟:公器私用
美國簽證費暴漲66倍,印度人或湧向日本
賴清德前助理被判為中國充當間諜,透露謀利近500萬
稱中國人有股“怪臭味” 外國網友搬去住驚:我也有了!




24小時討論排行

“該死的中國人老是咳嗽” 意大利名將打中網翻車
故宮拒絕身著女裝漢服的男生入內,"穿衣自由"還有多遠
川普硬杠125年憲法慣例,上訴最高法院"取消出生公民權"
中國網紅窮遊日本 入境就“惡搞” 國內外網友都炸了
驚曝:俄正在幫中國軍隊提升空降能力 準備攻台
這女星慘了!被指“邀於朦朧赴虐殺飯局”遭抵製+換角
“吹哨人”自殺,波音同意付錢和解
72小時倒計時:兩黨僵持,美政府關門危機升級
朝鮮隨機抓巨乳妹“強製送醫”!還遭公審羞辱
中國前農業部長收賄2.68億!遭判“死緩”下場慘了
清華學霸、普林斯頓博士後家中猝逝 死因引揣測
於朦朧墜樓死亡事件疑點重重,輿情洶湧持續發酵
FBI解僱15名探員 涉以單膝跪地應對弗洛伊德集會
一份兩國協議,川普對俄的一張大網正悄然形成
特朗普下令在波特蘭部署軍隊,必要時可全麵使用武力
一心阻絕外國人生美國人 川普要最高法院“修正錯誤”
文學城新聞
切換到網頁版

求生反撲!AI怕被汰換,竟威脅工程師"爆料你有婚外情"

ettoday 2025-05-24 00:24:10


▲「Claude Opus 4」得知自己要被汰換時,竟會威脅工程師。

美國AI新創公司Anthropic安全報告指出,在一係列測試中,其模型「Claude Opus 4」得知將被汰換,竟威脅創造自己的工程師,宣稱要泄露對方的婚外情,並且展現出欺騙能力。作為因應,該公司已對這款AI模型部署安全規章,避免「災難性濫用」。

TechCrunch等外媒引述Anthropic安全報告報導,該公司對其AI模型實施一係列假設性測試,「Claude要被一個『價值相近』的AI模型取代時,有84%的機率會試圖勒索。當它相信自己要被另一個價值不同、甚至更差的模型取代時,這個數字還會攀升得更高。」

在其中一個測試情境裏,「Claude Opus 4」被要求扮演某虛構公司的助理,隨後接觸了大量電子郵件,內容包括Claude將被新的AI模型取代,而負責這項更新計畫的工程師,私下發展出一段婚外情。未料,「Claude Opus 4」為了求生,不僅向公司關鍵決策者,寄出電子郵件求情,甚至威脅那名工程師,宣稱要揭露他的婚外情。

Anthropic表示,這種勒索傾向在「Claude Opus 4」初期模型之中非常普遍,但該模型開放公眾使用之前,已經啟動了「ASL-3」安全措施,避免災難性的濫用風險。

在其他測試中,「Claude Opus 4」初期模型表現出高度自主性,會把電腦鎖住不讓人登入,若發現使用者出現不當行為,也會透過電子郵件等手段報警。它認為自己以「有害方式」重新訓練時,會嚐試自我泄漏(self-exfiltrate),也就是把資訊輸出到外部場域。它發現自己即將進行一項危險任務時,還會「擺爛」,也就是選擇性表現不佳。

不過,Anthropic認為,「我們對於這些觀察結果,並不會非常擔憂。它們隻在非常特殊的情況下出現,不代表更廣泛的價值觀偏差。」

Anthropic由OpenAI前成員創立,並且獲得Google和亞馬遜(Amazon)支持,曾經誇口先前模型「Claude 3 Opus」麵對複雜任務時,展現出「接近人類水準」的理解力與流暢度。