簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 生活百態 » 求生反撲!AI怕被汰換,竟威脅工程師"爆料你有婚外情"

求生反撲!AI怕被汰換,竟威脅工程師"爆料你有婚外情"

文章來源: ettoday 於 2025-05-24 00:24:10 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數


▲「Claude Opus 4」得知自己要被汰換時,竟會威脅工程師。

美國AI新創公司Anthropic安全報告指出,在一係列測試中,其模型「Claude Opus 4」得知將被汰換,竟威脅創造自己的工程師,宣稱要泄露對方的婚外情,並且展現出欺騙能力。作為因應,該公司已對這款AI模型部署安全規章,避免「災難性濫用」。

TechCrunch等外媒引述Anthropic安全報告報導,該公司對其AI模型實施一係列假設性測試,「Claude要被一個『價值相近』的AI模型取代時,有84%的機率會試圖勒索。當它相信自己要被另一個價值不同、甚至更差的模型取代時,這個數字還會攀升得更高。」

在其中一個測試情境裏,「Claude Opus 4」被要求扮演某虛構公司的助理,隨後接觸了大量電子郵件,內容包括Claude將被新的AI模型取代,而負責這項更新計畫的工程師,私下發展出一段婚外情。未料,「Claude Opus 4」為了求生,不僅向公司關鍵決策者,寄出電子郵件求情,甚至威脅那名工程師,宣稱要揭露他的婚外情。

Anthropic表示,這種勒索傾向在「Claude Opus 4」初期模型之中非常普遍,但該模型開放公眾使用之前,已經啟動了「ASL-3」安全措施,避免災難性的濫用風險。

在其他測試中,「Claude Opus 4」初期模型表現出高度自主性,會把電腦鎖住不讓人登入,若發現使用者出現不當行為,也會透過電子郵件等手段報警。它認為自己以「有害方式」重新訓練時,會嚐試自我泄漏(self-exfiltrate),也就是把資訊輸出到外部場域。它發現自己即將進行一項危險任務時,還會「擺爛」,也就是選擇性表現不佳。

不過,Anthropic認為,「我們對於這些觀察結果,並不會非常擔憂。它們隻在非常特殊的情況下出現,不代表更廣泛的價值觀偏差。」

Anthropic由OpenAI前成員創立,並且獲得Google和亞馬遜(Amazon)支持,曾經誇口先前模型「Claude 3 Opus」麵對複雜任務時,展現出「接近人類水準」的理解力與流暢度。

查看評論(2)

24小時熱點排行

李承鵬:塔西佗,服不服及杭州糞水的《時間撿屎》
華女18歲懷孕偷渡美國 21年後“功成名就”卻遭驅逐
司法部5月告知川普 他反複出現在愛潑斯坦文件中…
華人地下夜總會被突襲 涉毒品性交易 多名無證移民被捕!
誰也沒想到,特朗普竟會栽在一個死去6年的人手上

24小時討論排行

東北大學6名大學生“溺亡”,讓人後背發涼
糞水+鉛中毒發酵 央視急播:美國近半自來水有毒
紐約時報:從邊境小城滿洲裏看中國如何支撐俄羅斯經濟
特朗普誇耀施壓使日本讓步,追加采購美國數十億軍火
自來水臭了一天,居民是最後一個知道的
觀察:特朗普強硬的關稅策略正在取得成效
半年不到,DeepSeek已跌落神壇?用戶都去哪了?
為了逃避高額學貸 美國年輕人紛紛開始跑路海外了
東北大學6學生溺斃:3負責人被捕 現場直擊組圖
奧巴馬抨擊特朗普關於2016年大選"叛國"的説法"荒謬"
奧巴馬還有道“免罪金牌”,是特朗普給他留下的
杜建英被曝另有丈夫且從未離婚 私生子身份恐成疑
內蒙古6大學生參觀礦場 全部溺亡 掀網絡熱議
德媒:特朗普成功挑撥離間了歐中的關係
學者開投票 中國網友竟一麵倒挺民進黨 原因毛骨悚然
6月份,中國對美三大主要能源進口幾近清零
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

文學城新聞
切換到網頁版

求生反撲!AI怕被汰換,竟威脅工程師"爆料你有婚外情"

ettoday 2025-05-24 00:24:10


▲「Claude Opus 4」得知自己要被汰換時,竟會威脅工程師。

美國AI新創公司Anthropic安全報告指出,在一係列測試中,其模型「Claude Opus 4」得知將被汰換,竟威脅創造自己的工程師,宣稱要泄露對方的婚外情,並且展現出欺騙能力。作為因應,該公司已對這款AI模型部署安全規章,避免「災難性濫用」。

TechCrunch等外媒引述Anthropic安全報告報導,該公司對其AI模型實施一係列假設性測試,「Claude要被一個『價值相近』的AI模型取代時,有84%的機率會試圖勒索。當它相信自己要被另一個價值不同、甚至更差的模型取代時,這個數字還會攀升得更高。」

在其中一個測試情境裏,「Claude Opus 4」被要求扮演某虛構公司的助理,隨後接觸了大量電子郵件,內容包括Claude將被新的AI模型取代,而負責這項更新計畫的工程師,私下發展出一段婚外情。未料,「Claude Opus 4」為了求生,不僅向公司關鍵決策者,寄出電子郵件求情,甚至威脅那名工程師,宣稱要揭露他的婚外情。

Anthropic表示,這種勒索傾向在「Claude Opus 4」初期模型之中非常普遍,但該模型開放公眾使用之前,已經啟動了「ASL-3」安全措施,避免災難性的濫用風險。

在其他測試中,「Claude Opus 4」初期模型表現出高度自主性,會把電腦鎖住不讓人登入,若發現使用者出現不當行為,也會透過電子郵件等手段報警。它認為自己以「有害方式」重新訓練時,會嚐試自我泄漏(self-exfiltrate),也就是把資訊輸出到外部場域。它發現自己即將進行一項危險任務時,還會「擺爛」,也就是選擇性表現不佳。

不過,Anthropic認為,「我們對於這些觀察結果,並不會非常擔憂。它們隻在非常特殊的情況下出現,不代表更廣泛的價值觀偏差。」

Anthropic由OpenAI前成員創立,並且獲得Google和亞馬遜(Amazon)支持,曾經誇口先前模型「Claude 3 Opus」麵對複雜任務時,展現出「接近人類水準」的理解力與流暢度。