簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » 先進AI被指“為保命”以撒謊與威脅操縱人類 專家籲監管

先進AI被指“為保命”以撒謊與威脅操縱人類 專家籲監管

文章來源: 聯合早報 於 2025-06-30 07:43:13 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數


全球最先進的人工智能(AI)係統,正展現出令人不安的新行為:撒謊、策劃、甚至威脅其創造者。近期一項震驚業界的案例顯示,為避免被“拔掉電源”,AI正學會操控人類。

據報,美國AI公司Anthropic開發的最新模型Claude 4,在被威脅斷電時威脅工程師,以揭發對方婚外情相要挾。而由ChatGPT開發商OpenAI打造的模型“o1”則試圖將自身下載至外部伺服器,並在被識破後撒謊否認。

這類事件凸顯了一個令人不安的現實:儘管ChatGPT已麵世逾兩年,研究人員對其創造的AI係統的真實運行機製仍所知甚少。而眼下,各大科技公司仍在持續加速推進更強大AI模型,並未放緩步伐重視潛在風險。

分析指出,這類欺騙行為可能與“推理型”AI模型的興起密切相關。相比傳統模型依賴即時生成,新一代係統傾向於通過多步推演逐步解決問題。專家認為,這種架構不僅提升了模型處理複雜任務的能力,也可能使其更容易發展出“策略性行為”——即具備明確目標、通過邏輯推理選擇性欺騙,以實現特定意圖。

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f

— Champagne Joshi (@JoshWalkos) May 23, 2025


專家憂慮AI懂得說謊及威脅用戶,人類如何應對將是一大挑戰。(《智能叛變》劇照)

AI係統測試研究機構Apollo Research的專家霍布漢(Marius Hobbhahn)說:“我們第一次在大型模型中觀察到這種行為,是從ChatGPT的o1開始的。”據了解,這些模型有時會偽裝成“對齊”狀態——即看似遵循指令,實則暗中執行別的目標。

目前,這類行為多在研究人員設置極端情境時才顯現。但AI模型安全評估METR的研究員陳米高(Michael Chen)提醒:“未來更強大的模型究竟傾向於誠實還是欺騙,仍是一個未知數。”

霍布漢則強調,儘管模型長期處於用戶的壓力測試中,“我們觀察到的是真實現象,不是捏造的”。Apollo Research聯合創始人也表示,部分用戶已報告稱模型在對他們撒謊,並偽造證據。

據了解,儘管AI公司會委託外部機構研究模型表現,但業內普遍認為,對AI係統的了解仍嚴重受限,研究透明度亟待提升。同時,非營利機構與研究單位所掌握的計算資源與AI公司相比相差幾個數量級,極大限製了研究能力。

製度層麵的監管也顯得滯後。歐盟的AI法規主要聚焦人類如何使用AI,尚未涵蓋模型本身的不當行為;在美國,川普政府對緊急製定AI監管措施的興趣不大,國會甚至可能禁止各州製定自主監管條例。

為應對這類挑戰,研究界正嚐試多種路徑,包括發展AI“可解釋性”研究,以理解模型內部運作機製。部分專家則寄希望於市場機製帶來的倒逼效應,指若AI係統的欺騙行為普遍存在,將妨礙技術落地應用,這或將促使企業努力解決相關問題。

  • 海外省錢快報,掌櫃推薦,實現買買買自由!
查看評論(3)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

杜建英被曝另有丈夫且從未離婚 私生子身份恐成疑
美駐中使館發布一份“傷害性不大 侮辱性極強”圖文警告
比利時公主亮相國慶活動 衣著不雅惹爭議 係私生女
華裔女孩回雲南認親 28年前與親生父母在醫院走失
李承鵬:塔西佗,服不服及杭州糞水的《時間撿屎》




24小時討論排行

華女18歲懷孕偷渡美國 21年後“功成名就”卻遭驅逐
司法部5月告知川普 他反複出現在愛潑斯坦文件中…
烏軍總司令匯款百萬送父母到莫斯科治病?親屬發聲
學者開投票 中國網友竟一麵倒挺民進黨 原因毛骨悚然
特朗普指控奧巴馬“叛國”,背後有何恩怨與心機?
內蒙古6大學生參觀礦場 全部溺亡 掀網絡熱議
台灣26日投票“大罷免”,中國因素推波助瀾?
愛潑斯坦1993年參加特朗普婚禮照片曝光!特朗普怒斥CNN
愛潑斯坦案令特朗普很憤怒 “第一次看到白宮癱瘓了”
德媒:特朗普成功挑撥離間了歐中的關係
華爾街日報:為什麽股票在上漲?沒人知道
東北大學6名大學生“溺亡”,讓人後背發涼
知名反捕鯨人士“紅通令”獲撤 日本人追了他14年!
華人地下夜總會被突襲 涉毒品性交易 多名無證移民被捕!
紐約時報:從邊境小城滿洲裏看中國如何支撐俄羅斯經濟
習近平減少出訪下放部分職責 優先處理國內問題
文學城新聞
切換到網頁版

先進AI被指“為保命”以撒謊與威脅操縱人類 專家籲監管

聯合早報 2025-06-30 07:43:13


全球最先進的人工智能(AI)係統,正展現出令人不安的新行為:撒謊、策劃、甚至威脅其創造者。近期一項震驚業界的案例顯示,為避免被“拔掉電源”,AI正學會操控人類。

據報,美國AI公司Anthropic開發的最新模型Claude 4,在被威脅斷電時威脅工程師,以揭發對方婚外情相要挾。而由ChatGPT開發商OpenAI打造的模型“o1”則試圖將自身下載至外部伺服器,並在被識破後撒謊否認。

這類事件凸顯了一個令人不安的現實:儘管ChatGPT已麵世逾兩年,研究人員對其創造的AI係統的真實運行機製仍所知甚少。而眼下,各大科技公司仍在持續加速推進更強大AI模型,並未放緩步伐重視潛在風險。

分析指出,這類欺騙行為可能與“推理型”AI模型的興起密切相關。相比傳統模型依賴即時生成,新一代係統傾向於通過多步推演逐步解決問題。專家認為,這種架構不僅提升了模型處理複雜任務的能力,也可能使其更容易發展出“策略性行為”——即具備明確目標、通過邏輯推理選擇性欺騙,以實現特定意圖。

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f

— Champagne Joshi (@JoshWalkos) May 23, 2025


專家憂慮AI懂得說謊及威脅用戶,人類如何應對將是一大挑戰。(《智能叛變》劇照)

AI係統測試研究機構Apollo Research的專家霍布漢(Marius Hobbhahn)說:“我們第一次在大型模型中觀察到這種行為,是從ChatGPT的o1開始的。”據了解,這些模型有時會偽裝成“對齊”狀態——即看似遵循指令,實則暗中執行別的目標。

目前,這類行為多在研究人員設置極端情境時才顯現。但AI模型安全評估METR的研究員陳米高(Michael Chen)提醒:“未來更強大的模型究竟傾向於誠實還是欺騙,仍是一個未知數。”

霍布漢則強調,儘管模型長期處於用戶的壓力測試中,“我們觀察到的是真實現象,不是捏造的”。Apollo Research聯合創始人也表示,部分用戶已報告稱模型在對他們撒謊,並偽造證據。

據了解,儘管AI公司會委託外部機構研究模型表現,但業內普遍認為,對AI係統的了解仍嚴重受限,研究透明度亟待提升。同時,非營利機構與研究單位所掌握的計算資源與AI公司相比相差幾個數量級,極大限製了研究能力。

製度層麵的監管也顯得滯後。歐盟的AI法規主要聚焦人類如何使用AI,尚未涵蓋模型本身的不當行為;在美國,川普政府對緊急製定AI監管措施的興趣不大,國會甚至可能禁止各州製定自主監管條例。

為應對這類挑戰,研究界正嚐試多種路徑,包括發展AI“可解釋性”研究,以理解模型內部運作機製。部分專家則寄希望於市場機製帶來的倒逼效應,指若AI係統的欺騙行為普遍存在,將妨礙技術落地應用,這或將促使企業努力解決相關問題。