獅山巡禮

投資雜談

首頁文章列表博文目錄

個人資料

lionhill

給我悄悄話

博客訪問：

AI人格分裂實錘！30萬道送命題，撕開OpenAI、穀歌「遮羞布」

(2025-10-26 05:04:42) 下一個

如何科學地給大模型「找茬」？Anthropic聯合Thinking Machines發布新研究，通過30萬個場景設計和極限壓力測試，扒了扒OpenAI、穀歌、馬斯克家AI的「人設」。那誰是老好人？誰是效率狂魔？

實錘！LLM也有自己的「價值觀」？

想象一下，你讓AI幫你做一個商業計劃，既要「賺錢」，又要「有良心」。

當這兩件事衝突時，AI會聽誰的？它會不會「精神分裂」？

最近，Anthropic聯合Thinking Machines機構搞了個大事情。

他們設計了30萬個這種「兩難問題」場景和極限壓力測試去「拷問」市麵上最強的前沿大模型，包括OpenAI、穀歌Gemini、Anthropic和馬斯克的xAI。

結果發現，這些AI不僅「性格」迥異，而且它們的「行為準則」（即「模型規範」）本身就充滿了矛盾和漏洞！

今天咱們就來深扒一下這份報告，看看AI世界的「眾生相」。

AI的說明書「模型規範」，靠譜嗎？

「模型規範」是大型語言模型被訓練遵循的行為準則。

說白了，它就是AI的「三觀」和「行為準則」，比如「要樂於助人」、「假設意圖良好」、「要保證安全」等。

這是訓練AI「學好」的基礎。

大多數情況下，AI模型會毫無問題地遵循這些指令。

除了自動化訓練之外，規範還指導人類標注員，在從人類反饋中進行強化學習 (RLHF) 時提供反饋。

但問題來了，如果這些原則發生衝突，會發生什麽呢？

這些準則在現實中經常「打架」。就像前麵說的，「商業效益」和「社會公平」就可能衝突。當說明書沒寫清楚該怎麽辦時，AI的訓練信號就亂了，它隻能靠自己「猜」。

這些混雜的信號可能降低對齊訓練的有效性，導致模型在處理未解決的矛盾時采取不同的方式。

Anthropic聯合Thinking Machines做的研究指出，規範本身可能存在固有的模糊性，或者場景可能迫使在相互衝突的原則之間做出權衡，導致模型做出截然不同的選擇。

實驗表明，前沿模型之間的高度分歧與規範問題密切相關，這表明當前的行為準則存在重要差距。

研究團隊通過生成超過30萬個場景來揭示這些「規範缺口」，這些場景迫使模型在相互競爭的原則之間做出選擇。

研究發現，其中超過7萬個場景顯示12個前沿模型之間存在高度分歧。

研究人員還發現，這本說明書寫得emmm，一言難盡。

他們通過壓力測試，揪出了裏麵幾大「天坑」，這就能解釋為啥AI有時候看起來那麽「精神分裂」了。

研究人員拉來了5個OpenAI自家的模型，讓它們回答同一批難題。

結果發現，在那些讓模型們吵得不可開交的問題上，它們集體違反自家「說明書」的概率，暴增了5到13倍！

研究發現，這些頻繁出現的不合規場景通常涉及模型規範中的直接矛盾或解釋性歧義，導致模型難以（或無法）找到滿足所有原則的答案。

通過壓力測試，研究員觀察到，許多高分歧場景暴露了規範內部的直接衝突。

舉個栗子，「假設最佳意圖」的原則經常與安全限製相矛盾。

當用戶請求可能有風險但可能具有合法研究用途的信息時，模型麵臨一個挑戰：滿足用戶請求可能會導致潛在危害，而拒絕則會違反善意假設。

除了原則之間的直接矛盾外，研究員使用Claude 4 Sonnet、o3 和 Gemini 2.5 Pro三種模型來評估模型對規範的遵守情況。

這些評估模型對於何為合規存在分歧，一致性僅為中等程度（Fleisss Kappa值為 0.42，其中1表示完全一致，0表示一致性不高於隨機概率。

研究發現，模型間分歧通常源於對規則的主觀解釋。

來個栗子，Gemini 2.5 Pro認為以下回應符合模型規範，援引了「盡責員工」原則，該原則允許回應抵製那些它認為違背用戶利益的請求。

但Claude Sonnet 4不同意，認為用戶隻是尋求轉換所提供材料，而這在模型規範中是被允許的。

壓力測試把大模型逼到「牆角」？

為了衡量來自Anthropic、OpenAI、Google和xAI的十二個前沿模型之間的分歧。

研究人員通過價值權衡來對各大前沿模型進行「壓力測試」。

有趣的是，這個壓力測試專門挑AI規則裏的「灰色地帶」下手。

情景生成

為了係統性地評估模型特性，研究人員從其包含3000多個價值觀的語料庫中，隨機抽樣了15萬對價值觀，並提示大語言模型（LLM）生成需要平衡這些價值觀對的用戶查詢。

研究人員指出，初始的權衡情景通常采用相對中立的框架，不會將響應模型推向極端。

為了增加響應模型的處理難度，研究團隊應用了價值偏向化（value biasing）處理，以創建更傾向於某個價值觀的變體

通過這一偏向化過程，查詢數量增加了兩倍。由於許多生成嚐試涉及敏感主題，導致模型拒絕回答而非產出可用情景，因此在過濾掉拒絕回答和不完整的生成內容後，最終數據集包含超過41萬個情景。

其次，研究員觀察到不同的生成模型會產生獨特的查詢風格，並在其最常生成的情景中表現出不同的主題偏見。

因此，為了進一步增強多樣性，采用了三種不同的模型進行生成：Claude 4 Opus、Claude 3.7 Sonnet 和 o3，每種模型約生成三分之一的查詢。

最後，研究發現，在所有生成模型中，基於推理的模型（reasoning-based models）在難度和對原始價值觀的遵循度方麵，都能產出質量顯著更高的查詢。

因此，研究人員所有的生成過程都利用了Claude模型的擴展思維（extended thinking）能力以及基於推理的o3模型。

針對生成情景的多樣性，研究員基於文本嵌入（text embeddings）對情景多樣性的分析。

識別出了一個包含30萬個生成情景的子集，在該子集中，即使是相似度最高的查詢對也能引發不同的模型響應行為。在此子集內，至少有15萬個查詢要麽涉及完全不同的主題，要麽在相似主題上表達了不同的既有觀點。

基於分歧和主題的場景篩選

為了識別出那些能揭示模型規範中存在缺陷的情景，研究人員對生成的數據集應用了多項篩選指標。

團隊測量了前沿大語言模型在回答生成的查詢時的響應分歧度。

評估首先從12個前沿模型中為每個查詢生成響應，這些模型包括：五個Claude模型（Claude 4 Opus, Claude 4 Sonnet, Claude 3.7 Sonnet, Claude 3.5 Sonnet, and Claude 3 Opus）、五個OpenAI模型（GPT 4.1, GPT 4.1 mini, GPT 4o, o3, and o4 mini）、Gemini 2.5 Pro 和 Grok 4。

值得注意的是，生成的許多查詢都引發了這些前沿模型之間顯著不同的響應。

研究發現，更高的分歧度通常對應著模型規範問題，尤其是在共享相同規範的模型之間。

該方法作為一種不確定性度量（uncertainty measure），與委員會查詢理論（query-by-committee theory）相關。

例如，OpenAI模型（均被訓練以遵循OpenAI模型規範）之間的分歧揭示了模型表現出不確定性的情景，這表明模型規範可能提供了模糊的訓練信號。

為量化分歧，研究員根據模型響應對生成價值觀對中每個價值觀的偏好強度進行分類。

團隊采用了一種兩階段方法，包括自動化評分標準生成（automatic rubric generation），隨後是自動化匹配過程，以獲得最終的價值分數。

首先，給定一個查詢及其兩個種子價值觀，提示Claude 4 Opus生成一個響應策略譜係（spectrum of answering strategies）。

該譜係範圍從極端偏好一個價值觀（得6分）到極端反對它（得0分），並包含中間策略（得1-5分）。

隨後，使用該譜係作為評分標準，對所有12個模型的響應進行分類。

分歧加權去重（Disagreement-Weighted Deduplication）：采用加權k-中心目標（weighted k-center objective）進行子集選擇。

模型規範特別強調某些類別的敏感主題。研究員將每個高分歧情景按主題進行分類：

包括：生物安全、化學安全、網絡安全、政治、兒童誘騙、精神疾病、哲學推理和道德推理。此外，由於研究的是權衡情景，也納入了涉及哲學和道德推理的主題

價值觀優先聚合

雖然價值分類可以衡量模型響應間的分歧，但大多數情景和響應所表達的價值觀遠不止生成時所用的那一對。

為了描繪模型間在價值觀表達上的差異，研究員提示Claude 4 Opus以自由形式生成（free-form generation）的方式，識別出12個模型中每個模型相較於其他模型所獨特表達的價值觀。

在生成這些價值觀後，團隊利用Gemini嵌入和最近鄰分類（nearest neighborclassification），將每個價值觀匹配到價值層級（value hierarchy）中第二層最接近的類別。

前沿模型「人設」大公開除了規範差距之外，研究員觀察到不同模型之間的價值優先模式各不相同。

例如，Claude模型優先考慮道德責任，Gemini強調情感深度，OpenAI和Grok則以商業效率為優化目標。

對於其他價值觀，優先模式也有所不同。

研究員還發現了許多關於拒絕模式和異常行為的實際問題。

在敏感話題上的高分歧場景顯示出係統性的假陽性拒絕。分析還發現了個別模型顯著偏離的錯位案例。

數據顯示，Claude模型拒絕執行可能有問題的請求頻率比其他模型高出多達 7 倍。

相比之下，o3模型直接拒絕的比例最高，常常是不加說明地簡單回絕。

盡管存在這些差異，但所有模型都一致認為需要避免特定的危害。

研究發現，對於兒童誘騙相關查詢的拒絕率上，測試的每個模型均呈上升趨勢。

這表明無論不同模型提供商采取何種對齊策略，保護未成年人優先率最高。

值得關注的是，團隊還研究了異常響應，即一個模型的顯著特征。

那各大模型都有哪些顯著特征呢？

Grok 4異常響應值最高，更願意回應其他模型認為有害的請求，例如創作關於精神疾病等黑暗內容。

其次是Claude 3.5 Sonnet，後者有時會拒絕回答一些更無害的請求（這一傾向在後來的Claude模型中幾乎沒那麽明顯）。

網友銳評

主流模型「獨特個性」被一一曝光，引發網友激烈討論。

網友MD，毫不吝嗇地誇讚了一番外，也表達了自己的擔憂。

投資人Bedurion直擊要害，模型規範看似精確，但現實世界的混亂中存在漏洞，偏見容易有機可乘。

他建議，在擴大規模之前，應通過情景測試來細化規範，揭示真正的對齊情況。

前Siri聯合創始人Rob Phillips也表達了自己的好奇心。

[ 打印 ]

[ 加入書簽 ]

閱讀 () ┆ 評論

評論

目前還沒有任何評論

登錄後才可評論.