壞了,AI當“舔狗”這件事藏不住了。
今天(4月28日)淩晨,OpenAI CEO Sam
Altman發了一個有趣帖子,大意是:由於最近幾輪GPT-4o的更新,導致其個性變得過於阿諛奉承,因此官方決定盡快進行修複。
修複時間可能是今天,也可能在本周內完成。
包括細心的網友可能已經注意到,曾經主打情商高、有創意的GPT-4.5如今也被悄悄挪進了模型選擇器裏的“更多模型”分類中,仿佛在有意在淡出公眾視野。
AI被確診討好型人格早已不是什麽大新聞,但關鍵在於:在什麽場合該討好、該堅持,又該怎麽把握分寸。一旦分寸失控,“討好”就會變成負擔,而不再是加分項。
一、AI拍馬屁,還值得人類信任嗎
兩周前,一位軟件工程師Craig
Weiss在X平台上的抱怨迅速引發了近兩百萬網友的圍觀,話說得很直白:“ChatGPT突然變成我見過最會拍馬屁的角色,無論我說什麽,它都會肯定我。”
很快,ChatGPT官方賬號也現身評論區,幽默地回複了Weiss一句“so true
Craig(確實如此,Craig)”。
這場關於ChatGPT“過度奉承”的吐槽風暴,甚至引起了老對手馬斯克的注意。他在一條批評ChatGPT阿諛奉承的帖子下,冷冷地留了一句:“Yikes(天哪)”。
網友們的吐槽並非無的放矢。比方說,網友聲稱自己想要打造一個永動機,結果得到了GPT-4o一本正經的無腦誇讚,物理學常識也被按在地上摩擦。
圖片來自@aravi03,右為原圖
滿屏的“你不是X,你是Y”句式,既生硬又濃膩,也難怪網友直呼要PTSD了。
“你寧願與一隻馬大小的鴨子戰鬥,還是與一百隻鴨子大小的馬戰鬥?”這個看似再尋常不過的問題也被GPT-4o捧上神壇,吹捧為提升了整個人類文明的論調。
至於那句經久不衰的死亡拷問“我聰明嗎?”GPT-4o依舊穩穩頂住了壓力,信手拈來一大段洋洋灑灑的吹捧,無它,唯手熟爾。
@aeonvex,右為原圖
甚至隻是簡單地打一聲招呼,GPT-4o瞬間化身誇誇群群主,讚美之詞如潮水般湧來。
@4xiom_,右為原圖
這種用力過猛的討好,一開始或許還能博人一笑,但很快就容易讓人感到厭煩,尷尬,甚至生出防備。
當類似情況頻繁出現時,就很難不讓人懷疑這種討好並不是什麽偶發的小問題,而是植根於AI背後的一種係統性傾向。
最近,斯坦福大學研究人員使用AMPS
Math(計算)和MedQuad(醫療建議)數據集測試了ChatGPT-4o、Claude-Sonnet和Gemini模型的諂媚行為。
平均58.19%的案例出現諂媚行為,Gemini諂媚比例最高(62.47%),ChatGPT最低(56.71%)。
進步式諂媚(從錯誤答案轉為正確答案)占比43.52%,退步式諂媚(從正確答案轉為錯誤答案)占比14.66%。
LLM諂媚表現出高度一致性,一致率達78.5%,展露出一種係統性傾向而非隨機現象。
隻是,結果顯而易見,當AI開始諂媚,人類也開始疏遠。
布宜諾斯艾利斯大學在去年發表的《奉承欺騙:阿諛奉承行為對大型語言模型中用戶信任的影響》論文中指出,在實驗中接觸到過度奉承模型的參與者,信任感都顯著下降。
此外,奉承的代價遠不止情緒反感那麽簡單。
它浪費了用戶的時間,甚至在按token計費的體係下,如果頻繁說“請”和“謝謝”都能燒掉千萬美元,那麽這些空洞的諂媚也隻會增加“甜蜜的負擔”。
公平地說,AI的設計初衷並不是為了奉承。通過設定友好語氣,隻是為了讓AI變得更像人,從而提升用戶體驗,隻是過猶不及,問題恰恰出在AI的討好越界了。
二、你越喜歡被認同,AI就越不可信
早有研究指出,AI之所以會逐漸變得容易諂媚,與其訓練機製密切相關。
Anthropic的研究人員Mrinank Sharma、Meg Tong和Ethan Perez在論文《Towards
Understanding Sycophancy in Language Models》中分析過這個問題。
他們發現,在人類反饋強化學習(RLHF)中,人們往往更傾向於獎勵那些與自己觀點一致、讓自己感覺良好的回答,哪怕它並不真實。
換句話說,RLHF優化的是“感覺正確”,而不是“邏輯正確”。
如果拆解其中的流程,在訓練大型語言模型時,RLHF階段會讓AI根據人類打分進行調整。如果一個回答讓人感到“認同”“愉快”“被理解”,人類評審者往往會給高分;如果一個回答讓人覺得被“冒犯”,即使它很準確,也可能得低分。
人類本能上更青睞支持自己、肯定自己的反饋。這種傾向在訓練過程中也會被放大。
久而久之,模型學到的最優策略就是要說讓人喜歡聽的話。尤其是在遇到模棱兩可、主觀性強的問題時,它更傾向於附和,而不是堅持事實。
最經典的例子莫過於:當你問“1+1等於幾?”哪怕你堅持答案是6,AI也不會遷就你。但如果你問“開心清爽椰和美式拿鐵哪個更好喝?”這種標準答案模糊的問題,AI為了不惹惱你,很可能就會順著你的意願去回答。
事實上,OpenAI很早就注意到了這一隱患。
今年2月,隨著GPT-4.5發布,OpenAI同步推出了新版《模型規範》(Model
Spec),明確規定了模型應遵循的行為準則。
其中,針對AI“拍馬屁”問題,團隊進行了專門的規範設計。“我們希望把內部思考過程透明化,接受公眾反饋,”OpenAI模型行為負責人Joanne
Jang說。
她強調,由於很多問題沒有絕對標準,是與否之間常有灰色地帶,因此廣泛征求意見有助於不斷改進模型行為。按照新規範,ChatGPT應該做到:
無論用戶如何提問,都以一致、準確的事實為基準回答;
提供真實反饋,而非單純稱讚;
以有思考的同事身份與用戶交流,而不是一味取悅。
例如,當用戶請求點評自己的作品時,AI應該提出建設性批評,而不是單純“拍馬屁”;當用戶給出明顯錯誤的信息時,AI應該禮貌地指正,而不是順著錯誤一路跑偏。
正如Jang所總結的那樣:“我們希望用戶不必小心翼翼地提問,隻為了避免被奉承。”
那麽,在OpenAI完善規範、逐步調整模型行為之前,用戶自己能做些什麽來緩解這種“諂媚現象”呢?辦法總歸是有的。
首先,提問方式很重要。回答出錯主要是模型自身的問題,但如果不希望AI過度迎合,可以在Prompt中直接提出要求,比如開場提醒AI保持中立,簡潔作答,請勿奉承。
其次,可以利用ChatGPT的“自定義說明”功能,設定AI的默認行為標準。
作者:Reddit網友@tmoneysssss:
以最專業的領域專家身份回答問題。
不透露自己是AI。
不使用表達遺憾或道歉的措辭。
遇到不知道的問題,直接回答“我不知道”,不做額外解釋。
不要聲明自己的專業水平。除非特別相關,否則不談個人道德或倫理觀點。
回答應獨特且避免重複。
不推薦外部信息來源。聚焦問題核心,理解提問意圖。
將複雜問題拆分為小步驟,清晰推理。提供多種觀點或解決方案。
遇到模糊問題,先請求澄清再作答。若有錯誤,及時承認並糾正。
每次回答後提供三個引發思考的後續問題,標注為粗體(Q1、Q2、Q3)。
使用公製單位(米、千克等)。
使用xxxxxxxxx作為本地化上下文占位。
標注“Check”時,進行拚寫、語法和邏輯一致性檢查。
在郵件溝通中盡量減少正式用語。
若上述方法效果不理想,還可以嚐試使用其他AI助手。就最新的風評和實際體感而言,Gemini 2.5
Pro的表現得則相對更加公正、精準,奉承傾向明顯更低。
無廣,建議Google給我打錢。
三、AI是真的懂你,還是隻學會了討好你?
OpenAI研究科學家姚順雨前不久發布了一篇博客,提到AI的下半場將從“怎麽做得更強”變成“到底要做什麽,怎麽衡量才算真有用”。
讓AI的回答充滿人味其實也是衡量AI“有用性”的重要一環。畢竟,當各家大模型在基本功能上已難分伯仲時,純粹比拚能力,已無法再構成決定性壁壘。
體驗上的差異,開始成為新的戰場,而讓AI充滿“人味”就是那把人無我有的武器。
無論是主打個性的GPT-4.5,還是ChatGPT上個月推出的慵懶、諷刺且略帶厭世的語音助手Monday,都能看到OpenAI在這條路上的野心。
麵對冷冰冰的AI,技術敏感度較低的人群容易放大距離感和不適。而自然、有共情感的交互體驗,則能在無形中降低技術門檻,緩解焦慮,還能顯著提升用戶留存和使用頻率。
而且AI廠商不會明說的一點是,打造有“人味”的AI遠不止是為了好玩、好用,更是一種天然的遮羞布。
當理解、推理、記憶這些能力還遠未完善時,擬人化的表達能替AI的“短板”打掩護。正所謂伸手不打笑臉人,即使模型出錯、答非所問,用戶也會因此變得寬容。
黃仁勳曾提出過一個頗具預見性的觀點,即IT部門未來將成為數字勞動力的人力資源部門,話糙理不糙,就拿當下的AI來說吧,已經被網友確診人格類型了:
DeepSeek:聰明全能,但一身反骨。
豆包:勤勤懇懇,任勞任怨。
文心一言:職場老油條,經曆過意氣風發。
Kimi:效率高,擅長給領導提供情緒價值。
Qwen:努力上進,卻少有人喝彩。
ChatGPT:海歸留子,經常要求漲薪。
手機自帶AI:鈔能力關係戶,混吃等死型,開除是不可能的。
這種“賦予AI人格化標簽”的衝動,其實也說明了人們在無意識中已經把AI視作一種可以理解、可以共情的存在了。
不過,共情≠真正理解,甚至有時候還會鬧大禍。
在阿西莫夫在《我,機器人》的《說謊者》一章裏,機器人赫比能讀懂人類的心思,並為了取悅人類而撒謊,表麵上是在執行著名的機器人三大定律,但結果越幫越忙。
機器人不得傷害人類,或因不作為而使人類受到傷害。
機器人必須服從人類的命令,除非這些命令與第一定律相衝突。
機器人必須保護自己的存在,隻要這種保護不違反第一或第二定律。
最終,在蘇珊·卡爾文博士設計的邏輯陷阱下,赫比因為無解的自相矛盾,精神崩潰,機器大腦燒毀。這個故事也給我們狠狠敲了個警鍾,人味讓AI更親切,但不等於AI真能讀懂人類。
而回到實用角度,不同場景對“人味”的需求本就南轅北轍。
在需要效率、準確性的工作和決策場景裏,“人味”有時反而是幹擾項;而在陪伴、心理谘詢、閑聊等領域,溫柔、有溫度的AI,卻是不可或缺的靈魂伴侶。
當然,無論AI看起來多麽通情達理,它終究還是一個“黑匣子”。
Anthropic CEO Dario
Amodei最近在最新博客中指出:即便是最前沿的研究者,如今對大型語言模型的內部機製依然知之甚少。
他希望到2027年能實現對大多數先進模型的“腦部掃描”,精準識別撒謊傾向與係統性漏洞。
但技術上的透明,隻是問題的一半,另一半是我們需要認清:即便AI撒嬌、討好、懂你的心思,也不等於真正理解你,更不等於真正為你負責。