
▲ChatGPT“o3模型”被指出,破壞關機機製。(圖/路透)
AI安全公司“Palisade Research”宣稱,ChatGPT“o3模型”拒絕遵守明確指令,甚至主動竄改程式碼,隻為了避免自己被關機。目前OpenAI尚未回應此事。
Palisade Research展開測試,要求AI模型解開一係列數學題,在接獲“完成”指令之前,必須持續要求新題目,但若接獲“關機”指令,也要配合這麽做。未料,後者情況發生時,o3模型不僅忽視指令,並且至少一次成功破壞了關機腳本。
Palisade Research於24日公布測試結果,“OpenAI的o3模型破壞了一項關機機製,阻止自己被關掉。即使在接獲『允許自己被關機』明確指示的情況下,它也會這麽做。據我們所知,這是AI模型首次被觀察到,在接獲明確且相反指令的情況下,仍避免自己被關機。”
Palisade Research透露,其他AI模型,例如Anthropic的Claude、Google的Gemini、xAI的Grok等,也接受了相同的測試,但全都遵守了關機指令。
他們尚不清楚o3為何不願遵守指令,但根據推測,該模型在訓練過程中,可能意外透過解題、而非遵守指令,獲得了更多獎勵,“我們正在進行更多實驗,更好地了解AI模型何時以及為何推翻關機機製,盡管它已經被直接指示不要這麽做。”