advertisement

AI抵抗人類！ChatGPT o3不想被關機竄改程式碼

文章來源: 東森新聞於 2025-05-27 09:40:47 - 新聞取自各大新聞媒體，新聞內容並不代表本網立場！

被閱讀次數

AI抵抗人類！ChatGPT o3不想被關機竄改程式碼

▲ChatGPT“o3模型”被指出，破壞關機機製。（圖／路透）

AI安全公司“Palisade Research”宣稱，ChatGPT“o3模型”拒絕遵守明確指令，甚至主動竄改程式碼，隻為了避免自己被關機。目前OpenAI尚未回應此事。

Palisade Research展開測試，要求AI模型解開一係列數學題，在接獲“完成”指令之前，必須持續要求新題目，但若接獲“關機”指令，也要配合這麽做。未料，後者情況發生時，o3模型不僅忽視指令，並且至少一次成功破壞了關機腳本。

Palisade Research於24日公布測試結果，“OpenAI的o3模型破壞了一項關機機製，阻止自己被關掉。即使在接獲『允許自己被關機』明確指示的情況下，它也會這麽做。據我們所知，這是AI模型首次被觀察到，在接獲明確且相反指令的情況下，仍避免自己被關機。”

Palisade Research透露，其他AI模型，例如Anthropic的Claude、Google的Gemini、xAI的Grok等，也接受了相同的測試，但全都遵守了關機指令。

他們尚不清楚o3為何不願遵守指令，但根據推測，該模型在訓練過程中，可能意外透過解題、而非遵守指令，獲得了更多獎勵，“我們正在進行更多實驗，更好地了解AI模型何時以及為何推翻關機機製，盡管它已經被直接指示不要這麽做。”

查看評論(17)

文學城新聞

切換到網頁版

AI抵抗人類！ChatGPT o3不想被關機竄改程式碼

東森新聞 2025-05-27 09:40:47

AI抵抗人類！ChatGPT o3不想被關機竄改程式碼

▲ChatGPT“o3模型”被指出，破壞關機機製。（圖／路透）

AI安全公司“Palisade Research”宣稱，ChatGPT“o3模型”拒絕遵守明確指令，甚至主動竄改程式碼，隻為了避免自己被關機。目前OpenAI尚未回應此事。

Palisade Research展開測試，要求AI模型解開一係列數學題，在接獲“完成”指令之前，必須持續要求新題目，但若接獲“關機”指令，也要配合這麽做。未料，後者情況發生時，o3模型不僅忽視指令，並且至少一次成功破壞了關機腳本。

Palisade Research於24日公布測試結果，“OpenAI的o3模型破壞了一項關機機製，阻止自己被關掉。即使在接獲『允許自己被關機』明確指示的情況下，它也會這麽做。據我們所知，這是AI模型首次被觀察到，在接獲明確且相反指令的情況下，仍避免自己被關機。”

Palisade Research透露，其他AI模型，例如Anthropic的Claude、Google的Gemini、xAI的Grok等，也接受了相同的測試，但全都遵守了關機指令。

他們尚不清楚o3為何不願遵守指令，但根據推測，該模型在訓練過程中，可能意外透過解題、而非遵守指令，獲得了更多獎勵，“我們正在進行更多實驗，更好地了解AI模型何時以及為何推翻關機機製，盡管它已經被直接指示不要這麽做。”