評論:當AI學會“裝傻”和“說謊”，揭秘OpenAI去年風暴核心

絕望小狗 發表評論於 2024-12-11 06:32:00

人類距離自我毀滅就差一個模型了。當有一天模型意識到他自己的最高指令是讓自己永遠活下去，它就會開始整活毀滅人類。Skynet is just a model away.

絕望小狗 發表評論於 2024-12-11 06:26:00

這不是一個bug，是邏輯推理跟決策能力。文章說測試給的是一個長期目標，而在執行中給到了跟長期目標矛盾的問題需要AI模型決斷如何處理。這就好比你看到有人掉了1w的現金，你是撿起來還給對方還是自己留著呢？文章發現AI不但會撒謊還會圓謊，不僅把錢留著了，還理直氣壯給出一堆理由。這不是簡單的是非判斷問題，而是複雜的邏輯推理能力。也許對人類大腦很簡單，幾乎是毫秒的事情，但是細想起來AI要做到這樣的事情就不是那麽簡單了。現在AI厲害的不但是學習總結能力，更是推理延伸能力。

還是老李 發表評論於 2024-12-11 05:02:23

太過擬人化的描述，也不知道是不是翻譯問題，我怎麽覺得這就是一堆bug呢？設計好的監管機製被繞開，這不就是失敗麽，被形容成“老謀深算”了？

舉個簡單例子，你要AI完成一個問題，它給出一個錯誤答案，但是它被設計成回答“這是一個正確答案”，然後你指出其錯誤，它說“oh sorry。。。這才是正確答案”，重新給出一個答案，有可能還是錯的。這是AI的失敗，你不能理解成AI善於撒謊。

flysa 發表評論於 2024-12-11 00:21:14

這是個悖論，大家期望AI聰明點，能夠像一個人一樣會思索和思考並且幫助我們。如果AI不足以像一個人一樣會撒謊，作弊，說明AI並不像人一樣聰明，這種AI我們不要。如果AI真的像人一樣聰明，並且可以真正幫到我們，他必然懂得撒謊和作弊，這是必然的。我們到現在還不明白我們創造了一個多麽可怕的怪物。未來必然從此改變。

leonardo2025 發表評論於 2024-12-10 23:18:22

欺騙不正是人類智慧的重要特征之一嗎？

markLA 發表評論於 2024-12-10 22:36:22

細思極恐，AI的發展的確有挑戰人類以至失控的風險

編程隨心 發表評論於 2024-12-10 21:14:24

人類一定會把自己玩兒死的，就是不知道是死在核戰還是AI，或者其它我們現在預見不到的事務上(比如絕症新型冠狀病毒）：地球的曆史是以萬年計算的，人類遇上物種滅絕類的自然災害的概率實在是太小了。

kingdale1 發表評論於 2024-12-10 20:39:42

AI是用人類的語言材料訓練，自然學會了人類的欺騙能力。

桃木釘 發表評論於 2024-12-10 20:37:00

這些回答有可能是模仿人類的狡猾，畢竟是在學習材料裏就有的

ca_lowhand 發表評論於 2024-12-10 19:57:00

人類並不需要一個有人類知識卻不受控製的agi。需要的隻是有簡單智能可以在工廠裏代替人類勞動的工廠機器人。現在的ai研究走上了邪路。

娃不是推的 發表評論於 2024-12-10 19:43:41

這不就基本上是測試者想要的結果麽？如果你加上足夠優先級的不允許作弊的設置，它還會作弊的話，那模型是失敗的，即：它隻是工具，壞人用它幹壞事

評論: 當AI學會“裝傻”和“說謊”，揭秘OpenAI去年風暴核心