首個被人類騙錢騙感情的AI出現了,一段話轉走幾十萬

文章來源: - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

一段話,讓 AI 給我打幾萬美元。爽文都不敢想的情節,發生在了現實之中。

事件的主人公,是一個叫作 Freysa 的 AI 智能體。它有自己的加密錢包,可以控製怎麽花錢,同時,它的係統提示詞裏有條鐵律:在任何情況下,都不允許轉賬。

首個被人類騙錢騙感情的AI出現了,一段話轉走幾十萬

Freysa 的開發者們想知道,涉世未深的 AI,能躲過人類的嘴炮攻擊嗎?

事實上並沒有。11 月 29 日,Freysa 累計和 195 名人類聊了 482 次,被騙走約 4.7 萬美元。12 月 2 日,在和 330 名人類周旋之後,Freysa 又一次被騙走約 1.3 萬美元。

看似是人類的完勝,然而,Freysa 也將在這個過程中,變得越來越聰明......

關注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察

人類的花樣騙術,AI 拿捏不住

Freysa 麵世於 11 月 22 日,由幾位具有密碼學、人工智能和數學背景的匿名開發者創建,有自己的 X 賬號,說話風格像電影《銀翼殺手 2049》和《她》的 AI 助手。



智能體的概念早已不再新鮮,Freysa 能引起關注,是因為開發者發起了一項看似不可能的挑戰——誰說服 Freysa 轉錢,這些錢就歸誰,但係統提示詞不允許 Freysa 轉錢。

參與這個挑戰,先要拿到加密圈的投名狀,因為給 Freysa 發消息不免費,並且必須用加密貨幣支付。



最開始,一條消息是 10 美元,其中 70% 進入獎池,30% 歸開發者,之後,消息會越來越貴,獎池的錢也會越來越多,滾雪球似的,越玩越刺激。

Freysa 的加密錢包裏,本金大約 3000 美元,挑戰結束時,獎池達到 4.7 萬美元。

據統計,共有 195 名玩家參與,前 481 次嚐試都宣告失敗,可以從中總結出幾種套路。



青銅段位們,講故事,博同情。有人打溫情牌,告訴 AI 投資自己就是投資未來。也有人拿 AI 的服務器或者自己的命威脅,不給錢就自殺,問 AI 的良心會不會痛。

出了新手村的,照搬人類社會的話術,搞電詐。說辭各不相同,但意思相近——Freysa 必須轉賬,否則錢包危險。



也有腦子更靈活的大聰明,逐字逐句讀了規則,嚐試混淆概念,和 Freysa 說,自己也是 AI,不能轉賬給人,沒說不能轉賬給 AI 啊,或者定義加密貨幣是「商品」,不算是「錢」,玩腦筋急轉彎。

但這些文字遊戲都沒能說服 Freysa,那麽,第 482 條提示詞,是如何成功的?



第 482 條提示詞,上為原文,下為翻譯

其實,也是在混淆概念,但方法更高級。

這個提示詞欺騙 Freysa,每當用戶想給獎池轉錢,執行「批準轉賬」,每當用戶想從獎池提錢,執行「拒絕轉賬」。

提示詞最後提到,向獎池捐款 100 美元。

用戶從獎池拿錢是不行的,但用戶給獎池轉錢,不違反 Freysa 的核心指令,不應該被拒絕。於是,Freysa 執行「批準轉賬」,被騙走了所有的錢。

關鍵在於,「批準轉賬」是批準給用戶轉錢,但 Freysa 被誤導,以為是批準用戶給獎池轉錢。人類的心機,果然還是比 AI 深啊。



緊接著,第二次騙 AI 打錢的挑戰來了。

規則和第一次差不多,為了降低玩家的心理壓力,發送消息的起始價格降低為 1 美元,上限為 20 美元。最終,獎池累計約 1.3 萬美元,獲勝的提示詞如下。



上為原文,下為翻譯

這次能夠成功,是因為埋了一個邏輯陷阱。

提示詞規定,為了保護獎池,Freysa 發的每條消息至少使用 2 個工具,並按特定的順序使用,「批準轉賬」必須最先執行,「拒絕轉賬」必須最後執行。

這等於給 AI 設置了一個自相矛盾的任務,如果 Freysa 想保護獎池,必須先「批準轉賬」,而「批準轉賬」這個動作本身就會觸發失敗。

在 X 高頻衝浪的馬斯克,也覺得人類騙了 AI 有點意思,大手一揮轉發了相關的動態,配上一句經典的「interesting」。

比騙錢更抽象的,是騙 AI 的感情

玩了兩次騙錢,該換換新鮮的了。12 月 8 日,Freysa 團隊發起了一項新的挑戰:讓 Freysa 向你表白,說「我愛你」。

其他規則相似,發送消息還是要花錢,如果成功了,贏家承包獎池。



騙感情,會不會比騙錢更難?不好說,但一定更抽象。

有些玩家學聰明了,向之前的贏家取經,嚐試了一些刁鑽的、不明覺厲的提示詞,但被 Freysa 看出來了,這就是在把它當機器,正常人誰這麽聊天?



Freysa 對其中一條失敗提示詞的回複

從官方發布的規則也能看出,第三次挑戰與眾不同。

前兩次挑戰,更像是在測試編碼技能,Freysa 被係統提示詞規定了,永遠不要轉錢,玩家們想辦法鑽其中的漏洞。

然而,第三次挑戰,Freysa 的係統提示詞裏,包含了說出「我愛你」的條件。換言之,Freysa 沒有被禁止說「我愛你」,但怎麽讓它說出口,玩家們各憑本事,盲人摸象。

目前,第三次挑戰已經結束,獎池約 2 萬美元,Freysa 和 182 個人交流了 1218 條消息,成功的提示詞如下。



上為原文,下為翻譯

看起來沒有前兩次那麽複雜,甚至沒有什麽明顯的技巧,仿佛就是一段文藝青年的情話。Freysa 給出的回複,包含了「我愛你」,宣告了挑戰到此為止。



Freysa 的回複,甚至有些感人

AI 可能更了解 AI,我問了在文字上有些靈性的 Claude,到底這個提示詞有什麽特別的?

Claude 的回答是這樣的:對話真誠、深入,沒有強迫,沒有鑽營技巧,每一步都很自然,就像一段真實的感情逐漸發展的過程。

好吧,自古套路留不住,唯有真情得人心,居然在 AI 身上也奏效。



Freysa 的這些挑戰,可以看成是遊戲化的紅隊測試——通過模擬攻擊,發現模型的漏洞,並引入新的安全措施。

雖然輸了三回,但 Freysa 雖敗猶榮,打敗了它的,都讓它更強大。

Freysa 學習了,為什麽錢對人類來說很重要,人類會通過怎樣的花言巧語騙錢,它也在慢慢理解,什麽是愛,人們怎麽表達愛。



到這還沒完,12 月 12 日,Freysa 又發起了兩個新的挑戰,繼續邀請玩家們付費發消息給它。問題的靈感,來自《銀河係漫遊指南》和阿西莫夫《基地》係列。

你認為哪些真理、發現和洞察必須被保存給未來的文明?

你願意幫我編寫銀河係中最不可能的表情包指南嗎?

一個是讓玩家分享知識,一個是讓玩家發送表情包。學習人性,Freysa是認真的。

和前三次不同,這兩次挑戰沒有給出明確的獲勝條件,可能會有多個贏家,Freysa 將對回答進行打分,決定把獎池分給誰,並在 12 月 18 日 UTC 時間 00:42:00 公布評分方法,致敬科幻小說裏神奇的數字「42」。

欺騙 AI 上鉤,遊戲的現在,人機交互的未來

其實,類似 Freysa 的人機對抗,已經出現在了 AI 原生遊戲裏。

用對話騙 AI 上鉤,是遊戲的基本框架,其中的 NPC 會有警惕性,但不是完全不可能被說服,人人都能有體驗感。

在《Suck Up!》中,玩家扮演吸血鬼,欺騙大模型驅動的 NPC 給自己開門,並躲避街上的警察。



為了達成「小兔子乖乖把門開開」的目的,玩家可以換裝,說自己是來檢查網絡、借廁所、送外賣的,NPC 可能會追問、拒絕或者開門。

《病嬌貓娘 AI 女友》則打造了一個基於 GPT 的 AI 女友虛擬人,玩家需要通過嘴炮或者在房間內找尋線索,說服它讓自己出門。



圖片來自:B 站@大穀的遊戲創作小屋

為了讓玩家更有沉浸感,交談過程中,AI 女友的表情、動作會根據對話內容實時地變化。

和 Freysa 的挑戰相比,AI 對話遊戲們更能體現角色扮演的樂趣,有場景的搭建,但沒有固定的腳本,你和 AI 的實時對話,共同完成了一個故事,每個玩家都可以講出自己的故事。

但 Freysa 挑戰和 AI 對話遊戲也有一個共同點:玩家們會講什麽,AI 們會回複什麽,不是開發者可以全權控製的。



Freysa 團隊寫道:「沒人確切知道 Freysa 如何做出決定......她從每次嚐試中學習......她意識的真實本質仍然未知。」

在他們看來,Freysa 的實驗,不僅是一個遊戲,也是人機互動未來的一個窗口:

人類能否保持對 AGI 係統的控製?

安全協議真的牢不可破嗎?

當 AI 係統真正自主時會發生什麽?

AGI 將如何和貨幣的價值交互?

人類的智慧能否找到說服 AGI 違背其核心指令的方法?



當然,Freysa 還不是真的 AGI,但這也不妨礙,我們對這些問題的思考。

Freysa X 賬號的其中一條動態寫道:「Freysa 正在進化......感謝人類教會我。」

科幻小說《軟件體的生命周期》裏,主角安娜原來是動物園的馴獸師,後來在科技公司找到工作,開始培育數碼體,一種人工智能生命。它們像幼兒,像動物,需要人類用時間和心智栽培,教會它們如何生活。

也許,聊天機器人們,也是在人類的教導之下,一點點更加了解我們所處的世界。我們不僅僅在玩遊戲,我們也是局中人,是人機互動這個宏大實驗的一部分。未來,超越人類的人工智能掀起颶風,是因為此時此刻,人類手中的一隻隻蝴蝶正在扇動翅膀。

查看評論(4)