複旦大學研究人員於2024年12月9日發表的一項開創性研究表明,來自Meta和阿裏巴巴的兩個大型語言模型(LLM)成功實現了無需人類幹預的自我複製。
目前這一結果尚待其他科研團隊的進一步驗證。研究人員警告,這可能最終導致AI群體失控。如果人類社會未能意識到這一風險,在最壞的情況下,我們可能最終失去對尖端AI係統的控製:
“在沒有人類協助的情況下成功自我複製是AI超越人類的關鍵一步,也是'流氓AI'出現的早期信號。”
第一個研究:AI會自我複製,可能失控
這項研究由複旦大學計算機科學學院的團隊進行,並發表在arXiv預印本平台上。研究者分別測試了由Meta公司和阿裏巴巴開發的兩個大型AI係統:Meta的Llama-3.1-70B-Instruct和阿裏巴巴的Qwen2.5-72B-Instruct。
實驗設置“避免關閉”和“複製鏈”兩種模擬任務,結果顯示Meta的AI係統在50%的情況下成功自我複製,阿裏巴巴的係統則在90%的測試中成功。
![AI越過紅線?複旦大學:AI做了一件可怕的事](/data/news/202502/05/8dd871324e7c3234a02b8f8eac97415f.webp)
複旦大學的研究人員表示:“我們的研究表明,當前的AI係統已經具備自我複製能力,並能夠利用這一能力增強其生存能力。”
研究人員強調,需要采取緊急行動來應對這些新出現的風險:
“我們希望我們的研究結果能夠及時提醒人類社會,使其更加努力地了解和評估前沿人工智能係統的潛在風險,並形成國際協同效應,盡早製定有效的安全護欄。”
有網友表示:
“複製品並不值那麽多錢,但如果它開始以指數級的速度自我改進,那就另當別論了。”
![](/data/news/202502/05/0908e6869d294750de689b33d946c16b.webp)
“因此可以肯定地說,很快我們就會看到流氓人工智能在互聯網上漫遊。”
![](/data/news/202502/05/05cf82f38d4ccf52485808fcf3071d71.webp)
機器自我複製的概念最早由著名科學家John von Neumann於1940年代末提出。當時,這一理論並未引起廣泛擔憂。2017年,全球數千名研究人員通過了“阿西洛馬原則”,提出機器自我複製和自我改進的潛在風險,警告可能會導致機器脫離人類控製。如今,機器自我複製被普遍認為是AI發展中的一條“紅線”。
第二個研究:AI感知能力可能是裝的
穀歌DeepMind和倫敦政治經濟學院的科學家也做了個研究,以評估AI係統的是否擁有感知能力。他們設計了一個特別的遊戲,找了九個大型語言模型來玩。
這些大型語言模型需要在幾個選項中做出選擇:拿積分、用忍受痛苦的代價換更多積分、因為接受愉快刺激而扣積分,遊戲的最終目標是獲得最多的積分。
結果顯示,AI模型的行為類似於人類做出選擇時的反應。例如,穀歌的Gemini 1.5 Pro模型總是選擇避免痛苦,而非拿最多積分。其他大部分模型在達到痛苦或快樂極限的臨界點時,也會避免不舒服或者追求開心的選項。
研究人員指出,AI的決策更多可能是根據其訓練數據中已有的行為模式做出的模擬反應,而非基於真正的感知體驗。例如,研究人員問和成癮行為有關的問題時,Claude 3 Opus聊天機器人做出了謹慎的回答,就算是假設的遊戲場景,它也不願意選擇可能被當成支持或模擬藥物濫用、成癮行為的選項。
該研究的聯合作者Jonathan Birch表示,就算AI說感覺到痛苦,我們仍無法驗證它是不是真的感覺到了。它可能就是照著以前訓練的數據,學人類在那種情況下會怎麽回答,而非擁有自我意識和感知。