決定AI下一步的關鍵問題:數據耗盡!

文章來源: - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

為了解決這一問題,目前AI公司有的在收集非公開數據,有的轉向使用專注於健康護理、環境等的專業數據集,還有的在嚐試合成數據。這些方法都在一定程度上緩解了數據不足的困境,但都存在一些缺陷,並不能徹底解決問題。

來源:硬AI

作者:蔣紫涵

AI研究員已經快將世界上的知識“榨幹”了,下一步,AI該如何發展?

昨日,前OpenAI聯合創始人、SSI創始人Ilya Sutskever在NeurIPS 2024大會上發表演講時表示,預訓練時代即將結束,數據作為AI的化石燃料是有限的,目前用於AI預訓練的數據已經達到了峰值。

的確,過去十年中,AI的爆炸性進步在很大程度上依賴於神經網絡規模的擴大以及使用更多的數據進行訓練,這使得大語言模型(LLMs),如ChatGPT能夠更好地模擬對話並發展出推理等功能。但一些專家指出,目前AI訓練正在接近擴展的極限,一是因為計算能耗急劇增加,二是因為大語言模型開發者幾乎已經用盡了能夠訓練模型的傳統數據集。

Epoch AI的馬德裏研究員Pablo Villalobos預測,到2028年左右,用於訓練AI模型的數據集的規模將與公共在線文本總量相當,換句話說,AI訓練數據很可能在四年後耗盡。

為了解決這一問題,目前AI公司有的在收集非公開數據,有的轉向使用專注於健康護理、環境等的專業數據集,還有的在嚐試合成數據。這些方法都在一定程度上緩解了數據不足的困境,但都存在一些缺陷,並不能徹底解決問題。

或許,AI的下一步不再是學習現有知識,而是自我反思與智能進化,就像卡內基梅隆大學的研究生Andy Zou說的這樣:“現在它已經擁有了一個基礎知識庫,可能超過了任何一個人所能掌握的,這意味著它隻需要靜下心來思考。”

耗盡的數據,膨脹的需求

過去十年中,大語言模型的開發展現出了對數據的強烈需求。

Villalobos估計,自2020年以來,用於訓練大語言模型的數據增長了100倍,可能已經占據了互聯網中很大一部分的內容,並且,AI訓練數據集的規模每年翻倍。然而另一邊,互聯網可用內容的增長速度卻出奇的緩慢,估計每年增長不到10%。

基於這些趨勢,Villalobos的研究顯示,到2028年,AI訓練數據很可能耗盡。

與此同時,內容提供商加入了越來越多的軟件代碼或完善其使用條款,禁止AI公司抓取其數據用於訓練。

麻省理工學院的AI研究員Shayne Longpre領導著一個專門審計AI數據集的草根組織,並撰寫了數據來源追溯倡議。Longpre的研究顯示,數據提供商對特定爬蟲的封鎖數量急劇增加,2023年到2024年間,三大清洗數據集中最常用的高質量網絡內容,封鎖比例從不足3%增加到了20%-33%。

並且,幾起侵權訴訟也在進行中——2023年12月,《紐約時報》起訴OpenAI和微軟侵犯其版權;今年4月,Alden Global Capital旗下的八家報紙也聯合提起了類似訴訟。如果美國法院判定內容提供商應當獲得賠償,那麽AI開發者和研究人員將更難獲取所需的數據。

AI公司的應對手段

麵對內容提供商越來越嚴格的管控,AI開發者也在著手尋找解決辦法。

OpenAI、Anthropic等知名AI公司公開承認了這個問題,表示他們有計劃通過手段繞過這一管控,比如生成新的數據、尋找非常規的數據來源等。

OpenAI的一位發言人對《自然》雜誌表示:

“我們使用多個來源,包括公開可用的數據、AI訓練師提供的數據、與非公開數據合作、生成合成數據等。”
分析師指出,如果目標是尋找更多數據,目前,主流方法有二:

一是收集非公開數據,如WhatsApp消息或YouTube視頻的文字記錄。例如,Meta曾表示他們使用虛擬現實耳機Meta Quest收集的音頻和圖像數據來訓練AI。

Villalobos估計,這些數據大多質量較低或重複,且總量較小,不過即便如此,也足以延緩一年半左右時間的數據不足困境。

二是專注於快速增長的專業數據集,如天文學或基因組數據。

斯坦福大學的著名AI研究員Fei-Fei Li非常支持這種策略,她在5月的彭博技術峰會上表示,擔憂數據即將耗盡的觀點過於狹窄,因為在健康護理、環境、教育等領域有著豐富的未被開發的數據。

但Villalobos表示,目前尚不清楚這些數據集是否適合訓練大語言模型,“很多數據類型之間似乎存在一定程度的遷移學習,但我對這種方法並不抱太大希望。”

不過,分析師也提醒道,盡管有各種方法應對數據緊張,但數據不足是實打實的問題,因此,這可能會迫使公司在構建生成AI模型時進行變革,使得AI的應用領域從大型、通用的大語言模型轉向更小、更專業的細分模型。

還可以合成數據?

除了以上兩種方式,Meta首席AI科學家Yann LeCun提出,如果無法找到數據,也可以嚐試生成更多數據。

例如,一些AI公司付錢讓人們生成內容用於AI訓練,另一些公司則直接使用AI生成的合成數據來訓練。

分析認為,這一數據來源潛力巨大——OpenAI今年早些時候表示,他們每天生成1000億個單詞,相當於每年生成超過36萬億個單詞,與當前的AI訓練數據集規模相當,並且這一產出正在快速增長。

總的來說,專家們一致認為合成數據在有明確、可識別規則的領域表現良好,如國際象棋、數學、計算機編碼等。

目前,AI工具AlphaGeometry已經通過1億個合成示例進行訓練並成功解決了幾何問題。

此外,合成數據在真實數據有限或有問題的領域也已經被廣泛應用,例如醫療領域,因為合成數據避免了隱私問題。

但合成數據也不是完美的——合成數據的問題在於,遞歸循環可能加劇錯誤、放大誤解,並在整體上降低AI模型的學習質量。
2023年,一項研究提出了“模型自噬障礙(Model Autophagy Disorder)”這一術語,用於描述AI模型在這種情況下可能“崩潰”的現象。例如,一個部分使用合成數據訓練的麵部生成AI模型開始繪製帶有奇怪哈希標記的麵孔。
查看評論(4)