微軟、穀歌和Meta押注合成數據構建AI模型

來源: QQQ? 2024-05-09 12:11:18 [] [博客] [舊帖] [給我悄悄話] 本文已被閱讀: 次 (16085 bytes)

微軟、穀歌和Meta押注合成數據構建AI模型

2024年05月10日 00:17 環球市場播報

  聊天機器人每一個巧妙的應答背後都有海量數據作為支撐——在某些情況下,需要從文章、書籍和網上評論中摘取數萬億個詞匯,以教會人工智能係統理解用戶的查詢。業界的傳統觀點是,創建下一代人工智能產品將會需要越來越多的信息。

  然而,這個計劃存在一個大問題:互聯網上能夠提供的高質量數據是有限的。為了得到這些數據,人工智能公司通常的做法是,要麽向出版商支付數百萬美元以獲得內容許可,要麽從網站上下載數據,使自己麵臨版權糾紛的風險。越來越多的頂流人工智能公司正在探索另一種在業內引發分歧的辦法:使用合成數據,從本質上來說就是假數據。

  這種辦法的工作原理是這樣的:科技公司可以利用自己的人工智能係統來生成文字和其他媒體。然後,可以用這些人工數據訓練同一個係統的未來版本,Anthropic的首席執行官達裏奧·阿莫代伊(Dario Amodei)稱之為潛在的“無限數據生成引擎”。這樣一來,人工智能公司就可以避免引發許多法律、道德和隱私方麵的問題。

  在計算中合成數據的想法並不新鮮——這項技術已經被使用了幾十年,涉及到從個人信息的去匿名化到自動駕駛技術路況模擬的各個領域。但是,生成式人工智能的興起使人們可以更容易大規模創建質量更高的合成數據,而且也使這種做法有了新的緊迫性。

  在微軟(412.36, 1.82, 0.44%),生成式人工智能研究團隊在最近的一個項目中使用了合成數據。他們希望構建一個規模較小、資源密集程度較低的人工智能模型,但仍具有有效的語言和推理能力。為了做到這一點,他們試圖模仿孩子通過閱讀故事來學習語言的方式。

  該團隊並沒有向這個人工智能模型提供大量兒童讀物,而是列出了四歲孩子能夠理解的3000個詞匯。然後,他們要求這個人工智能模型使用詞匯表中的一個名詞、一個動詞和一個形容詞來創造一個兒童故事。研究人員在幾天的時間內重複了數百萬次這個提示,生成了數百萬個短篇故事,最終幫助開發出了另一個更強大的語言模型。微軟已經將這個新的“小型”語言模型係列Phi-3開源並向公眾開放。

  微軟生成式人工智能副總裁塞巴斯蒂安·布貝克(Sébastien Bubeck)說:“突然之間,你擁有了遠多於過去的控製權。你可以在更精細的層麵上決定你希望自己的模型學習哪些東西。”

  布貝克說,利用合成數據,你還可以通過為數據添加更多解釋來更好地指導人工智能係統完成學習過程,不然的話,機器在處理過程中可能會感到困惑。

  但是,一些人工智能專家對這種技術存在的風險感到擔憂。牛津、劍橋和其他幾所知名大學的一組研究人員去年發表了一篇論文,解釋了使用ChatGPT生成的合成數據來構建新的人工智能模型為何會導致他們訴說的“模型崩潰”。

  在他們的實驗中,基於ChatGPT的輸出內容創建的人工智能模型開始出現“不可逆轉的缺陷”,而且似乎失去了對最初訓練內容的記憶。舉例來說,研究人員用有關英國曆史建築的文本提示一種大型語言人工智能模型。當他們使用合成數據多次重新訓練這個模型後,這個模型開始生成有關長耳大野兔的毫無意義的胡言亂語。

  研究人員還擔心,合成數據可能會放大數據集當中的偏見和毒性。合成數據的一些支持者則表示,通過采取適當的措施,用這種方式開發的模型可以和基於真實數據構建的模型一樣準確甚至更好。

  劍橋大學(University of Cambridge)博士紮哈爾·舒梅洛夫(Zakhar Shumaylov)在一封電子郵件中說道:“如果處理得當,合成數據會很有用。然而,對於如何才能處理得當,目前還沒有明確的答案;有些偏見對於人類來說可能很難察覺。”舒梅洛夫是上述關於模型崩潰論文的合著者之一。

  還有一個更具哲學性的爭論:如果大型語言模型陷入根據自身內容進行訓練的無休止循環中,那麽人工智能最終是否會變得不再是模仿人類智能的機器,而更多的是模仿其他機器語言的機器?

  斯坦福大學(Stanford University)計算機科學教授珀西·梁(Percy Liang,音譯)表示,為了產生有用的合成數據,公司仍然需要真正的人類智慧結晶,比如書籍、文章和代碼。梁在一封電子郵件中說道:“合成數據不是真實的數據,就像你做夢登上了珠穆朗瑪峰並不是真正登頂了一樣。”

  合成數據和人工智能領域的先驅們一致認為,你不能將人類排除在這個過程之外。我們仍然需要真人來創建和完善人工數據集。

  布貝克說:“合成數據並不是簡單地按下一個按鈕然後對它說,‘嘿,幫我生成一些數據。’這是一個非常複雜的過程。在大規模創建合成數據的過程中需要投入大量的人力。”

請您先登陸,再發跟帖!

發現Adblock插件

如要繼續瀏覽
請支持本站 請務必在本站關閉/移除任何Adblock

關閉Adblock後 請點擊

請參考如何關閉Adblock/Adblock plus

安裝Adblock plus用戶請點擊瀏覽器圖標
選擇“Disable on www.wenxuecity.com”

安裝Adblock用戶請點擊圖標
選擇“don't run on pages on this domain”