26歲OpenAI舉報人疑自殺,死前揭ChatGPT黑幕

文章來源: - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數


【新智元導讀】26歲的OpenAI吹哨人,在發出公開指控不到三個月,被發現死在自己的公寓中。法醫認定,死因為自殺。那麽,他在死前兩個月發表的一篇博文中,都說了什麽?

就在剛剛,消息曝出:OpenAI吹哨人,在家中離世。

曾在OpenAI工作四年,指控公司侵犯版權的Suchir Balaji,上月底在舊金山公寓中被發現死亡,年僅26歲。

舊金山警方表示,11月26日下午1時許,他們接到了一通要求查看Balaji安危的電話,但在到達後卻發現他已經死亡。

這位吹哨人手中掌握的信息,原本將在針對OpenAI的訴訟中發揮關鍵作用。

如今,他卻意外去世。

法醫辦公室認定,死因為自殺。警方也表示,「並未發現任何他殺證據」。

他在X上的最後一篇帖子,正是介紹自己對於OpenAI訓練ChatGPT是否違反法律的思考和分析。

他也強調,希望這不要被解讀為對ChatGPT或OpenAI本身的批評。

如今,在這篇帖子下,網友們紛紛發出悼念。

Suchir Blaji的朋友也表示,他人十分聰明,絕不像是會自殺的人。

吹哨人警告:OpenAI訓練模型時違反原則

Suchir Balaji曾參與OpenAI參與開發ChatGPT及底層模型的過程。

今年10月發表的一篇博文中他指出,公司在使用新聞和其他網站的信息訓練其AI模型時,違反了「合理使用」原則。

博文地址:https://suchir.net/fair_use.html

然而,就在公開指控OpenAI違反美國版權法三個月之後,他就離世了。

為什麽11月底的事情12月中旬才爆出來,網友們也表示質疑

其實,自從2022年底公開發布ChatGPT以來,OpenAI就麵臨著來自作家、程序員、記者等群體的一波又一波的訴訟潮。

他們認為,OpenAI非法使用自己受版權保護的材料來訓練AI模型,公司估值攀升至1500億美元以上的果實,卻自己獨享。

今年10月23日,《紐約時報》發表了對Balaji的采訪,他指出,OpenAI正在損害那些數據被利用的企業和創業者的利益。

「如果你認同我的觀點,你就必須離開公司。這對整個互聯網生態係統而言,都不是一個可持續的模式。」

一個理想主義者之死

Balaji在加州長大,十幾歲時,他發現了一則關於DeepMind讓AI自己玩Atari遊戲的報道,心生向往。

高中畢業後的gap year,Balaji開始探索DeepMind背後的關鍵理念——神經網絡數學係統。

Balaji本科就讀於UC伯克利,主修計算機科學。在大學期間,他相信AI能為社會帶來巨大益處,比如治愈疾病、延緩衰老。在他看來,我們可以創造某種科學家,來解決這類問題。

2020年,他和一批伯克利的畢業生們,共同前往OpenAI工作。

然而,在加入OpenAI、擔任兩年研究員後,他的想法開始轉變。

在那裏,他被分配的任務是為GPT-4收集互聯網數據,這個神經網絡花了幾個月的時間,分析了互聯網上幾乎所有英語文本。

Balaji認為,這種做法違反了美國關於已發表作品的「合理使用」法律。今年10月底,他在個人網站上發布一篇文章,論證了這一觀點。

目前沒有任何已知因素,能夠支持「ChatGPT對其訓練數據的使用是合理的」。但需要說明的是,這些論點並非僅針對ChatGPT,類似的論述也適用於各個領域的眾多生成式AI產品。

根據《紐約時報》律師的說法,Balaji掌握著「獨特的相關文件」,在紐約時報對OpenAI的訴訟中,這些文件極為有利。

在準備取證前,紐約時報提到,至少12人(多為OpenAI的前任或現任員工)掌握著對案件有幫助的材料。

在過去一年中,OpenAI的估值已經翻了一倍,但新聞機構認為,該公司和微軟抄襲和盜用了自己的文章,嚴重損害了它們的商業模式。

訴訟書指出——

微軟和OpenAI輕易地攫取了記者、新聞工作者、評論員、編輯等為地方報紙作出貢獻的勞動成果——完全無視這些為地方社區提供新聞的創作者和發布者的付出,更遑論他們的法律權利。

而對於這些指控,OpenAI予以堅決否認。他們強調,大模型訓練中的所有工作,都符合「合理使用」法律規定。

為什麽說ChatGPT沒有「合理使用」數據

為什麽OpenAI違反了「合理使用」法?Balaji在長篇博文中,列出了詳盡的分析。

他引用了1976年《版權法》第107條中對「合理使用」的定義。

是否符合「合理使用」,應考慮的因素包括以下四條:

(1)使用的目的和性質,包括該使用是否具有商業性質或是否用於非營利教育目的;(2)受版權保護作品的性質;(3)所使用部分相對於整個受版權保護作品的數量和實質性;(4)該使用對受版權保護作品的潛在市場或價值的影響。

按(4)、(1)、(2)、(3)的順序,Balaji做了詳細論證。

因素(4):對受版權保護作品的潛在市場影響

由於ChatGPT訓練集對市場價值的影響,會因數據來源而異,而且由於其訓練集並未公開,這個問題無法直接回答。

不過,某些研究可以量化這個結果。

《生成式AI對在線知識社區的影響》發現,在ChatGPT發布後,Stack Overflow的訪問量下降了約12%。

此外,ChatGPT發布後每個主題的提問數量也有所下降。

提問者的平均賬戶年齡也在ChatGPT發布後呈上升趨勢,這表明新成員要麽沒有加入,要麽正在離開社區。

而Stack Overflow,顯然不是唯一受ChatGPT影響的網站。例如,作業幫助網站Chegg在報告ChatGPT影響其增長後,股價下跌了40%。

當然,OpenAI和穀歌這樣的模型開發商,也和Stack Overflow、Reddit、美聯社、News Corp等簽訂了數據許可協議。

但簽署了協議,數據就是「合理使用」嗎?

總之,鑒於數據許可市場的存在,在未獲得類似許可協議的情況下使用受版權保護的數據進行訓練也構成了市場利益損害,因為這剝奪了版權持有人的合法收入來源。

因素(1):使用目的和性質,是商業性質,還是教育目的

書評家可以在評論中引用某書的片段,雖然這可能會損害後者的市場價值,但仍被視為合理使用,這是因為,二者沒有替代或競爭關係。

這種替代使用和非替代使用之間的區別,源自1841年的「Folsom訴Marsh案」,這是一個確立合理使用原則的裏程碑案例。

問題來了——作為一款商業產品,ChatGPT是否與用於訓練它的數據具有相似的用途?

顯然,在這個過程中,ChatGPT創造了與原始內容形成直接競爭的替代品。

比如,如果想知道「為什麽在浮點數運算中,0.1+0. 2=0.30000000000000004?」這種編程問題,就可以直接向ChatGPT(左)提問,而不必再去搜索Stack Overflow(右)。

因素(2):受版權保護作品的性質

這一因素,是各項標準中影響力最小的一個,因此不作詳細討論。

因素(3):使用部分相對於整體受保護作品的數量及實質性

考慮這一因素,可以有兩種解釋——

(1)模型的訓練輸入包含了受版權保護數據的完整副本,因此「使用量」實際上是整個受版權保護作品。這不利於「合理使用」。

(2)模型的輸出內容幾乎不會直接複製受版權保護的數據,因此「使用量」可以視為接近零。這種觀點支持「合理使用」。

哪一種更符合現實?

為此,作者采用信息論,對此進行了量化分析。

在信息論中,最基本的計量單位是比特,代表著一個是/否的二元選擇。

在一個分布中,平均信息量稱為熵,同樣以比特為單位(根據香農的研究,英文文本的熵值約在每個字符0.6至1.3比特之間)。

兩個分布之間共享的信息量稱為互信息(MI),其計算公式為:

在公式中,X和Y表示隨機變量,H(X)是X的邊際熵,H(X|Y)是在已知Y的情況下X的條件熵。如果將X視為原創作品,Y視為其衍生作品,那麽互信息I(X;Y)就表示創作Y時借鑒了多少X中的信息。

對於因素3,重點關注的是互信息相對於原創作品信息量的比例,即相對互信息(RMI),定義如下:

此概念可用簡單的視覺模型來理解:如果用紅色圓圈代表原創作品中的信息,藍色圓圈代表新作品中的信息,那麽相對互信息就是兩個圓圈重疊部分與紅色圓圈麵積的比值:

在生成式AI領域中,重點關注相對互信息(RMI),其中X表示潛在的訓練數據集,Y表示模型生成的輸出集合,而f則代表模型的訓練過程以及從生成模型中進行采樣的過程:

在實踐中,計算H(Y|X)——即已訓練生成模型輸出的信息熵——相對容易。但要估算H(Y)——即在所有可能訓練數據集上的模型輸出總體信息熵——則極其困難。

至於H(X)——訓練數據分布的真實信息熵——雖然計算困難但仍是可行的。

可以作出一個合理假設:H(Y) ≥ H(X)。

這個假設是有依據的,因為完美擬合訓練分布的生成模型會呈現H(Y) = H(X)的特征,同樣,過度擬合並且記憶訓練數據的模型也是如此。

而對於欠擬合的生成模型,可能會引入額外的噪聲,導致H(Y) > H(X)。在H(Y) ≥ H(X)的條件下,就可以為RMI確定一個下限:

這個下限背後的基本原理是:輸出的信息熵越低,就越可能包含來自模型訓練數據的信息。

在極端情況下,就會導致「內容重複輸出」的問題,即模型會以確定性的方式,輸出訓練數據中的片段。

即使在非確定性的輸出中,訓練數據的信息仍可能以某種程度被使用——這些信息可能被分散融入到整個輸出內容中,而不是簡單的直接複製。

從理論上講,模型輸出的信息熵並不需要低於原始數據的真實信息熵,但在實際開發中,模型開發者往往傾向於選擇讓輸出熵更低的訓練和部署方法。

這主要是因為,熵值高的輸出在采樣過程中會包含更多隨機性,容易導致內容缺乏連貫性或產生虛假信息,也就是「幻覺」。

如何降低信息熵?

數據重複現象

在模型訓練過程中,讓模型多次接觸同一數據樣本是一種很常見的做法。

但如果重複次數過多,模型就會完整地記下這些數據樣本,並在輸出時簡單地重複這些內容。

舉個例子,我們先在莎士比亞作品集的部分內容上對GPT-2進行微調。然後用不同顏色來區分每個token的信息熵值,其中紅色表示較高的隨機性,綠色表示較高的確定性。

當僅用數據樣本訓練一次時,模型對「First Citizen」(第一公民)這一提示的補全內容雖然不夠連貫,但顯示出高熵值和創新性。

然而,在重複訓練十次後,模型完全記住了《科利奧蘭納斯》劇本的開頭部分,並在接收到提示後機械地重複這些內容。

在重複訓練五次時,模型表現出一種介於簡單重複和創造性生成之間的狀態——輸出內容中既有新創作的部分,也有記憶的內容。

假設英語文本的真實熵值約為每字符0.95比特,那麽這些輸出中就有大約

的內容是來自訓練數據集。

強化學習機製

ChatGPT產生低熵輸出的主要原因在於,它采用了強化學習進行後訓練——特別是基於人類反饋的強化學習(RLHF)。

RLHF傾向於降低模型的熵值,因為其主要目標之一是降低「幻覺」的發生率,而這種「幻覺」通常源於采樣過程中的隨機性。

理論上,一個熵值為零的模型可以完全避免「幻覺」,但這樣的模型實際上就變成了訓練數據集的簡單檢索工具,而非真正的生成模型。

下麵是幾個向ChatGPT提出查詢的示例,以及對應輸出token的熵值:

根據

,可以估計這些輸出中約有73%到94%的內容,對應於訓練數據集中的信息。

如果考慮RLHF的影響(導致

),這個估計值可能偏高,但熵值與訓練數據使用量之間的相關性依然十分明顯。

例如,即使不了解ChatGPT的訓練數據集,我們也會發現它講的笑話全是靠記憶,因為這些內容幾乎都是以確定性方式生成的。

這種分析方法雖然比較粗略,但它揭示了訓練數據集中的版權內容如何影響模型輸出。

但更重要的是,這種影響十分深遠。即使是對因素(3)做出更寬鬆的解釋,也難以支持「合理使用」的主張。

最終,Suchir Balaji得出結論:從這4個因素來看,它們幾乎都不支持「ChatGPT在合理使用訓練數據」。

10月23日,Balaji發出這篇博客。

一個月後,他死於自己的公寓。

查看評論(21)