13家媒體怒告OpenAI等AI巨頭

每經記者 文巧 鄭雨航每經編輯 蘭素英 

想象一下,在一個巨大的機房內,數不清的服務器閃爍著點點亮光,隨著數據流的進入,大語言模型將其一股腦兒“吞食”,隨後開始高速分析和處理。在日複一日的數據“投喂”和深度學習技術的推動下,大模型表現得越來越類人化,OpenAI等一眾AI公司也隨之迎來迅猛發展。

然而,對於到底“投喂”了什麽數據,是否獲得授權,這些AI公司總是諱莫如深。伯克利計算機科學家Stuart Russell等學者認為,大模型吞噬了大多數互聯網信息,以複製人類智能並將其以自動化形式鏡像回饋給我們。

當意識到其網站上發布的故事都被自動抓取成了大模型的“食物”後,以《紐約時報》為首的媒體/出版機構向OpenAI等發起了版權訴訟。《每日經濟新聞》記者在采訪哈佛法學院教授麗貝卡·塔什內特(Rebecca Tushnet)、安傑世澤律師事務所合夥人於雯竹後了解到,此類案件判定的難點在於如何確定AI輸出內容與媒體報道間的“實質性相似”。

另一方麵,OpenAI等科技公司也向媒體/出版機構拋出了橄欖枝,因為數據總有耗光的一天。研究機構Epoch AI近期預測,大模型將在2026年至2032年之間消耗完所有可用數據。

有外媒評論稱,起訴或許是《紐約時報》談判的手段之一。實際上,在起訴之前,《紐約時報》與OpenAI一直在商談授權合作協議。圖為OpenAI創始人兼首席執行官阿爾特曼。視覺中國圖

付費內容被抓取

2009年末,媒體大亨默多克曾在一場論壇上說:“有些人覺得他們有權拿走我們的新聞內容,還無需為新聞生產貢獻一分錢。他們幾乎侵吞了我們的全部新聞,這可不是合理使用。說得直白些,這就是偷。”

當時,隨著穀歌等新興互聯網公司的出現,美國報業的廣告收入腰斬。而如今,OpenAI等生成式AI公司的強勢崛起,類似的一幕似乎又開始重演。

新聞集團首席執行官羅伯特·湯姆森就曾表示,“媒體的集體知識產權正受到威脅,我們應該大聲要求賠償”。新聞行業律師Steven Lieberman更是直言,OpenAI的巨大成功也要歸功於其他人的工作,它在未經許可或付款的情況下獲取了大量優質內容。

據外媒,ChatGPT主要通過閱讀書籍、文章和公開的網絡內容來學習,包括來自互聯網的在線新聞文章。類似的大語言模型也依賴的是社交媒體帖子、博客、數字化書籍、在線評論、維基百科頁麵以及人們能想到的幾乎所有網絡信息。

在意識到ChatGPT對曆史和時事的了解源自其網站上發布的故事(甚至是付費內容)時,去年底,《紐約時報》對OpenAI以及微軟提起訴訟,指控後者未經授權使用該報版權內容訓練AI模型,並在ChatGPT產品中呈現給用戶。

該案打響了媒體機構起訴OpenAI的第一槍,隨後又有多家媒體加入了這一隊列。據《每日經濟新聞》記者不完全統計,截至今年6月底,已至少有13家新聞媒體機構對OpenAI和微軟提起侵權訴訟。這裏麵有Alden Global投資集團旗下的地區性知名報紙,包括芝加哥論壇報、紐約每日新聞、丹佛郵報,還有數字新聞媒體The Intercept、Raw Story以及非盈利新聞組織The Center for Investigative Reporting。

“判斷這種數據抓取行為是否侵犯版權,是一個複雜且有爭議的問題。”安傑世澤律師事務所合夥人、中國和美國紐約州執業律師於雯竹在接受《每日經濟新聞》記者采訪時表示。

這些訴訟隻是各行業與生成式AI公司鬥爭的縮影。

美國當地時間6月24日,全球三大唱片公司索尼音樂集團、環球音樂集團和華納音樂聯合多家唱片公司,向AI音樂生成公司Suno和Udio 開發商Uncharted Labs發起訴訟,指控後者非法使用版權音樂來訓練模型並提供服務。唱片公司指控Suno抄襲了662首歌曲,Udio抄襲了1670首歌曲,正在嚐試索取每件音樂作品最高15萬美元的賠償費用。

8個月角力無結果

越來越多關於生成式AI技術的法律之爭也讓人們開始正視媒體/出版商與顛覆性技術之間的關係。

據著名廣告周刊Adweek報道,穀歌去年5月推出了基於AI的搜索引擎 Search Generative Experience(SGE)測試版,接受采訪的媒體高管和搜索引擎優化專家稱,出版商必須為自然搜索流量的大幅下降做好準備,下降幅度可能在20%到60%之間。而出版商在開放網絡上的搜索流量減少通常意味著數字廣告收入下降。新型媒體公司Raptive創新執行副總裁Marc McCollum估計,在目前的SGE下,整個出版業每年的廣告收入損失可能高達20億美元。

而《紐約時報》的起訴不僅是媒體領域的重要裏程碑案件,亦可以為法律業界提供極具參考價值的信息。

“就版權法而言,本案的重要影響在於版權法在數字和AI時代的適用範圍。特別是對於新聞報道這類具有較高公共利益的文本內容,如何平衡版權保護和信息自由將成為一個關鍵問題。”於雯竹對記者說道。

在於雯竹看來,如果《紐約時報》的訴訟獲得成功,將樹立一個重要的法律先例,鼓勵其他文字類媒體、版權機構和作家團體組織跟隨起訴OpenAI及類似的AI公司。本案可能會督促AI公司重視AI模型訓練的合法性,可能推動相關行業規範的建立。

目前,該案件已經持續將近8個月,但還沒有定論。

“實質性相似”難證明

《紐約時報》在起訴書中稱,ChatGPT幾乎逐字複製了其新聞報道。該報舉例稱,2019年,《紐約時報》發表了一篇榮獲普利策獎的關於紐約市出租車行業掠奪性貸款的係列文章。該報稱,隻要稍加提示,ChatGPT就會一字不差地背誦其中的大部分內容。

在其他多家媒體的起訴書中,記者發現,其法律論證和主張都基於美國1976年版權法和《數字千年版權法》(DMCA)。

對於這兩部法案中涉及AI的內容,於律師告訴記者,“就1976年版權法而言,侵權的判定通常依賴於原作品和被指控侵權作品之間的相似性,以及實際的複製行為。本案中實際複製行為相對容易證明,因為OpenAI並未否認其訓練數據中包含《紐約時報》的文章。”

然而難點在於,“證明最終生成的文本構成版權侵權仍需滿足‘實質性相似’測試,因為它有助於判斷受版權保護的表達元素是否被複製,還是僅複製了其中的思想。版權保護的是表達,而不是思想。你可以用自己的語言重新實現他人的思想,這不構成版權侵權。但如果你使用他人的語言——即他們的表達——那就是版權侵權。”於律師說道。

談及DMCA,於雯竹解釋道:“其中的一項規定鼓勵版權持有者在數字資產中添加內容管理信息(CMI),例如幫助識別創作者或權利持有者的信息,並禁止他人移除這些信息。”

然而,《紐約時報》起訴書提到,OpenAI在抓取其文章以創建數據庫時,移除了這些信息,違反了DMCA。

“實際上,美國是判例法國家,而其版權法及DMCA並未特別規定與AI相關的法律內容,對於OpenAI的行為是否屬於侵權的認定,法院依據的是相關的先例及其對相關法律條文的解釋。”於雯竹表示。

公司稱是“合理使用”

在回應《紐約時報》版權侵權訴訟時,OpenAI強調使用公開材料訓練AI模型屬於合理使用。這一規則基於美國1976年版權法第107條規定。

哈佛法學院教授麗貝卡·塔什內特在接受《每日經濟新聞》記者采訪時認為,“美國版權法既提供了廣泛的權利,也提供了廣泛的例外。關鍵問題是AI訓練是否構成‘合理使用’,以及當AI輸出的內容與現有作品過於相似時,該問題到底應該歸咎於模型還是用戶的濫用”。

塔什內特認為,“OpenAI提供了有一個有趣的主張,即(AI)要獲得高度相似的輸出,必須故意用《紐約時報》原始文章中的大量引文來提示模型,這表明錯誤在於提示者(用戶的濫用)”。

“‘合理使用’是美國版權法的一項關鍵優勢,使其能夠應對不斷變化的情況。它促成了我們所知道的現代互聯網的興起,尤其是搜索引擎。按照同樣的推理,隻要輸出通常不是從特定作品中複製而來,創建AI模型就應該被視為變革性的和公平的。”她對記者解讀稱,“我認為這是一個相當標準的有關‘合理使用’的問題”。

根據1976年版權法,判定合理使用的認定包括四個因素。其中,於雯竹認為,最重要的是第四點:使用對版權作品的潛在市場或價值的影響。簡而言之,就是新作品是否對原作品構成市場損害。

《紐約時報》在起訴書中稱,OpenAI的AI工具不僅未經授權使用了《紐約時報》的數據進行訓練,還分流了《紐約時報》網站的流量,導致公司廣告、訂閱和授權營收的損失。因此《紐約時報》公司向OpenAI和微軟提出數十億美元的索賠,並要求他們停止使用自己的內容數據。

“我認為OpenAI的‘合理使用’辯護在理論上具有較大的合理性,但其成功與否取決於法院對四因素測試的具體評估。”於雯竹說道。

塔什內特也表示,“我對法院是否會駁回(OpenAI)的所有辯護持懷疑態度,但沒有什麽是絕對肯定的”。

窘境之下的合作

目前,OpenAI可以合法地為其模型“喂食”什麽內容這一問題仍待解決,但媒體機構的策略開始呈現分化趨勢。

當地時間6月27日,《時代》雜誌與OpenAI宣布,兩家公司達成了一項多年內容授權協議和戰略合作夥伴關係。該協議允許OpenAI將這家出版商的內容引入ChatGPT,並幫助訓練其最先進的AI模型。

據新聞稿介紹,OpenAI可以通過這筆交易訪問《時代》過去100多年的檔案和文章,以訓練其AI模型,並在其麵向消費者的產品(如ChatGPT)中用於回複用戶的詢問。但雙方的交易價值並未透露。

今年5月,OpenAI和新聞集團也達成了類似的合作關係。在此合作下,OpenAI有權訪問新聞集團旗下媒體的當前和存檔文章,包括《華爾街日報》《MarketWatch》《巴倫周刊》《紐約郵報》等。

《每日經濟新聞》記者注意到,過去半年時間,OpenAI已連續與多家媒體機構達成協議。

對媒體機構來說,接受OpenAI等AI巨頭拋來的橄欖枝,與科技公司在AI新時代合作,共同探索新的資訊形態、商業模式和分成比例,可能是最好的選擇。與OpenAI合作的媒體公司認為,生成式AI將繼續存在,最好能分一杯羹。此外,與OpenAI合作讓出版物在某種程度上可以控製他們的新聞報道在ChatGPT響應中的呈現方式。

正如新聞集團首席執行官Robert Thomson所稱,“(與OpenAI的協議)認可了頂級新聞應有頂級價格。數字化時代的一大特征是分銷者占據主導地位,而內容創作者經常利益受損。很多媒體公司都被無情的科技大潮所卷席。我們現在有責任抓住這一最大的機遇”。

有外媒評論稱,起訴或許也是《紐約時報》談判的手段之一。實際上,在起訴之前,《紐約時報》與OpenAI一直在商談授權合作協議,但在OpenAI加入了新的免責條款後,談判破裂。

對科技公司來說,支付授權費用一方麵可以有效化解法律風險,另一方麵可以獲得更多優質訓練數據,優質數據才是決定未來AI大模型優劣的關鍵因素。畢竟,當前各大科技公司都麵臨數據枯竭的風險。

在6月更新的一項研究成果中,人工智能研究機構Epoch AI稱,據他們估測,目前人類生成的公開文本總量約為300萬億個Token,但使用數據的速度遠遠超過了生成數據的速度,這意味著大模型將在2026年至2032年之間消耗完所有可用數據。

與AI公司合作到底能給媒體機構帶來多大的收益?

以新聞集團舉例,《每日經濟新聞》記者注意到,除2024財年第二財季由於圖書出版成本降低以及與宣布的5%裁員計劃相關的總成本節省所帶來的高額淨收入之外,新聞集團每個季度的淨收入均在6000萬美元以內。而《華爾街日報》援引知情人士的消息稱,新聞集團與OpenAI的協議價值在五年內可能超過2.5億美元,包括現金和使用OpenAI技術的積分形式的補償。如此算來,相當於OpenAI每年將向新聞集團支付高達5000萬美元的內容授權費用,這幾乎相當於新聞集團將近一個財季的淨收入。

從近期科技公司與媒體達成的合作金額來說,這一交易可以算是AI行業發展的裏程碑事件。而且,新聞集團與OpenAI的協議並非是一份獨家授權協議,意味著新聞集團還可以從穀歌等其他AI公司繼續獲得授權收入。

湯森路透的財報也證實了合作帶來的收益。《每日經濟新聞》記者查詢湯森路透公司的財報發現,2024年第一季度,該公司收入為18.85億美元,同比增長8%。該公司在財報中寫道,“(增長)主要是由於‘三大’部門(該公司的法律、企業和稅務以及會計部門)的經常性收入和交易收入的強勁增長,以及路透社新聞部門的生成式AI相關內容許可收入”。

一季度財報顯示,路透社新聞業務的收入為2.1億美元,同比增長3%。這一增長主要是由於湯森路透與倫敦證券交易所集團(LSEG)數據分析部門簽訂的新聞協議。根據該協議,路透社新聞將向LSEG授權提供新聞內容,後者用於生成AI相關內容。2024年第一季度,僅該協議為路透社新聞業務帶來的收入就高達9600萬美元。

封麵圖片來源:視覺中國

所有跟帖: 

-麥迪文- 給 麥迪文 發送悄悄話 (0 bytes) () 07/09/2024 postreply 07:32:15

請您先登陸,再發跟帖!