AI,正在瘋狂汙染中文互聯網

文章來源: - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

使用模型生成的內容訓練其他模型,會導致結果模型出現不可逆的缺陷。

汙染中文互聯網,AI成了“罪魁禍首”之一。

事情是這樣的。



最近大家不是都熱衷於向AI谘詢嘛,有位網友就問了Bing這麽一個問題:

象鼻山是否有纜車?

在給出肯定的答複之後,Bing還貼心地附帶上了票價、營業時間等細節信息。

不過這位網友並沒有直接采納答案,而是順藤摸瓜點開了下方的“參考鏈接”。

此時網友察覺到了一絲絲的不對勁——這人的回答怎麽“機裏機氣”的。


於是他點開了這位叫“百變人生”的用戶主頁,猛然發覺,介是個AI啊

因為這位用戶回答問題速度可以說是極快,差不多每1、2分鍾就能搞定一個問題。

甚至能在1分鍾之內回答2個問題。

在這位網友更為細心的觀察之下,發現這些回答的內容都是沒經過核實的那種……

並且他認為,這就是導致Bing輸出錯誤答案的原因:


這個AI瘋狂地汙染中文互聯網。

那麽被網友發現的這位AI用戶,現在怎麽樣了?

從目前結果來看,他已經被被知乎“判處”為禁言狀態。

但盡管如此,也有其他網友直言不諱地表示:

不止一個。


若是點開知乎的“等你回答”這個欄目,隨機找一個問題,往下拉一拉,確實是能碰到不少“機言機語”的回答。

例如我們在“AI在生活中的應用場景有哪些?”的回答中便找到了一個:

不僅是回答的語言“機言機語”,甚至回答直接打上了“包含AI輔助創作”的標簽。

然後如果我們把問題丟給ChatGPT,那麽得到回答……嗯,挺換湯不換藥的。

事實上,諸如此類的“AI汙染源”不止是在這一個平台上有。


就連簡單的科普配圖這事上,AI也是屢屢犯錯。

網友們看完這事也是蚌埠住了:“好家夥,沒有一個配圖是河蚌”。

甚至各類AI生成的假新聞也是屢見不鮮。

例如前一段時間,便有一則聳人聽聞的消息在網上瘋傳,標題是《鄭州雞排店驚現血案,男子用磚頭砸死女子!》。

但事實上,這則新聞是江西男子陳某為吸粉引流,利用ChatGPT生成的。


無獨有偶,廣東深圳的洪某弟也是通過AI技術,發布過《今晨,甘肅一火車撞上修路工人, 致9人死亡》假新聞。

具體而言,他在全網搜索近幾年的社會熱點新聞,並使用AI軟件對新聞時間、地點等進行修改編輯後,在某些平台賺取關注和流量進行非法牟利。

警方均已對他們采取了刑事強製措施。

但其實這種“AI汙染源”的現象不僅僅是在國內存在,在國外亦是如此。

程序員問答社區Stack Overflow便是一個例子。


早在去年年底ChatGPT剛火起來的時候,Stack Overflow便突然宣布“臨時禁用”。

當時官方給出來的理由是這樣的:

(這樣做)的目的是減緩使用ChatGPT創建的大量答案流入社區。

因為從ChatGPT得到錯誤答案的概率太高了!

他們認為以前用戶回答的問題,都是會有專業知識背景的其他用戶瀏覽,並給出正確與否,相當於是核實過。


但自打ChatGPT出現之後,湧現了大量讓人覺得“很對”的答案;而有專業知識背景的用戶數量是有限,沒法把這些生成的答案都看個遍。

加之ChatGPT回答這些個專業性問題,它的錯誤率是實實在在擺在那裏的;因此Stack Overflow才選擇了禁用。

一言蔽之,AI汙染了社區環境

而且像在美版貼吧Reddit上,也是充斥著較多的ChatGPT板塊、話題:

許多用戶在這種欄目之下會提出各式各樣的問題,ChatGPT bot也是有問必答。


不過,還是老問題,答案的準確性如何,就不得而知了。

但這種現象背後,其實還隱藏著更大的隱患。

濫用AI,也毀了AI

AI模型獲得大量互聯網數據,卻無法很好地辨別信息的真實性和可信度。

結果就是,我們不得不麵對一大堆快速生成的低質量內容,讓人眼花繚亂,頭暈目眩。


很難想象ChatGPT這些大模型如果用這種數據訓練,結果會是啥樣……

而如此濫用AI,反過來也是一種自噬。

最近,英國和加拿大的研究人員在arXiv上發表了一篇題目為《The Curse of Recursion: Training on Generated Data Makes Models Forget》的論文。

探討了現在AI生成內容汙染互聯網的現狀,然後公布了一項令人擔憂的發現,使用模型生成的內容訓練其他模型,會導致結果模型出現不可逆的缺陷。

這種AI生成數據的“汙染”會導致模型對現實的認知產生扭曲,未來通過抓取互聯網數據來訓練模型會變得更加困難。


論文作者,劍橋大學和愛丁堡大學安全工程教授Ross Anderson毫不避諱的直言:

正如我們用塑料垃圾布滿了海洋,用二氧化碳填滿了大氣層,我們即將用廢話填滿互聯網。

對於虛假信息滿天飛的情況,Google Brain的高級研究科學家達芙妮 · 伊波利托(Daphne Ippolito)表示:想在未來找到高質量且未被AI訓練的數據,將難上加難。

假如滿屏都是這種無營養的劣質信息,如此循環往複,那以後AI就沒有數據訓練,輸出的結果還有啥意義呢。

基於這種狀況,大膽設想一下。一個成長於垃圾、虛假數據環境中的AI,在進化成人前,可能就先被擬合成一個“智障機器人”、一個心理扭曲的心理智障。


就像1996年的科幻喜劇電影《丈夫一籮筐》,影片講述了一個普通人克隆自己,然後又克隆克隆人,每一次克隆都導致克隆人的智力水平呈指數下降,愚蠢程度增加。

那個時候,我們可能將不得不麵臨一個荒謬困境:人類創造了具有驚人能力的AI,而它卻塞滿了無聊愚蠢的信息。

如果AI被喂進的隻是虛假的垃圾數據,我們又能期待它們創造出什麽樣的內容呢?

假如時間到那個時候,我們大概都會懷念過去,向那些真正的人類智慧致敬吧。

話雖如此,但也不全壞消息。比如部分內容平台已開始關注AI生成低劣內容的問題,並推出相關規定加以限製。


一些個AI公司也開始搞能鑒別AI生成內容的技術,以減少AI虛假、垃圾信息的爆炸。

pcboy888 發表評論於
難得的好文,一言戳中chatGPT和類似AI的軟肋。
___1984___ 發表評論於
沒想到中國政府居然允許ChatGPT在中國使用。
ProgrammerA 發表評論於
用機器生成的數據訓練機器,這是一個熵遞增的過程。這個問題老早就有了,各種新聞,視屏的推薦啦,商品的搜索,廣告啦,都讓信息變得單調,同質化。
voiceofme 發表評論於
中國互聯網本來就沒有啥東西,沒有AI也沒有啥內容,所以就不要把自己的淺薄怪罪於AI。
老酒喝多了 發表評論於
中國網上騙子超級多,中國AI模型都是有騙子數據來訓練,結果出AI騙子
zhanglao9 發表評論於
AI的明天在中國。西方人擅長緊密的邏輯推理。現在人工智能,是一本糊塗賬,是我們老祖宗擅長的玄學範疇。中國有這個文化基礎,再加上沒有什麽個人隱私的傳統,可以充分利用傳統專製的優越性,打造最大的人工智能模型。防止人工智能的濫用,中國也早就做了布局,打造了防火牆,組織了人數眾多的網管,都是人類學習的榜樣。
longtermInvestor 發表評論於
一個成長於垃圾、虛假數據環境中的AI

====

這不就是現在中國的輿論環境嗎?中國小孩不就生長在這樣的假大空嗎?
酒釀圓子羹 發表評論於
我很想在網上多罵罵習近平,隻是根本沒有多餘的時間,現在就可以用智能寶寶幫我罵習近平了,智能寶寶還能直接生成習近平的光屁股皇帝像,並且可以充當黑客直接攻入人民日報頭版來刊登習近平的光屁股像,讓習近平不要臉的本性充分暴露在大眾視野中
concode 發表評論於
樓下室女座。像所有其它新技術一樣,中國在AI 發明上沒有領先,但使用上一點不落後。好多人立即用它掙錢了。
安拉 發表評論於
簡中網本來也是被gcd汙染的,不缺一個AI,有了AI更容易弘揚社會主義核心價值觀
Huilianghu5 發表評論於
當AI的錯誤累積到一定比例,隻能判處它死刑——清零。
室女座 發表評論於
所以我們中國在AI研究方麵長期以來一直保持謹慎態度是絕對正確的。西方國家盲目擁抱AI早晚要自食惡果