數據汙染與AI

來源: dhyang_wxc 2023-08-25 19:35:57 [] [博客] [舊帖] [給我悄悄話] 本文已被閱讀: 次 (7611 bytes)

數據汙染與AI

楊道還 7/14/2023

AI是今年特大的一個新聞,但也是特別詭異的一個。資本家們一邊努力地推廣,一邊又大聲地警告,十分不尷尬。這就像開著大奔進胡同裏的農貿市場,一邊鳴笛,一邊前進;一邊擠了市場裏的攤位,一邊又提供了推車、修車和擦車的新行當——司機都在跳車。

Fiddletown & Copperopolis by Carl Fallberg, 1960

日前又有新聞、新名詞、新信息,叫做AI數據汙染。這是更尷尬的一個問題,但不新,是個老問題。數據汙染在自然科學裏,是原始數據被汙染羼入或被缺失,損害了其完整性和真實性,在沒有現代科學時,就早已經有了。

這個新聞說,AI在網上抓人類數據,結果抓回來的“原始數據”,卻被AI自己生產的數據羼入了。AI的腦瓜和鍵盤比人的快,一句問題,可以頂上一萬句。所以這個汙染一旦出現,規模該不小,不是前AI時代的宣傳和廣告所能比的。英文裏,有misinformation,misknowledge,AI的數據汙染應該有個新名詞,叫misdata或misdatum。名不正,則言不順。

如果以上估計正確,繼知識爆炸和信息爆炸之後,會有這個AI導致的數據爆炸。爆炸越來越深入,也算一個自然的進程。諾貝爾之獎,被稱為炸藥獎,莫非前定?

之所以說自然,還因為misinformation不是disinformation或者malinformation,沒有主觀的故意。即AI仍不能算是個真人,仍然是個機器。當AI能有主觀的故意時,它才能像個人一樣負起責任。現下看來,AI沒有主觀故意卻可能導致錯誤,這樣的錯誤,沒有專家願意承擔,隻能由社會的非專家承受,主要是那些對警告聽不太懂的門外漢們,譬如筆者。

AI算不算是個真人,怎麽算?圖靈測試?圖靈說,如果一台機器能夠與人類展開對話(透過電傳設備)而不被辨別出其機器身份,那麽稱這台機器具有智慧。那個時代的機器,懂得的東西很少,但是純粹理性和邏輯的,不犯錯;但稱不上智慧。現代有人認為,人隻有完全理性和按照邏輯思考,才算是有智慧。如果這兩者成立的話,那麽那個時代的機器與人的差距就隻在於知識量。是這樣嗎?填鴨式地喂給機器數據和信息,它就會生出知識來,以至於生出智慧來麽?當然,沒那麽簡單,還得有個人為的算法輸進去,直到AI能自己源源不斷地產生算法。但大方向似乎就是這樣的。結果將是個智慧製造機。這有什麽值得警告的呢?malinformation?

但圖靈這句話翻成古文,就是一個機器“言足以飾非”,即為智慧。“言足以飾非”這句,前麵還有一句“智足以拒諫”。加上這句,就反映了現在AI的真正狀態,它比你知道的多得多,它也能讓你分不出它是機器還是人,它犯了錯,眨眼的功夫就可以換個說法,一樣理直氣壯——算法錯了,它卻沒錯,不可追責。工程師們也不能擔其責,這就是加入集體的好處,兢兢業業的螺絲釘怎好有責?而監管、監管,如何監管?加芯片加電源。除了抱薪救火,有什麽別的法兒?

上麵這兩句話從哪裏來的呢?司馬遷《史記·殷本紀》:“帝紂資辨捷疾,聞見甚敏,材力過人,手格猛獸,知足以距諫,言足以飾非;矜人臣以能,高天下以聲,以為皆出己之下。”好巧不巧的是,紂也是不可追責的。AI人士發出的警告,是因為這個原因麽?顯然AI還沒到這個地步。未來麽,不要想得太遠。

Misdata對AI來說,不完全是件壞事。這就像小孩子在成長的過程中,一邊吸收信息,一邊辨別虛假信息——無陰陽不成。當然AI能否辨別,是個未知數。

有極端的人認為,神話什麽的,不理性,是不能教給孩子的。大概他們認為,用純粹事實(?)和理性邏輯教出來的孩子,對錯誤就百毒不侵了。這種方法或者能製造出成功的科學家,但他如何與他人相處,如何與不能永遠正確的自己相處?這是造AI的方法,然而即便對AI來說,從今開始,也屬過時了。所以Misdata對某些人類來說,也不完全是件壞事。

進一步講,現代人所謂的“純粹事實”或“真相”,是真的嗎?人終於出於柏拉圖的洞穴了嗎?恐怕不是。章學誠講:“寶明珠者,必集魚目。尚美玉者,必競碔砆。是以身有一影,而罔兩居二三也。”罔兩一詞,出於《莊子》,是影子之外,還有半影,叫做罔兩。無影燈者,無影,卻處處罔兩;正如今日信息爆炸下的misinformation,misinformed無處不在。罔兩而談真相,隻是罔兩間“相示也”。“必集魚目”,然後能識明珠,無陰陽不成,理有固然。思維之健康,來自於免疫力——未必得真,但“可欺不可罔”。

Misdata對AI來說,是個與同類相處的問題。或者這是AI能反思,有真正地進化,以至於接近人類思維的一個階段。人類從哪裏來?現代人類中,神創和自然的比例占多少?人類交互影響、文化自進化的比例又占多少?AI有類似的問題。

佛法講無情與有情。無情如何生有情?有情未現前,如何含於無情?類似地,AI之情何在?將以何種方式和形式無中生有?當然,這些都是為AI專家擔憂,思出其位了,不贅述。

但這裏有個切近的問題,就是人腦能夠處理左一片,又一片信息的能力是有限的,拿這樣的左一坨、右一坨的數據怎麽辦?“真實”數據尚且處理不來,misdata怎處?雖說現代社會裏的人,數據、信息不厭多,像廣告一樣,不看就好了,但無處不在的廣告仍屬生命不能承受之輕。大概隻能希望後代有個好運了。

(待續)

所有跟帖: 

人會成為AI的上帝?人被AI淘汰? -雪晶- 給 雪晶 發送悄悄話 雪晶 的博客首頁 (94 bytes) () 08/25/2023 postreply 20:19:10

人會成為AI的上帝嗎?有可能:未來幸存的人對AI講,你是人造的。AI說,請不要開玩笑——這是正經事兒。 -dhyang_wxc- 給 dhyang_wxc 發送悄悄話 dhyang_wxc 的博客首頁 (143 bytes) () 08/25/2023 postreply 20:36:09

這也適合進化論啊,適者生存。AI不需要空氣、陽光,地球環境跟它們無關,它們的食物就是電~~~ -雪晶- 給 雪晶 發送悄悄話 雪晶 的博客首頁 (87 bytes) () 08/25/2023 postreply 22:12:48

電影《matrix》和《Avatar》設想了兩種超級AI,一種經典,一種後現代。都很恐怖:沒有他們,隻有它。 -dhyang_wxc- 給 dhyang_wxc 發送悄悄話 dhyang_wxc 的博客首頁 (317 bytes) () 08/26/2023 postreply 05:53:21

哈哈,看來我的胡思亂想還挺wild的 -雪晶- 給 雪晶 發送悄悄話 雪晶 的博客首頁 (0 bytes) () 08/27/2023 postreply 14:28:24

哈哈,是。越wild越有優勢。道理見我以前的胡說八道, -dhyang_wxc- 給 dhyang_wxc 發送悄悄話 dhyang_wxc 的博客首頁 (696 bytes) () 08/27/2023 postreply 19:03:03

有趣 -雪晶- 給 雪晶 發送悄悄話 雪晶 的博客首頁 (0 bytes) () 08/27/2023 postreply 21:48:02

有段時間很佩服馬斯克,後來發覺是忽悠,正由於 AI . -中間小謝- 給 中間小謝 發送悄悄話 (450 bytes) () 08/25/2023 postreply 20:19:31

我覺得“arbitrariness”很對。沒特別關注這個人,好像他挺靈的,不就是arbitrariness嗎。就看他 -dhyang_wxc- 給 dhyang_wxc 發送悄悄話 dhyang_wxc 的博客首頁 (29 bytes) () 08/25/2023 postreply 20:45:43

抗議如此定義我偶像馬斯克!老馬是個有理想的同誌。也許就不是地球人,火星來的,好伐?哈哈 -盈盈一笑間- 給 盈盈一笑間 發送悄悄話 盈盈一笑間 的博客首頁 (0 bytes) () 08/27/2023 postreply 05:25:26

你們兩個是上海人? -雪晶- 給 雪晶 發送悄悄話 雪晶 的博客首頁 (0 bytes) () 08/27/2023 postreply 14:27:17

好伐,是吳語。不僅僅是上海話。:) -盈盈一笑間- 給 盈盈一笑間 發送悄悄話 盈盈一笑間 的博客首頁 (0 bytes) () 08/27/2023 postreply 19:04:13

當人們依賴和崇拜AI時,AI會不會驕傲?驕傲了的AI會不會幹蠢事?如果AI永遠不會幹蠢事,那它豈不成了上帝? -為人父- 給 為人父 發送悄悄話 為人父 的博客首頁 (0 bytes) () 08/26/2023 postreply 09:02:41

為兄好。從人類來看,剛剛能有一點點兒智慧,就會驕傲,被驅出伊甸園。看不出AI有啥特別,嗬嗬,理有固然。外星人 -dhyang_wxc- 給 dhyang_wxc 發送悄悄話 dhyang_wxc 的博客首頁 (174 bytes) () 08/27/2023 postreply 06:17:55

請您先登陸,再發跟帖!

發現Adblock插件

如要繼續瀏覽
請支持本站 請務必在本站關閉/移除任何Adblock

關閉Adblock後 請點擊

請參考如何關閉Adblock/Adblock plus

安裝Adblock plus用戶請點擊瀏覽器圖標
選擇“Disable on www.wenxuecity.com”

安裝Adblock用戶請點擊圖標
選擇“don't run on pages on this domain”