五萬全唐詩:一個穿綠衣服的人在春天很悲傷
核心閱讀
《全唐詩》近五萬首作品,出現最多的字是人、最多的季節是春天、最多的顏色是綠色係、最多的情感是悲。
當文科生們因為“文無第一”而爭論不休時,大數據早就默默給出了答案:唐詩第一名是崔顥的《黃鶴樓》。
人工智能席卷萬物的時代,詩歌屬於詩人,還是屬於ChatGPT?五萬首唐詩,一言可蔽之
一個人一生能讀過多少首詩?答案是恐怕連一本詩集都讀不完。
比如《全唐詩》,這本詩集收錄了2200餘位詩人的詩作約48900多首,就算是古代文學的博士,也不會有多少人能全部讀完。
沒有關係,現在已經進入科技時代,大數據洞察一切,一分鍾了解五萬首詩不是夢!
《全唐詩》的所有詩句裏,出現最多的不是風花雪月、江河湖海,也不是農家田舍、大漠孤煙,出現最多的字,是“人”——文學是人學,高爾基誠不我欺!
字頻統計,《全唐詩》出現最多的字top10分別是:人、山、風、日、天、雲、春、花、年、月。
“人生得意須盡歡”“路上行人欲斷魂”“人麵不知何處去”“人間四月芳菲盡”……人,是唐詩的靈魂!
唐詩中出現最多的季節,不出意外是春天。春回大地萬物生發,來一首;花花草草爭奇鬥豔,來一首;遇見春遊的美人,更要來一首!
《全唐詩》中,關於春天的詩作共計19800多首,超過了其他三個季節的總和。僅次於春季的是秋季,約有13900多首;關於冬季的詩作最少,才1200多首。看來詩人們也比較怕冷、冬天不願出門。
春天是個萬能的季節,既能表達萬物複蘇的喜悅,也能寄托傷春惜春的惆悵,總有一種情緒適合詩人的表達。張若虛《春江花月夜》、杜甫《春望》、白居易《錢塘湖春行》、孟浩然《春曉》……在中國人均背誦10首以春為題材的唐詩應該易如反掌。
在唐詩色譜上,出現最多的顏色是綠色,以及以綠色為主的間色包括碧、翠、蒼、青等。
“綠樹村邊合,青山郭外斜”“客路青山外,行舟綠水前”“碧玉妝成一樹高,萬條垂下綠絲絛”“映階碧草自春色,隔葉黃鸝空好音”……唐詩所打造的綠色世界清新、淡雅、自然,自有“天人合一”的和諧美好。
唐詩的世界是個五彩繽紛的絢麗世界,除綠色係外,紅色係(紅、丹、朱、赤、絳等)、黑色係(暗、玄、烏、冥、墨等)、白色係(白、素、皎、皓等)以及其他各式各樣的“國色”均不遑多讓,甚至比現代人的生活還要多姿多彩。
詩言誌、歌詠言。詩人們寫詩是為了表達自身情感,那麽唐詩最主要的情感是什麽呢?
沒猜錯,是悲(愁、慟、哀、傷、嗟)!
大家可能想到會是悲——畢竟詩人們的情感都比較細膩,會比常人更容易不開心——但沒想到會這麽悲,表達悲傷情緒的詩作,接近80%,壓倒性超過思、憂、喜、懼、怒、樂等其他情緒。
代表大唐氣象的唐詩,並不是以積極昂揚的情緒為主,“悲”“思”“憂”的情緒占據絕對的主流。縱然也有“白日放歌須縱酒,青春作伴好還鄉”的狂喜,但“喜”“樂”的情緒加到一起都不到1%。
研學唐詩,說簡單非常簡單,在大數據的幫助下,五萬唐詩完全可以一言以蔽之:一個穿綠衣服的人在春天很悲傷!
統計學說《黃鶴樓》是唐詩第一名
現代科學帶給我們的便利不僅是“一句話讀完《全唐詩》”。它還終結了千百年來文人們爭論不休的靈魂終極之問——唐詩之中,誰排第一?
大家都知道,在唐代,詩人和詩作都達到前所未有的量級。東漢到隋末近六百年,詩歌總共才五千餘首,而到了唐代,詩歌第一次超過萬首並直接跨越到五萬多首;之前的詩人一共有六百餘位,而有唐一代即增加到三千餘位。
那麽問題就來了,這麽多詩人,誰最有才華?這麽多詩作,哪一首可居榜首?
這貌似永遠沒有答案。因為“文無第一”,無法斷定李白和杜甫誰水平更高、《詠柳》和《春曉》哪首更勝一籌。
文科生們不能,但大數據能。早在十多年前,時在武漢大學任教的王兆鵬寫了一篇《唐詩影響力綜合指數排序》的論文,通過這種可量化的計算,得出了一份唐詩前100名的排行榜。論文用統計學的方法,對計算機收集來的大數據做了多個維度的分析,包括:
古代選本的數量,即有多少本古籍收錄了這本詩。
現代選本的數據,即現代的詩詞鑒賞類書籍有多少本收錄了它。
曆代評點量,一首經典詩作肯定賞析的人就多,這也應該能看出詩本身的知名度。
論文篇數,有些詩雖然很有知名度,但本身並沒有多少學術價值,論文數量能判斷出專業人士對這首詩的認可度。
以及全錄和摘錄的數量、文學史提到它的次數、網絡上的歡迎程度。
根據這個數據分析,唐詩前八名分別是《黃鶴樓》(崔顥)、《送元二使安西》(王維)、《涼州詞》(王之渙)、《登鸛雀樓》(王之渙)、《登嶽陽樓》(杜甫)、《登柳州城樓》(柳宗元)、《臨洞庭湖贈張丞相》(孟浩然)、《題破山寺後禪院》(常建)。
雖然有不少人對結論並不認可,但就統計方法來說,似乎也很有道理。不過,大家很快就發現了一個不太合理之處:像李白這麽牛的詩人,他的詩沒有一首進前5,甚至前30裏也隻有兩首。
李白平生存詩千首,號稱“謫仙人”,水平先不說,他的名氣比起前5的崔顥、王之渙、王維肯定是要更高。問題出在哪裏?
首先,前5名的詩作中有3首是登樓詩,古人對登樓詩是非常推崇的,鑒賞和品讀的人多,影響力自然更大。
其次,在這個賦分體係裏,短詩顯然更占優勢,排名靠前的基本都是絕句或律詩;而李白最擅長的是古體雜詩,比如《將進酒》、《蜀道難》等,這些長詩被全文選錄的可能性較少。
ChapGPT能代替李白杜甫嗎?
藝術審美很難有標準,單一個“李白與杜甫誰更厲害”的話題,就能讓人爭論一輩子。但計算機似乎是一切爭議的終結者,萬事不決問大數據,量化數據為很多難以公斷的學術判斷提供了思路和科學支撐。
比如崔顥《黃鶴樓》為唐詩排行榜NO.1,多少有點令人驚訝。但具體到各項指標中,會發現這首詩在數十種古代選本中入選率最高,被曆代詩論家品評的頻次也最高,當代文學史更是無一漏收。這些憑據遠比詩論家們主觀化與個性化的主張更有說服力。
計算機能做的,比人們想象與預料的更多。它已經不停留在評判,而是進階到了創作!
很多人曾經認為,在人工智能的強大力量下,詩歌藝術將是人類最後的陣地。但幾年前,微軟小冰僅僅經過100小時的訓練,就擁有了基本的寫詩作詞能力,甚至推出了人類史上首部人工智能詩集《陽光失了玻璃窗》。
更何況ChatGPT已經誕生了!不久前有網友展示了ChatGPT挑戰“唐詩三百首”的視頻,在視頻中,ChatGPT完美完成寫詩任務,仿照古人寫出優美的詞句,這讓許多網友驚歎和感慨,稱ChatGPT寫詩作詞能力,已經超越了99%的人類。
被超越的人中包括比爾·蓋茨:今年1月,蓋茨就曾表示,自己在與ChatGPT一起創作莎士比亞風格的詩歌的時候,完全處於下風。
俗話說“熟讀唐詩三百首,不會寫詩也會謅”,連一般人都做得到熟能生巧,更何況擁有無可匹敵知識儲備和語料庫的AI,眼瞅著這最後的陣地也行將不保!
但可以感到欣慰的是,就像馬斯克說的,AI技術有可能最終取代人類,但不是近期內的事情,目前的AI技術還遠遠不能達到與人類相同的智能水平,即使是目前最先進的AI係統,也隻能在特定領域內進行高效的數據處理和模式識別。
ChatGPT可以將一首詩寫得很像李白,但它不能創造一個李白。而在李白之前並沒有李白,是李白創造了自己。
大數據可以更透徹地研究詩歌,但至少在一個相當長的時間裏,意象還不能變成數據、文采也化作不了代碼。就像五萬首唐詩,屬於每一首具體的作品,不屬於那個在春天裏悲傷地穿綠衣服的人。