思蘆隨筆

人隻不過是一根蘆葦,是自然界最脆弱的東西;但他能夠思想。
個人資料
思蘆 (熱門博主)
  • 博客訪問:
歸檔
正文

中文的突圍, 從打字機到人工智能

(2024-03-07 08:37:19) 下一個

中文的突圍,從打字機到人工智能

讀了被中國媒體大捧的《中文打字機》,比較失望。這本書的作者是斯坦福大學教授Thomas Mullaney(墨磊寧)。全書少學術,多曆史,價值不高。僅僅是中文打字機的敘事史,缺乏深刻的洞察和分析。作者停留在基於政治正確的評價,用社會達爾文主義大帽子抨擊一切對立主張,拒絕對文化優劣和對語言本質的評價。西方的一些學者喜歡站在兩個文化的接縫上,左右逢源,投機取巧。

達爾文進化論的核心觀點是物競天擇,適者生存。這個觀點在社會學上,認為文化有優劣,落後的文化會被淘汰,並沒有錯。我們反對優生學和種族滅絕的同時,也不應該保護將被進化淘汰的落後文化。而作者認為:“語言在表達人類思想的能力上是無差別的,至少每種語言都有能力或潛力來表達其使用者想要表達的東西”。不承認文化差別,不承認象形文字和字母文字的差別,對文化和文明的發展存在影響,表明了作者的多元文化主義立場。

本書反映了一種矛盾心態。中國和世界接軌還是讓世界適應中國。當中國不適應世界體係時,是改造中國,還是改造世界現有的體係。不僅是語言,中國和外部總是兩個世界。中國人永遠處於接軌還是另開蹊徑的矛盾中。如果中國不適應,就認為不是中國有問題,而是現有係統有問題,是偽普世。中國對世界不適應,就說世界對中國有圍剿。我不能融入你,是你的問題。你要對我的不能融入負全責。誰叫你先發,我後發呢?

在計算機發明之前,發明和英文打字機等效的中文打字機是不可能的任務。或者是打字速度,或者是覆蓋內容,或者是成本,或者是複雜性方麵,中文打字機不能做到和英文打字機的等效。這是因為中文主要是表意的語素文字,相對於26個英文字母,基本漢字就有三四千。英文打字工作一般是秘書兼職,而中文打字員幾乎都是專業的,因為後者對操作的技能有很高的要求,英文打字機很普及,能夠便攜,而中文打字機笨重,基層單位幾乎沒有。插隊時,北京供電局是我們公社的廠社掛鉤單位,供電局的一個姓呂的中文打字員派駐我們村。當時搞批林批孔運動,我被選到不脫產的公社理論隊伍。縣裏交下任務,讓寫一篇《曆史上勞動人民的反孔鬥爭》。要求兩萬字,一星期交稿。寫完後,要打印上交到縣裏。公社沒有中文打印機,呂師傅把我的文章帶回單位打出來後,需要校對。我專門回到北京,住在前門附近的電力局招待所。那是我第一次看見中文打字機,龐大笨重,可以說是一台活字書寫機器。我改了錯字後,呂師傅在蠟紙打印稿用修改液塗抹掉錯字,並在鉛字盤添加了常用漢字之外的一些鉛字,在打印機上修改。文革時,紅衛兵組織林立,都搞宣傳。主要的方式就是大字報和手工刻印的傳單,很少人用中文打字機。那時寫一手漂亮的毛筆字和鋼筆字是很吃香的。

漢語和漢字不是一回事兒。在通過複合詞造出新詞、詞序自由度高,語法簡單等方麵,漢語和英語相似,都發展得比較成熟。這裏主要比較書麵漢語和字母文字。中國語言學家周有光認為文字有三個階段:原始(形意)時期,古典(意音)時期和字母(表音)時期。漢字處於古典時期。文字的進化進程是:符形從圖符到字符到字母,語段從語詞到音節到音素,表達法從表形到表意到表音。全世界活的語言除中文外都拚音化了,包括以前漢字圈的日本、韓國和越南。說明這是發展的規律。漢字是當今世界上唯一的語素文字,一個活化石。

為什麽中文沒有向拚音文字轉化?主要原因是:第一,漢字的發展曆史短,漢字比楔形文字晚兩千多年。當甲骨文出現時,地中海已經發展出字母文字;第二,秦始皇的大一統,書同文的結果是各種口語的人使用統一的文字,導致文字和口語分離。缺乏不同文字的交流和互相學習的環境,錯失了向字母係統發展的機會;當中國人接觸到字母文字時,中國的文字已經固化,與文化傳統相融,無法更改了。第三,漢字覆蓋的方言太多,發音差別過大,向表音文字發展阻礙大;第四,底層文盲多,文字隻是部分有閑階層的需要。沒有動力向簡化發展。而拉丁字母的起源--腓尼基文字是商人們發明的,他們需要一種簡化的符號記賬和貿易,不可能去學習複雜的楔形文字;第五,古代漢語發展出很多優秀的文學作品,而這些文字遺產成為字母化的負擔。因為字母化意味著斷層;第六,漢語普通話410個音節,約1300多個讀音。常用漢字有三四千個。造成同音多字,向表音文字進化比較困難。

中國的口語與書麵語處於嚴重分裂狀態;這種分裂影響了中國在邏輯、哲學、法律和科學等領域的發展和進步,僅有文學和書法畸形繁榮。因為書寫成本高,中文力求簡約。與大多數字母文字相比,中文具有強大的信息容量和壓縮能力。同樣的內容,漢語比英文要減少30%以上的頁麵。同時漢字數量龐大、筆畫複雜、意音斷裂、多音多意、語境微妙,使漢語成為世界上幾乎最難以掌握的文字。至今偏遠農村仍有很多人是文盲。大量中國人能識一些基本漢字,但不能閱讀和寫作,處於半文盲狀態。語言是工具,中國人成長過程中,掌握工具的時間遠遠超過使用字母文字的人群,相對減少了學習知識的時間。

非拚音的漢字是至今中國的方言多且差異大的原因。由於字母文字的讀音和口語是一致的,字母文字帶動了統一方言的標準化;因此使用字母文字的民族和國家,口語基本上是統一的。日本和朝鮮使用了字母文字以後,口語基本上統一了。表音文字的蒙古文和滿文促進了中國北方口語向北方官話統一;而用漢字的中國南方,方言多而差異大。

非字母的中文,在中國現代化進程中受到不斷地挑戰。打字機困境隻是第一個,漢字由於在輸入輸出,編碼和檢索等方麵,效率較字母文字明顯低下,成為了教育及信息化上的瓶頸。幸虧後來有了計算機和漢字輸入方法,解救了中文。雖說還有一些問題,但中文基本度過了第一個挑戰。

人工智能可能是中文要麵臨的第二個現代化挑戰。漢語的歧義多和高度依賴語感使計算機的語言識別和理解比字母文字更困難。中文沒有大小寫,單字間沒有空格,不容易像英文一樣區分單詞,專有名詞和縮寫,容易產生歧義。比如“乒乓球拍賣完了”到底是“乒乓球拍“賣完了,還是“乒乓球”“拍賣”完了?下麵幾幅圖是百度AI軟件文心一言生成的圖片,就是由於不能正確解析中文單詞產生了歧義。當然這不是很難的問題,應該可以解決。這個實例是用來說明:許多在英文不是問題的問題,在中文就可能是問題,對人工智能提出了更高更難的要求。





圖片來自網絡

[ 打印 ]
閱讀 ()評論 (14)
評論
思蘆 回複 悄悄話 回複 '海邊公園' 的評論 : 說單音節時我也有點兒猶豫,但沒有其他詞來表示。叫什麽名字關係不大,明白這意思就行。輔音結尾也可以說是一個音節。比如Las Vegas,英語隻有三個音節。漢語拉斯維加斯是5個音節。每個結尾輔音都是一個音節。

入聲的輔音韻尾能夠減少同音多義。但是漢字單字表現不出來。

同樣,漢語中口語中的詞匯很多也是多音節的,不會比日語更困難。
海邊公園 回複 悄悄話 回複 '思蘆' 的評論 : 再討論下去就有點複雜了,隻是想指出兩點:1、有輔音韻尾並不能說明不是單音節。輔音本身不構成音節,如that一詞就是單音節。2、日語的假名是音節文字,但日語本身是以多音節詞為主的語言,如“我”(わたし)就是三個音節。
思蘆 回複 悄悄話 回複 'bbbbtttt' 的評論 : 非常可能。說明第一,百度的人工智能翻譯非常糟糕,第二,如果用英文不可能有這樣的問題:因為word用space分隔,臉盆是一個詞,washbasin。
bbbbtttt 回複 悄悄話 這幾幅圖片,有人說,是因為文言一心實際是套殼,是將中文句子機翻成英語單詞,
用國外開源人工智能Stable Diffusion生成圖片,然後將其返給用戶,原本作為國產AI技術。
思蘆 回複 悄悄話 回複 '海邊公園' 的評論 : 補充一點。
“最大的阻礙是當時的漢語都是單章節詞,同音詞(字)太多。”
漢語特點是書麵語言(文言文)和口語分離。書寫為了簡潔,文言文大量使用單音節詞。但口語肯定不是,否則很難聽懂。口語應該會使用不少多音節單詞。拚音化之後,口語和書麵語言一致,所以同音的單詞會比使用文言文減少很多。
思蘆 回複 悄悄話 回複 'goodmum' 的評論 : 中文已經不是圖像了。
這裏有個統計數據:
平均閱讀速度,英文是 228 單詞/分鍾。中文是 255字/分鍾或者158 單詞/分鍾 。英文按單詞算,中文按字算的話,中文確實會比英文快一點,但理解信息的速度(按單詞算)並不會更快。
思蘆 回複 悄悄話 回複 '海邊公園' 的評論 : 全世界活的語言除中文外都拚音化了,包括以前漢字圈的日韓和越南。說明這是發展的規律。同為象形文字的楔形文字和埃及聖書體也都是越來越簡化。
看侯馬盟書,六國文字很簡潔,有字母化的趨勢。而秦國文字相對複雜。
秦始皇的書同文以複雜的秦國文字代替了六國文字。漢字往越來越多的方向發展。過早的固化,阻止了文字之間的交流學習,而地中海字母文字的發展就來自於不同文字的交流。
漢語並不都是單音節字。南方入聲字有輔音韻尾,如果能早期拚音化,這些發音都會保存,漢語發音也會更豐富,加上多音節單詞的發展,會有效地消除同音多義詞。
相反,現在長期以漢字表音讓入聲消失,漢語發音趨向簡單,拚音化越來越難。
日語也是單音節,隻有50音圖,比漢語的400多音節還少,漢語還有四聲。日語的同音多義應該比漢語嚴重得多,但是日語也拚音化了,當然開始階段要借助漢字減少歧義。
goodmum 回複 悄悄話 中文輸入複雜低效,但閱讀快速高效,因為象形文字表現力強,現在短信流行的表情符號emoji也是於此,英文還有一圖勝千字的成語,表明圖形的表現力
海邊公園 回複 悄悄話 回複 '思蘆' 的評論 : 這個可能性似乎也不太大。最大的阻礙是當時的漢語都是單章節詞,同音詞(字)太多。本來甲骨文已經有表音的趨向。甲骨文中假借字占70%,假借字就是純表音的。可是同一個字往往被假借表達多個同音詞,即一個字有太多種完全不相幹的意義,太容易混淆。所以後來隻好在假借字上加上意符,成為現在占主流的形聲字。

假如當時沒有搞書同文,拚音文字成功,那麽不同的方言都會有自己的文字,方言就上升為語言。不同的方言區就成為不同的民族甚至國家,大一統的局麵就不可能存在。就像歐洲現在那樣。
思蘆 回複 悄悄話 回複 '海邊公園' 的評論 : 如果秦始皇沒有大一統,搞書同文,也許能形成像地中海那樣的多國交流競爭環境,促使漢字向拚音文字轉化。
海邊公園 回複 悄悄話 回複 '大號螞蟻' 的評論 : 語言種類越來越少是個大趨勢。我也相信最後英語可能是地球上留下的唯一語言,前提是人類能夠治好民族主義這個毒瘤。
海邊公園 回複 悄悄話 根據周有光的觀點,漢字沒能像蘇美爾和古埃及文字那樣轉變為拚音文字的原因是漢字一直是在原生文明(民族)中使用。蘇美爾和古埃及文明都先後滅亡了,蘇美爾和古埃及文字是被其他文明(民族)借用為表音符號,才發展成現在世界上占絕大多數的拚音文字。
侃-侃 回複 悄悄話 下雨天留客天留我不留

吃飽了撐的“洋人”從“東方神秘主義”裏頭找存在感,以示與眾不同、包容進步。跟娶了中國小老婆而挖空心思拚湊出四大發明的李約瑟一個德行。
大號螞蟻 回複 悄悄話 全球化下遲早被英文統一。實際上普通話統一中國靠的也是全球化,改開帶來的經濟集中和人口流動。實際上所謂白話文也是洋務運動的西化影響。在那之前的古文其實已經基本是博物院展品。今日中文也不過百多年曆史,漢字,滿音,日詞,英以的混搭。
登錄後才可評論.