中文的突圍, 從打字機到人工智能
文章來源: 思蘆2024-03-07 08:37:19

中文的突圍,從打字機到人工智能

讀了被中國媒體大捧的《中文打字機》,比較失望。這本書的作者是斯坦福大學教授Thomas Mullaney(墨磊寧)。全書少學術,多曆史,價值不高。僅僅是中文打字機的敘事史,缺乏深刻的洞察和分析。作者停留在基於政治正確的評價,用社會達爾文主義大帽子抨擊一切對立主張,拒絕對文化優劣和對語言本質的評價。西方的一些學者喜歡站在兩個文化的接縫上,左右逢源,投機取巧。

達爾文進化論的核心觀點是物競天擇,適者生存。這個觀點在社會學上,認為文化有優劣,落後的文化會被淘汰,並沒有錯。我們反對優生學和種族滅絕的同時,也不應該保護將被進化淘汰的落後文化。而作者認為:“語言在表達人類思想的能力上是無差別的,至少每種語言都有能力或潛力來表達其使用者想要表達的東西”。不承認文化差別,不承認象形文字和字母文字的差別,對文化和文明的發展存在影響,表明了作者的多元文化主義立場。

本書反映了一種矛盾心態。中國和世界接軌還是讓世界適應中國。當中國不適應世界體係時,是改造中國,還是改造世界現有的體係。不僅是語言,中國和外部總是兩個世界。中國人永遠處於接軌還是另開蹊徑的矛盾中。如果中國不適應,就認為不是中國有問題,而是現有係統有問題,是偽普世。中國對世界不適應,就說世界對中國有圍剿。我不能融入你,是你的問題。你要對我的不能融入負全責。誰叫你先發,我後發呢?

在計算機發明之前,發明和英文打字機等效的中文打字機是不可能的任務。或者是打字速度,或者是覆蓋內容,或者是成本,或者是複雜性方麵,中文打字機不能做到和英文打字機的等效。這是因為中文主要是表意的語素文字,相對於26個英文字母,基本漢字就有三四千。英文打字工作一般是秘書兼職,而中文打字員幾乎都是專業的,因為後者對操作的技能有很高的要求,英文打字機很普及,能夠便攜,而中文打字機笨重,基層單位幾乎沒有。插隊時,北京供電局是我們公社的廠社掛鉤單位,供電局的一個姓呂的中文打字員派駐我們村。當時搞批林批孔運動,我被選到不脫產的公社理論隊伍。縣裏交下任務,讓寫一篇《曆史上勞動人民的反孔鬥爭》。要求兩萬字,一星期交稿。寫完後,要打印上交到縣裏。公社沒有中文打印機,呂師傅把我的文章帶回單位打出來後,需要校對。我專門回到北京,住在前門附近的電力局招待所。那是我第一次看見中文打字機,龐大笨重,可以說是一台活字書寫機器。我改了錯字後,呂師傅在蠟紙打印稿用修改液塗抹掉錯字,並在鉛字盤添加了常用漢字之外的一些鉛字,在打印機上修改。文革時,紅衛兵組織林立,都搞宣傳。主要的方式就是大字報和手工刻印的傳單,很少人用中文打字機。那時寫一手漂亮的毛筆字和鋼筆字是很吃香的。

漢語和漢字不是一回事兒。在通過複合詞造出新詞、詞序自由度高,語法簡單等方麵,漢語和英語相似,都發展得比較成熟。這裏主要比較書麵漢語和字母文字。中國語言學家周有光認為文字有三個階段:原始(形意)時期,古典(意音)時期和字母(表音)時期。漢字處於古典時期。文字的進化進程是:符形從圖符到字符到字母,語段從語詞到音節到音素,表達法從表形到表意到表音。全世界活的語言除中文外都拚音化了,包括以前漢字圈的日本、韓國和越南。說明這是發展的規律。漢字是當今世界上唯一的語素文字,一個活化石。

為什麽中文沒有向拚音文字轉化?主要原因是:第一,漢字的發展曆史短,漢字比楔形文字晚兩千多年。當甲骨文出現時,地中海已經發展出字母文字;第二,秦始皇的大一統,書同文的結果是各種口語的人使用統一的文字,導致文字和口語分離。缺乏不同文字的交流和互相學習的環境,錯失了向字母係統發展的機會;當中國人接觸到字母文字時,中國的文字已經固化,與文化傳統相融,無法更改了。第三,漢字覆蓋的方言太多,發音差別過大,向表音文字發展阻礙大;第四,底層文盲多,文字隻是部分有閑階層的需要。沒有動力向簡化發展。而拉丁字母的起源--腓尼基文字是商人們發明的,他們需要一種簡化的符號記賬和貿易,不可能去學習複雜的楔形文字;第五,古代漢語發展出很多優秀的文學作品,而這些文字遺產成為字母化的負擔。因為字母化意味著斷層;第六,漢語普通話410個音節,約1300多個讀音。常用漢字有三四千個。造成同音多字,向表音文字進化比較困難。

中國的口語與書麵語處於嚴重分裂狀態;這種分裂影響了中國在邏輯、哲學、法律和科學等領域的發展和進步,僅有文學和書法畸形繁榮。因為書寫成本高,中文力求簡約。與大多數字母文字相比,中文具有強大的信息容量和壓縮能力。同樣的內容,漢語比英文要減少30%以上的頁麵。同時漢字數量龐大、筆畫複雜、意音斷裂、多音多意、語境微妙,使漢語成為世界上幾乎最難以掌握的文字。至今偏遠農村仍有很多人是文盲。大量中國人能識一些基本漢字,但不能閱讀和寫作,處於半文盲狀態。語言是工具,中國人成長過程中,掌握工具的時間遠遠超過使用字母文字的人群,相對減少了學習知識的時間。

非拚音的漢字是至今中國的方言多且差異大的原因。由於字母文字的讀音和口語是一致的,字母文字帶動了統一方言的標準化;因此使用字母文字的民族和國家,口語基本上是統一的。日本和朝鮮使用了字母文字以後,口語基本上統一了。表音文字的蒙古文和滿文促進了中國北方口語向北方官話統一;而用漢字的中國南方,方言多而差異大。

非字母的中文,在中國現代化進程中受到不斷地挑戰。打字機困境隻是第一個,漢字由於在輸入輸出,編碼和檢索等方麵,效率較字母文字明顯低下,成為了教育及信息化上的瓶頸。幸虧後來有了計算機和漢字輸入方法,解救了中文。雖說還有一些問題,但中文基本度過了第一個挑戰。

人工智能可能是中文要麵臨的第二個現代化挑戰。漢語的歧義多和高度依賴語感使計算機的語言識別和理解比字母文字更困難。中文沒有大小寫,單字間沒有空格,不容易像英文一樣區分單詞,專有名詞和縮寫,容易產生歧義。比如“乒乓球拍賣完了”到底是“乒乓球拍“賣完了,還是“乒乓球”“拍賣”完了?下麵幾幅圖是百度AI軟件文心一言生成的圖片,就是由於不能正確解析中文單詞產生了歧義。當然這不是很難的問題,應該可以解決。這個實例是用來說明:許多在英文不是問題的問題,在中文就可能是問題,對人工智能提出了更高更難的要求。





圖片來自網絡