我和漢字拚音化專家江毅關於漢字優劣的幾個對帖
(2008-03-14 06:10:37)
下一個
我和漢字拚音化專家江毅關於漢字優劣的幾個對帖
江毅:“我認為漢字拚音化是不可能的.因為漢字重音字太多,拚音化後讀困難,不好辨識,要不斷看上下文猜.而如果采取同音多形的方法解決這個問題,就必然造成文字過長的問題.現在漢語拚音文章長度已經超過英文(統計意義上),再加長不可取.
其實漢語言的方塊字並不是累贅,而是一塊寶石.有分析指出,漢字的簡練形式對人們思維快捷很有益處;漢字文本的濃煉性也是出名的好.
計算機時代使得漢字輸入不再是大問題(仍有待進一步提高,當然).漢字的單音節特點使得漢字語音識別可以更可靠(這一點現在還未實現,假以時日吧).
其實還有更深層的東西人們還沒認識到.比如漢語的成語現象.西方拚音文字是無法產生這種成分的.漢語中的縮略語也和拚音文字的字母縮略詞大相逕庭.這一切都因為這個漢字特點: 一個漢字相當於拚音文字的小詞,大於字母ABC.故此漢字組成的成語和縮略語實際是小詞的組合而不是西文中相應縮略詞的字母組合.這樣的成語和縮略語的表達能力是驚人的美妙.
這樣的漢語的獨特成分使得人們能引經據典地實行高抽象思維.美哉!
漢語原先有個缺點,就是最小單位是字(小詞).這個最小單位大了點.不適用於現代科學公式推導.
現在引入了漢語拚音和阿拉伯數字後,這個問題也不存在了.
總之,隻要中華文明還延續,漢語+漢語拚音會長存不息的.
江毅
漢王簡中文軟件作者
Han WJ . com
莊冬:“本來隻想回你幾句話。結果寫長了。
你是專家。我隻是跟你說一點自己的觀察。這是我從為什麽中國人需要大聲說話想到的。
你說“現在漢語拚音文章長度已經超過英文(統計意義上),再加長不可取”。
也有人指出拚音語言是像聲,因而是一維文字。中文是像形,因而是二維文字。把二維文字當一維寫當然是要長了。
可以說“一個漢字相當於拚音文字的小詞,大於字母ABC.故此漢字組成的成語和縮略語實際是小詞的組合而不是西文中相應縮略詞的字母組合”。所以造成了漢語數字化的門坎兒比較拚音文字高的事實。這其實隻是個技術問題。
至於“漢語原先有個缺點,就是最小單位是字(小詞)。這個最小單位大了點。不適用於現代科學公式推導。”也是針對目前科學來說的。人類科學也就幾百或幾千年的曆史,隻是剛剛開頭。幾千,都別說幾萬年以後是什麽樣子誰知道呢?因此不能以今天(其實是昨天)拚音語言的優勢來判斷中文或試圖將中文拚音化。
“漢字的單音節特點使得漢字語音識別可以更可靠”的一方麵。但是也正因為如此,每一個音節的價值和準確的識別就至關重要了。因此,為了保證漢語交流的可靠性,使用漢語的人就必須將每一個音節都準確無誤地傳出去,從而導致幾乎是必須大聲說話的現象。
文字是通過視覺(盲人是觸覺)達到交流的目的的工具。拚音語言文字在直接聯係發音上有優越性。由於聲音是一維的信息,拚音文字的一維的本性就決定了。但是視覺(即便減去聲音也)是一個多維(現在時髦叫multi media)的功能,至少寫字用的紙就是二維空間。像形文字就是利用了視覺(處理信息的多維能力)超過拚音文字隻是利用了聽覺(處理信息的一維能力)的特點的結果,因此比拚音文字優越。
語言包括說的和寫的兩部分。要比較兩個語言先比較說的這部分容易一些。因為不管什麽人說什麽語言,聲音是一樣的,雖然同樣的聲音在不同的語言中的含義是不同的。比如說中文和英文吧,雖然中文和英文都有對方沒有的音,這兩個語言用的的音的數量基本相同。當然,中文有四聲,可英文也有重音。基本上可以說中英文(從整個語言上來說)用的音的數量基本相同。
但是,由於中英文對它們使用的音節的方法(也就是排列組合)的不同,它們在說的這部分的使用上的效果或效率則是不同的。一個似乎很明顯的現象是我以為用中文說話交流同樣信息的時候往往使用的音節的數量比較少,往往中文幾個音節就可以說清楚的事情英文要用的音節就多一些。比如,“翻譯”兩個音節,而“translation”至少四個音節。
日語用的音節比較少。打個比方,那日語簡直就是一個語言上的二近製。你得用一群0和1才能把個三位數說清楚。看過Lost in Translation電影的人們一定會同意的。
當然啦,用的音節多或少也無所謂壞與好。隻是用的音節少了,每一個音節的份量或在交流信息時的價值就大了。因此,我們中國人說話的時候就有必要對每一個音節大安全到達聽者的耳朵裏比別人做出比較大一些的努力。所以泥,我們中國人說話的時候聲音就大一些。就這麽簡單,也無所謂好與壞或美與醜。
我們中國人在初學英的時候會試圖發出每一個音。然後就是我們中國人在唱英文歌的時候會試圖發出每一個音和往往會發現時間不夠用。其實呢,這隻是用多個音節的優越性。因為英文用的音節多,具體每一個音節的價值就相對小了,因此在說話時有些音節沒說清或沒聽清還是能達到交流的目的的。他們說英語(或其他類似用多音節語言)的人說話的時候就有沒有必要對每一個音節大安全到達聽者的耳朵裏比別人做出比較大一些的努力。所以泥,他們說話的時候聲音就可以低一些。就這麽簡單,也無所謂好與壞或美與醜。
中國人說話的時候聲音大讓一些同胞不好意思這似乎是使用的音節的數量比較少的尷尬例子。那麽,中文說話交流同樣信息的時候往往使用的音節的數量比較少這個事實有什麽好處嗎?
當然有啦,我給大家舉一(類)例子。我在老美的NASA幹過幾年,控製和發射過衛星。在緊急情況時間寶貴的時候用英文可是慢啊。這一點人家老美也早就意識到啦,還設計了一些用來省時間的專用短語泥。我估計打仗時或救人時還是少用幾個音節的好。
我說了這一通跟你的漢字拚音化有什麽關係呢?拚音是記錄語言的一種方法。語言包括說的和寫的兩部分。寫的那部分記錄說的部分。當然,純粹地看說的和寫的兩部分也可以說它們是平等的和幾乎一一對應的。但是從語言的起源和發展來看,還是應該是說在寫之前。
既然寫沒有聲音大小的問題,中文在說的部分的效率或使用音節較少的優越性就應該沒有使人尷尬的問題而是純粹的優越性了。
雖然英語的拚音形式有優越性,但是隨著計算機速度和存儲的發展。中文的優越性已經開始顯示出來了。
中英文在說的部分使用音節的數量的比較在書寫部分則是完全相反的。由於英文和其他拚音文字用的字母係統大大簡化了語言的書寫對於普及文化和掃除文盲都非常有優越性,當然還包括拚音語言的數字化。
音節是語言中說的部分的基本分子。可語言中寫的部分的基本分子是什麽呢?對於拚音語言,我們也許可以說是那些字母。不管事實上究竟如何,反正在語言的數字化上來說似乎是這樣的。這就使拚音語言成了書寫上的26進製。而中文呢,由於其基本分子似乎紛亂和眾多就不好說究竟中文是幾進製了,而且應該似乎比26多一些。
由於中文是似乎比26多一些的進製,中文的數字化就要比英文困難的多。這也是多年來人們努力試圖使中文拚音化的原因。有得必有失,雖然人們往往看不到他們失去的東西。英文的26進製在數字化初期的優越性已經隨著計算機速度和存儲的發展已經逐漸不再那麽明顯了。相對的,英文的26進製在數字化方麵的缺點也已經開始顯露出來了,比如英文字典的龐大。
其實,語言嘛,不管是說還是寫,其目的是交流信息。打個比方就好比計算機的機器語言。但是由於種種原因,就像人們不用機器語言去編程序而是用各種各樣的所謂高級語言去編程序一樣,人們用各種各樣的語言去交流(雖然我們不知道人類是否有一個相同的“機器語言”,為了討論方便起見不妨假設它的存在性)。假設人類的相同的“機器語言”的存在,其實也可以理解成人體內部神經細胞交流的方式,或是電磁的或是化學的方式。假設人體內部神經細胞交流的方式,或是電磁的或是化學的方式,是人人都基本上一樣的應該不是什麽太過分的事情。
這樣一來,人類日常使用的語言就好比人們編程序用的所謂高級語言一樣。人腦必須將這些語言“翻譯”了以後才能應用。因為人腦要把人類日常使用的語言翻譯成人類的相同的“機器語言”,這時人腦就需要一個從人類日常使用的語言到人類的相同的“機器語言”的“字典”。
有了人類的相同的“機器語言”這個基礎和我們必須將這些人類日常使用的語言“翻譯”了以後才能應用,相對某個語言到人類的相同的“機器語言”的“字典”的優越性才是那個語言的真正的優越性。
這個地方,中文就比英文優越。為什麽呢?因為英文是26進製而中文比較起來是個比26多的進製。如果把我們需要表達的事情的集合看成是所有整數的話,用26進製的英文來描寫這些整數的字典就一定要比用比26多的進製的中文來描寫這些整數的字典大得多!
而且事實也正是如此:英文字典天天在膨脹,而相對說來中文字典從康熙大詞典到今天有變化也不多!
拚音語言的長處在於它的文字是基本記錄說話的聲音同時又是短處。
拚音語言的文字是記錄說話的聲音,因此拚音文字沒有利用文字是為眼睛(盲人就是觸摸)設計的這個事實。因此,拚音語言的看或讀或寫跟說基本上沒有本質的區別。所以,拚音語言是像聲語言。
中文是像形語言就利用了文字是為眼睛(盲人就是觸摸)設計的這個事實。由於文字可以是被看見或觸摸著或就是被看見或觸摸著為目的設計的,所以它的使用的性質就使它不必操心耳朵聽所不能區分的東西。這個事實在中文的具體體現就是中文裏同音字和詞的眾多。雖然英文也有少量同音詞,但是比較中文就少了。
由於拚音語言是以聲音為基礎的,因為發聲的基本單位有限(因而這也是拚音語言用的字母的發音都很類似的原因)製造一個拚音語言的閱讀機器和數字化就比較容易。
由於中文是以形象為基礎的,因為形象的基本單位太多(因而這也是像形語言用很多的同音字和詞的原因)製造一個中文的閱讀機器和數字化就比較困難。
由於是機器,其實這個困難隻體現在製造這種機器的初級階段,也就是初級的技術隻能處理數量比較少的基本單位的像聲語言。一旦技術發展了,也就是技術發展到能夠處理數量比較大的基本單位的像形語言了,中文的閱讀機器也就可以製造了。知道一點人工智能的人們都知道這隻是存儲量和處理速度的技術問題。大家又都知道,以發聲的基本單位為基礎製造出來的閱讀機器的聲音是早期科幻電影裏的機器人的聲音。要製造比較好也就是比較接近人說話的機器人就不能完全以發聲的基本單位為基礎。當然另一個極端的做法就是把所有字的發音儲存起來。這個極端的做法對中文來說就不是那麽極端,因為中文的字的數量相比英文詞的數量不太大。而對英文來說把所有詞的發音儲存起來就比較極端了。還由於英文像聲或叫拚音的本性,它必然要產生新詞。因此這個英文的所有詞的發音儲存還不斷地需要更新。這就又回到了前麵字典的問題上了。
總之,我們中國人的祖先成千上萬年祖祖輩輩為我們通過他們的實踐篩選或叫被時間的大浪淘洗出來的中文在很多意義或方麵是比拚音語言有著很多我們還沒有意識到的優越性(或叫有技術含量或技術含量比較高)的。相比之下拚音語言就基本上沒有技術含量或技術含量比較低,雖然拚音語言數字化的門坎兒比較低。但是一旦技術發展了,拚音語言數字化的門坎兒比較低的這個優勢就不僅僅是優勢而是劣勢啦。
有一得就必有一失,開始時占了容易或門坎兒低的便宜後來就要付出代價。這代價就是像聲語言命裏住定的地位就是為像形語言鋪路做奴隸和最終消失。
漢語的某種學習和使用上的技術性的困難對人們智力的鍛煉和發展還有抽象思維我就不在這裏討論了。漢語裏的成語其實是智慧的結晶。這種智慧的結晶不僅僅是語言方麵的還是文明層次上的。可以打個比方說漢語裏的成語就好比數學裏的公式和定理或物理學裏的定律是智慧的結晶一樣。
所以,搞中文的拚音化其實就是去遷就拚音語言的低門坎兒,是非常鼠目寸光和自廢武功的,就更不用說不僅僅是徒勞無益的還是有害的好在我們中國人的祖先早已為中文注有免疫力啦。
江毅:“我覺得你的關於大聲說話的推理是有道理的,謝謝!
莊冬:“我的人體內部反應和計算機機器語言的比喻更有道理。因為人的生物學相同。
所有語言的目的都是一樣的:造成人體產生內部發生某種反應最後得到設想的結果。
因為人體的工作原理比較計算機複雜,而我們清楚計算機是怎麽工作的。所以,分析一下我們已知的人工智能的模型是有益的。
命令是最簡單的通訊類型。比如說一個指令“起立”。不管你用什麽語言發出,也不管是以聲音的方式還是視覺(書寫)方式,明白那個語言的人在聽到指令“起立”後造成人體產生內部發生某種反應最後得到設想的結果應該是一樣的。因為不管你懂什麽語言,人類的生物學(也就是人體內部的工作原理)應該是一樣的。
在最簡單的通訊類型,也就是指令這裏,不同語言的優劣很可能不明顯。
但是在複雜的通訊裏就會有區別啦。有的語言很可能就不能做某種事情或做的不如另一種做的好一些。體現這一點的例子在計算機的程序語言裏的很多。
再比如講故事也是比較簡單的通訊模式。同一個故事用不同的語言講或寫出來,相應的懂那個語言的人聽或讀了以後的反應應該是有所不同的。因為雖然故事是同一個,但是把它轉化成語言的過程其實就是一個翻譯過程。聽或讀故事的過程就是又翻譯成人類作為生物的人體內部統一的電磁或化學語言。那個語言能使人產生身臨其境的感覺的就應該是講故事效率比較高的語言。
當然,通訊的內容可以是各種各樣的,如:準確的如命令或指令、模糊的如故事或信息(包括事實、感情和思想等等)。不同的語言都會有不同的實際應用效果的。
江毅:“很有見解.值得思考.特別是關於為什麽漢語導致大聲說話的思辯非常新穎,想想也似乎有道理.
莊冬:“你是專家。我是業餘聊天玩的。其實你的帖裏也說了“漢字的單音節特點使得漢字語音識別可以更可靠”的一方麵。但是也正因為如此,每一個音節的價值和準確的識別就至關重要了。因此,為了保證漢語交流的可靠性,使用漢語的人就必須將每一個音節都準確無誤地傳出去,從而導致幾乎是必須大聲說話的現象。
文字是通過視覺(盲人是觸覺)達到交流的目的的工具。拚音語言文字在直接聯係發音上有優越性。由於聲音是一維的信息,拚音文字的一維的本性就決定了。但是視覺(即便減去聲音也)是一個多維(現在時髦叫multi media)的功能,至少寫字用的紙就是二維空間。像形文字就是利用了視覺(處理信息的多維能力)超過拚音文字隻是利用了聽覺(處理信息的一維能力)的特點的結果,因此像形文字比拚音文字優越。視覺可以處理同音字就是利用了視覺比聽覺的特殊性。
拚音文字掃盲門坎兒也低。教一個母語說英語的成人閱讀報紙隻需要幾個星期的時間。教一個母語說漢語的成人閱讀報紙卻需要幾年的時間。