騎樂無窮

上帝不響。如歌單車。
Tune Your Ride. Every Day. Amen.
"Bicycling: Big Brainpower Booster."
個人資料
stillthere (熱門博主)
  • 博客訪問:
歸檔
正文

韓小明: 原來漢語的思路更接近計算機語言

(2009-11-15 14:23:01) 下一個
漢語不需要變單數,複數和時態,我要表示複數,隻需要加功能詞就可以了,不會影響單詞本身,比如一隻鳥,一些鳥,但是在英語中就要影響所有的幾萬個單詞,相應的“是”在英語中也要變成is are were be等等,但是我們在很多情況下不需要關心時態和數量,這與使用麵象對象是一個道理。
漢語可以表達“樹上有鳥”的相對抽象概念,而用英語表達類似“樹上有鳥”時,每次都要指定具體數量和時態以及單詞的變化,隻能表達“一棵樹上有隻鳥”“一棵樹上有一些鳥”“一棵樹上曾經有一些鳥”“一些樹上有些鳥”“一些樹上曾經有一些鳥”等等,就是無法表達“樹上有鳥”。漢語中這個函數“()樹上有()鳥”是不變的,變的隻是不同的參數,而英語卻要連單詞和整句一起變,相當於是重寫一段,無法直接調用函數。
漢語基本字庫GB2312,隻需要掌握2312個常用漢字,就可以了,而在新的詞匯, 比如類似計算機,互聯網,飛機,電視這樣的新詞匯根本就不需要學習就會,但是在英語就是兩個新的單詞,要重新讀會和背會拚寫方法,所以即使背了2萬個英語單詞遠遠不夠,我們還是覺得很困難。漢字是主表意的,並且具有組合和繼承性、派生性,所以我們隻需要掌握2千個字漢而不是要學5萬個完全不一樣的新單詞。所以我們稱漢字是智能語言,屬高級語言,而英語就是密碼語言,類似於二進製的機器語言。
漢語不因數或時態等等而作詞尾變化,用C++(一種計算機語言)的概念來講,實際上就是一種重載(Overload)。重載是C++的兩大主要特點之一(另一個特點是類(Class))。所謂重載就是一個函數或算符具有一個以上的不同含義,而計算機根據執行函數或算符時的環境來確定其含義。這裏的“環境”,在C++中,包括變量的類型,個數,順序等等。在本文先前提到的“樹上有鳥”的例子中,這個“有”字,當指一隻鳥時,就相當於“is”;當指許多鳥時,就相當於“are”。若再包括時態,那麽,“有”字實際上重載了4種含義,即“is”,“are”,“was”和“were”。這樣的重載的好處和C++中的重載的好處是一樣的,都使語言的適應性更強 ,效率更高。沒有重載的計算機語言在調用函數前,必須將變量的類型,個數一一查明以 便調用所對應的函數。與此類似,未重載的英語必須先把鳥數清楚後才能造出邏輯和語法都正確的句子來。而重載的漢語不必預先數鳥就能造出正確的句子來。這正是漢語語法優越的地方。C++中的重載是狹義的,而人們的語言包含更廣義的重載,因為上麵所述的 “環境”在人類語言中遠較C++中的多樣化。可以這樣認為:同樣一句話在不同的時間、場合、地點等等可能具有不同的含義,實際上就是廣義的重載。正是因為有了重載,人們的語言才顯得生動、活潑、富有內涵。順便提一下,C++的另一特點――類,其實也正是漢語的特點。以英語看漢語的“是”確實屬於重載(Overload)的。 漢語還有個好處就是麵向對象。 金-所有金屬的虛的祖先類鐵,銅,銀等等都是由金派生的。所以看到金字旁就知道是金屬 石-所有非金屬的虛的祖先類 碳,碘,硒看到石字旁就知道是非金屬 氣-氣體的虛的祖先類等等 所以用漢語學習自然科學(包括物理、化學等等)最方便了。否則給你一個S(硫)。誰知道是什麽東西呢。 還有中國的一些哲學思想也和計算機有關道家認為世界都是由陰陽兩種東西構成的。按不同組合可以構成萬物。這不就是現在的二進製麽,計算機裏麵的世界在複雜也是由二進製數構成的道家還說道生一,一生二,二生三,三生萬物。比較符合現代計算機語言的單根繼承。一二三都是虛的祖先類。比較新的語言例如 Delphi、Java、.Net都是單根繼承的。
本人曾問係裏的幾個教授“長方體”如何用英文講,可這幾位母語是英文的工科教授竟說不知道,接下來連問幾個本地的研究生,結果他們也不知道。著實令我大吃一驚!現在我要問讀者:您知道麽?反正不是Cube,Rectangular...。後來,我倒是真的在字典裏找到了該詞,可現在又忘了,原因是它太生辟。感歎,英文真是笨人的語言,試圖給天下每一事物起一個名字。宇宙無窮,英文詞匯無!!!   詞匯如“光幻覺”、“四環素”、變阻器”、“碳酸鈣”、“高血壓”、“腎結石”、“七邊形”、“五麵體”都隻有專業人士才會。根本不可能象漢語那樣觸類旁通,不信?去親自問問母語是英文的人好了。英文是發散的。搞的一些基本概念如“長方體”也隻有專家才會講!怪不得英文世界裏專家那麽多,而且都那麽自信;是啊,一般人連他們的基本術語如“酒精綿球”“血壓計”都不會講。生活在英文世界真是對無知無奈!可悲可憐!
英文是一維的,是密碼語言。寫英文是編碼,讀英文是解碼。細想想:如把英文的a、b 、c、d、e換成1、2、3、4、5,並沒有什麽原則上的區別。按上邊的對應,如一開始就把cab寫成312,用一樣的讀音,又有什麽不可以?漢語就不同了,是二維的(紙麵上的最大維數) ,最大限度地利用了紙麵的幾何空間。每個漢字就是一幅畫。試問從一幅畫上得到的信息快,還是從一行密碼中得到的信息快?
國家漢字的掃盲標準是1500個字,理工科的大學生一般掌握2000個漢字。就憑這 2000個字,大家可以讀書、看報、搞科研。可在英文世界裏,沒有20000個字別想讀報,沒有30000 個字別想把周刊讀順,大學畢業10年後的職業人士一般都懂80000字。新事物的湧現,總伴隨者英文新詞,例如火箭(ROCKET),計算機 (COMPUTER)等,可漢語則無須,不就是用“火”驅動的“箭”麽,會“計算”的“機”麽!可英文就不能這麽幹,不能靠組詞,原因是“太長”了。如火箭將成為“FIRE-DRIVEN-ARROW”,計算機將成為“COMPUTAIONAL-MACHINE”等。人的視角有限,太長的字會降低文章的可讀性與讀者的理解能力。     
目前,英文詞匯已突破40萬,預計下世紀中葉,將突破100萬大關。而漢語則相對穩定,現在中學生還可以琅琅上口地讀屈原的楚詞。英文就難了,太不穩定。現在的人們讀沙士比亞的原著已困難重重,更不用說讀400年前英國詩人喬叟的詩了。學GRE的時候,注意到很多韋氏字典收錄的詞匯竟是本世紀件初的新詞,如“Gargantuan”取自拉伯雷的小說。這也不奇怪,畢竟英文400年前才統一了拚寫。

___________________________________________

關於 gb2312, 也叫gb2312-1980, 是全球廣泛使用的一個字符集,由於曆史比較早,所有受眾麵也最大.
GB2312或GB2312-80是一個簡體中文字符集的中國國家標準,全稱為《信息交換用漢字編碼字符集--基本集》,由中國國家標準總局發布, 1981年5月1日實施。GB2312編碼通行於大陸;新加坡等地也采用此編碼。幾乎所有的中文係統和國際化的軟件都支持GB2312。
GB2312標準共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個;同時,GB2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄羅斯語西裏爾字母在內的682個全形字符。
GB2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋99.75%的使用頻率。
對於人名、古漢語等方麵出現的罕用字,GB2312不能處理,這導致了後來GBK及GB18030漢字字符集的出現。
接下來就是比較新的gb18030
* GB18030 也是對 GB2312 的擴展,其編碼長度由 2 個字節變為 1~4 個字節
o 單字節,其值從 0 到 0x7F。
o 雙字節,第一個字節的值從 0x81 到 0xFE,第二個字節的值從 0x40 到 0xFE(不包括 0x7F )。
o 四字節,第一個字節的值從 0x81 到 0xFE,第二個字節的值從 0x30 到 0x39,第三個字節的值從 0x81 到 0xFE ,第四個字節的值從 0x30 到 0x39 。
是以保持 GB2312/GBK 反向兼容的條件下,加入 4-byte 部份,讓 GB18030 可以
完全地 一對一 映射到 Unicode U+0000..U+10FFFF,是一個「一勞永逸」的方案。


http://blog.csdn.net/xiammy/archive/2006/11/29/1419700.aspx
[ 打印 ]
閱讀 ()評論 (1)
評論
雲易 回複 悄悄話 非常有意思的話題。
以前覺得英文詞匯豐富,為漢語所不及,但現在看來,漢語也再生能力非常強。語法簡單,本來好像好似缺點,也成了優點了。
可漢語再有計算機的思路,計算機語言還是用英文寫。有沒有可能那一天出現漢語寫成的程序語言?
登錄後才可評論.