這個GBK就是GB2312的擴展碼 都屬於double byte charset

第一個byte 0x81-0xFE
第二個byte

GB2312 0x80-0xFE
GBK 0x80-0xFE 和擴展的 0x40-0x7E

對於軟件來說,都是一堆二進製數,但是double byte character set
斷字斷詞比較麻煩,一個中文字是兩個bytes,軟件要是在兩個byte之間
斷字,斷詞,斷行就要出亂碼了。

這個問題用UCS2格式的Unicode就容易解決一些,因為每個字都是16位。
但是Unix上麵支持16位UCS2格式比較麻煩,因為UCS2裏麵的0對於
C runtime library是個很頭痛的問題;所以unix上 UTF8 更流行。

請您先登陸,再發跟帖!