科普一下: 錕斤拷直錕斤拷錕

來源: 阿裏 2010-09-06 06:30:35 [] [博客] [舊帖] [給我悄悄話] 本文已被閱讀: 次 (1531 bytes)
本文內容已被 [ 阿裏 ] 在 2010-09-28 08:04:20 編輯過。如有問題,請報告版主或論壇管理刪除.

  看到這些字句,您肯定會問,這是什麽?這些字句是毫無實際意義的,但它們卻形象地表達出了一些莫名其妙的問題。這是一個很經典的亂碼。相當經典

  最容易出現的地方就是搜索引擎

Unicode和老編碼體係的轉化過程中,肯定有一些字,用Unicode是沒法表示的,Unicode官方用了一個占位符來表示這些文字,這就是:U+FFFD REPLACEMENT CHARACTER

  那麽U+FFFD的UTF-8編碼出來,恰好是 'xefxbfxbd'。

  如果這個'xefxbfxbd',重複多次,例如 'xefxbfxbdxefxbfxbd',然後放到GBK/CP936/GB2312/GB18030的環境中顯示的話

  一個漢字2個字節,最終的結果就是:錕斤拷

  我們上網的時候不用去關心網站采用了什麽編碼格式,但是頁麵中不時出現的亂碼還是會讓我們頭疼。在這點上,Firefox的用戶更是深有體會,用Firefox瀏覽網頁看到亂碼的機會要比IE多得多。 亂碼主要與字符編碼係統有關。例如一個網頁中常出現的亂碼“錕斤拷”(百度,Google),它就是新老編碼係統轉換中出現的。網友est專門寫了一篇文章來考證問題來源:

  Unicode和老編碼體係的轉化過程中,肯定有一些字,用Unicode是沒法表示的,Unicode官方用了一個占位符來表示這些文字,這就是:U+FFFD REPLACEMENT CHARACTER。那麽U+FFFD的UTF-8編碼出來,恰好是 'xefxbfxbd'。如果這個'xefxbfxbd',重複多次,例如 'xefxbfxbdxefxbfxbd',然後放到GBK/CP936/GB2312/GB18030的環境中顯示的話就是“錕斤拷——錕(0xEFBF),斤(0xBDEF),拷(0xBFBD)”。

2010年8月14日中午,百度貼吧主頁遭到疑似黑客攻擊,也有可能是內部維修的錯誤,因此整個頁麵一直是錕斤拷等字,並持續大約3-4小時,這也讓網友對“錕斤拷”這三個字產生了濃厚的興趣,甚至出現了以“錕斤拷”為主題的簽名檔、頭像和貼吧。

所有跟帖: 

錕斤拷錕斤拷同學用心良苦啊。 -AriesKnight- 給 AriesKnight 發送悄悄話 AriesKnight 的博客首頁 (95 bytes) () 09/06/2010 postreply 07:15:03

還是阿裏心細。要是沒有密碼,那就不是他的風格了~~~ --南南-- 給 -南南- 發送悄悄話 (0 bytes) () 09/06/2010 postreply 09:27:45

請您先登陸,再發跟帖!

發現Adblock插件

如要繼續瀏覽
請支持本站 請務必在本站關閉/移除任何Adblock

關閉Adblock後 請點擊

請參考如何關閉Adblock/Adblock plus

安裝Adblock plus用戶請點擊瀏覽器圖標
選擇“Disable on www.wenxuecity.com”

安裝Adblock用戶請點擊圖標
選擇“don't run on pages on this domain”