正文

Folksonomy 與語言的關係以及中文應用的問題

(2010-07-26 01:38:23) 下一個
http://blog.timetide.net/2005/02/04/20050204163145.php

關於Folksonomy(分眾分類)與語言的關係是一個很有意思的問題。

Tag的興起源於兩種社會性網絡服務的應用 - del.icio.us書簽和Flickr的圖片分享服務。這兩種Web服務很巧妙的將Tag功能運用其中,配合他們獨特的易用性,一定程度上引爆了Tag以及分眾分類的流行。不過這些服務的語言係統都是基於英文,所以在接受和認知程度上,他們更符合英文用戶的使用習慣。

分詞特征:英語和漢語在分詞的定義上有著顯著的區別。英文中的詞幹以單詞形式出現,而中文中的詞幹是由單個字組成的“詞組”。從語言學(Linguistic)的角度來說,英語中的單詞可以直接排它性的定義,而漢語的詞需要通過特定的分詞結構來進行區別。舉一個簡單的例子,“她用魔法做了一個毒蘋果然後扮成一個老婆婆到森林去找白雪公主”。這個句子中的“蘋果”和“果然”就需要通過中文的分詞算法來解決,到底是“蘋果”為一個詞還是“果然”為一個詞?而英語中很少會出現這樣的問題。總的來說,兩種語言的分詞特征有顯著不同。關於中文分詞詳情見盧亮的中文分詞係統

語義普遍認知(Common Sense)的差別:在不同的語言環境下,對語義的普遍認知存在很大的差異,比如Technology,這是一個普同的定義詞,但在漢語中,對於它的解釋可能是:科技,技術,工藝等等。在這種情況下,Technology本身在英語語境的普遍認知度則比科技,技術,工藝這三個詞中的任一詞在漢語語境中的普遍認知度高。同樣的情況也出現在漢語語境中,Keso舉了“春節”這個例子,在英文中它可以表述為ChineseNewYear,SpringFestival,LunarNewYear等等。可見,不同語言係統中的語義普遍認知度差別明顯。

縮寫詞的特征:這是在英語中一個很特有的現象,比如Get Things Done這個短語是一本書名,在使用中往往被縮寫為“GTD”,又比如中國共產黨 - Chinese Communist Party,在使用中被普遍縮寫為CCP。在英語語境中,許多特定詞組都是通過縮寫形式來表達。而這種表達方式運用於Tag標簽就非常方便,如創作共用Creative commons往往被縮寫為CC, 這樣的例子不勝枚舉。但在漢語語境中則沒有這個特征。

趨同性:在整個Tag係統裏麵還有一個很顯著的特征,就是趨同性。也就是對於同一個對象的定義,往往人們趨同選擇被定義次數多標簽作為其分眾分類。舉個例子,boingboing在美味書簽中被使用“Blog”標簽了200多次,而被使用“news”標簽了90次,也就是說,用戶在定義的時候更趨向於選擇使用次數多的標簽。而這種結果又恰恰的反射出大家對同一事物的普遍認知度上。所以在整個Tag係統中,用戶對一個事物的理解有著趨同性的特征。並且這種趨同性從一個側麵能夠反映出群眾的普遍認知度,甚至用戶結構等。

通過最近做的一些簡單使用調查,結合開發中的一些經驗,對於分眾分類在在漢語上的應用和普及我持比較保守的態度。不倫是從語言的使用習慣,用戶群的普遍認知度,還是漢語語境的分詞結構,許多地方分眾分類標簽容易模糊用戶的導向,分眾分類在中文的社會性網絡服務中作為一種輔助功能而存在更為可行,或者在某一些特定領域比如具體地點名稱上進行應用,但作為內容平級分類模式,其應用與漢語語境的用法和習慣等諸多方麵無法協調,它並不是一種能夠在中文環境中保持生命力的應用模式。

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.