正文

Tags,無序,分類和家族相似

(2010-07-26 01:47:55) 下一個
4月5日

本體論與分眾論

folksonomy按照數學模型的理論推斷的確能達到最終的見山是山,見水是水,見山不是山,見水不是水,見山還是山,見水還是水的這麽一種由淺入深,有內到外,有最終形成一種提綱挈領的的判斷.

為什麽突然想起這個呢?今天看到ptree《同分妄見與家族相似》提到從哲學上,探討本體論與分眾論的曆史淵源。很值得一讀。其實期間還有值得挖掘的東西還很多
http://ecolab.ruc.edu.cn/blog/zhangsr.php?itemid=132


3月28日

Tags,無序,分類和家族相似

如果你已經看相關的關於Tags的各種說法,我希望你能夠暫時忘掉全部的那些解釋,之後再重新回憶起來;但如果你還不了解Tags,那麽有必要先閱讀文章最後留下的鏈接,然後回到上一步:)

  那麽,什麽是Tags?很簡單,往下看;

·經典的信息構成模式;

  在傳統的網頁組成中,我們通常使用Taxonomy(分類法)來歸納、整理和存放我們的信息,圖書館是一個絕好的例子,所有的信息從一個點開始,形成樹狀的分類,由此構成一個完整的、相互聯係起來邏輯體係;
  這個體係從一開始就是人為分類形成的,在我們需要檢索的時候,幾乎不需要費多大的勁;

  [例子]比如我們的Blog,首先有一個主標題,然後下分若幹分類,實際的文章則分類儲存在這些不同的分類中;在一般情況下,我們不允許一個文章同時存在於多個分類中,以便於我們管理的方便和檢索的唯一性;

  在網絡上,dmozwiki都算是比較典型和知名的例子;

·散秩的信息構成模式;

  看似無序的浩渺信息,其中的絕大部分是通過“語言”來描述的,這表明了這些信息的指向性,因此我們通過提取這些語言(文字、文本)的相同部分,以此獲得相關的信息;這些信息平時是完全鬆散、互不聯係的,當且僅當我們對其加以提取的時候才呈現相對緊湊的組織結構,即便如此,這個結構和經典的分類結構相比,仍然是足夠散秩的。

  [例子]你可能已經想到了,Google嘛。目前絕大部分的搜索引擎所依賴的正是這一點,因此對於分詞的研究是這些搜索引擎始終的重點和痛苦,其他的不說,僅僅邏輯實證主義日常語言學派這兩個當代的流派就足夠他們折騰到下個世紀去了。
  舉一個惡搞點的例子:當我說:“他媽”的時候,僅僅檢索關鍵字而並不關心其在日常語言中實際運用的搜索引擎怎麽知道我是在罵人還是在陳訴一個歸屬性事實呢?更何況我們經常麵對google上數萬和關鍵字原本語義要求完全不同的搜索結果長聲歎息。

  [簡介]
  邏輯實證主義:認為人類的日常語言充滿的謬誤,需要徹底厘平,重構一個像數學一樣完美的邏輯語言體係;
  日常語言學派:認為人類的日常語言是非常合理而符合現實的,“完美”的邏輯語言並不存在而且也不符合現實;唯一的問題在於人們使用日常語言的時候出了一些方法上的問題,這需要我們加以重視和研究。
  (後者正是我傾向讚同的結論)

·符合未來發展的信息構成模式;

路德維奇·維特根斯坦

  現在我們綜合起來考察以上兩種在我們日常生活中顯得日益重要的信息構成模式,會發現他們各有優點和缺陷;
  對於前者而言,語言所表達和內涵的思想是廣博的,構造簡單的分類邏輯無法詮釋和標識某一篇文章所設計的全部重點,複雜的分類則將陷入無限微觀的悖論邏輯
  對於後者而言,除開分詞的煩惱,Google們也許還希望承天下之大義擔負起教導每一個人重修日常語言學分的重任,並且要求每一個人都能達到維特根斯坦的高度。

  路德維奇·維特根斯坦?對了,這終於回到我們的重點。
  維特根斯坦本人正是邏輯實證主義和日常語言學派先後的奠基人,而在他的後期的日常語言思想中,他提出了一個大家相對比較熟悉的觀點:家族相似。

  以下引用一段話作大致的解釋:

    維特根施坦從“反本質主義”立場出發反對語詞的定義化。本質主義者認為同一類事物之所以成為該類事物,是由於它們具有共同的本質(共相),定義就是規定事物的這種本質。維特根施坦則認為事物根本沒有共同的本質,隻有“家族相似”。所謂“家族相似”不是共同的相似,而是這一方麵或那一方麵的不完全相似。例如一個家族中的成員之間有的眼睛相似,有的神態相似,有的臉龐相似。因此,維特根施坦堅持一種唯名論的立場,認為人們在日常生活中使用一般性的名詞概念隻是為了方便,本質、共相那種形而上學的東西是不存在的。誤把這些東西當作存在,就會染上“哲學病”。

  好吧,看出來了嗎?那些相似的地方就是Tags(標簽);上麵引用中處處提到本質、反本質、家族相似,我們處處可以當作分類、碎片和標簽來閱讀和理解。

  家族相似(Tags)表明了對傳統分類學(Category)的立場,如同日常語言學派對待黑格爾體係的觀點,要求瓦解普遍、瓦解大一統、瓦解唯一性等這些經典哲學孜孜以求的目標,代之以碎片式的結構,這些碎片之間的聯係,僅僅存在於當人們需要它們的時候。

  帶有碎片語義色彩,富於哲學戰鬥力的Tags和檢索關鍵字相對而言,其形成是主動而非被動的,是主動聚合而不是等待被動的檢索,其形成的過程經曆了人為的篩選,相對而言更符合日常語言的正常使用;例如全世界關於“SMTH”的信息,盡管
有些文章通篇都沒有寫到一個涉及SMTH的字符,但是它所描述的事實確實是與此相關。

  如果我們脫離哲學而不論,Tag實際上同時帶有傳統分類法和搜索關鍵詞這兩大信息構成模式的共同特點,同時消除了相當一部分它們在各自方麵的缺憾和弱點。

  需要指出的是,從現有的應用和理論分析看來,分類、標簽和無序關鍵字有著不同的運用範疇;對於微觀的、少量的信息,分類法已經足夠我們使用;對於海量的,無邊無際的無序信息,關鍵字也許是現階段應用最廣泛且被普遍接受的組織方式;而在兩者之間,一個足夠大、有更高係統化要求和精確度要求的信息群而言,Tag也許是最佳的選擇。

  在Blog中使用Tags?
  如果一些人惡意地使用Tag,將使其失去意義,這類似於在mata標簽中強行加入無數完全與網頁本身無關的keyword這種無聊的舉動,以及後來四處散發冗餘鏈接的小p孩;在一個開放型的超人氣論壇上使用Tags當然不存在技術問題,但是也許不算是一個好主意,特別是在中國。

  相對而言,Blog的主人對自己的log會比較負責,能夠認真地篩選發布在自己log上的信息,或者對此作出評論和傳播,因此在Blog上結構Tag對信息的有序化是有積極意義的;
  但是,對於個人的Blog,Tag的意義微乎其微——因為作為個人發布源的信息容量實在太小;如果Blog需要Tag的話,它必然是針對一個大範圍的用戶群,有兩種比較適合的情況:一種是擁有動則數千數十萬用戶的多用戶Blog站點,另外一種則是基於XML的聚合站點;
  不論如何,Tag所針對的都是大信息容量的有序化問題,有利於用戶在這些巨大的庫存中精確地定位符合語義信息的節點,而並非針對個人Blog信息的有序化問題;

  Tags,無序信息、標簽和分類法,以上的分析可以算作哲學走在科技之前的一個比較典型的例子,至少縱觀國內應用,還沒有相關的開發項目;
  BXNA的Blog聚合仍然依賴於分類,聽說試圖進入分詞領域,但是這對於BXNA聚合的那點信息而言實在有牛刀屠雞之嫌;而其他一些Tag服務商並沒有對Blog的直接支持;
  這麽大的蛋糕,誰會吃到呢?作為先鋒的技術引領者?Blog程序的提供商?還是資本的所有者呢?個人以為,擁有廣泛用戶群的聚合服務商或者Blog提供商,搶先發布基於Tag的主動式聚合平台,或者是基於TrackBack的被動式聚合平台,也許在未來,就可以理所當然地成為資本的所有者。

  最後,關於Tag具體的開發和管理等技術,不屬於本文討論的範圍,請參看相關的其他文章。
[END]

  **本文作為一份小小的禮物以答謝
Rainbow(Z-Log)不厭其煩的人工智能谘詢;

  **文章也許過於紛亂不知所雲,或者涉及麵比較廣,歡迎留言給我,共同討論,更歡迎尖銳無情的批評和指正。

相關文章
Tags:
http://www.mulog.org/mulog/blogview.asp?logID=607
http://www.zuola.com/weblog/blogview.asp?logID=206
http://www.technorati.com/help/tags.html
http://ping.geneboy.net/2005/03/tagcategorykeyword.html
http://www.myie2.com/sic/blog/article.asp?id=53
http://duduwolf.winzheng.com/post/50.asp
http://blog.timetide.net/archives/2005/02/04/20050204163145.php
http://blog.94smart.com/index.php?q=node/125
http://heterotopias.org/node/506

維特根斯坦,以及家族相似:
http://philo.ruc.edu.cn/dept/sophia/course/linguistic/200410/381.html
http://philo.ruc.edu.cn/pol04/Article/western/w_as/200411/1339.html

相關鏈接
http://www.tenbyten.org/10x10.html
http://www.technorati.com/ 


2005-3-27 17:15:51  Aether answer vistor:我覺得有必要討論tags應用的兩個重點,
  1、適用範圍;
  Tags應用必然是針對廣泛、相對散秩同時有更高質量要求的信息群落;(和生命本身一樣,也是整體無序中產生的部分有序)
  這個無序的群落要構成足以產生有序的宏觀規模,少則幾千,多則應該上萬,數十萬;但是同時不能無限製膨脹,規模再高,Tags的作用可能就不及完全無序的關鍵字了;
  因此僅僅在一個個人Blog的內部,為區區數十上百條信息建構相對散秩的Tags,實際意義不大,因為對於少量信息人為的分類應該已經足夠;而通過統一的標準加以組織、集中和聚合,才有可能形成有效的規模;

  2、關鍵效用;
  Tags產生以後,在檢索的過程中,和關鍵字檢索幾乎沒有任何區別;因此Tags的關鍵部分在於它產生的過程:廣大的用戶群對錄入的信息人為地加以預篩選。
  因此這要求對錄入的過程有比較有效的監督;同Wiki一樣,這種開放式的預篩選過程不同於分類法的完全封閉和控製,這方麵的研究還有待深入和繼續。 (via here)

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.