正文

資源描述框架RDF

(2010-07-26 02:10:34) 下一個

作者: 阮一峰

日期: 2008年2月25日

圖書館裏,每一本書都要被編目,這樣才能方便查找和利用。於是,很早就有人想到,網上所有的資源也需要“編目”。

如果要對網絡資源編目,首先就必須有一套“編目規則”。資源描述框架(Resource Description Framework ,簡稱RDF),就是一套W3C提出的描述網絡資源的方法。

RDF的基本思想很簡單,就是說任何網絡資源都可以唯一地用URI(統一資源標識符,Uniform Resource Identifier)來表示。在這裏,可以簡化地將URI理解成網址URL。

比如,世界第一大網站Yahoo!首頁的網址是http://www.yahoo.com/,那麽它的首頁就可以用這個網址來唯一代表。

有了這個識別符以後,網絡資源的其他特性都用“屬性(Property)”=“屬性值(Property value)”這樣的形式來表示。

bg2008022501.png

請看上圖,最頂部的方框表示網絡資源http://www.yahoo.com/,下麵的兩個方框表示兩個屬性關係,一個是“資源作者=Yahoo!公司”,另一個是“資源名稱=Yahoo!首頁”。

根據RDF的定義,資源本身是主語subject,屬性名稱是謂語predicate,屬性指是賓語object。對網絡資源的描述就采用主-謂-賓的形式。

RDF本身用xml文件的形式表示,比如上圖寫成xml文件就是:



<資源作者>Yahoo!公司
<資源名稱>Yahoo!首頁

這個xml文件不是很規範,主要是為了說明問題。

RDF強大的地方在於,它隻規定了主-謂-賓這種描述形式,至於謂語和賓語到底是什麽,完全可以根據不同需要自由選用。因此,RDF才能定義為“資源描述框架”,而不是“資源描述方法”。

用於RDF的最常見謂語和賓語,是都柏林核心(Dublin Core),簡稱DC。它是一套用於描述信息的元數據,一共有15個標簽,也就是15個謂語和賓語的組合,其中常見的標簽包括Title,Creator,Subject等等。

采用了都柏林核心以後,基本上所有的網絡資源都可以用RDF描述出來,因此初步實現了對網絡資源進行編目的目的,為下一步機器化處理和最終語義網的實現打下了基礎。

以下我舉一個實例。

2年前的今天,2006年2月25日,我寫了一篇網誌《學科和采礦》,用RDF對這篇網誌進行編目,就是下麵的結果:

xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/"
xmlns:dc="http://purl.org/dc/elements/1.1/">
rdf:about="http://www.ruanyifeng.com/blog/2006/02/post_179.html"
trackback:ping="http://www.ruanyifeng.com/cgi-bin/mtype/mt-tb.cgi/251"
dc:title="學科和采礦"
dc:identifier="http://www.ruanyifeng.com/blog/2006/02/post_179.html"
dc:subject="History"
dc:description="今天突然想到一個比喻:選擇不同的學科就好像采礦一樣。 有的礦是新發現的礦物品種,埋藏淺,品味高,容易開采。選擇這樣的礦,很容易出成果。某些新興學科大概就是這樣的礦,計算機科學可以算一個例子。..."
dc:creator="ruanyf"
dc:date="2006-02-25T20:52:32+08:00" />

這是一個規範的xml文件,可以實際使用。請注意標成黑體的那幾行。首行“rdf:Description”,這是RDF規定使用的標簽,表示主語subject,後來的“rdf:about”屬性用來表示資源的標識符,也就是url,它唯一地確定了一個網絡資源。其他屬性中的dc:title、dc:identifier、dc:subject、dc:description、dc:creator和dc:date,分別表示題目、標識符、主題、簡介、創造者、日期,這幾項都屬於都柏林核心,等號後麵是相應的值。至於trackback:ping屬性,這一項在都柏林核心中沒有規定,但是也可以加上去,從中可以看到RDF資源描述框架的靈活和強大。

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.