近來太忙,心無旁鶩,很久不塗鴉。這幾天,Ontology一詞總在腦子裏晃蕩,東顧西盼中,突然又想畫幾筆。繽紛世界,勢態萬千,看似繁複,其實卻來於寥寥黑白二色和一則簡單心法。世上事,可以表現得很複雜,也可以解析得很簡單。有無趣味,就看個人興致了。。。
以下是在百度百科得到的:
Ontology是近年信息科學界最熱門的詞匯之一,國內一般將其譯為“本體”。
Ontology之哲學本源
Ontology的概念最初起源於哲學領域,並在很長一段時期都是哲學研究的一個分支。古希臘哲學家亞裏士多德(Aristotle)定義Ontology為“對世界客觀存在物的係統的描述,即存在論”,也就是說Ontology是客觀存在的一個係統的解釋或說明,它關心的是客觀現實的抽象本質。為研究客觀世界的存在問題,亞裏士多德、萊布尼茨(Leibniz)、康德(Kant)、皮爾斯(Peirce)、懷特海德(Whitehead)等哲學家廣泛討論了用Ontology如何對現實世界進行分類、怎麽描述其中的物理實體、如何定義客觀世界的抽象,以及空間與時間的關係等問題。
Ontology這個哲學範疇,被人工智能界賦予了新的定義,從而被引入信息科學中。然而信息科學界對Ontology的理解也是逐步發展才走向成熟的。1991年Neches等人最早給出Ontology在信息科學中的定義:“給出構成相關領域詞匯的基本術語和關係,以及利用這些術語和關係構成的規定這些詞匯外延規則的定義。”後來在信息係統、知識係統等領域,隨著越來越多的人研究Ontology,產生了不同的定義。1993年Gruber定義Ontology為“概念模型的明確的規範說明”。1997年Borst進一步完善為“共享概念模型的形式化規範說明”。Studer等人對上述兩個定義進行了深入研究,認為Ontology是共享概念模型的明確的形式化規範說明,這也是目前對Ontology概念的統一看法。
Studer等人的Ontology定義包含四層含義:概念模型(Conceptualization)、明確(Explicit)、形式化(Formal)和共享(Share)。“概念模型”是指通過抽象出客觀世界中一些現象(Phenomenon)的相關概念而得到的模型,其表示的含義獨立於具體的環境狀態;“明確”是指所使用的概念及使用這些概念的約束都有明確的定義;“形式化”是指Ontology是計算機可讀的,也就是計算機可處理的;“共享”是指Ontology中體現的是共同認可的知識,反映的是相關領域中公認的概念集,它所針對的是團體而非個體。Ontology的目標是捕獲相關領域的知識,提供對該領域知識的共同理解,確定該領域內共同認可的詞匯,並從不同層次的形式化模式上給出這些詞匯(術語)和詞匯之間相互關係的明確定義。
盡管定義有很多不同的方式,但是從內涵上來看,不同研究者對於Ontology的認識是統一的,都把它當作是領域(領域的範圍可以是特定應用中,也可以是更廣的範圍)內部不同主體(人、機器、軟件係統等)之間進行交流(對話、互操作、共享等)的一種語義基礎,即由Ontology提供一種共識。而且Ontology提供的這種共識更主要的是為機器服務,機器並不能像人類一樣理解自然語言中表達的語義,目前的計算機也隻能把文本看成字符串進行處理。因此,在計算機領域討論Ontology,就要討論如何表達共識,也就是概念的形式化問題。
Semantic Web中的Ontology
Ontology研究熱點的出現還與Semantic Web的提出和發展直接相關。
Semantic Web是Tim Berners-Lee提出的又一個概念。Tim Berners-Lee認為,當前的Web是供人閱讀和理解的,它作為一個越來越大的文件媒體,並不利於實現數據和信息的自動化處理。新一代的Semantic Web將不僅僅為人類而且能為計算機(信息代理)帶來語義內容,使計算機(或信息代理)能夠“理解”Web內容,進而實現信息處理的自動化。他認為Semantic Web不是與當前Web隔離的另一個Web,而是對當前Web的擴充,在Semantic Web中,信息的語義經過完好的定義,能夠更好地促進計算機和人之間的相互合作。
為了實現Semantic Web的功能,需要提供一種計算機能夠理解的、結構化的語義描述機製,以及一係列的推理規則以實現自動化推理。Semantic Web的挑戰在於提供一種語言,
它能夠表述數據和在數據中進行推理的規則,而且需要這種語言能夠將目前存在於知識表述係統之中的規則能夠被應用到Web上。
在Tim Berners-Lee的Semantic Web框架中,有幾個關鍵的組成元素。它們分別是XML,RDF(S)和Ontology。
XML允許用戶定義自己的文件類型,允許用戶定義任意複雜的信息結構,但是XML隻具有語法性,它不能說明所定義的結構的語義。XML之所以在Semantic Web中處於重要的地位與XML是一種載體語言、XML命名機製等有很大的關係。
在Tim Berners-Lee看來,語義的描述是通過RDF進行的。RDF的兩個特性對此有著特殊的貢獻:
(1)RDF是一種由資源、屬性、屬性值組成的三元結構。這種三元結構形似句子中的主語、謂語、賓語之間的關係。一個描述資源的RDF語句,就如同“某件事具有什麽樣的屬性”這樣的句子一樣有效。它能夠表明一種對事物存在狀態的斷言,可以表述大多數情況下計算機需要處理的知識。
(2)RDF的另一個重要特點就是組成RDF的資源、屬性、屬性值這三個元素都必須是被URI(統一資源標識)所標識的。由於RDF利用URI來對信息進行編碼,它意味著被RDF所引用的任何資源、屬性和屬性值都是經過預先定義的、不具二意性的概念。
由於RDF能夠表示陳述句,並且主語、謂語和賓語的三個組成元素都是通過URI所標識的,所以它具有語義表述的特性。但Semantic Web的要求還遠不止於此,Semantic Web還需要加入邏輯功能:Semantic Web需要能夠利用規則進行推理、選擇行動路線和回答相關問題。Ontology是Semantic Web實現邏輯推理的基礎。
Semantic Web研究者也認為,Ontology是一個形式化定義語詞關係的規範化文件。對於Semantic Web而言,最典型的Ontology具有一個分類體係和一係列的推理原則。其中,分類體係定義對象的類別和類目之間的關係。實體之間的類/子類關係對於Web應用具有重要的價值。在Ontology中,還可以為某個類添加屬性來定義更多的類目關係。這些類目關係提供了的推理的基礎。
借助Ontology中的推理規則,Semantic Web應用係統可以提供更強的推理能力,例如可以在一個地理Ontology中加入這樣一條規則,“如果一個城市代碼與一個省代碼相關,並且一個地址利用了城市代碼,那麽這個地址與就與相應的省代碼相關”。通過這一規則,程序可以推理出中國科學院文獻情報中心,在中關村,應當在北京市。
為了Semantic Web研究者為了實現對Ontology的描述,在RDF的基礎之上,發展了RDFS。RDFS借助幾個預先義的語詞(如rdfs:Resource, rdfs:Class, rdf:Property, rdfs:subClassOf, rdfs:subPropertyOf,rdfs:domain, rdfs:range)能夠對概念之間的關係進行有限的描述。為了更方便全麵地實現Ontology的描述,W3C在RDFS的基礎之上,借助了DAML和OIL的相關研究,正在積極推進OWL(Web Ontology Language)的應用。自2004年2月10日,OWL已經成為了一個W3C推薦的標準。