上次寫了一篇文章介紹Google搜索引擎的工作原理。 大家可以看出Google搜索引擎成功的法寶是Google計算方向鏈接決定網頁的PageRank算法。如果你對SEO(搜索引擎優化)有一點了解,並且細心觀察的話,你會發現:現在google的搜索結果中,有一些PageRank很高的網頁排在PageRank很低的網頁之後。這是不是說PageRank不起作用了呢?
答案當然是否定的。PageRank在Google的搜索引擎算法中依然起著十分重要的地位。但Google更加看重那些從相關網站過來的鏈接,而對那些不相關的網站的鏈接在最後計算網頁排名不起作用(但這些不相關的網頁鏈接在計算PageRank是還是有用的), 所以就出現了大家看到的PageRank很高的網頁排在PageRank很低的網頁之後這種現象了。
那麽Google是如果判斷網站的相關性的呢?這就是我今天要介紹的隱含語義索引LSI (Latent Semantic Index)。
隱含語義索引LSI除了計算一個網頁包含的關鍵字以外,還參考了其它網頁或者文檔所包含的關鍵字的組成。LSI認為具有很多相同關鍵字的網頁, 他們的文章內容也比較接近。盡管LSI算法並不理解單詞的意思,但它最後計算出來的結果卻是表現的非常高的智能。
LSI是如何工作的?
首先將網頁所有的單詞做一個列表,然後將那些沒有語義的單詞做過濾。將所有的文檔均作出單詞列表。利用這個列表可以就可以做一個以文檔為X軸, 單詞為Y軸的巨型矩陣。如果單詞出現在某個文檔,則在對應的位置表示為1,反之為0。 這樣檢查Y軸的某個單詞就可以發現所有包含著個單詞的文檔。
為了使計算更加正確,LSI引入關鍵字的權重。關鍵字的權重計算基於以下常識推理:
1)單詞在一篇文章中出現多次比隻出現一次的單詞更有意義;
2)不經常出現的單詞比到處出現的單詞更有意義;
第一個推理適用於單個文件,叫做本地權重。那些在一個文檔中多次出現的單詞就比那些隻出現一次的單詞有更高的本地權重。
第二個推理適用於單詞在所有文檔的權重計算,叫全局權重。有各種不同的全局權重計算方法,但其思路均體現為在少數文檔中出現的單詞比那些到處出現的單詞有更深刻的含義。一個典型的關鍵字在矩陣中的權重計算方法是TF-IDF (term frequency–inverse document frequency)。
利用這個巨型的單詞文檔矩陣,LSI還可以算出某個主題在其它文檔中所出現的相關的關鍵字以及出現頻率。這樣即使有的相關文檔不出現你所搜索的關鍵字,也可能將相關文檔搜索出來。這比以前隻對照關鍵字的搜索方法更進一步。所以如果你還是采用傳統的關鍵詞匹配的方法作網頁優化的話,其優化效果將大大降低。
LSI還可以用來分析網頁的鏈接描述文本(Anchor Text)。如果你的網頁反向鏈接全部采用相同的鏈接描述文本, 而不采用其它相關的關鍵字,那麽你的反向鏈接的有效性也必將大大降低。
舉例來說:如果你是做“書”這個關鍵詞,那麽其相關的關鍵詞可以是“手冊”“指南”“報告”等等。
如果你想了解更多有關LSI (Latent Semantic Index)的知識,請訪問http://www.knowledgesearch.org/lsi/lsa_definition.htm。
轉載請注明: