gesheng

個人資料

革勝

博客訪問：

閑聊穀歌算法

(2012-10-21 16:13:09) 下一個

閑聊穀歌算法

羽飛(09-15-2012)

穀歌算法搜索非常聰明, 不僅僅是表麵字詞匹配, 還在於關鍵詞上下文匹配，並揣摩用戶想幹什麽,進行意思匹配。搜索引擎的結果看起來很簡單，實際上, 背後有一係列複雜流程和計算方法。它數學邏輯方麵並沒有突破, 隻是在人性化和工業倫理化方麵下了很大工夫, 是一個商業化的成功典型。

穀歌算法原理最基本的概念就是索引，即穀歌的程序自動掃描上億網頁後建立索引，再把索引庫分成小塊，放在全球3千台計算機上，並複製到各地數據中心去，讓全球的用戶去使用。

穀歌算法的流程其實是用戶提交搜索請求，穀歌根據其地理位置，將搜索請求發送到相關各地數據中心，比如BURNABY的用戶提出的搜索請求, 穀歌就送到溫哥華的數據中心, 在大溫的數據中心根據目錄索引和用戶提交的關鍵詞匹配，找到所需網頁。穀歌從使用頻率和關鍵詞匹配頻率出發, 從中挑選相關性最高的索引，再把這些搜索結果根據頻率排名，作出最合理的搜索結果。

穀歌非常用功, 每年都對一些新思想進行必要性的評估，對用戶心理摸底, 每個用戶都可能不知不覺地參與在線的評估，這一點, 筆者不太讚成, 要作在線評估, 應該跟用戶吱一聲, 不應該把人當白癡。請獨立評估員是個好辦法，穀歌對不同搜索請求的衡量指標是不同的，比如查某一個科學技術問題，用戶最重視的是網頁權威性權重問題，在這種情況下, 搜索到一個搞笑博客, 就不太合適。

搜索的質量還與區域位置相關，比如用戶在溫哥華，搜索西雅圖的計算機價格的價值就不大。信息搜索在互聯網的使用中會越來越重要。把工程倫理學方麵的知識用在搜索算法中會是前途無量的, 如Google+在搜索中也融入了倫理學的因素，把社交媒體信息整合進來, 成為一個萬能搜索引擎。

(20分鍾寫完)

[ 打印 ]

[ 加入書簽 ]

閱讀 () ┆ 評論

評論

目前還沒有任何評論

登錄後才可評論.