閑聊穀歌算法
(2012-10-21 16:13:09)
下一個
閑聊穀歌算法
羽飛(09-15-2012)
穀歌算法搜索非常聰明, 不僅僅是表麵字詞匹配, 還在於關鍵詞上下文匹配,並揣摩用戶想幹什麽,進行意思匹配。搜索引擎的結果看起來很簡單,實際上, 背後有一係列複雜流程和計算方法。它數學邏輯方麵並沒有突破, 隻是在人性化和工業倫理化方麵下了很大工夫, 是一個商業化的成功典型。
穀歌算法原理最基本的概念就是索引,即穀歌的程序自動掃描上億網頁後建立索引,再把索引庫分成小塊,放在全球3千台計算機上,並複製到各地數據中心去,讓全球的用戶去使用。
穀歌算法的流程其實是用戶提交搜索請求,穀歌根據其地理位置,將搜索請求發送到相關各地數據中心,比如BURNABY的用戶提出的搜索請求, 穀歌就送到溫哥華的數據中心, 在大溫的數據中心根據目錄索引和用戶提交的關鍵詞匹配,找到所需網頁。穀歌從使用頻率和關鍵詞匹配頻率出發, 從中挑選相關性最高的索引,再把這些搜索結果根據頻率排名,作出最合理的搜索結果。
穀歌非常用功, 每年都對一些新思想進行必要性的評估,對用戶心理摸底, 每個用戶都可能不知不覺地參與在線的評估,這一點, 筆者不太讚成, 要作在線評估, 應該跟用戶吱一聲, 不應該把人當白癡。請獨立評估員是個好辦法,穀歌對不同搜索請求的衡量指標是不同的,比如查某一個科學技術問題,用戶最重視的是網頁權威性權重問題,在這種情況下, 搜索到一個搞笑博客, 就不太合適。
搜索的質量還與區域位置相關,比如用戶在溫哥華,搜索西雅圖的計算機價格的價值就不大。信息搜索在互聯網的使用中會越來越重要。把工程倫理學方麵的知識用在搜索算法中會是前途無量的, 如Google+在搜索中也融入了倫理學的因素,把社交媒體信息整合進來, 成為一個萬能搜索引擎。
(20分鍾寫完)