閑聊 穀歌算法
羽飛 (09-15-2012)
穀歌算法 搜索非常聰明 , 不僅僅是表麵字 詞 匹配 , 還在於 關鍵詞 上下文匹配, 並揣摩用戶 想幹什 麽 , 進 行意思匹配。搜索引擎的 結 果看起來很 簡單 , 實際上 , 背後有一係列 複雜 流程和計算方法。它數學邏輯方麵並沒有突破 , 隻是在人性化和工業倫理化方麵下了很大工夫 , 是一個商業化的成功典型。
穀歌算法原理最基本的概念就是索引,即穀歌的程序自動 掃 描上 億 網 頁 後建立索引,再把索引 庫 分成小塊,放在全球 3 千台 計 算機上,並 複 製到各地數據中心去, 讓全球的用戶去使用 。
穀歌算法的流程其實是用 戶 提交搜 索 請 求,穀歌根據其地理位置,將搜索 請 求 發 送到相關各地數據中心,比如 BURNABY 的用戶提出的搜 索 請 求 , 穀歌就送到溫哥華的數據中心 , 在大溫的數據中心根據目 錄 索引和用 戶 提交的 關鍵詞 匹配,找到所需網 頁 。穀歌從使用頻率和 關鍵詞 匹配頻率出發 , 從中挑 選 相 關 性最高的索引,再把 這 些搜索 結 果根據頻率排名,作出最合 理的搜索 結 果。
穀歌非常用功 , 每 年都 對 一些新思想 進 行必要性的 評估,對用戶心理摸底 , 每個用戶都 可能不知不 覺地 參與在 線 的 評估 ,這一點 , 筆者不太讚成 , 要作在線評估 , 應該跟用戶吱一聲 , 不應該把人當白癡。 請 獨立 評 估 員是個好辦法 , 穀歌 對 不同搜索 請 求的衡量指 標是 不同的,比如 查 某一個科學技術 問題 ,用 戶 最重 視 的是網 頁權 威性 權重問題 ,在這種情況下 , 搜索到一個搞笑博客 , 就不太合適 。
搜索 的質量 還 與區域位置相 關 ,比如用 戶 在 溫哥華 ,搜索 西雅圖的計算機價格 的價 值 就不大。 信息 搜索 在互聯網的使用中 會越來越重要。 把工程倫理學方麵的知識用在 搜索 算法中會是前途無量的 , 如 Google+ 在搜索中也融入了 倫理學 的因素 ,把社交媒體信息整合 進 來 , 成為一個萬能 搜索 引擎 。
(20 分鍾寫完 )