個人資料
正文

穀歌算法: 一次搜索請求平均往返2400公裏

(2012-03-12 11:50:58) 下一個

ZT


作為全球使用最廣泛的搜索引擎,穀歌算法一直有一層神秘麵紗。近日穀歌工程總監斯科特・霍夫曼向騰訊科技講述穀歌算法幕後故事,稱2011年有520多項改進,自2003年到現在,Google搜索已解決4500億個搜索請求。


 



穀歌搜索演進


斯科特還透露,平均來說,穀歌每一個搜索請求,往返於電腦和數據中心單程距離是750英裏,這也意味著一次搜索請求平均往返需要1500英裏,約合2400公裏。


據了解,斯科特•霍夫曼加入穀歌已逾5年,負責領導搜索質量評估和移動搜索團隊,還撰寫數十篇學術論文,內容涵蓋信息檢索、機器學習和信息提取領域,專注搜索領域已超過15年,對穀歌算法有很高發言權。


斯科特說,十年前搜索可能隻是針對於關鍵詞進行意思和上下文匹配,現在穀歌更了解用戶想幹什麽,而不是表麵字詞匹配。搜索引擎呈現結果給用戶看起來比較簡單,但實際背後有一係列複雜流程,並在1秒鍾內完成。“穀歌通常隻需0.25秒便可對搜索請求做出回應,而人平均每眨一次眼睛需0.1秒。”


 



穀歌算法原理(騰訊科技配圖)


談及穀歌算法原理,斯科特說最基本的概念是索引,即穀歌搜索機器人掃描或搜索幾十億網頁後建立索引,再把索引庫分成幾部分,放在幾千台計算機上,再複製到全球各地數據中心去,這樣穀歌就可以在全球各地完成搜索任務。


 


穀歌算法的流程是用戶提交搜索請求,根據用戶具體地理位置,穀歌將搜索請求發送到全球各地數據中心,數據中心再把需求散發到幾千個計算機上去,根據目錄和用戶提交請求的關鍵詞匹配,找到正確郵件或網頁。穀歌從中挑選相關性最高且最新的一些數據,或搜索結果,再把這些搜索結果根據不同屬性和指標排名,確定最合理搜索引擎結果相匹配。平均來說,穀歌每一個搜索請求,往返於電腦和數據中心單程距離是750英裏。


穀歌每年會對一些新構思進行必要性評估,如果評估後認為合理就會做一些小規模試驗,主要是請一些獨立評估員,針對幾百個搜索請求做兩組結果來進行對比,一種是使用普通搜索方法做基本組,另一個是對比組,采用新構思。比較這兩組搜索結果哪個相關性和搜索質量更高。之後在通過在線實時實驗隨機挑選用戶參與新構思的體驗。


“如果你是一個穀歌用戶,而且經常使用穀歌搜索,可能在不知不覺間,已參與在線實施的試驗,你所得到的搜索結果,也許就是用新構思方法得到的搜索結果。穀歌在任一時刻都在進行200多項在線實時試驗。”


 



穀歌算法搜索體驗提升的三部曲(騰訊科技配圖)


通過這些實驗,穀歌可以不斷提升用戶搜索體驗,諸如在搜索結果中剔除垃圾信息;根據用戶需求改變搜索界麵呈現的結果數量;相同詞在不同地域搜索,呈現的結果不同。斯科特透露,穀歌在2011年進行了41931次必要性評估、9250次小規模試驗、7363項在線實時實驗,最終完成了520多項改進。


 



穀歌搜索排名(騰訊科技配圖)


斯科特指出,穀歌對不同搜索請求的衡量指標不同,比如查某一個疾病問題,用戶最重視的是網頁權威性有多高,而不是呈現某一個博客談到這種疾病。在這樣搜索情況下,網頁權威性權重最高。此外,搜索的相關性還與區域位置和時間相關,比如用戶人在北京,搜索上海餐館的價值就不大。再如搜索一個重大事件,會發現這個重大事件發生的後一天得到的搜索結果和前一天搜索結果完全不同。


 








據斯科特介紹,穀歌搜索算法進行了一係列重大改進,包括新鮮度算法調整、優質網站算法調整、頁麵布局算法調整等部分,其中,新鮮度算法調整是指在某些情況下,Google需要為用戶提供最新搜索結果,比如即時新聞、定期發生的重大事件以及內容頻繁更新的話題等。如果搜索“奧運會”,用戶會得到與即將舉辦的倫敦奧運會相關的最新搜索結果,而非關於1984年奧運會的陳舊信息。

優質網站算法調整對包含原始信息、研究調查、深度報道、精準分析等內容的高質量網站十分有利,提高了它們在搜索結果中的排名。頁麵布局算法調整這一改進關注用戶在點擊搜索結果後所看到的網頁布局,提升網頁信息的豐富程度 ,提高信息容易被搜索到的網頁的排名。


斯科特稱,隨著Facebook、Twitter這些社交化網站發展,個人化的搜索結果會越來越重要。穀歌近年來推出Google+等產品,在搜索中也融入了社交化的因素。從穀歌來說,會不斷把社交媒體信息整合進來。



 


穀歌完成一次搜索請求,時間不足一秒、平均往返距離卻要約2400公裏。每時每刻穀歌都有200多項改進算法的在線實驗,一個想法要通過多道考驗才能付諸執行。而在個性化搜索日益重要的今天,穀歌算法改進也麵臨著新的挑戰。


來自官方的數據顯示,從2003年到現在穀歌搜索已經接受超過4500億個搜索請求。而用戶每天發出的搜索請求中,有16-20%是全新的關鍵詞。


一個基本的搜索過程分這樣幾步:提交搜索請求->發送->篩選分類->查找索引->選擇網頁->結果排名 ->結現結果。穀歌給出的解釋說,一個請求會被分發到數千個數據中心,然後根據關鍵詞進行匹配,再根據數百個指標對得到的數據進行排名。


這個複雜的過程通常在一秒內完成,但平均每個穀歌搜索的關鍵詞往返於用戶電腦和數據中心的距離約為2400公裏(1500英裏)。


“很多人認為穀歌已經解決了搜索的問題,但是在穀歌看來搜索的發展才剛剛起步。如果說搜索是一本書,那穀歌才剛寫完了開篇”,穀歌工程總監斯考特-霍夫曼(Scott Huffman)在談到搜索時說,十多年來穀歌搜索的算法一直在不斷改進。


每年穀歌搜索結果都會改變20-30%左右。霍夫曼的主要工作之一,就是對穀歌搜索質量進行評估,在他看來這個過程遠比外界看到的複雜。


以去年為例,在眾多的搜索算法改進構思中,有41831項進行了必要性評估,這其中又有9250項進行了小規模實驗,進而又有7363項進行了在線實驗,最終有520多項改進被付諸實施。霍夫曼總結穀歌改進算法的方式為:數據驅動、實驗評估。


穀歌搜索平均每時每刻都有200多項實驗在進行;而在評估的過程中,既會借助基於統計學搭建的模型,還依靠多種語言的獨立評估員。


霍夫曼表示穀歌搜索算法近期的主要改進,可以歸納為三個方麵。


・新鮮度算法調整:在某些情況下,穀歌需要為用戶提供最新搜索結果,比如即時新聞、定期發生的重大事件以及內容頻繁更新的話題等。如果搜索“奧運會”,用戶會得到與即將舉辦的倫敦奧運會相關的最新搜索結果,而非關於1984年奧運會的陳舊信息。


・優質網站算法調整:這對包含原始信息、研究調查、深度報道、精準分析等內容的高質量網站十分有利,提高了它們在搜索結果中的排名。


・頁麵布局算法調整:這一改進關注用戶在點擊搜索結果後所看到的網頁布局,提升網頁信息的豐富程度 ,提高信息容易被搜索到的網頁的排名。


除此以外,穀歌還計劃將更多社交、移動、位置等信息元素,更好的與搜索進行整合。這一方麵會讓搜索結果更加的個性化,但同時也給穀歌帶來新的難題:如何衡量並提升越來越個性化的搜索結果。此前的實驗方式必須有所調整。


霍夫曼對此解釋說,對於受個性化影響較大的因素,穀歌會采用更多的在線實驗方式進行考察。例如考察一個用戶的跳轉和停留時間,通過統計模型對相關數據進行分析、判斷。此外,還會在得到允許的情況下獲取評估員的個人信息,並據此改進搜索結果。


“新的算法改進想法往往是在解決問題時產生的”,霍夫曼說,目前穀歌在搜索算法開發上投入的時間,已經超過1000人工年。

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.