Google的喪鍾誰來敲響zt


3】更新率

通常比較好的網站的爬蟲能夠在合適的時間進行爬網,因為很容易可以從IP上判斷一個主機的實際地址,一般的爬蟲都安排在當地時間的淩晨2-5點爬主要的網頁。

對於一個經常更新的網站,設計良好的爬蟲會定期來爬,時間間隔不會超過兩天。在這裏麵有一個定義:[更新率],是[月更新的網頁/全部的網頁],如果這個數字比較大,則表明這個網站維護和更新比較快,會受到爬蟲很好的重視。

在搜索引擎的競爭中,爬蟲占很大的比重。因為爬蟲是搜索引擎最直接的信息來源。但是過渡的爬蟲則會影響到主機的性能,也會造成網路阻塞。Googbot宣稱不會在15秒鍾送出兩隻以上的爬蟲,而Baidu則絲毫沒有顧及這個,Baidu的爬蟲常常是一分鍾內往一個網站送交幾百,甚至上千隻,對於多域名Hosting的主機,常造成主機癱瘓。因此有網站在/robot.txt 裏限製了爬蟲的範圍。

比較好的一個例子是一個中等網站的爬蟲與訪問量的關係是1/50的關係。

那麽什麽會影響到爬蟲訪問的次數呢?除了上麵談到的[更新率]和以後要談到的Pageranking外,還有一個不為大家重視的就是主機的反應速度網站的穩定性。

主機的反應速度直接影響到爬蟲的效率,如果反應過慢,爬蟲沒有拿到數據,爬蟲會認為這個網頁的參考價值不高,並短時間內不會更新。

穩定性更可怕,如果一個網站down一天,這一天裏爬蟲都沒有access host,那麽接下來的幾天裏爬蟲數目會驟減,因為任何一個搜索引擎不希望將用戶導向到一個聯接不上的網站。爬蟲未來也會送一兩隻過來探測網站是否正常,如果一切恢複了,仍然需要一段時間才能和爬蟲建立友好關係,大約要1,2周德時間才能完全在搜索引擎上恢複到原來的位置。

請您先登陸,再發跟帖!