Google的喪鍾誰來敲響zt

來源: ::[Google 於 2004-05-08 07:44:37 [檔案] [舊帖] [給我悄悄話] 閱讀數 : (1868 bytes)

以Google和百度代表的搜索引擎都嚴重依靠爬蟲，因此我還要花大量的篇幅來討論爬蟲（機器人）的一些特點。在下一代的搜索引擎設計裏，將盡量避免出現爬蟲，這樣將會避免現在Google類搜索引擎設計上的嚴重缺陷。

5】爬蟲喜歡什麽？
1]從數量上看，一個網頁的大小如果超過150K，基本上超出部分將不會被爬蟲吃到。
2]從文件類型上看，Html>cgi>php>asp/jsp。爬蟲對不同的flavour有不同的偏好，如果一個網頁嵌入過多的jsp/asp，爬蟲將不會進行觸發。正如cgi相對容易觸發一樣，越靜態的界麵，爬蟲越喜歡。
3]從葉麵聯接上看，如果一個葉麵上有超過100個以上的連接出去，這個葉麵重要度也會被大大的降低。
4]url 深度越深，爬蟲越不易爬到。

因此，對於老式的搜索引擎（上一代搜索引擎）而言，采用[1]靜態html葉麵，[2]葉麵盡量控製在50K以內（文字），[3]單個葉麵內聯接不要超過50個，[4]Url要短小，盡量采用2級域名而不是延伸Url。

6】爬蟲的致命缺陷/robot feed program
因為爬蟲在抓葉麵的時候，同時攜帶了 HTTP-AGENT的標簽，例如前麵的例子：
crawler11.googlebot.com - - [08/Jan/2004:04:04:54 -0600] "GET /blog/archives/000010.html HTTP/1.0" 200 8953 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
這裏"Googlebot/2.1 (+http://www.googlebot.com/bot.html)" 就是HTTP-AGENT標簽。

根據這個標簽可以黑客可以很容易欺騙爬蟲，導致爬蟲抓到的網頁不具有真實性。具體做法如下：
當爬蟲向httpd server send a request的時候，httpd嵌入的模塊（黑客模塊，我自己命名叫 robot feed program）檢測http-AGENT是否是搜索引擎的爬蟲，如果不是，就將請求轉交正常的httpd來應答，如果是來自爬蟲，那麽就將已經準備好的另外一個比較Search friendly的葉麵送給爬蟲。

爬蟲歡天喜地的回去了，卻不知道得到的卻是假葉麵。

采用本方法進行一定程度上的欺騙，對於搜索有無以輪比的優越性，因為通常的網頁的[網頁信噪比（Significant）]都很低，而且裏麵包括了很多沒有用處的詞語，這些詞語全是背景項，幾乎永遠不會被搜索到。因此設計一個良好算法，提高網頁的[網頁信噪比（Significant）]應該是最關鍵的了。

您的位置：文學城 » 論壇 » 實用電腦 » Google的喪鍾誰來敲響zt

所有跟帖：

• 這根古溝的喪鍾有什麽關係？ -要貼就貼全- ♀ (0 bytes) () 05/08/2004 postreply 07:53:12

• 很不錯的文章 -麻煩貼完整謝謝- ♀ (0 bytes) () 05/08/2004 postreply 07:53:40

• 去股溝檢索一下不就有了? -嘿哈哼-- ♀ (0 bytes) () 05/08/2004 postreply 08:40:55

• 已經搜過啦，都是轉貼的不完整 -知道就幫一下吧- ♀ (0 bytes) () 05/08/2004 postreply 08:45:15

• 作者還沒寫完呢 -耐心等等好了- ♀ (0 bytes) () 05/08/2004 postreply 11:06:28

請您先登陸，再發跟帖！