Google的喪鍾誰來敲響zt

來源: ::[Google 於 2004-05-08 07:53:24 [檔案] [舊帖] [給我悄悄話] 閱讀數 : (1815 bytes)

從98年我使用Google起就一直對它抱有非常大的信心，看到今天google的規模和技術，感覺到高興又有一些失望，因為5，6年過去了，google的新技術越來越少了，能讓我感覺到興奮的東西越來越稀有，雖然我每天還是依靠google來查詢資料，不過，google的確應該淡出搜索舞台了。

在我準備正式進軍搜索引擎市場之前，我希望寫一係列的文章來表明我的觀點和一些研究的技術（當然最新的技術我是不會在這裏說出來的，但是就這裏要談到的技術也足夠讓google噎死。嗬嗬，開個玩笑，別當真）

1】網絡搜索引擎
網絡搜索引擎主要由網絡機器人（Robot）、索引數據庫和查詢服務三個部分組成。網絡機器人對互聯網資源進行遍曆，盡可能多地發現並采集新的信息；采用全文檢索技術對采集到的信息建立索引存到索引數據庫中，能夠極大地提高信息檢索的速度；查詢服務接收並分析用戶的查詢，即將用戶查詢作為數據庫提問式，根據一定的的匹配策略，如布爾模型、模糊布爾模型等方法遍曆索引數據庫，最後將達到一定的匹配程度的結果（包括標題項，簡單文摘和鏈接地址）集合返回給用戶。

2】Google的爬蟲
Robot有各種定義，google定義為googlebot，就是Google+Robot的意思。下麵看一個爬蟲的例子：

crawler11.googlebot.com - - [08/Jan/2004:04:04:54 -0600] "GET /blog/archives/000010.html HTTP/1.0" 200 8953 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

在2004年一月八日，來自crawler11.googlebot.com的爬蟲抓取了我老站「http://vbguru.dhs.org」裏的/blog/archives/000010.html這樣一個文檔。
在HTTP-Agent部分，顯示了Googlebot/2.1 是版本號。

通常一台高效能的crawler服務器，每天可以送出5000萬隻爬蟲，我紀錄到的送爬蟲的服務器，從crawl1-crawl37，2003年十月以後，google將之更名為crawler1-crawler37，一共是37台。這樣計算的結果是每天可以抓取網頁20億，不可謂不大。

這個是今天早上的爬蟲爬網站的紀錄：
crawler15.googlebot.com - - [12/Jan/2004:00:48:06 -0600] "GET / HTTP/1.0" 200 20780 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

您的位置：文學城 » 論壇 » 實用電腦 » Google的喪鍾誰來敲響zt

請您先登陸，再發跟帖！