從98年我使用Google起就一直對它抱有非常大的信心,看到今天google的規模和技術,感覺到高興又有一些失望,因為5,6年過去了,google的新技術越來越少了,能讓我感覺到興奮的東西越來越稀有,雖然我每天還是依靠google來查詢資料,不過,google的確應該淡出搜索舞台了。
在我準備正式進軍搜索引擎市場之前,我希望寫一係列的文章來表明我的觀點和一些研究的技術(當然最新的技術我是不會在這裏說出來的,但是就這裏要談到的技術也足夠讓google噎死。嗬嗬,開個玩笑,別當真)
1】網絡搜索引擎
網絡搜索引擎主要由網絡機器人(Robot)、索引數據庫和查詢服務三個部分組成。網絡機器人對互聯網資源進行遍曆,盡可能多地發現並采集新的信息;采用全文檢索技術對采集到的信息建立索引存到索引數據庫中,能夠極大地提高信息檢索的速度;查詢服務接收並分析用戶的查詢,即將用戶查詢作為數據庫提問式,根據一定的的匹配策略,如布爾模型、模糊布爾模型等方法遍曆索引數據庫,最後將達到一定的匹配程度的結果(包括標題項,簡單文摘和鏈接地址)集合返回給用戶。
2】Google的爬蟲
Robot有各種定義,google定義為googlebot,就是Google+Robot的意思。下麵看一個爬蟲的例子:
crawler11.googlebot.com - - [08/Jan/2004:04:04:54 -0600] "GET /blog/archives/000010.html HTTP/1.0" 200 8953 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
在2004年一月八日,來自crawler11.googlebot.com的爬蟲抓取了我老站「http://vbguru.dhs.org」裏的/blog/archives/000010.html這樣一個文檔。
在HTTP-Agent部分,顯示了Googlebot/2.1 是版本號。
通常一台高效能的crawler服務器,每天可以送出5000萬隻爬蟲,我紀錄到的送爬蟲的服務器,從crawl1-crawl37,2003年十月以後,google將之更名為crawler1-crawler37,一共是37台。這樣計算的結果是每天可以抓取網頁20億,不可謂不大。
這個是今天早上的爬蟲爬網站的紀錄:
crawler15.googlebot.com - - [12/Jan/2004:00:48:06 -0600] "GET / HTTP/1.0" 200 20780 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"