如果Google重返中國,能夠擊倒百度嗎?

來源: 數據有道 2014-07-25 17:58:49 [] [舊帖] [給我悄悄話] 本文已被閱讀: 次 (10643 bytes)


 

最近正值《變形金剛4》熱映,筆者用百度搜索“變形金剛”,發現結果頁瞬間變成一 個 “擎天柱”,並最終演化成一句文字:“變形金剛三十周年,百度搜索為你而變”。顯然,這是一款為廣大“剛絲”定製的另類創意,隻不過,掀開技術之上的“人 文關懷”麵紗,百度搜索近年真的在上演“變形記”嗎?

上個月,一則Google支持西部教育的新聞引發“重返中國”的猜想,在知乎上,更是出現一個熱門話題,“百度和 Google 的搜索技術是一個量級嗎?”作為一名Google粉,我一直在思考一個問題:如果Google重返中國,還能夠擊倒百度嗎?

 

不一樣的進化理念

在 Google退出中國之後,筆者被迫逐步減少了Google的使用,既有穩定性的原因,也有搜索體驗潛移默化的影響。但在我看來,即使Google重返中 國,不隻沒有機會擊倒百度,追趕百度恐怕都是難以完成的任務了——因為百度中文搜索進化了4年,Google卻止步不前。

 

除 了文頭提到的“變形金剛’之外,在前幾天我用手機百度搜索“越位”結果則直接是關於越位解釋的示意動畫。用單個CASE來對比百度和Google並無意 義,因為CASE無法窮舉,搜索又主要在做長尾需求與長尾內容的對接。但不妨對比回溯一下Google百度近年來的進化理念。

 

從百度曆史看,一次具備裏程碑意義的創新始於09年的框計算和阿拉丁計劃。“所見即所得”,是框計算的核心理念,如今已經成為搜索引擎的標配,在最早卻也是Google效仿的對象,也正是自09年以來,百度在一站式生活搜索方麵,開始超越Google。

 

2013 年,自百度發布寓意著下一代搜索引擎的“知心搜索”之後,阿拉丁被再次升級,同時,更加強調“即搜即得”,它通過對大數據的挖掘,從數以億萬級的知識庫數 據中挖掘出各種知識碎片、形成答案,直接將高質量搜索結果在大搜索中進行聚合和展現優化,以知識圖譜的方式把答案直接呈現給用戶,還可以和用戶實現智能交 互,有問必答。比如,在搜索框中輸入母嬰相關關鍵詞,如“懷孕”,左側搜索頁麵即會顯示“懷孕”相關的百度百科內容,會為用戶推薦相關“懷孕手冊”,聚合 展示孕婦在備孕、孕早期、孕中期、孕晚期、分娩、月子個階段注意事項,同時,在搜索頁麵右側將顯示相關信息如“育兒指南時間線”,這被百度在內部稱為“母 嬰知心”。

 

類似基於用戶體驗的知心搜索,涵蓋了人物、小說、影視、音樂等等十餘種,這種搜索結果頁,有圖片、地圖、 表單、貼吧、知道、百科等內容的直達,左側智能交互,右側推薦更豐富。而在商業層麵,百度靠傳統搜索推廣這“一招鮮”已吃了十幾年,但是,在引領下一代搜 索引擎進程中,百度也引入中間頁的新理念來自我顛覆,尤其在最近一兩年,在去哪兒的典型案例之外,醫療、教育、遊戲等每個大行業的垂直搜索中間頁都在暗自 發力。相對的,這種整合垂直搜索領域,建立最龐大生態鏈的信號,在Google,乃至任何一家中文搜索引擎,都不可見。

 

縱向比搜索同樣的結果今日的結果頁與5年前、10年前都相差甚遠;橫著比,與Google搜索對比一組關鍵詞會發現百度結果豐滿、好用很多。這是為什麽我說Google重返中國已無法超越百度的原因,其搜索體驗甚至都趕不上搜狗。

 

百度和Google技術誰最強?

 

近日的熱門話題“百度和 Google 的搜索技術是一個量級嗎?”,這是一個不算專業的問題,因為技術發展並不是線性的,往往是理念改變引發革命性的進步。

 

其實,回到搜索引擎的技術原點,Google今日引以為榮的網頁評級機製pagerank技術,直到2001年才被授予美國專利,比李彥宏的1996年申請的超鏈分析專利技術晚了5年。

 

於 是,當下來討論技術問題更是饒有趣味,不少非專業的回答大多是一邊倒認為Google更牛逼,最典型的說法便是,Google有無人駕駛汽車、 Google Glass、Android,有甩開Hidoop幾條街的Caffeine、Pregel、Dremel,還有GFS文件係統和全球數據庫 Spanner,百度卻隻有搜索。

 

這很可能是關於搜索引擎技術非常大的誤區,我個人感覺,Google的創新能力毋庸置疑,但在搜索引擎技術和用戶體驗上,最近4-5年並沒有明顯進步。

 

對於今天的Google究竟是什麽,將走向何方?近日Google CEO拉裏-佩奇的公開信中似乎也曝出“回歸搜索”端倪——他強調搜索和信息是Google的核心,也坦言“從許多方麵來看,目前距離創造我夢想中的搜索引擎還有十分遙遠的距離。”

 

相對的,百度搜索引擎技術近年來的創新是否有幹貨呢?

 

過 去,在底層架構上,外界容易視Google比百度先進,不過,近幾年卻不能忽略百度在基礎架構上的默默創新。年初,百度被曝光正在秘密研發“極速搜索”, 它可以通過大數據計算能力,比普通搜索節省80%時間,打開瞬間最快隻用0.04秒,其實,這項技術的意義並不止於用戶感知,背後蘊含的實際是架構的重 構、優化,在性價比、響應速度等各方麵都在加分。

 

如今,在對於搜索引擎技術發展走勢上的判斷,Google和百度似 乎也走到了分水嶺。個人認為,“自然語言人機對話+智能化邏輯思考”,也就是,讓搜索更能理解你的問題,給你更準確的答案,是百度正在踐行的方向。7月7 日,在37屆信息檢索領域世界頂尖學術會議SIGIR會議上 ,百度副總裁王海峰做了題為 “Chinese SearchEngine - Baidu's Practice”報告,這場演講引起了廣泛關注,很多人問及關於深度問答、知識抽取、智能交互等這些技術百度是如何實現、如何應用的,即使是 Google,也尚且未將這類前沿技術大規模應用於搜索產品,外界驚訝於百度在搜索引擎產品中的應用,並已提升了用戶體驗。

 

曾 經有一個頗為爭議的案例,在百度搜索“謝霆鋒兒子的母親的前夫的父親”是不是人工幹預的。因為百度可以直接顯示”謝賢“,但Google不行。Googl e也提出知識圖譜概念,但是,憑借對中文的理解以及百度擁有的自主知識庫,對知道、貼吧和百科現成的SNS知識可以有機整合,通過邏輯思考,a推出b,b 推出c,c推出d的結論,將答案d直接回答給你。但Google就做不到,他隻能給你答案b,c之後的結論就隻能由你自己去尋找了。

 

當 然,搜索“謝霆鋒兒子的母親的前夫的父親”是個極端案例,不過,以知識庫為基礎的邏輯推理等會讓搜索越發智能。比如,最近湯唯結婚消息一出,百度搜索結果 右側出現了一組“那些年湯唯愛過的男人們”智能推薦,有意思的是,連“16歲花季相識短暫初戀”等人物關係都能標注出來。另外,值得關注的是,百度在知識 庫上探索的樣式已經比Google更寬廣,比如,搜索“北京的景點”,左側結果頁有多種類型的景點推薦,包括親子、情侶和家庭遊,乃至畢業旅行的景點推 薦,右側推薦中,包括北京度假熱賣排行榜,以及相關地名。其他基於知識庫的創新例子也並不鮮見,搜索“不掉毛的狗”、“開黃花的樹”,用戶都能發現今日的 搜索已大不同,而這種長尾效應必將體現在百度搜索流量增長乃至營收拉升上。

 

從2010年初百度成立了自然語言處理部 至今,詞法分析、語法分析、語義分析、機器翻譯、query理解等一大批技術已經處於世界領先水平,並在深度問答、情感分析、智能交互、知識挖掘與推理等 前沿方向上迅速進步。6月底,在全球自然語言處理頂級學術會議ACL上,6位百度人赴美參加。2013年初,王海峰更是出任ACL五十年曆史上第一位華人 主席。無疑,如今的百度已經走在NLP最前沿。再看,對技術的投入上,百度與Google更是大相徑庭。自2008年左右,當Google將研發重點投向 其他領域的時,百度仍將資金和人才聚焦在如何讓搜索更智能。

 

未來,用戶對這些技術的感知將愈發明顯,好比之前不斷走紅的:百度翻譯實物拍照賣萌又高級黑,人臉識別“明星臉”,百度語音助手的拍花識花……

 

除 此之外,去年,在離蘋果總部不遠的加州庫比蒂諾,百度發布了專注於深度學習研究的前沿實驗室。在全球範圍內,目前除斯坦福大學等高校研究機構外,唯有百 度、IBM、Google、微軟四家企業設立了DeepLearning專門研究機構。而且,在躋身深度學習研究的第一陣營之後,今年,百度更是將 “Google大腦”的負責人、人工智能行業的資深科學家吳恩達挖至新建立的美國研發中心,主抓“百度大腦”項目,這勢必將為百度在技術和人才上保持領先 埋下伏筆。

 

最後,再次聲明筆者是Google粉絲,但我不得不承認的是,百度在中文搜索技術上已經甩開Google一大截,就算Google重返中國,也已不再是百度的對手,時間不等人

所有跟帖: 

內容很專業,但是標題沒意義。 -chinomango- 給 chinomango 發送悄悄話 chinomango 的博客首頁 (0 bytes) () 07/28/2014 postreply 13:35:39

google much better then baidu even in Chinese websearching, my e -nonameok- 給 nonameok 發送悄悄話 (0 bytes) () 07/28/2014 postreply 15:02:07

不懷疑樓主是個有見地的人,但說百度比Google好可是... -soullessbody- 給 soullessbody 發送悄悄話 soullessbody 的博客首頁 (0 bytes) () 08/06/2014 postreply 01:40:13

請您先登陸,再發跟帖!