井底蛙神

你是不是一隻井底之蛙呢？

首頁文章列表博文目錄

個人資料

蛙神

給我悄悄話

博客訪問：

Google AlphaGo 的深度學習會對你的網站有影響嗎？

(2016-02-07 14:37:22) 下一個

1月28號，Nature雜誌報道，Google旗下公司DeepMind（以前收購的）開發的一款名為 AlphaGo的人工智能，在2015年10月份以5:0戰勝歐洲圍棋冠軍，老職業二段樊麾。一石激起千層浪，人工智能最難戰勝人類的最後一個遊戲，失守了，人工智能已經達到職業圍棋水平了。

一時間，深度學習、機器學習、AlphaGo、神經網絡等等這些概念鋪天蓋地。Google不是搜索引擎嗎？這些東西和搜索，和SEO有什麽關係？說說我的理解。

先聲明一下，下麵涉及的深度學習等概念，很可能我的理解和表述是非常粗淺的，甚至是錯誤的。雖然我也是理工出身的，所學專業聽起來還挺艱深，微波與電磁場，但那是25年前的事啦。現在看技術內容隻能稀裏糊塗了解個大概了。想了解準確細節的讀者，還是網上搜一下比較保險。蛙神真心覺得搜索引擎要來臨一個大時代了，如果穀歌能用機器人代替所有人工審核以及人工規矩，那你覺得你的網站能合格嗎？像我的彩虹團購才剛剛開始，我能不能抓住任何機會呢?現在我們一起來看看什麽是“深度學習”

什麽是深度學習？

深度學習（deep learning）是機器學習的（machine learning）一個分支領域。

多層人工神經網絡（artificial neural networks）模擬接近了人腦處理信息時從低層到高層不斷抽象化的過程。深度學習正是將低層特征分層抽象化為高層特征表達，原來的目的就是模擬多層神經網絡。神經網絡研究幾十年了，沉寂了一段時間，近幾年深度學習才又挖掘出其潛力。

深度學習的一個重要特點是，它不需要人工輸入或標注特征，而是通過海量數據自動學習特征，也就是所謂無監督學習（unsupervised learning）。所以大數據和深度學習也攪合在一起。

深度學習另一個特點是與具體領域無關（domain independent），既可以用在圍棋，也可以用在搜索或其他方麵。所以才會有這篇帖子。

Google、Facebook、百度在深度學習領域都有很多進展，尤其是在人臉識別、圖像識別、語音識別、翻譯等方麵。這方麵報道挺多的。

深度學習用在搜索引擎上是個什麽情況？

以前經典的搜索排名算法是由工程師選擇用哪些頁麵特征（也就是排名因素）來排名，各個特征占多少權重，這些都是工程師決定並寫在程序裏的，然後測試效果，再修正。

以深度學習為基礎的排名算法完全不是這麽個過程。深度學習的方法是，用大量數據對程序進行訓練，由程序自己學習應該用哪些特征來排名。換句話說，告訴深度學習排名算法，這些已知頁麵是高質量的，那些已知頁麵是低質量的，那到底高質量頁麵應該有什麽特征呢？也就是麵對新頁麵時該用哪些特征來排名？各種特征占多大比重？讓算法自己琢磨去。

這些學習數據哪裏來的？兩個明顯的來源可能是：

1）Google現有經典算法做測試時的數據。搜索引擎正式上線新算法前都會做測試的，給部分用戶返回新算法結果，然後監測點擊率、跳出率、停留時間、頁麵互動性、轉化率、變換查詢詞率等數據，以判斷新算法有效性。

2）Google有不少人工質量評估員，而且老早就有，他們會評測特定頁麵是高質量還是低質量。這些評估數據不直接影響所評估頁麵的排名，但會顯示出算法有效性。這些數據簡直就是現成的深度學習訓練數據。去年11月Google剛剛公開了最新版本的人工質量評估指南，建議大家下載來看看。

現在問題來了，這種方法靠譜嗎？

如前所述，深度學習算法就是個黑箱啊，完全不用人工告訴它找什麽特征，而是它自己學習該找什麽特征，會找出什麽特征誰也不知道，有些特征可能人類壓根兒不會想到。很可能以後搜索引擎工程師也不知道排名因素有哪些了，也不知道一個頁麵為什麽會有好的排名。再想一遍：連搜索引擎工程師也不知道排名因素是什麽。這和我們的常識、直覺是不是都有相當衝突了呢？

這麽整，能行嗎？

事實恰恰表明，能行。AlphaGo能戰勝圍棋職業二段，乍看起來，職業二段離人類頂尖高手還有很大差距。可換個角度想，這世界上能達到職業二段的人類有幾個？記得前些天看報道，能贏職業二段的人類不超過1千個。

這種水平，可以快樂地完虐我們幾十億人。我打了5，6年羽毛球，我前幾天剛剛9歲的女兒，在經過4個月每周一次的業餘訓練後，我要贏她必須很認真費勁了。這隻是新加坡，隻是一個業餘教練，每周兩個小時，我無法想象，我們普通愛好者與職業水平的差距那是有多大。

站長、SEO們，少說這世界上大概得有個幾百萬吧？所以我們就是普通人。現在告訴我們，判斷我們頁麵質量的算法，其判斷力目前是所有人類的前1千名，年底可能是所有人類前10名。這是什麽感覺？這是有點絕望的感覺－－就別想著鑽空子啦。

也許熊貓更新或企鵝更新就用了深度學習？

深度學習真的有這麽厲害嗎？

其實深度學習近兩年已經取得不少以前不敢想象的成就。

2012年，Google Brain項目使用大量圖片對神經網絡進行訓練，係統經過訓練後能辨別出：這是一隻貓。重要的是，沒有輸入貓長什麽樣這類信息，是係統自己“領悟”了貓這個概念。

2015年，深度學習算法的人臉識別率達到了99.47%，甚至超過了人眼。

AlphaGo將在3月份挑戰韓國九段、世界冠軍李世石。雖然我基本不懂圍棋，但樂觀預測一下吧，我覺得AlphaGo會贏。原因是，半年過去了，AlphaGo的訓練量又增加了幾千萬局棋譜，其棋力的增長不是線性的啊。

深度學習對SEO意味著什麽？

就我個人來說，深度學習對SEO的影響目前還不明朗，還需要一段時間觀察、思考。以後有想法了再來交流。現在需要做好心理準備，搜索引擎判斷頁麵質量的準確度可能會有質的飛躍，鑽空子的難度將大大提高。

估計還是有做中文SEO的心裏在問，這對百度SEO有卵啊？多寫寫百度啊？那麽請思考百度為什麽花大價錢成立百度深度學習研究院？肯定不是閑的了。百度把深度學習領域最牛的人物之一、Google Brain項目創建人吳恩達都給挖來了。這個吳恩達高中還是在新加坡上的呢，萊佛士書院，第一名校。這裏有吳恩達講機器學習的近20小時的線上教程。有互聯網真好，不然怎麽能輕易看到、聽到大師親自講課。

最後來點陰謀論。就在今天，Google搜索的最高負責人，Amit Singhal，辭職了。幾年前，他對排名算法中使用機器學習是有些排斥的。接替他的是誰呢？John Giannandrea，原Google人工智能部門的負責人。難道由工程師設計規則的算法已成過去，以深度學習為代表的人工智能算法要全麵登上舞台了？

[ 打印 ]

[ 加入書簽 ]

閱讀 () ┆ 評論

評論

目前還沒有任何評論

登錄後才可評論.