空手一方客

收獲了一種恬靜的生活, 像一條波瀾不驚的小河, 流過春夏 流過秋冬
個人資料
  • 博客訪問:
正文

大數據雲時代(8):支付寶大麵積癱瘓給時代的啟示

(2015-05-27 21:21:07) 下一個

5月27日下午5點半左右,支付寶出現網絡故障,賬號無法登錄、支付。故障是由於杭州市蕭山區某地的光纖被挖斷,經緊急將用戶切換至其他數據機房,故障便逐步恢複。到晚上7點20分,支付寶宣布用戶服務已經恢複正常,全程曆時2個多小時。

支付寶CTO程立說,支付寶在係統上采用了“異地雙活”架構,即杭州和外地兩處機房同時為用戶提供服務,係統會自動將全國所有用戶的需求分流到兩處機房。而在光纖被挖斷的意外發生後,支付寶立即將用戶發往杭州機房的需求引流至異地的機房,所以在受損光纖並未接通的情況下,支付寶服務已經可以恢複正常。支付寶同時強調:用戶的資金安全不會受到任何影響,大家不用擔心錢丟了,餘額顯示為零隻是暫時的問題,而如果有頭像、交易信息不同步等情況,也會恢複同步。

雖然異地雙活架構在這次意外中發揮了巨大作用,但處理結果仍然不能讓支付寶內部滿意,因為支付寶的“理想目標是要做到讓用戶無感知”。為此,支付寶將繼續升級係統和服務,將來再出現類似故障的時候,希望做到讓用戶基本沒有感覺。

支付寶是全球最大的第三方支付機構,2013年實名用戶已超過3億人。阿裏招股書透露,2014財年(截至3月31日),支付寶的總支付金額達到38720億元,日均支付量已超過百億,占到中國的第三方支付市場份額70%以上。

2011年6月14號,馬雲對話胡舒立時說:“若支付寶癱瘓,我會被丟進監獄”。---其實,要是三億人的資料泄露了,馬雲真的會進監獄。

從支付寶出現大麵積網絡癱瘓,告訴我們一個殘酷的現實:強大的阿裏雲,也抵不過一條光纜。這次支付寶癱瘓,隻是通訊問題,數據一般不會丟失;但有不同步的存取延遲,有造成超支的危險。若果下次是支付寶的存儲庫出現問題,那數據可能就會丟失;異地雙活就是避免這類災難發生的基本建設。

這就告訴我們:在大數據雲時代,可靠性、安全性,是首要的問題。每個財經機構,都必須建立異地雙活的同構中心,這是保證可靠性、安全性的基本舉措。決策人不能掉以輕心,不能有僥幸心理,立於防患於未然,是為客人負責,也是為自己負責。

可見,未來的信息戰,對手隻要切斷你的通訊“渠道”或“數據”所在中心,你的經濟/軍事會立即癱瘓。這次的事故為我們的設計思維敲響了一記警鍾。

-----------
支付寶聲明全文:

  因杭州市政道路建設導致網絡光纜被挖斷,從而使部分用戶今日下午短時間出現了無法正常使用支付寶的情況,對此我們深表歉意。也非常感謝大家對我們的理解!給大家添麻煩了,大家可能關心的問題,我們在此回複如下:

  Q:5月27日傍晚,支付寶為什麽出現故障?

  A:5月27日傍晚,因市政施工導致杭州市某地光纜被挖斷,導致了支付寶一個主要機房被影響,隨後全國部分用戶無法使用支付寶。事情發生後第一時間,支付寶工程師緊急將用戶請求切換至國內其他機房。到晚上19時左右,支付寶服務恢複正常。

  Q:這次故障影響了多少用戶?

  A:在故障時間段內使用支付寶的用戶具體數量無法精確統計,但可以肯定的是,流量通過其他機房的用戶是不受影響的。

  Q:為什麽杭州的機房光纜中斷影響到全國其他地區部分用戶?

  A:因為這次受影響的是支付寶部署在杭州的一個主要機房,服務的並不隻是杭州地區的用戶,因此網絡中斷導致該機房服務器無法為受影響的用戶提供服務,這些用戶也會包括其他地區。

  Q:故障會不會影響到用戶的資金安全?

  A:支付寶有完善的技術和措施保護用戶的資金安全,用戶的資金安全不會受到任何影響。支付寶中的任何一個交易,同時都會有多份記錄,數據可靠性極高。如果有用戶出現交易不同步的情況,後續都會得到妥善解決。

  Q:為什麽要這麽久才恢複?

A:事實上,在當晚支付寶服務恢複時,被挖斷的光纜還沒有修複。支付寶的異地多活的係統架構在此次意外中發揮了巨大作用。一方麵,沒有因光纜被挖斷而影響全部用戶;另一方麵,緊急將故障機房的流量切換至了其他機房。我們作為一個金融係統,對切換中數據與資金安全性的要求極高,因此切換速度上沒有做到更快。後麵我們會不斷提升切換速度。但是,這並不代表我們對這次恢複時間是滿意的,我們希望未來這樣的切換能讓用戶無感知或者最小化感知。

  Q:恢複使用之後,有些用戶發現餘額寶信息顯示不全,支付寶頭像也沒有了。這是為什麽?

  A:支付寶將流量切換至其他機房,數據的核對需要一定時間。相關的功能顯示,會有一點延時,但數據並不會丟失,這一點,請大家放一萬個心。

   Q:有什麽預防機製,防止類似的情況發生?

  A:光纜被挖斷可能並不能完全杜絕,但對於支付寶而言,會繼續推進技術的升級改造,繼續完善異地多活的係統架構。未來,即使再次出現光纜被挖斷等意外情況,我們進行異地切換時,也盡量做到讓用戶最小感知甚至無感知。

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.