人再?lài)逋局﹪逶?012年歲末床下了華語(yǔ)電影的票房記錄,而且還在刷新著(zhù)記錄。但是在IT界,頻頻爆發(fā)的數據中心安全故障事件,也在一次次沖擊著(zhù)企業(yè)用戶(hù)的心理防線(xiàn)。只期待,數據中心的安全問(wèn)題,不要成為人再?lài)逋局?ldquo;泰囧”。
云計算服務(wù)在這個(gè)時(shí)代被吹捧成為IT圣者,所有的服務(wù)都可以被“云”化。但是,當很多公司勇于第一個(gè)吃螃蟹之后,卻發(fā)現往往最容易受傷的也是他們。近幾年來(lái),層出不窮的云服務(wù)斷網(wǎng)事件,讓業(yè)界聽(tīng)得心驚膽寒。
人們漸漸回歸理想,更加清晰地看清楚云計算的真面目??梢哉f(shuō),無(wú)論多么高遠的夢(mèng)想還是要找到穩固的立足點(diǎn),云服務(wù)最終還是要從一個(gè)數據中心被傳輸到另外一個(gè)數據中心,在這個(gè)過(guò)程仍然擺脫不了需要人、計算機、網(wǎng)絡(luò )、電能、存儲等之間協(xié)同工作。這樣一來(lái),整個(gè)過(guò)程出現錯誤和漏洞就在所難免,再加上天災人禍。所以,啟用云服務(wù)你必須有一定的思想準備,同時(shí)要有第二手的解決方案來(lái)應對。
編者在這里回顧一下近年來(lái)發(fā)生的一系列斷網(wǎng)事件背后的原因。從2009年-2012年之間。也許能讓你看到:即便是計算機出錯似乎在所難免,再保險的措施似乎也只能把安全事件控制在一個(gè)小概率范圍內。
斷網(wǎng)類(lèi)型一:系統故障
典型事件1:亞馬遜AWS平安夜斷網(wǎng)
故障原因:彈性負載均衡服務(wù)故障
2012年12月24日,剛剛過(guò)去的圣誕節平安夜,亞馬遜并沒(méi)有讓他們的客戶(hù)過(guò)得太平安。亞馬遜AWS位于美國東部1區的數據中心發(fā)生故障,其彈性負載均衡服務(wù)(Elastic Load Balancing Service)中斷,導致Netflix和Heroku等網(wǎng)站受到影響。其中,Heroku在之前的AWS美國東部區域服務(wù)故障中也受到過(guò)影響。不過(guò),有些巧合的事情是Netflix的競爭對手,亞馬遜自己的業(yè)務(wù)Amazon Prime Instant Video并未因為這個(gè)故障而受到影響。
12月24日,亞馬遜AWS中斷服務(wù)事件不是第一次,當然也絕非最后一次。
2012年10月22日,亞馬遜位于北維吉尼亞的網(wǎng)絡(luò )服務(wù)AWS也中斷過(guò)一次。其原因與上次相似。事故影響了包括Reddit、Pinterest等知名大網(wǎng)站。中斷影響了彈性魔豆服務(wù),其后是彈性魔豆服務(wù)的控制臺,關(guān)系數據庫服務(wù),彈性緩存,彈性計算云EC2,以及云搜索。這次事故讓很多人認為,亞馬遜是應該升級其北維尼吉亞數據中心的基礎設施了。
2011年4月22日,亞馬遜云數據中心服務(wù)器大面積宕機,這一事件被認為是亞馬遜史上最為嚴重的云計算安全事件。由于亞馬遜在北弗吉尼亞州的云計算中心宕機,包括回答服務(wù)Quora、新聞服務(wù)Reddit、Hootsuite和位置跟蹤服務(wù)FourSquare在內的一些網(wǎng)站受到了影響。亞馬遜官方報告中聲稱(chēng),此次事件是由于其EC2系統設計存在漏洞和設計缺陷,并且在不斷修復這些已知的漏洞和缺陷來(lái)提高EC2(亞馬遜ElasticComputeCloud服務(wù))的競爭力。
2010年1月,幾乎6萬(wàn)8千名的Salesforce.com用戶(hù)經(jīng)歷了至少1個(gè)小時(shí)的宕機。Salesforce.com由于自身數據中心的“系統性錯誤”,包括備份在內的全部服務(wù)發(fā)生了短暫癱瘓的情況。這也露出了Salesforce.com不愿公開(kāi)的鎖定策略:旗下的PaaS平臺、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出現問(wèn)題,Force.com同樣會(huì )出現問(wèn)題。所以服務(wù)發(fā)生較長(cháng)時(shí)間中斷,問(wèn)題將變得很棘手。
斷網(wǎng)誘因二:自然災害
典型事件1:亞馬遜北愛(ài)爾蘭柏林數據中心宕機
故障原因:閃電擊中柏林數據中心的變壓器
2011年8月6日,在北愛(ài)爾蘭都柏林出現的閃電引起亞馬遜和微軟在歐洲的云計算網(wǎng)絡(luò )因為數據中心停電而出現大規模宕機。閃電擊中都柏林數據中心附近的變壓器,導致其爆炸。爆炸引發(fā)火災,使所有公用服務(wù)機構的工作暫時(shí)陷入中斷,導致整個(gè)數據中心出現宕機。
這個(gè)數據中心是亞馬遜在歐洲唯一的數據存儲地,也就是說(shuō),EC2云計算平臺客戶(hù)在事故期間沒(méi)有其他數據中心可供臨時(shí)使用。宕機事件使得采用亞馬遜EC2云服務(wù)平臺的多家網(wǎng)站長(cháng)中斷達兩天時(shí)間之久。
典型事件2:卡爾加里數據中心火災事故
故障原因:數據中心發(fā)生火災
2012年7月11日卡爾加里數據中心火災事故:加拿大通信服務(wù)供應商ShawCommunicationsInc位于卡爾加里阿爾伯塔的數據中心發(fā)生了一場(chǎng)火災,造成當地醫院的數百個(gè)手術(shù)延遲。由于該數據中心提供管理應急服務(wù),此次火災事件影響了支持關(guān)鍵公共服務(wù)主要的備份系統。此次事件為一系列政府機構敲響了警鐘,必須確保及時(shí)的恢復和擁有故障轉移系統,同時(shí)結合出臺災害管理計劃。
典型事件3:超級颶風(fēng)桑迪襲擊數據中心
故障原因:風(fēng)暴和洪水導致數據中心停止運行
2012年10月29日,超級颶風(fēng)桑迪:紐約和新澤西州的數據中心都受到了此次颶風(fēng)的影響,所帶來(lái)的惡劣影響包括為曼哈頓下城地區的洪水和一些設施的停機,周?chē)貐^數據中心發(fā)電機運行失常。颶風(fēng)桑迪所帶來(lái)的影響超出了一般單一的中斷事故,為受災地區數據中心產(chǎn)業(yè)帶來(lái)了規??涨暗臑碾y。事實(shí)上,柴油已然成為了數據中心恢復工作的生命線(xiàn),作為備用電源系統接管了整個(gè)地區的負荷,促使特別措施,保持發(fā)電機的燃料。隨著(zhù)眼前的工作重點(diǎn)逐步轉移到災后重建,我們有必要長(cháng)期就數據中心的選址、工程和災難恢復進(jìn)行探討,這一話(huà)題可能將持續幾個(gè)月,甚至幾年。
斷網(wǎng)誘因三:人為因素
典型事件1:Hosting.com服務(wù)中斷事故
故障原因:服務(wù)供應商執行斷路器操作順序不正確造成的UPS關(guān)閉
2012年7月28日Hosting.com停運事件:人為錯誤通常被認為是數據中心停機的主導因素之一。7月Hosting.com中斷事件造成 1100名客戶(hù)服務(wù)中斷就是一個(gè)例子。停機事故的發(fā)生是由于該公司位于特拉華州紐瓦克的數據中心正進(jìn)行UPS系統預防性維護,“服務(wù)供應商執行斷路器操作順序不正確造成的UPS關(guān)閉是造成數據中心套房?jì)鹊脑O施損失的關(guān)鍵因素之一。”Hosting.com首席執行官ArtZeile說(shuō)。“沒(méi)有任何重要的電力系統或備用電源系統出現故障,完全是一種人為的錯誤造成的。”
典型事件2:微軟爆發(fā)BPOS服務(wù)中斷事件
故障原因:微軟在美國、歐洲和亞洲的數據中心的一個(gè)沒(méi)有確定的設置錯誤造成的
2010年9月,微軟在美國西部幾周時(shí)間內出現至少三次托管服務(wù)中斷事件向用戶(hù)致歉。這是微軟首次爆出重大的云計算事件。
事故當時(shí),用戶(hù)訪(fǎng)問(wèn)BPOS(Business Productivity Online Suite)服務(wù)的時(shí)候,如果使用微軟北美設施訪(fǎng)問(wèn)服務(wù)的客戶(hù)可能遇到了問(wèn)題,這個(gè)故障持續了兩個(gè)小時(shí)。雖然,后來(lái)微軟工程師聲稱(chēng)解決了這一問(wèn)題,但是沒(méi)有解決根本問(wèn)題,因而又產(chǎn)生了9月3日和9月7日服務(wù)再次中斷。
微軟的Clint Patterson說(shuō),這次數據突破事件是由于微軟在美國、歐洲和亞洲的數據中心的一個(gè)沒(méi)有確定的設置錯誤造成的。BPOS軟件中的離線(xiàn)地址簿在“非常特別的情況下”提供給了非授權用戶(hù)。這個(gè)地址簿包含企業(yè)的聯(lián)絡(luò )人信息。
微軟稱(chēng),這個(gè)錯誤在發(fā)現之后兩個(gè)小時(shí)就修復了。微軟稱(chēng),它擁有跟蹤設施,使它能夠與那些錯誤地下載這些數據的人取得聯(lián)系以便清除這些數據。
斷網(wǎng)誘因四:系統故障
典型事件1:GoDaddy網(wǎng)站DNS服務(wù)器中斷
故障原因:系統內一系列路由器的數據表造成的網(wǎng)絡(luò )中斷
2012年9月10日GoDaddy網(wǎng)站DNS服務(wù)器中斷:域名巨頭GoDaddy是一家最重要的DNS服務(wù)器供應商,其擁有500萬(wàn)個(gè)網(wǎng)站,管理超過(guò)5000萬(wàn)的域名。這就是為什么九月10日中斷事故會(huì )是一個(gè)2012年最具破壞性的事件。
一些炒作甚至認為,此次長(cháng)達6個(gè)小時(shí)的中斷事件是由于拒絕服務(wù)攻擊的結果,但GoDaddy后來(lái)表示,這是路由器表的損壞數據造成的。“服務(wù)中斷不是由外部影響造成的。”GoDaddy的臨時(shí)首席執行官史葛瓦格納說(shuō)。“這不是黑客攻擊也不是一個(gè)拒絕服務(wù)攻擊(DDoS)。我們已經(jīng)確定了服務(wù)中斷是由于內部的一系列路由器的數據表造成的網(wǎng)絡(luò )事件損壞。”
典型事件2:盛大云存儲斷網(wǎng)
故障原因:數據中心一臺物理服務(wù)器磁盤(pán)損壞
2012年8月6日晚上8:10,盛大云在其官方微博上發(fā)布一則因云主機故障致用戶(hù)數據丟失事件的公開(kāi)聲明。聲明說(shuō)到:8月6日,盛大云在無(wú)錫的數據中心因為一臺物理服務(wù)器磁盤(pán)發(fā)生損壞,導致“個(gè)別用戶(hù)”數據的丟失。盛大云已經(jīng)在盡全力協(xié)助用戶(hù)恢復數據。
對于因為一臺“物理服務(wù)器磁盤(pán)發(fā)生損壞”,導致“個(gè)別用戶(hù)”數據的丟失的情況,盛大云技術(shù)人員給出自己的解釋?zhuān)禾摂M機的磁盤(pán)有兩種生產(chǎn)方式,一種是直接使用宿主機的物理磁盤(pán)。這種情況下,如果宿主機的物理磁盤(pán)發(fā)生故障,云主機不可避免會(huì )造成數據丟失,這也是本次事件產(chǎn)生的原因;另外一種是使用遠程存儲,也就是盛大硬盤(pán)產(chǎn)品,這種方式實(shí)際上是把用戶(hù)的數據存到了遠程的一個(gè)集群里,并同時(shí)做了多份備份,即使宿主機出故障也不會(huì )影響到云主機的數據。因為物理機的損壞很難避免,為了避免您遇到意外損失,我們建議您在云主機之外,也做好數據備份。
典型事件3:Google App Engine中斷服務(wù)
故障原因:網(wǎng)絡(luò )延遲
Google App Engine:GAE是用于開(kāi)發(fā)和托管WEB應用程序的平臺,數據中心由google管理,中斷時(shí)間是10月26日,持續4小時(shí),因為突然變得反應緩慢,而且出錯。受此影響,50%的GAE請求均失敗。
谷歌表示沒(méi)有數據丟失,應用程序行為也有備份可以還原。為表歉意,google宣布11月份用戶(hù)可以google表示他們正在加強其網(wǎng)絡(luò )服務(wù)以應對網(wǎng)絡(luò )延遲問(wèn)題,“我們已經(jīng)增強了流量路由能力,并調整了配置,這些將會(huì )有效防止此類(lèi)問(wèn)題再次發(fā)生”。
斷網(wǎng)誘因五:系統Bug
典型事件1:Azure全球中斷服務(wù)
事故原因:軟件Bug導致閏年時(shí)間計算不正確
2012年2月28日,由于“閏年bug”導致微軟Azure在全球范圍內大面積服務(wù)中斷,中斷時(shí)間超過(guò)24小時(shí)。雖然微軟表示該軟件BUG是由于閏年時(shí)間計算不正確導致,但這一事件激起了許多用戶(hù)的強烈反應,許多人要求微軟為此做出更合理詳細的解釋。
典型事件2:Gmail電子郵箱爆發(fā)全球性故障
事故原因:數據中心例行性維護時(shí),新程序代碼的副作用
2009年2月24日,谷歌的Gmail電子郵箱爆發(fā)全球性故障,服務(wù)中斷時(shí)間長(cháng)達4小時(shí)。谷歌解釋事故的原因:在位于歐洲的數據中心例行性維護之時(shí),有些新的程序代碼(會(huì )試圖把地理相近的數據集中于所有人身上)有些副作用,導致歐洲另一個(gè)資料中心過(guò)載,于是連鎖效應就擴及到其它數據中心接口,最終釀成全球性的斷線(xiàn),導致其他數據中心也無(wú)法正常工作。
典型事件3:“5.19斷網(wǎng)事件”
事故原因:客戶(hù)端軟件Bug,上網(wǎng)終端頻繁發(fā)起域名解析請求,引發(fā)DNS擁塞
2009年5月19日的21:50,江蘇、安徽、廣西、海南、甘肅、浙江等六省用戶(hù)申告訪(fǎng)問(wèn)網(wǎng)站速度變慢或無(wú)法訪(fǎng)問(wèn)。經(jīng)過(guò)工信部相關(guān)單位調查通報稱(chēng),此次全國六省網(wǎng)絡(luò )中斷事故,原因是國內某公司推出的客戶(hù)端軟件存在缺陷,在該公司域名授權服務(wù)器工作異常的情況下,導致安裝該軟件的上網(wǎng)終端頻繁發(fā)起域名解析請求,引發(fā)DNS擁塞,造成大量用戶(hù)訪(fǎng)問(wèn)網(wǎng)站慢或網(wǎng)頁(yè)打不開(kāi)。
其中,DN SPod是國內知名的域名解析服務(wù)商之一的N SPod公司,服務(wù)數家知名網(wǎng)站的域名解析服務(wù)。此次攻擊導致DN SPod公司所屬的6臺dns域名解析服務(wù)器癱瘓,直接造成包括暴風(fēng)影音在內的多家網(wǎng)絡(luò )服務(wù)商的域名解析系統癱瘓,由此引發(fā)網(wǎng)絡(luò )擁塞,造成大量用戶(hù)不能正常上網(wǎng)。 工信部指出,此次事件暴露出域名解析服務(wù)成為目前網(wǎng)絡(luò )安全的薄弱環(huán)節,指示各單位要加強對域名解析服務(wù)的安全保護。
小結
啟用云服務(wù)的公司,很大程度是考慮這種服務(wù)可以更加編輯,性?xún)r(jià)比高。但是,這樣的考慮如果是以降低安全性作為代價(jià),估計很多公司老大不會(huì )同意。層出不窮的云服務(wù)斷網(wǎng)事件引起了云端安全性的擔憂(yōu)。
目前來(lái)看,解決的辦法可以從幾個(gè)角度出發(fā),對于企業(yè)級客戶(hù)來(lái)說(shuō),務(wù)必在采用云服務(wù)的同時(shí)定期備份云端的數據,擁有第二套解決方案按,以備不時(shí)之需。而對于云服務(wù)提供商來(lái)說(shuō),既然各種斷網(wǎng)事件是在所難免的,那就必須思考一個(gè)對策,將自己用戶(hù)的損失降到最低,對斷網(wǎng)事件的響應效率要提高。
政府部門(mén)則具有監督和提醒的職責,云服務(wù)相關(guān)的法律法律要相繼出臺和不斷完善,并且提醒用戶(hù)百分之百可靠的云計算服務(wù)目前還不存在。