美國(guó)一數(shù)據(jù)中心斷電,客戶(hù)服務(wù)中斷超40小時(shí)
01
數(shù)據(jù)中心的運(yùn)維管理水平跟不上,
要付出多大的代價(jià)?
11月2日
,全球知名網(wǎng)絡(luò)性能與安全服務(wù)商Cloudflare發(fā)生服務(wù)中斷事故,直到40個(gè)小時(shí)后,所有服務(wù)才全部恢復(fù)上線(xiàn)。
中斷原因是Cloudflare租用的Flexential數(shù)據(jù)中心,在當(dāng)日凌晨四點(diǎn)左右發(fā)生了變壓器接地故障,導(dǎo)致機(jī)房斷電。
據(jù)說(shuō)在嘗試恢復(fù)供電的過(guò)程中
,有三件事阻礙了發(fā)電機(jī)的重新啟動(dòng):
? 首先
,由于接地故障導(dǎo)致電路跳閘,因此需要實(shí)際進(jìn)入并手動(dòng)重新啟動(dòng);
? 其次,F(xiàn)lexential的訪(fǎng)問(wèn)控制系統(tǒng)沒(méi)有備用電池供電
,因此處于離線(xiàn)狀態(tài);
? 第三
,現(xiàn)場(chǎng)值守的夜班人員中沒(méi)有經(jīng)驗(yàn)豐富的運(yùn)維或電力專(zhuān)家,只有一名保安和一名才剛剛上崗一周的技術(shù)人員。
由于發(fā)電機(jī)沒(méi)有完全重新啟動(dòng),UPS電池耗盡,數(shù)據(jù)中心的所有客戶(hù)都斷電了。在整個(gè)過(guò)程中,F(xiàn)lexential從未告知Cloudflare該設(shè)施存在任何問(wèn)題
更加不幸的是,當(dāng)天中午
直到斷電發(fā)生的11個(gè)小時(shí)后
這事兒一出
數(shù)據(jù)中心設(shè)施復(fù)雜,管理難度大,專(zhuān)業(yè)性強(qiáng),必須建立規(guī)范的運(yùn)維體系和管理制度、配備專(zhuān)業(yè)度高的運(yùn)維團(tuán)隊(duì),才能真正保證數(shù)據(jù)中心安全、高效運(yùn)行。
02
人手不要“省”
“忙”
運(yùn)維團(tuán)隊(duì)的配置應(yīng)根據(jù)數(shù)據(jù)中心的等級(jí)和SLA(服務(wù)要求協(xié)議)來(lái)確定
1.數(shù)量:必須有足夠數(shù)量的合格員工和/或供應(yīng)商來(lái)執(zhí)行運(yùn)維工作;
2.資質(zhì):所有工作人員必須具備必要的經(jīng)驗(yàn)和技術(shù)資格
3.分工:每個(gè)崗位的角色和職責(zé)都應(yīng)是明確的
高等級(jí)以及具有一定規(guī)模的數(shù)據(jù)中心,每個(gè)班組應(yīng)配備具有電力
03
戰(zhàn)斗力是“練”出來(lái)的
人手夠了,但真碰到事兒
還是得練!
培訓(xùn)和演練可確保所有人員(包括供應(yīng)商)了解在數(shù)據(jù)中心工作的政策
運(yùn)維團(tuán)隊(duì)?wèi)?yīng)針對(duì)所有可能發(fā)生的故障場(chǎng)景制定完整的應(yīng)急預(yù)案,包括環(huán)境(火災(zāi)
對(duì)新員工,更要進(jìn)行完整嚴(yán)格的上崗培訓(xùn)
為了推動(dòng)整個(gè)運(yùn)維團(tuán)隊(duì)技術(shù)和素質(zhì)的發(fā)展和改進(jìn),有必要建立人員的關(guān)鍵績(jī)效指標(biāo),定期對(duì)所有人員的短期和長(zhǎng)期績(jī)效進(jìn)行評(píng)估,獎(jiǎng)優(yōu)罰劣
蘇ICP備2022020863號(hào)
0510-68186618
地 址:無(wú)錫市梁溪區(qū)人民西路98號(hào)12樓