重回1988之IT女王 第290節
誒??生意這么好的嗎? 她不是沒有想過生意火爆,但是沒想到能這么火爆。 就為了多送兩個茶葉蛋,居然有這么多人早上五點起來預約午餐?? 小雪一邊困惑一邊點擊了「刷新」,頁面依舊提示無法連接。 小雪趕緊打電話給運維。 運維此時已經在滿頭冒汗地處理了,他們查了一遍bug,沒bug,又查了一遍數據。 在網頁無法連接之前,也就一千多個人預約了早餐,還不如下大雨的飯點的訪問量高。 “吃了么……”運維工程師的汗還沒擦干凈,就輪到數據中心的運維工程師頭上冒汗了。 數據中心早就收到云間市的機房包間通道溫控報警。 工程師急忙介入查詢。 五分鐘后,多個包間升溫警報,眼看著事情越鬧越大,一時半會兒按不下去,工程師們在召喚更多同伴的同時,也不得不把事情向上匯報。 正常情況下,由一線值守的運維處理就行,一線值守的運維搞不定的話,會有更高級的技術人員來處理。 短時間能搞定的事情,第一時間都不會想到通知行政管理上的人員,技術上的事情叫他們毫無意義。除了會站在旁邊吱哇亂叫,增加緊張氣氛之外,也沒什么卵用。 然而,五點二十七分,睡得正香的安夏接到了王嬌嬌的電話:“安總,抱歉打擾,數據中心的機房出問題了?!?/br> 王嬌嬌已經盡量用了冷靜平靜的語氣向安夏匯報。 不過她再冷靜也沒用,一件事情到了安夏這里,就說明這事已經非常嚴重了。 不管是用報喪的語氣還是用報喜的語氣說,都不會改變性質。 安夏被這個消息頓時嚇醒了,一線運維工程師向她匯報那個數據中心涉及的單位。 除了紫金自家的,還有幾個政府機關的網頁,以及幾個電業局的智能電表的數據也在這里面。 “容災逃逸啟動了嗎?”安夏問道。 運維總負責人??回答:“還沒有?!?/br> “你在等什么?!”安夏忍不住提高了聲音。 □□馬上回答:“是,馬上切換機房!” 掛了電話以后,安夏一直在刷新網頁,五分鐘后,運維匯報:所有受到影響的網頁已經全部恢復。 安夏看了一眼時間,剛剛到凌晨六點,從系統首次發現故障到現在共經歷了一個小時,她這才稍稍松了一口氣。 幸好這個受到影響的數據中心承接的都是普通業務。 要是像后世那樣動不動就是個分鐘級、秒級的業務,服務器從斷氣到機房轉移完畢,中間不知道要賠幾萬幾十萬。 也幸好現在時間還早,大多數人還在夢鄉之中。 要是紫金支付的客戶發現他們的賬戶余額為零,或是半天刷不出來,怕不是當場就要提刀殺來了。 只要客戶那里不炸,機房的事可以慢慢算。 通過這件事,安夏也發現一個問題,明明有備災機房,□□卻沒想到馬上開啟容災逃逸?他對自己這么自信? 真有這個本事的話,她應該收到的是故障說明,還有處理報告,而不是事情還沒解決就到她這里。 安夏對數據中心的救災演習非常不滿,出現問題之后,運維根本就是在憑本能做事,心思都在解決故障上面,完全沒想到最重要的是不要影響到客戶。 一旦失去了客戶的信任,以后數據中心的業務還做不做了。 安夏叫來負責系統安全的總監龍運,剛想問問他們有沒有一套規范的應急手冊,以及有沒有演習過。 龍運來的時候,神色還是十分緊張,就好像剛剛被人從火場上揪下來一樣。 看他的表情,不像怕被追責的慌張,更像是還在忙著干什么事,忽然被人打斷后的模樣。 安夏問道:“機房的問題解決了嗎?” 龍運的回答差點把安夏給氣死:“沒有?!?/br> 早上五點鐘發生的事情,現在已經十點,整整五個小時,還沒有解決,機房是被燒了還是炸了? “機房到底是怎么回事?” “被水淋了?!?/br> “哪來的水?”安夏一時沒反應過來。 “機房溫控檢測到服務器溫度過高,然后……就觸發了消防自動噴淋?!饼堖\在說這話的時候,音量都不由得低了幾度。 等安夏確認自己沒聽錯之后,她瞬間出離憤怒。 數據中心!機房!全都是怕水的硬件!被水淋一淋就要斷氣。 消防裝置用自來水噴淋系統?! 安夏做了幾個深呼吸,才沒有對手邊的鼠標和手機進行身體傷害。 “你先去處理機房的問題吧?!卑蚕臄[擺手。 事情還沒解決,把龍運扣在辦公室里罵死,被淋死的服務器們也不會死而復生。 下午四點,龍運還沒過來請罪,顯然是事情還沒解決。 設計數據中心機房的建筑設計院已經過來了,他們說是來說明問題的,其實是來甩鍋。 機房升溫的原因:冷機系統故障。 故障原因:缺水。 由于水路循環受到影響,導致整個機房里所有的主冷機服務異常,連帶著備用的冷機也一起完蛋。 然后,補水了,結果由于冷卻系統的群控邏輯,無法單機獨立啟動,必須手動修改配置。 等工程師改完了,才重新啟動。 查原因用了三小時三十四分鐘。 補水用了兩小時五十七分鐘。 人工修改冷機的群控邏輯用了三小時三十二分鐘。 所以,早上五點發生的問題,直到剛剛才解決。 中途還因為傻逼的自來水消防噴淋裝置,徹底毀了一個房間里的服務器。 這家建筑設計院就是之前安夏成功推銷了軟件的那家接了援非業務的,院長朱洪濤給錢挺痛快。所以安夏在做數據中心的時候,也想到了他們。 這次帶隊過來的人是總工杜力,在來之前他們內部已經撕過一輪了。 冷機故障,正常情況下第一個要找的是暖通。 暖通工程師說:“關我什么事?是我讓冷機沒水的嗎?是弱電的錯!沒水了群控都查不出來?!?/br> 弱電工程師說:“關我什么事!我的程序沒錯!是給排水的錯……” 給排水工程師說:“啊對!是,我,我有罪!但是負責機房監管的人就一點責任都沒有嗎?” 于是,杜力親自帶著給排水工程師過來謝罪。 如果有可能的話,最好能把鍋甩回給紫金科技,建筑行業一出生產責任事故,不是賠錢就是坐牢。 他們也不想的。 機房斷氣的責任事故有兩件事要往下追: 第一,冷機的水到底是怎么沒的。 第二,誰出的主意,在機房里用自來水噴淋做為消防手段的。 第一件事的責任方無論如何都有給排水工程師的鍋,甩是甩不掉了,他最多拉著機房監管人員共沉淪。 杜力向安夏再三道歉,表示會馬上親自到現場查明事故原因。 下午五點,龍運來了。 他接到消息的時間是早上五點十分,早飯午飯都沒吃,連軸轉到現在,解決了機房的問題之后,又急匆匆地趕來向安夏匯報。 什么時候機房出現了什么事,什么時候機房全面恢復。 目前造成了什么損失。 損失只報了那一房間的硬件,安夏盯著他:“你是不是漏掉了什么?” “什么?”龍運沒反應過來,冷機不進水的故障不是由建筑設計院認領嗎? “對客戶的影響?!卑蚕睦渲樥f:“停機多長時間,多少個客戶不能正常使用功能,這些客戶都是什么行業的,顯性的故障是多少,隱性的故障是多少?你沒想過?” 龍運完全沒往那里想:“應該……沒有吧,那個時間還早,我們又很快把數據轉移到異地備份服務器了……” “吃了么在出現故障之前已經有一千多單預約。如果不是出現故障,應該還會有幾單,也許就有想預約午餐的客戶打開網頁之后,發現無法登陸,然后放棄的,這算不算損失?!?/br> 龍運不敢吭聲了,紫金內部的各個團隊是獨立運營,吃了么的老大又是安夏之前助理,不是可以隨便打發的小蝦米,他們的投訴當然也是投訴。 安夏又問:“數據中心有應急手冊嗎?有防災演習嗎?” “有應急手冊?!饼堖\趕緊說,并說就在公司內網上就有電子版,安夏一目十行的掃完,眉頭緊鎖。 “這邊不是有關于數據中心出現問題之后,應該第一時間啟動容災逃逸嗎?為什么出現問題之后半小時都沒有啟動?他們不知道就算了 ,你也不知道?你還想不想干了?!” 面對暴怒的安夏,龍運沉默,安夏并沒打算因此放過他。 總經理辦公室里的空氣像粘稠的膠水,在如此的重壓下,龍運感到自己無法呼吸,他想逃走,但是一步也走不動。 安夏的眼神像鋒利的刀,他實在不知道應該怎么辦。 現在,他十分后悔,早知道,不聽那個人的建議就好了。 如果不是因為輕信了別人,選擇了更便宜。但需要經過中間件跳轉的管控系統,怎么會在發現故障的時候吵轉不過去。 如果不是一個資深運維生死時速修改bug,安夏命令他做容災逃逸的時候,他也轉不過去…… 當時轉成功的時候,他還松了一口氣,以為安夏不會再追問這件事了,沒想到,她還記著這事。 這要怎么向她解釋,說自己一分錢沒收,只是因為朋友關系,才聽了別人的建議?