數據中心是一個(gè)擁有諸多系統的復雜機構,要讓數據中心高效安全地運轉起來(lái),需要有一支技術(shù)實(shí)力雄厚的運維隊伍。雖然,這幾年總有人提出要建設無(wú)人值守的數據中心,建設自動(dòng)化運維的系統,以降低人力成本,盡力去提升個(gè)人運維的工作效率,在實(shí)際應用中,仍不能完全行得通。沒(méi)有人參與運維和管理的數據中心將是一盤(pán)散沙,根本形不成戰斗力。降低人力成本是數據中心長(cháng)期堅持的目標,但眼前還是需要大量的技術(shù)人員,在數據中心里形成人機交互的融合體。而且,在數據中心建設TIA-942標準中也明確提出人員的配置情況,不同級別的數據中心要求匹配的人員數量不一,等級越高對人員數量和技能水平要求越高。
如圖1所示,TIA-942將數據中心分為四級,其中T1級別最低,T4級別最高,級別越高匹配的人員能力要求越高,同時(shí)值守時(shí)間也最長(cháng),T4往往要求全年數據中心無(wú)業(yè)務(wù)中斷,對運維的要求非常高,必須安排專(zhuān)業(yè)技術(shù)的人員現場(chǎng)24小時(shí)值守,以便在出現問(wèn)題時(shí),及時(shí)排除,或者能立即切換到備份系統上,讓業(yè)務(wù)不受影響。
圖1:不同等級數據中心人員配置要求
在人員的組織架構設計上,可以將數據中心分為三大塊,每個(gè)部分再細分,建設完善的運維系統,一般是這樣,如圖2所示:
圖2:數據中心運維組織架構圖
根據圖2所列的數據中心運維的組織架構,顯然對于一個(gè)大型數據中心13~15人是最基本的配置,如果考慮到7*24小時(shí)輪換值班(個(gè)別崗位),人員配置至少要25人。像保安和保潔人員,偌大的數據中心只配置一兩個(gè)人肯定不夠,大型數據中心的面積都要上萬(wàn)平方米,這個(gè)大建筑面積的保潔工作,至少也要十來(lái)個(gè)人才行。還有IT系統部分,網(wǎng)絡(luò )和服務(wù)器、存儲這些都是相關(guān)性比較少的專(zhuān)業(yè)技術(shù),一個(gè)人不可能都掌握,就需要這些方面的人才都要儲備一些。還有很多的數據中心是建在全國各地的,如果在全國各地的數據中心都建設圖2這一套運維組織,人力成本太高,所以很多的數據中心也是將IT系統部的所有專(zhuān)業(yè)技術(shù)人員集中到總部辦公,對各地的數據中心實(shí)施遠程管理。在數據中心機房現場(chǎng),只需要留有少量的駐場(chǎng)人員,這些人員只需要會(huì )拔插網(wǎng)線(xiàn),會(huì )重啟和安裝設備就可以,平日的監控也主要由這些駐場(chǎng)人員來(lái)完成,一旦發(fā)現問(wèn)題及時(shí)通知IT系統部的人員上來(lái)定位和分析。
基礎設施部和行政部與數據中心機房休戚相關(guān),在各地的數據中心都需要建立一套。其實(shí),現在絕大部分的數據中心都是租用運營(yíng)商或者專(zhuān)業(yè)的數據中心服務(wù)商提供的機房,像供電、電氣、空調、監控、安保和保潔都是由運營(yíng)商來(lái)完成,數據中心只要向運營(yíng)商提供租金即可,這樣可以節省很大一部分人力費用,數據中心運維只需要有IT系統部就可以了。如果像騰訊、阿里這樣的互聯(lián)網(wǎng)巨頭,單獨建設了自己的數據中心,就需要有基礎設施部和行政管理部,當然如果圖省事,也可以將這兩個(gè)部分運維的工作都外包出去,由專(zhuān)業(yè)的服務(wù)商來(lái)完成,這樣也要比自己維護兩個(gè)部門(mén)要節省得多。
除了設計組織架構,還要制定詳細的部門(mén)工作內容,各個(gè)工作崗位的職位要求,細化到具體工作上,部門(mén)主管可以根據每個(gè)人的工作表現,進(jìn)行考評和漲薪。要建立起一套科學(xué)合理的包括選、用、培養、考核及解聘的人員管理生命周期,通過(guò)合理的組織架構設計與人員分工,最大限度地發(fā)揮個(gè)人的主觀(guān)能動(dòng)性,為組織目標貢獻力量等,這些管理要靠各種流程來(lái)約束,大家按照流程辦事和工作。流程是數據中心運維架構質(zhì)量的保證,流程存在的目的就是保證運維架構可以按質(zhì)、按量地運行。
人員是數據中心運維的基礎,也是數據中心的運維核心。一個(gè)好的數據中心運維組織架構,少不了合適的技術(shù)和管理人員。人是數據中心運行好壞的最為關(guān)鍵因素,有句成語(yǔ)說(shuō)得好:“成也蕭何,敗也蕭何”,要知道數據中心中發(fā)生的故障百分之八十是人為故障,而人又是處理這些故障的關(guān)鍵部分,需要大量的人力去保證數據中心穩定運行。所以,人與數據中心的關(guān)系很微妙,既不能讓數據中心完全依賴(lài)于人,又不能讓數據中心完全脫離人的管理,要在兩者之間達到平衡。人干預過(guò)多,容易引起人為故障,人干預過(guò)少,數據中心系統就容易跑偏,也許有設備都燒掉了,人們都還不知道,這樣的數據中心運維就是失敗的。