摘要:服務(wù)器和相關(guān)設(shè)備的運維巡檢工作是一項綜合性很強的工作,需要服務(wù)器運維人員全身心投入,認真做好各方面的工作。需要關(guān)注服務(wù)器硬件及軟件運維巡檢的注意事項,在巡檢過程中發(fā)現(xiàn)的故障和問題要及時解決。需要遵循公司為保障運維巡檢有序進行而制定的規(guī)章制度。 服務(wù)器運維人員要做好巡檢工作,還必須保持學(xué)習(xí)。
關(guān)鍵詞:服務(wù)器;運維;巡檢
Abstract: In order to do a good job in the operation and maintenance inspection of servers and related equipment, the server operation and maintenance personnel need to do a good job in all aspects of the work, which is a highly comprehensive work and requires wholehearted devotion and conscientious completion. Attention should be paid to the precautions of server hardware operation and maintenance inspection. The faults and problems found in the inspection process should be solved in time and the rules and regulations formulated by the unit to ensure the orderly operation and maintenance inspection should be followed. And for the sever operation and maintenance personnel, only through lifelong learning can the inspection work be better completed.
Key words: Server; Operation and maintenance; Inspection
服務(wù)器巡檢是一項非常重要的工作,是維護服務(wù) 器、是現(xiàn)代信息行業(yè)的基石,是一切基于其之上服務(wù)穩(wěn) 定運行的基本保障。
作為一家為各個企業(yè)和一些合作單位提供服務(wù)器運維和巡檢的計算機企業(yè),公司有著齊全的計算機設(shè)備,多個機房分布在本市多處。這些都需要運維人員做好對這些服務(wù)器的運維和巡檢相關(guān)的工作。企業(yè)離不開服務(wù)器,服務(wù)器離不開運維人員。現(xiàn)就服務(wù)器運 維巡檢工作中的幾項注意事項,試與同行進行探討和 交流。
1 服務(wù)器硬件運維巡檢的相關(guān)注意事項
服務(wù)器硬件是企業(yè)對外提供服務(wù)所必須的基礎(chǔ)設(shè)施,如機房建筑結(jié)構(gòu)上的等電位保護措施、防雷設(shè)施、 等電位連接設(shè)施、機房防雷裝置、機器自身的防雷和防靜電接地線等防雷裝置,UPS冗余電源和機器自身的雙電源甚至更多電源的冗余電源裝置,精密空調(diào)和冷風通 道、散熱風扇和導(dǎo)風條等冷卻散熱系統(tǒng),環(huán)境監(jiān)控系 統(tǒng)、視頻監(jiān)控系統(tǒng),機房門禁系統(tǒng)和七氟丙烷氣體滅火 系統(tǒng)等環(huán)境、監(jiān)控、門禁和防火系統(tǒng)等。這些關(guān)聯(lián)在一 起,以保證機房硬件設(shè)施的安全穩(wěn)定。
服務(wù)器機房硬件運維和巡檢十分重要。當運維人員進入機房以后,要及時觀察機房環(huán)境。發(fā)現(xiàn)問題或故障要及時記錄,并及時做出響應(yīng)。
機房環(huán)境是否有故障以及故障情況,運維人員在巡檢時要及時填入服務(wù)器巡檢表格,以備今后查看和存檔。
確認機房安全狀態(tài)后,運維人員應(yīng)及時巡檢自己職責范圍內(nèi)的服務(wù)器、交換機、路由器等一系列硬件設(shè)施,觀 察指示燈狀況是否正常,是否有硬盤故障、網(wǎng)線故障、電 源故障等,是否有異響異味甚至其他危險征兆。
出入機房要用門禁卡來驗證,必須做好門禁卡分發(fā)和管理的工作,門禁卡由公司專人負責。外來人員進入機房辦事,必須由負責此項工作的運維人員帶領(lǐng)進去并全程陪同,以保證人員和設(shè)備的安全,離職員工門禁卡權(quán)限應(yīng)當及時注銷。
在機房進行運維和巡檢時,運維人員必須要預(yù)防觸 電事故,盡可能地減少和避免熱插拔和非正常關(guān)機等非正常操作,避免不遵守操作規(guī)程的做法和行為,將可能對服務(wù)器硬件造成的損傷和破壞降到最低。
硬件巡檢看似簡單重復(fù),但必須有強烈的責任 心,專注地做好,絲毫不能懈怠,這樣才能最大限度地 保證機房和服務(wù)器設(shè)施以及巡檢人員自身的安全。
2 服務(wù)器軟件方面巡檢的注意事項
運維人員除了負責機房及服務(wù)器硬件設(shè)施的運維和巡檢,還要遠程連接到服務(wù)器上進行服務(wù)器軟件設(shè)施等軟件方面的運維和巡檢。
服務(wù)器軟件雖然沒有實體,但它也在為用戶提供服務(wù)。本公司的遠程巡檢原來是通過系統(tǒng)遠程登錄進行的,只要知道用戶名和口令,運維人員就能夠輕松登錄上去,操作較為方便。但原先在公司以外的外網(wǎng)以及公司內(nèi)部某些區(qū)域是直接用云桌面或VPN或跳板機來登錄的,有一定安全風險。
近年來為保護關(guān)鍵公司的重要數(shù)據(jù)安全,國家加強了等級保護等措施。筆者所在公司作為重要國企, 對這方面的安全進行升級,統(tǒng)一采用堡壘機進行安全登錄,實施任何遠程運維操作,都必須通過堡壘機作為跳 板,而不是遠程桌面直連。
堡壘機可以記錄下每個用戶登錄的全部過程,以便在出現(xiàn)問題時進行追溯和理清責任。
運維人員進行在線或機房軟件巡檢時,應(yīng)按規(guī)定進行,并及時做好記錄。
巡檢中發(fā)現(xiàn)問題,要第一時間和相關(guān)負責的同志以及相關(guān)領(lǐng)導(dǎo)同事進行溝通交流,如有必要,共同開會研究解決方案。
3 在巡檢過程中發(fā)現(xiàn)的故障和問題要及時 處理
運維人員在進行服務(wù)器硬件設(shè)備和軟件系統(tǒng)的巡 檢時,不僅是為了巡檢而巡檢。更是要帶著讓系統(tǒng)更安全更穩(wěn)定和保證系統(tǒng)安全穩(wěn)定運行的目的去進行巡檢。
運維人員在進入機房巡檢時,應(yīng)當全神貫注地注意每個細節(jié)。在遠程進行服務(wù)器軟件巡檢時,應(yīng)當注意軟件系統(tǒng)的各個細節(jié),如服務(wù)器的CPU使用率、內(nèi)存使用率、磁盤空間使用率、各硬件溫度等,一旦發(fā)現(xiàn)異常或超出閾值就要及時處理。
在公司的巡檢工作過程中,筆者曾多次在第一時間發(fā)現(xiàn)服務(wù)器系統(tǒng)出現(xiàn)故障,并及時將其解決,以及聯(lián) 系其他同事和領(lǐng)導(dǎo)討論和啟動應(yīng)急預(yù)案解決問題。巡檢工作過程中及時發(fā)現(xiàn)、及時響應(yīng),避免了公司的損失。
在巡檢中發(fā)現(xiàn)問題,接下來解決這些問題。如發(fā)現(xiàn)的是簡單的小問題,可以按照慣常的操作方法來解 決。如冗余電源和網(wǎng)線亮紅燈插拔、機器死機故障重啟等,及時做好故障處理記錄。
當暫不能解決問題,就需要自行研究解決方法, 嘗試排除故障,并且和相關(guān)同事或領(lǐng)導(dǎo)等人一起研討解決方案,緊急處理,持續(xù)跟進,直到把問題徹底解決。 并記錄解決此類問題的方法和過程,以為今后解決同類問題提供經(jīng)驗。
而當遇到超出常規(guī)的特殊故障,運維人員會動用應(yīng)急預(yù)案及時進行處理和解決。應(yīng)急預(yù)案規(guī)定了各個系統(tǒng)恢復(fù)響應(yīng)所需的時間限額,在這范圍內(nèi)解決故障可以有效保證系統(tǒng)的正常運行,把故障造成的損失降到最低限度。
當運維人員需要和廠商、供貨商,以及外單位人員等外部力量來解決問題時,則由運維人員或公司領(lǐng)導(dǎo)聯(lián)系他們進行確認,說明問題或需求,并通過遠程和機房現(xiàn)場連接測試以及現(xiàn)場測試等,對這些故障進行跟進處理。
服務(wù)器運維巡檢操作如果涉及到對現(xiàn)有配置的修 改,在工作時間不得影響用戶業(yè)務(wù)和發(fā)生重大事故,對于影響用戶業(yè)務(wù)的操作應(yīng)遵守如下運維操作紀律和規(guī)范:
三個禁止:
· 禁止白天對設(shè)備進行中斷業(yè)務(wù)的操作;
· 禁止沒有方案下進行中斷業(yè)務(wù)的操作;
· 禁止沒有通知上級領(lǐng)導(dǎo)私自進行中斷業(yè)務(wù)的操作。
七個必須:
· 操作必須得到業(yè)務(wù)組長的確認;
· 操作前必須對當前配置進行記錄或備份;
· 操作過程中必須確認操作的準確性;
· 操作后必須進行業(yè)務(wù)驗證和相應(yīng)測試;
· 操作后必須監(jiān)控設(shè)備運行狀態(tài),存在新增告警或異常的需進行記錄和分析原因;
· 操作后出現(xiàn)業(yè)務(wù)中斷2小時以上且不能恢復(fù)業(yè)務(wù)的,必須上報領(lǐng)導(dǎo)說明情況;
· 操作后必須及時反饋并記錄操作結(jié)果。
服務(wù)器巡檢操作應(yīng)準備充分,包含以下要求:
(1)穩(wěn)定的網(wǎng)絡(luò)環(huán)境:服務(wù)器巡檢應(yīng)盡量在公司內(nèi)網(wǎng)進行,對于中斷業(yè)務(wù)的操作,原則上不可通過 VPN進行遠程操作;
(2)被批準的操作方案:對于重大操作影響或中斷業(yè)務(wù)的,方案中應(yīng)包括應(yīng)急回退方案;
(3)登入設(shè)備的用戶賬號和權(quán)限:操作前需確保開通登入相關(guān)設(shè)備的用戶賬號和相應(yīng)權(quán)限;
(4)進入機房的權(quán)限申請:如有必要,需提前向設(shè)備所屬物業(yè)公司申請進入許可,進入時需攜帶相關(guān)證件;
(5)其他外部設(shè)備:根據(jù)業(yè)務(wù)需要應(yīng)提前準備相關(guān)外設(shè),包含不限于筆記本電腦、U盤、Console連接 線、USB-網(wǎng)口轉(zhuǎn)換線、網(wǎng)線測試儀、網(wǎng)線和網(wǎng)線鉗等。
除此之外,公司還根據(jù)客戶需要在多個客戶公司派駐了運維人員,并對托管機房的服務(wù)器進行巡檢。
托管機房所在地常常遠離日常工作地點,公司會定 期指派工程運維人員定期趕往這些機房進行巡檢,由于 巡檢是在不影響其他工作正常開展的情況下進行,這對外派運維人員的業(yè)務(wù)能力也有更高的要求。
外派的運維人員一旦遇到無法解決的非常規(guī)超常規(guī) 的問題,必須第一時間和公司其他運維人員以及領(lǐng)導(dǎo)聯(lián) 系,共同解決問題。
運維巡檢工作看似簡單重復(fù),實際上也會有突發(fā)情況。發(fā)現(xiàn)問題不但要及時解決,還要和其他人員共同解決,并做好各項記錄。
凡事預(yù)則立,只有事先做好了應(yīng)急預(yù)案,才能更好地解決突發(fā)問題。
處理巡檢中發(fā)現(xiàn)的故障和問題,維護系統(tǒng)有序運 行,是運維人員的職責所在。
4 應(yīng)當遵循公司制定的運維巡檢工作相關(guān)的規(guī)章制度
運維人員開展工作要遵循公司的規(guī)章制度。制定和遵循這些規(guī)章制度是為了更好、更有條理、更有序地完 成企業(yè)的工作。
公司已經(jīng)制訂的各項規(guī)章制度,有時也會根據(jù)業(yè)務(wù)的變化來進行修改。隨著業(yè)務(wù)的發(fā)展,公司的客戶數(shù)量不斷增加,需要新增服務(wù)器、新增精密空調(diào),增大精密空調(diào)的功率、配電柜的功率,以及增加機柜和機房的數(shù)量和容量。這些設(shè)備擴容時需要停止部分服務(wù),業(yè)務(wù)暫時縮減,要拆除服務(wù)器或把服務(wù)器另做他用。在這些過程中有時需要幫客戶搬遷機器,以及搬遷公司自己的機房機器,比如2018年的某企業(yè)服務(wù)器大搬遷,從吳涇地區(qū)搬到了上海金山石化區(qū)。
過程中牽涉到機器設(shè)備安全、數(shù)據(jù)安全、人員安全等一系列問題。服務(wù)器在搬遷過程中不能受到過大的震動,過大震動會導(dǎo)致硬盤損壞或內(nèi)存條松動影響開機,甚至丟失用戶數(shù)據(jù)。在搬遷之前要備份部分用戶關(guān)鍵數(shù)據(jù)。 這一切都必須遵循公司的規(guī)章制度有序開展業(yè)務(wù)。
公司的機房設(shè)備增減以及機房擴容等牽涉到硬件安全、成本的計算、人員的管理等,這都需要一系列制度來進行保障。
服務(wù)器機房是一個龐大復(fù)雜的系統(tǒng),它的穩(wěn)定運行需要嚴格遵循規(guī)章制度的建設(shè)來規(guī)范人/物等各方面因素,從而推進這些工作的順利和有序進行。
公司規(guī)章制度《信息系統(tǒng)運維管理辦法》,其中包括信息系統(tǒng)運維支持組織和職責、信息安全管理、關(guān)鍵崗位管理、賬戶和權(quán)限管理、密碼口令管理、網(wǎng)絡(luò)和訪問管理、配置和備份管理、資產(chǎn)安全和備件管理、安 全審計等。
5 運維人員要做好巡檢工作,需要終身進 行學(xué)習(xí)
計算機行業(yè)變化發(fā)展很快,新技術(shù)、新方法、新 設(shè)備層出不窮,計算機硬件行業(yè)的快速發(fā)展,也帶動了軟件行業(yè)的快速發(fā)展。服務(wù)器領(lǐng)域各種設(shè)備每隔幾年就會更新一代。由于服務(wù)器設(shè)備的壽命很長,持續(xù)使用時間很長,公司里既有老的服務(wù)器也隨時會增加新的服務(wù)器,新老服務(wù)器之間協(xié)同工作可以達成性能和成本的最佳平衡。服務(wù)器運維人員為了做好運維工作,既需要掌握老服務(wù)器的運維知識,也需要掌握新服務(wù)器的運維知 識。
人的年齡在增長,隨著終身學(xué)習(xí)知識和積累經(jīng)驗,運維人員進行運維工作的理論和實踐經(jīng)驗只會越來越豐富,從而更好地進行運維工作,把公司的業(yè)務(wù)做得更好。
服務(wù)器運維人員做好巡檢工作,需要關(guān)注服務(wù)器硬件運維巡檢的注意事項,軟件在巡檢過程中發(fā)現(xiàn)的故障和問題要及時解決。需要遵循公司為保障運維巡檢有序進行而制定的規(guī)章制度,還必須終身進行學(xué)習(xí)。
服務(wù)器運維和巡檢看似很簡單,但實際上卻并不容易。維護服務(wù)器作為現(xiàn)代信息行業(yè)的基石,是一切基于其之上服務(wù)穩(wěn)定運行的基本保障。
作者簡介:
鄭邦甲(1984-),男,江蘇贛榆人,學(xué)士,現(xiàn)就職上海華誼信息技術(shù)有限公司,研究方向是計算機。
摘自《自動化博覽》2021年5月刊