成立專案進行資訊維運管理系統建立時的主要考量
10.建立IT維運管理前的準備事項


在設立專屬於IT資訊維運管理系統之前,需要從不同的角度進行全面的考量和準備。
以一個規模包含500台伺服器、250台網路設備、30台虛擬機(VM)以及60個機櫃的資訊中心為例, 我們可以從系統維運工程師、管理層主管以及政策層主管三個不同的層面來探討相關的準備事項。

➣系統維運工程師角度
責任範圍:負責建置、設定、執行、排除問題、回應疑問、定期更新、故障維修等事項。
技術準備:確保所有伺服器、網路設備及虛擬機的技術準備完善,包括硬體配置、軟體安裝及網絡布局的最佳化。

➣管理層主管角度
責任範圍:負責協同執行與整合管理、通才技術、制度管理、事件調處置、管理流程建立與執行、技術支援、解決疑難雜症。
流程建立:制定有效的工作流程和溝通機制,以便在維運過程中快速響應和解決問題。

➣政策層主管角度
責任範圍:負責創造政策、效益評估與驗證、建立管理制度、承擔責任。
長遠規劃:從宏觀角度制定IT維運的長期目標和政策,並評估其對組織整體運營的影響。

以下是成立專案進行資訊維運管理系統建立時的主要考量點與步驟:

預先規劃:對於可能影響資訊營運的各種情況進行預先規劃,以提高資訊維運的妥善率。
檢測與資料收集:透過詳細的檢測與資料收集,保障系統正常運作的基本要素。

專案人員配置
➣原單位資訊管理負責人
➣維運經理或專案經理(PM)
➣資深系統技術人員(包含系統、網路管理、應用)
➣原廠技術人員

監控設備範圍定義
➣清查所有需監控的設備項目,如伺服器、交換器等。
➣確認受監控設備必須安裝的裝置,如IPMI/ILO。
➣配合必要的設定與資訊,例如SNMP啟用、Netflow設定等。
➣應用系統整合機制,包括異常訊息轉送、數據檢測與分析等。

了解資訊中心資源與架構
➣網路架構圖,包括基礎架構、網段區域管制架構等。
➣伺服器佈署的應用,包括重要性分類、存活指標點等。

自動化後檢測點共同問題
➣監控項目與異常臨界點的定義。
➣警報發出的效率、嚴緊度與敏感度。
➣警報通知管道與名單。
➣緊急處置方案的建立。
➣重要關聯整合點與相關資訊建立。

依設備與系統不同的層次設計監控目標:
伺服主機監控項目
伺服主機監控是指對伺服器(無論是實體主機還是虛擬主機)的運作狀態進行實時監視和管理,以確保系統的穩定運行和高效能。伺服主機監控項目可以從多個層面進行細分:
➣主機硬體層-運作主體:CPU使用率、RAM、硬碟空間和溫度等硬體資源,及時發現硬體故障或性能瓶頸。
➣作業系統層-主機效能:檢測作業系統的運行狀態,包括進程管理、系統負載、登錄用戶等,確保作業系統運行。
➣網路連線層-存活指標:通過Ping測試和其他機制確認伺服器的可達性,監控網路連接的存活狀態。
➣網路連線層-忙碌指標:分析網路流量和帶寬使用情況,識別網路瓶頸或異常流量。
➣網路連線層-品質檢測:檢測網路延遲、丟包率等,評估網路品質。
➣應用系統層-啟用執行:監控關鍵應用服務的運行狀態,確保服務正常啟動並運行。
➣應用系統層-輔助監測:對應用程式的性能指標進行監測,如響應時間、交易量等。
➣應用系統層-訊息溝通:監控應用系統的日誌和警報,確保異常能夠及時被識別和通報。
➣應用系統層-進階使用:深入分析應用系統的使用模式,優化系統配置和資源分配。
➣資訊安全層-潛在危機:監控安全威脅,如未授權訪問、惡意程式等,保護伺服器不受攻擊。

網路設備(交換器/路由器)監控項目
➣流量資訊
➣狀態資訊
➣設定資訊
➣安全檢測
➣串聯架構

中心監控項目
中心監控是指從集中的位置監控整個網絡和系統的健康狀態,以便於快速識別和解決問題。
➣網路連線:集中監控所有伺服器和網絡設備的連接狀態,確保網路暢通無阻。
➣轉送機制:監控資料傳輸和信息轉發的效率和穩定性,確保資訊能夠正確快速地被傳遞。
➣特定資訊:針對特定的監控需求收集和分析資訊,如特定應用的性能指標。
➣應用系統整合:將不同的應用系統和服務整合在一個監控平台中,提供統一的監控視圖。
➣網路安全:集中監控網絡和系統的安全狀態,包括入侵檢測、異常流量分析等。
➣系統與事件日誌:集中收集和分析系統日誌和事件日誌,用於故障診斷和性能分析。
➣輔助環境監控:監控伺服器機房的環境條件,如溫濕度、電源狀態等。
➣緊急處置:建立緊急事件響應機制,包括自動警報、事件處理流程和應急溝通計劃。



返回上一頁