在部署自動化IT維運系統的過程中,目標的設定與階段性的計畫是關鍵步驟。以下是對建置目標與階段的詳細說明:
建置目標與階段
初期建置階段
目標設定:初期階段目標在於建立一套全面的自動化IT維運系統,這個過程需要大量的時間和精力,涉及廣泛的專業知識與不同部門的協作。
障礙與挑戰:除了技術上的準備外,組織內部的溝通與協調也是重要的挑戰之一。在此階段可能會遇到來自不同團隊的阻力。
執行內容
➣基本建置:包括機房設施的準備、監控系統的初步部署等。
➣進階建置:在基礎架構上增加更多功能和監控項目。
➣緊急事件處理:建立緊急情況下的應對流程。
➣網路架構重整:根據維運需求對現有網路架構進行調整。
➣維運流程建立:訂定日常維運的標準作業流程。
➣展示績效與定時演練:透過實際案例展示系統的效能。
執行進度分三階段
第一階段 - 基礎建置
➣監控名單建立:涵蓋IDC機房內所有網路設備。
➣告警臨界值設定:初期以系統預設值作為告警閾值。
第二階段 - 調整與補充建置
➣調整告警臨界值:根據實際運作情況和設備特性進行調整。
如: Microsoft Windows Exchange 記憶體使用率91%算正常,告警臨界值可調整至95%
➣加強監控項目:根據需要增加更多監控項目。
第三階段 - 管理與制度建立
➣適應新的維運模式:自動化系統可能會改變傳統的維運管理方式。
➣壓力與挑戰:即時通報與大量自動化監控可能對維運人員造成壓力。
➣快速決策與問題解決:建立有效的問題回報、處理和記錄流程。
➣人員與管理制度:根據不同時段和狀況,重新規劃人員安排和管理制度。
詳細【建置進度表】可點此參考
在開始佈署自動化IT維運系統之前,必須做好充分的準備,以確保整個過程能夠順利進行,並且能夠有效減少建置成本與時間。以下是一些關鍵的準備事項:
建置自動化IT維運系統之準備事項
伺服主機
➣確認IP清單、硬體廠牌、作業系統(如Windows, Linux, AIX等)。
➣準備安裝帳戶,包括本機帳戶或AD帳戶,若使用AD帳戶,須擁有與Administrator同等的權限。
➣依照重要性等級分類伺服主機(A級、B級、C級),並依此順序進行建立。
➣指定伺服主機中文化別名,用於圖形監控與告警通知。
➣確保防毒軟體將監控系統加入程式白名單。
➣設定本機及網路型防火牆開放5000-5012端口,若經NAT則需設定對應的IP與Port。
➣定義特別的告警通報名單。
➣安裝Watchdog Client系統。
網路設備
➣涵蓋交換器(L2, L3 Switch)、路由器(Router)、防火牆(Firewall)、UTM、負載平衡器(Load Balancer)等。
➣準備網路設備的資料,常用協定包括SNMP與CLI。
➣需要的資料包括設備IP清單、硬體廠牌、SNMP群組名稱(如public)、啟用SNMP、CLI帳戶與密碼。
➣依照重要性等級分類網路設備(A級、B級、C級)。
➣記錄專線或GSN線路的承租速度與連接埠編號位置。
➣準備設定檔(Config)備份的CLI指令。
➣指定網路設備中文化別名,用於圖形監控與告警通知。
➣定義特別的告警通報名單。
➣確認中間防火牆開放UDP 161、162 Port。
伺服主機-硬體【IPMI/ILO/IMM/iDRAC】
IPMI,ILO,IMM,iDRAC是屬各伺服器硬體廠牌對於主機板、電源、溫度感測、風扇狀態。等
硬體方面的監測與管理系統,屬BIOS層設定與管理。
➣設備IP清單
➣硬體廠牌
➣專屬管理網段
➣需要網路配線
➣專屬交換器【Switch】
➣BIOS 要設定IP、使用者【User】、密碼【Password】
➣中間防火牆要開 UDP 623 Port
PDU電力排插
電力排插(PDU)是在機櫃中常見的智慧型電力排插是網路管理的功能在機櫃中常見的資訊設備,
可經由SNMP協定(Protocol)取得電力使用狀態底統計分析電力使用 。
➣設備IP清單
➣硬體廠牌
➣專屬管理網段
➣需要網路配線
➣專屬交換器【Switch】
➣中間防火牆要開 UDP 623 Port
拹助環境監控
拹助環境監控主要是配合原環控系統進行整合使用,包含了圖控,告警通報等項目
由於原環控系統對於整合能力有所不同,故採用的整合方式依其能力而不同。
➣原環控系統有能力送出狀態數據
可使用【伺服主機-事件警報】、【伺服主機-事件數據】整合其數據與訊息。
整合至Watchdog系統圖形監控、告警通報等各項功能。
➣原環控系統無法送出狀態數據
可使用【畫面快照】方式將其監控畫面定時複製存檔,整合至Watchdog系統圖形監控內。
➣原環控系統無法再擴充增加溫度與濕度感測器:
可使用Watchdog系統之【類比輸入 AI-溫度與濕度】或數位輸入輸出【DI, DO】偵測系統彌補其設備不足之狀況。
緊急關機-第二階段
緊急關機的第二階段是使用【實體按鍵】與【一鍵關機】來進入行緊急關機的執行方法。
緊急關機通常是用於特殊狀態之緊急狀況(如: 市電停電,發電機無法立即接手,UPS電力不足,火警),
如果無法使用【實體按鍵】也可用【虛擬按鍵】執行【一鍵關機】的功能。
使用【實體按鍵】與【一鍵關機】的好處:
➣在緊急狀態任何值班人員經由電話授權即可立即執行,無權限,無專業之問題
➣在時間有限的情況下,不需登入,密碼即可執行
➣按原設定之標準程序進行關機
➣關機速度快速(同步發出指令)
➣機房發生火警,人員無法進入操作,可在外部操作
➣實體裝置容易操作、展示、使用
要準備的事項如下:
➣小型 PCL
➣按鍵模組
➣音效廣播
➣警告燈具
➣關機清單可分為 A級, B級, C級,依C->B->A順序關機
➣標準執行程序
網路攝影機
使用網路攝影機主要是用於【快照記錄】,適用於電腦機房進出記錄或特殊重要地點,
使用照片記錄可輔助原有登記,刷卡門禁更為清礎,快照】的好處是 檔案空間使用量少,追查記錄容易。
要準備的事項如下:
➣網路攝影機有CGI功能
➣設備IP清單
➣硬體廠牌
➣感應器【如:紅外線感應器, 磁簧開關】
➣小型 PCL
➣照明燈具
自動化IT維運系統後特別注意事項
當企業踏入自動化維運的旅程後,勢必會遇到一系列的挑戰與需求調整。
為了幫助企業順利過渡,並最大化自動化系統的效益,
以下列出了在建置與運用自動化IT維運系統後應特別注意的事項:
網路設備
➣注意連接埠是否有高流量集中的情況
➣確認VM主機是否集中於單一連接埠
➣檢查連接埠是否有降速現象
➣評估Load Balancer的架構是否有過度集中於特定伺服器的問題
伺服主機系統
➣確保伺服主機系統時間的準確性
➣進行作業系統與應用系統的優化調整
➣優化儲存系統的儲存空間配置
➣每月進行伺服器異常告警排名,優先解決問題
VM伺服器(VMWare)
➣監控CPU與Memory資源的分配使用狀態
➣檢查Guest主機資源分配與效能狀態
➣確認VMware Guest主機VMtools的安裝狀態與PowerOff/On狀態
數據與訊息外送整合
➣利用Watchdog系統收集的數據與訊息外送至其他系統進行資料整合
➣整合至維運管理平台、推播系統或其他系統整合主機
管理與制度建立
➣建立重新開機的機制
➣安排即時監控螢幕畫面
➣依照系統負責人監看伺服器
➣建立即時監控的事件處理流程
➣設立客服中心事件處理流程
架設反向監控系統
➣在每一據點建立網路反向偵測點,指向使用者必用之各伺服器
隨時收集使用者端往伺服器端的網路品質數據
自動化IT維運系統後的維運績效(KPI)
在建置自動化IT維運系統後,為了有效監控和評估系統性能與狀態,可依據下列維運績效指標(KPI)進行資料分析與統計:
伺服主機
➣全部主機總數
➣正常主機總數
➣異常主機總數
➣暫停主機總數
➣維修主機總數
➣失聯主機總數
➣CPU 使用率大於90%主機總數
➣Memory使用率大於90%主機總數
➣虛擬記憶體(SWAP)使用率大於90%主機總數
➣A級主機總數 / B級主機總數 / C級主機總數
虛擬主機(VMHost)
➣全部主機總數
➣正常主機總數
➣異常主機總數
➣暫停主機總數
封包測試
➣全部總數
➣正常總數
➣異常總數
➣Loss大於50%總數
➣回應時間1ms內總數 - 很好
➣回應時間5ms內總數 - 不錯
➣回應時間10ms內總數 - 普通
➣回應時間50ms內總數 - 差
➣ 回應時間100ms內總數 - 很差
IP通信埠
➣全部總數
➣正常總數
➣異常總數
網站偵測
➣全部總數
➣正常總數
➣異常總數
針對這些WATCHDOG的偵測項目查看,這些指標對於評估和改進IT維運系統的效率、可靠性和性能至關重要,
可以幫助維運團隊及時發現問題、優化資源分配並提高系統穩定性。