在當今快速變化的科技環境中,自動化IT資訊維運系統的佈署已成為企業維持競爭力的關鍵策略。
這章將探討如何有效自動化維運系統,確保IT資訊機房的管理能夠正確且迅速地提供終端使用者所需的資訊服務。
從監控設備的細節規範到跨部門協作的除錯追蹤,從統一的管理制度到技術的簡化運用,本文將一一剖析自動化維運系統的重要觀念與實施細節。
我們將進一步定義「存活指標」的概念,探討資訊收集的策略,並討論建立嚴密的異常事件告警機制,以及如何通過整合性關聯資訊來提升維運效率。
重要的觀念
➣要認知IT資訊機房維運管理最大的原則是正確而快速的提供終端使用者資訊服務。
➣依設備用途與特性監測的細項規範與細部資訊佈署。
➣尋找服務目地的存活指標。
➣廣泛的納入任何有危險因素系統運行項目。
➣嚴緊的異常事件告警機制。
➣戰情中心概念的即時資訊。
➣整合設備與系統關聯性資料與架構。
➣跨越部門或設備的除錯追蹤(Debug)機制。
➣統合一貫的管理制度與標準程序。
➣讓操作維運系統是一項科技簡單化的運用。
➣拹助接管的資訊管理人員快速掌控設備之設定與應用狀況。
➣拹助資訊管理人員專業養成教育。
➣建立自動化維運的標準流程,降低系統人員異動的衝擊力。
➣伺服器與作業系統是應用系統的寄宿的殼與生活環境,每一台伺服主機都有其主要的應用目地,了解其主要應用目地才能知道此台伺服主機的監控重點。
➣一台伺服主機的運行不是光從主機效能(一台CPU使用率10%,另一台CPU使用率90%)就能得知其有無問題。
➣每一個資訊設備的啟用都有其主要用途之項目,為【服務目地】的重要存活指標。
➣當設備的【服務目地】功能喪失後,此設備等於沒有用途 如: 伺服器存活指標。
➣建立一套伺服主機一定有一項以上的重要【服務目地】與【服務目地】的相關系統。
➣例一: DNS 伺服器但DNS Service未啟動、53port不通 -> DNS伺服器失效。
➣例二: 網站伺服系統的主要【存活指標】包括WEB Service(Apach、IIS)、Java中介軟體、資料庫應用系統、DNS伺服器。
➣當伺服器 【服務目地】的重要存活指標出問題時,縱然此台伺服主機的其他效能都很健康,但也沒用(如:CPU、Memory、硬碟空間、網路很快)。
➣當然除了主要功能存活指標還有其他運行指標,包括系統效能運作指標、重要程式指標、硬體運作指標。
產生與收集大量的資訊資料是件容易的功能,但這些資料大部份僅會提供事後搜尋與追查訊息的功能,
並不是可以收集到大量的資料就是了解系統是處於正常或異常的狀態。
更會導至系統人員花費大量的時間來研判解讀資料內容的涵意。
資訊收集的主要目的包括:
➣掌控資訊設備運行或設定的透明度
➣做為異常判定與告警依據的數據或行為
➣做為機器擴充或更新的數據參考值
➣即時資料 - 即時資訊之戰情中心,立即處置
➣ 短期資料 - 拹助效能與狀態比對之判斷,使用時間點做為進階除錯追蹤(Debug)
➣長期資料 - 進階除錯追蹤(Debug)與大數據分析。
定義資訊收集的堅難度包括:
➣單一設備的資訊收集-比較簡單
僅使用一行(60字)的SNMP指令可取的1,000以上的資訊
➣整合性關聯資訊收集-比較困難
整合不同設備的關聯性與依賴性,串聯可能相關的資訊項目,
依據使用者習慣分類統計適當的資訊值,如:看伺服器資訊時,
也同時知道此伺服器接在那一台Switch的連接埠上,此連接埠上的流量,速度等各項資料,
設備的存放位置地圖與照片一併出現,如:Switch
每埠的流量比Switch埠的流量。
➣單值的異常告警定義-比較簡單
僅依監測系統單一的取得值,如:
CPU負載上限80%發出警報,但此伺服器CPU負載每5分鐘會有一次持續2秒81%,
如此告警訊息會產生每5分鐘發出一次或每晚10點-11點做備份CPU負載90%。
➣多重定義的異常告警定義-比較困難
如上列定義(A)CPU負載上限80%+(B)連續3次+(C)每次間隔每5分鐘。
A+B+C同時成立才發出告警訊息。
定義每晚10點-11點不發出告警訊息。
每台系統設備每年才會發生一次嚴重事件,看起來是很少的偶發事件,但如有300台以上的設備,那等於每天都有嚴重事件發生。建立自動化IT維運系統不能因為是偶發事件,而不納入監控。
舉個實例:
使用者索取較大量資料時發覺速度很慢,系統人員開始追查:
1. 使用者電腦CPU,Memory,網路卡,硬碟I/O,防火牆,軟體系統,看起來都沒問題。
2. 資料庫伺服器CPU,Memory,網路卡,硬碟I/O,防火牆,軟體系統,看起來都沒問題。
3. 網路連線與ping回應都正常。
4. 請網管幫忙看Switch設定,網管回應也正常。
5. 請資料庫軟體廠商來檢查也很正常。
花了一整天時間,跨越了不同系統領域或部門,結果都是正常,僅能請使用者再試試。
有一天突然找到問題點了,原來是網路佈線盤面板(Panel)轉接點接觸不良,造成網路經常自動降速,而小量資料無感,而大資料量時使用者就很有感覺。
唯有全面性的監控才能跨越專業領域或部門,進行橫向關聯資訊整合,才能有效的追蹤問題,不讓不同部門或廠商發生互推的狀況。例如:應用組認為是網路的問題。
在探討自動化IT資訊維運系統的要領中,我們了解了如何通過精確且迅速的資訊服務支持,監測設備用途與特性,確立存活指標,
以及如何整合和跨越部門進行除錯追蹤的重要性。
透過定義「存活指標」,探討資訊收集的策略與挑戰,
以及建立有效的異常告警機制,本文案強調了全面性監控的必要性,以及如何有效地追蹤和解決問題,
避免部門間的責任的釐清。
自動化維運系統的建立不僅提高了系統的可靠性和效率,還能在面對日益增長的設備數量和復雜性時,
確保企業能夠持續提供高質量的服務。
透過此章節的探討,我們得以認識到,
只有透過持續的技術創新和策略實施,企業才能在快速變化的科技環境中維持其競爭力。