如何透過技術進步實現資訊設備的自動化監控和管理

資訊維運3.0—資訊維運困難開始

在資訊維運3.0的背景下,面臨的一大挑戰是如何實現全面自動化監控。
考慮到每個擁有100台伺服器規模的資訊中心,其相關的資訊檢測點(node)大約有200,000個, 如果每3到10分鐘進行一次檢測,以5分鐘計算,每天的檢測次數將高達57,600,000次。 這樣龐大的檢測量使得人工監控變得不切實際, 只能依賴於使用者或客戶的反饋來發現問題,這在解決問題時造成了巨大的時間壓力。

這特別是在政府部門的委外維護案例中,由於預算和競爭的限制,得標的系統整合商(SI公司)能夠提供的工程師人數和能力有限, 工程師的資歷與專業通常是無法預先防止狀況發生,僅能處理基礎的安裝設定工作,對於進階的除錯與追蹤(Debug)幾乎無能為力。

因此,資訊維運3.0時代的核心,在於如何透過技術進步實現資訊設備的自動化監控和管理,從而有效應對設備數量激增和維運難度提升的挑戰,確保服務品質和系統穩定性。

資訊維運3.0是自動化IT維運的時代—WATCHDOG的設計理念
在資訊維運3.0時代,隨著技術的進步和需求的增加,我們正式進入了自動化IT維運的新紀元。
這一時期,網際網路的普及和網路寬頻的提升,使得各種資訊服務和伺服器應用 (包括應用伺服器、網站伺服器、服務伺服器及資料庫等)快速增加,網路設備的類型也日益豐富,網速更是從10Mb飛躍至10Gb時代。

資訊戰情中心 這一切的發展,使得資訊設備的數量從幾十台急劇增加到數百甚至數千台,給資訊維運帶來了前所未有的挑戰。
為了應對這些挑戰,建立一套自動化IT維運系統變得極其關鍵。自動化IT維運的基本條件包括但不限於:

【盡可能完整的收集各類型資訊設備的狀態資料】
【廣泛的納入偵測目標與檢測項目】
【依應用特性定義所有偵測目標的異常臨界點】
【建立嚴緊的告警流程與多元化通報的機制】
【重復性的工作盡量自動化】
【依照自動化維運機制建立維運標準規範】
【從資訊中心常見與重要的資訊設備開始】


透過這些基本條件的實施,資訊維運3.0時代的企業能夠在面對複雜多變的IT環境時, 保持靈活和高效,確保服務的持續性和可靠性。這不僅是對技術的挑戰, 也是對創新思維和團隊協作能力的考驗。在自動化IT維運的支持下,企業能更好地應對快速變化的市場需求,實現資訊技術與業務目標的完美對接。



前導閱讀—資訊維運1.0-3.0

盡可能完整的收集各類型資訊設備的狀態資料


自動化IT維運的首要工作是要盡量完整取得各類型資訊設備的狀態與大數據資料,完整資料收集對於整體性的IT維運系統是非常重要。

透過多元化的通信與資料協定採用主動或被動的方式取得相關的數據或狀態字串資料,如: 代理程式(Agent)、命令行界面(CLI)、簡單網路管理協議(SNMP)、網絡流量分析(NetFlow、Sflow)等 並將所有資訊整合關聯化,經由分析、統計、比對、歸類與串聯,同時分即時、短期、中長期與長期記錄。

一台擁有48個端口的交換機(Switch), 其背後大約有50,000個數據點需要被細致分析和演算,如果針對該設備有充足的數據與細膩的設計, 就能從各項關聯數據資料中就能找出可能的問題以及解決的方案。 其中很重要確實常被忽略的一點是, 自動化IT維運系統必須具備高度的客製化能力

舉例來說, 當企業承租GSN網路,其寬頻往往並不會與交換機的每個端口速度完全匹配。
這種情況下,如果無法自定義端口速度,則在計算流量率時可能會出現不對稱的使用比, 進而容易導致維運人員在評估網絡狀態時產生直覺上的誤判。透過允許自定義端口速度, 維運系統能夠根據實際網絡條件調整參數,從而提供更為精確的數據分析和預測。

Switch圖控
廣泛的納入偵測目標與檢測項目


資訊中心內的資訊設備或屬外站的資訊設備、無論是伺服主機、網路設備、作業系統、應用系統或電力系統都有緊密的關聯。 每樣設備都有可能發生異常狀況,若能隨時預期檢測設備與連線或系統程式執行, 在事件尚未嚴重時,提出告警或由資訊戰情中心即時監控顯示,即能立即處置。 一套完整的監控系統,不能單單僅有監控基本的「資源使用」狀態, 僅收集CPU使用率、記憶體使用量、網路流量等簡易的效能資訊而已,必須含蓋更多層面的資訊狀態。
例如:

伺服器的磁碟陣列(RAID)
伺服器主機板、CPU的溫度、風扇轉速
系統或應用程式執行狀態(如:工作管理員中的處理程序)
交換器(Switch)的VLAN分佈圖與每一個埠的速度檢查是否因線路接觸不良或網卡故障而降速
網站中的網頁下載檢測
虛擬主機VMware之VMHost、VMGuest資源配置與整合關聯
使用者端或外站的網路反向檢測
儲存系統(storage)、電力排插PDU、UPS、系統日誌(syslog)等裝置

尤其是在作業系統下的各種服務應用系統包含了處理程序、檔案、連線數量、程式比對 硬碟使用(Filesystem)、應用程式異常介接等功能


伺服器偵測項目
依應用特性定義所有偵測目標的異常臨界點


定義偵測目標的異常臨界點是資訊維運中一項至關重要的工作。
此過程涉及設定資訊設備在運作中可能影響系統性能、流量、連線、執行或引起故障的各種因素的警戒值。
這包括為效能、流量、連線狀態、程序運行和系統故障等設定最高和最低觸發點或特定的訊息字串。
當數值超過或達到這些臨界點時,系統將自動發出警報或採取預定的處置行動。
重要的是,這些臨界點值需要根據設備、系統、應用的不同特性進行調整,以避免誤判。
必須要讓每一個最小的檢測目標都能獨立設定自己的告警臨界點與通報名單,確保維運管理的精準性和靈活性。

建立嚴緊的告警流程與多元化通報的機制


當有異常狀況時無法即時通知系統負責人或維運工程師即時處理而錯失, 但如果告警機制不夠嚴緊將會造成對於告警事件的忽視與恐懼, 最後將關閉告警功能 ,實務上,這是一個常見的現象,因此設計系統時的告警系統機制必須要有下列條件:

針對最小偵測項目:
允許每一個檢測目標設置其特定的告警閾值以及包括重試次數和延遲時間的設定, 並根據不同時段調整告警標準,以適應各種運營環境。以確保精準監控。

多元化通報方式:
根據不同的監控目標、設備類型或組織結構設置多樣化的通報渠道,從而確保關鍵人員能及時收到告警。
以WATCHDOG系統為例,如:依偵測目標(如:某台伺服器的CPU)、 依主體設備(如:伺服器,Switch)、依通報群組、 依特定功能群組、整體名單、必要名單、經由介接系統整合EIP訊息推播系統

觸發控制命令:
在特定警報觸發後,系統可以自動或手動執行預設的控制命令, 如讓200台主機依正常程序關機或經由IPMI、ILO、IMM將主機電源開啟或執行Switch CLI 等各項工作。

重復性的工作盡量自動化


為了提升資訊維運的效率,自動化重復性的工作變得尤為重要。這不僅節省了系統維護人員大量的時間, 也使他們能將精力集中在更需專業判斷和經驗處理的問題上。例行性工作, 如網路連線品質測試、備份交換器設定檔、定期檢查伺服主機的效能與資源使用、 以及製作資訊維運管理的事件報表等,都可通過自動化流程來執行,從而提高整體的運維效能與可靠性。

依照自動化維運機制建立維運標準規範


自動化維運機制的維運標準規範可能會與人工化的制度規範不太相同, 人工化的制度規範因為無法建立預警系統,告警機制,即時資訊與資訊維運戰情中心等各類型的數據分析,與即時展現,
所以大部份都採用人工批次方式的日、週、月例行抽檢狀態報表或由使用者回應的事件處理回報記錄 或使用事件日誌(Syslog,Event Log)記錄追查,當然無法滿足即時化與預警的需求, 雖然維運規範必須配合【使用單位】需求來建立,但自動化的維運機制亦必須要有其基本建置與規範,
如:

完整的基礎建設:
從資訊設備的屬性與設備專業做分類,讓資訊設備全面納入自動化監控

充份了解資訊設備的資源:
從自動化資訊收集中了解資訊設備之配備,效能與資源,做全面性健康檢查,對於效能較差之設備提出解決方案

預警建立與告警處置流程:
1.依資訊設備的特性、資源與健康狀況、修改特殊檢測目標的異常臨界點
2.設置維運人員與系統負責人的告警處置機制

即時資訊戰情中心儀表板:
全面掌控系統資訊,讓整個資訊環境無法隱藏潛在危機,使得系統狀態透明化,讓異常狀況發生時能即時處理

進階除錯與追蹤(Debug):
整合關聯性設備,利用即時、短期、長期資訊做深層分析

建立不停頓的系統人員的交接模式:
自動化維運模式與完整的基礎建置,詳細的建立設備說明資訊

建立緊急事件理機制:
市電臨時停電,而發電機未能即時啟動的狀況下,如何能讓各種伺服器的作業系統(OS)應用系統能用正常程序快速緊急關機等問題, 因此延伸出WATCHDOG系統的設計功能【一鍵關機】,來建立緊急事件對應方式

先從資訊中心常見的資訊設備開始


將資訊中心90%的設備及其模擬使用情況整合進自動化監控系統中,即標誌著自動化資訊維運基礎架構的建立。 這一步驟對於確保資訊系統的穩定性和效率至關重要, 它使得即時偵測與處理潛在問題成為可能,從而顯著提升了整體維運的自動化程度和效能。

以下為整理歸納應當納入監控的偵測項目,如基礎資訊設備以及網路連線測試:

伺服主機
實體主機、虛擬主機
(VMware、 Microsoft Hyper-V、Linux KVM等)
主機硬體(RAID、CPU溫度、風扇等)
應用系統、作業系統(IBM AIX、UNIX、Linux、Microsoft Server等)
網路連線
封包測試(loss與回應時間)
網路服務程式
(Socket service、服務埠啟用或停止)
網站網頁
(DNS解析、網站存活、網頁回應)
網路設備
交換器(Core、L2、L3 Switch)
防火牆(Firewall、UTM)
負載平衡器(Load Balance)
路由器(Router)
電力設備/儲存設備
不斷電系統(UPS)
電力排插(PDU)
NFS、SMB類
NAS、SAN
從資訊設備的屬性與專業做分類

WATCHDOG的設計精心針對資訊設備的多個層面,從主機硬體層的BIOS控制,到作業系統層的主機效能和虛擬主機監控, 以及網路連線層的存活與忙碌指標偵測,提供全方位的監測功能。
這些偵測層面的細緻劃分,讓WATCHDOG能夠精確識別和回應各種潛在的系統問題,保障資訊系統的穩定運行。

主機硬體層
BIOS控制層
資訊安全層
潛在危機
網路連線層
存活指標
忙碌指標
品質檢測
網路監控層
網路設備
網路連線
網路安全
作業系統層
主機效能
虛擬主機

應用系統層
啟用執行
輔助監測
訊息溝通
進階使用
輔助監控層

應用系統整合
特定資訊
轉送機制
緊急處置
機房安全
系統日誌
輔助監控