在設計WATCHDOGD系統時的圖形化介面時,
我們考量到使用視覺化圖形監控對於資訊維運監控系統是一項非常重要的監控型態。
必須考慮親和性,專業性要盡量做到無論懂或不懂,都能一目了然,
也要能符合專業工程師的進階除錯與追蹤【Debug】的功能需求,
整合整體資訊設備的資訊關聯是基本條件。
WATCHDOG系統 - 圖形化監控可依用途來分類:
➢ 即時資訊戰情中心監控圖
➢ 各監控類別即時狀態圖
➢ 流量分析圖
➢ 效能分析圖
➢ 數據分析圖
➢ 圓形比率分析圖
➢ 排名統計分析圖
➢ 警報分析圖
➢ 長期資料清單
➢ 排名分析圖
➢ 文字型態清單明細圖
以下將介紹Watchdog系統內,多元化圖形化介面的實踐應用,涵蓋中控中心、告警中心至各類偵測畫面等關鍵介面。
WATCHDOG 系統 - 資訊維運中心主頁
維運中心首頁設計為一站式總覽平台,旨在提供全面的系統狀態摘要,
包括總偵測項目數、當前警報事件數量,以及多維度的統計分析圖表。
此外,平台亦整合了指向各偵測設備的快速連結,
使得使用者能夠便捷地進行深入檢視或管理,確保即時的系統監控與數據分析能力。
伺服主機-告警排名分析圖-最近三個月前10名伺服器
專門針對各個IP地址下的伺服主機,在過去三個月內觸發的警報數量進行排名與比較分析。
此外,系統亦提供全年度的告警數據分析圖,以支持長期趨勢的監控和評估,進而優化伺服器運維策略。
告警中心
專為即時警報監控與管理而設計,提供使用者一個集中化的視圖,以監控並追蹤已觸發的警報事件。
此介面支援直接連結至相關設備的偵測位置,並允許查閱設備的備忘資料及警報事件的詳細資訊,
包括發生時間、觸發原因等關鍵數據,以促進高效的故障診斷與決策制定。
監控類別(大項)
每一個圖形代表一項獨立的監控指標,透過色彩編碼展現系統健康狀態。
當監控項目下的所有子項目運作正常時,系統界面上將顯示綠色指示燈,象徵該項目穩定;
反之,若任何子項目觸發警報,則該監控項目立即轉變為紅色指示燈,即時警示管理者注意潛在問題。
伺服主機 - 總體
在伺服主機的首頁監控介面中,根據監控需求的不同,展示資訊可細分為小圖、中圖與大圖三種尺寸類型。特別是在大圖模式下,
每台主機能夠展示約30種不同的狀態資訊。
VMHost - 虛擬主機
針對VMHost(ESXi)虛擬主機環境,其監控介面可被獨立展示,專門用於深入監控和分析。
此偵測頁面涵蓋了虛擬客戶機(Guest主機)清單及其資源分配狀況在內的關鍵監控等資訊。
伺服主機 - 偵測項目
伺服主機監控架構細分為三大層次,旨在提供全面性的偵測與監控範疇。
➢硬體層:硬體指標與管理接口,如IPMI和ILO技術,以及磁碟陣列狀態以及溫度、電力以及風扇等。
➢作業系統層:系統核心資源的監控,包括CPU使用率、記憶體配置等。
➢應用系統層:著眼於應用程序的運行狀況、事件警報和數據收集,支援對高層次應用性能的監控與分析。
網路設備
包括交換器(Switch)、防火牆(Firewall)、以及負載平衡器(Load Balancer)。
透過圖形化界面,管理者能夠實時監控連線狀態及獲取豐富的資訊。
此方案特別強調對交換器的監控,
提供如Switch拓撲圖、流量負載比例、以及Core Switch拓撲圖等視覺化工具,以便於網絡狀態的全面評估和管理。
對於交換器的全面監控,系統支援展示包括VLAN分布圖、交換器連接埠速度分佈圖、以及Port狀態圖等關鍵指標。
若該台Switch的SNMP有包含電壓、風扇、溫度等資訊,也會一併展示出來。
主機硬體 - IPMI
涵蓋溫度感測器、風扇轉速、電壓與電流監測,以及電源供應狀態等多項關鍵監控指標。
包括HP的iLO(Integrated Lights-Out)、IBM的IMM(Integrated Management Module)以及
Dell的iDRAC(Integrated Dell Remote Access Controller)。
透過將IPMI納入監控,管理者除了能夠即時偵測並處理如硬體方面故障導致的問題,
也能透過IPMI,在WATCHDOG系統上對伺服主機下達開/關機命令,更進一步可以利用【命令閘道】功能搭配IPMI,
實施對上百台主機的【一鍵關機】。
封包測試
封包測試主要用於測量網絡連接的可靠性和效率。
此方法重點關注兩個核心指標:
➢封包漏失百分比(loss)
➢封包回應時間(time)
自動化【系統管理員進行的常規ping操作】的過程
(即發送封包以測試網絡設備的回應),轉化為定期自動檢測。
進一步,透過網絡路徑追蹤技術,封包測試能夠精確定位網絡連接中的故障點,從而促進快速且有效的問題解決,確保網絡的穩定運行。
IP通信埠
針對有網路服務能力的設備定時進行Socket連線監測,
以確認主機的網路服務程式或連線是否中斷,
並檢測等待連線的服務是否為非法的Listening狀態。
網站偵測
網站偵測利用定時取樣,每個網站以至多取10個網頁的抽樣方式蒐集資料,
確定網路連線的每個節點(node)皆為通暢,以確保網站正常運行,
同時檢測網路連線與DNS解析,WEB Server服務狀態如:Apachem與IIS,中介程式如Java AP
後台資料庫連線或系統是否正常,取得網頁花費的時間與比對網頁內文確保網頁沒有被竄改。
不斷電系統 - UPS
【電力設備-UPS】是拹助電腦機房環境監控輔助監測功能之一,
在維持資訊中心不斷電系統(UPS)扮演了不可或缺的角色。
Watchdog資訊維運監控系統不僅聚焦於資訊設備的日常監控,
同時亦著重於環境監控項目中的電力設備, 以確保整體運營的無間斷與效能最優化。
網路佈線
網路佈線圖顯示兩個網路設備間經過的所有節點(node),利用ping指令逐一測試網路佈線圖尚未排除的節點,
便能找出有問題的網路設備。
溫度/濕度感測器
在Watchdog資訊維運監控系統中,溫度與濕度感測器的輔助監控功能雖然不是主要的監控項目,
但Watchdog仍然提供相對應的輔助監控。
其他還包含以下項目,可點擊各類偵測功能項目做更詳細的查閱。