打造資訊維運中心,首頁設計為一站式總覽平台,提供全面的系統狀態摘要

WATCHDOG系統 - 圖形化監控介面

在設計WATCHDOGD系統時的圖形化介面時,
我們考量到使用視覺化圖形監控對於資訊維運監控系統是一項非常重要的監控型態。
必須考慮親和性,專業性要盡量做到無論懂或不懂,都能一目了然,
也要能符合專業工程師的進階除錯與追蹤【Debug】的功能需求,
整合整體資訊設備的資訊關聯是基本條件。

WATCHDOG系統 - 圖形化監控可依用途來分類:
➢ 即時資訊戰情中心監控圖
➢ 各監控類別即時狀態圖
➢ 流量分析圖
➢ 效能分析圖
➢ 數據分析圖
➢ 圓形比率分析圖
➢ 排名統計分析圖
➢ 警報分析圖
➢ 長期資料清單
➢ 排名分析圖
➢ 文字型態清單明細圖

以下將介紹Watchdog系統內,多元化圖形化介面的實踐應用,涵蓋中控中心、告警中心至各類偵測畫面等關鍵介面。

WATCHDOG 系統 - 資訊維運中心主頁
維運中心首頁設計為一站式總覽平台,旨在提供全面的系統狀態摘要,
包括總偵測項目數、當前警報事件數量,以及多維度的統計分析圖表。
此外,平台亦整合了指向各偵測設備的快速連結,
使得使用者能夠便捷地進行深入檢視或管理,確保即時的系統監控與數據分析能力。

資訊維運戰情中心

伺服主機-告警排名分析圖-最近三個月前10名伺服器
專門針對各個IP地址下的伺服主機,在過去三個月內觸發的警報數量進行排名與比較分析。
此外,系統亦提供全年度的告警數據分析圖,以支持長期趨勢的監控和評估,進而優化伺服器運維策略。

伺服主機監控偵測

告警中心
專為即時警報監控與管理而設計,提供使用者一個集中化的視圖,以監控並追蹤已觸發的警報事件。
此介面支援直接連結至相關設備的偵測位置,並允許查閱設備的備忘資料及警報事件的詳細資訊,
包括發生時間、觸發原因等關鍵數據,以促進高效的故障診斷與決策制定。

資訊維運告警中心

監控類別(大項)
每一個圖形代表一項獨立的監控指標,透過色彩編碼展現系統健康狀態。
當監控項目下的所有子項目運作正常時,系統界面上將顯示綠色指示燈,象徵該項目穩定;
反之,若任何子項目觸發警報,則該監控項目立即轉變為紅色指示燈,即時警示管理者注意潛在問題。

資訊設備監控類別

伺服主機 - 總體
在伺服主機的首頁監控介面中,根據監控需求的不同,展示資訊可細分為小圖、中圖與大圖三種尺寸類型。特別是在大圖模式下, 每台主機能夠展示約30種不同的狀態資訊。

伺服主機監控項目
伺服主機偵測項目

VMHost - 虛擬主機
針對VMHost(ESXi)虛擬主機環境,其監控介面可被獨立展示,專門用於深入監控和分析。 此偵測頁面涵蓋了虛擬客戶機(Guest主機)清單及其資源分配狀況在內的關鍵監控等資訊。

虛擬主機偵測項目
VMware偵測
ESXI主機偵測

伺服主機 - 偵測項目
伺服主機監控架構細分為三大層次,旨在提供全面性的偵測與監控範疇。
➢硬體層:硬體指標與管理接口,如IPMI和ILO技術,以及磁碟陣列狀態以及溫度、電力以及風扇等。
➢作業系統層:系統核心資源的監控,包括CPU使用率、記憶體配置等。
➢應用系統層:著眼於應用程序的運行狀況、事件警報和數據收集,支援對高層次應用性能的監控與分析。

伺服主機-狀態偵測

網路設備
包括交換器(Switch)、防火牆(Firewall)、以及負載平衡器(Load Balancer)。
透過圖形化界面,管理者能夠實時監控連線狀態及獲取豐富的資訊。
此方案特別強調對交換器的監控,
提供如Switch拓撲圖、流量負載比例、以及Core Switch拓撲圖等視覺化工具,以便於網絡狀態的全面評估和管理。

網路設備監控
網路設備拓樸圖
對於交換器的全面監控,系統支援展示包括VLAN分布圖、交換器連接埠速度分佈圖、以及Port狀態圖等關鍵指標。

switch 交換器監控
交換器監控
switch監控
若該台Switch的SNMP有包含電壓、風扇、溫度等資訊,也會一併展示出來。

資訊設備-交換器監控

主機硬體 - IPMI
涵蓋溫度感測器、風扇轉速、電壓與電流監測,以及電源供應狀態等多項關鍵監控指標。
包括HP的iLO(Integrated Lights-Out)、IBM的IMM(Integrated Management Module)以及 Dell的iDRAC(Integrated Dell Remote Access Controller)。
透過將IPMI納入監控,管理者除了能夠即時偵測並處理如硬體方面故障導致的問題,
也能透過IPMI,在WATCHDOG系統上對伺服主機下達開/關機命令,更進一步可以利用【命令閘道】功能搭配IPMI,
實施對上百台主機的【一鍵關機】。

IPMI監控

封包測試
封包測試主要用於測量網絡連接的可靠性和效率。
此方法重點關注兩個核心指標:
➢封包漏失百分比(loss)
➢封包回應時間(time)

自動化【系統管理員進行的常規ping操作】的過程 (即發送封包以測試網絡設備的回應),轉化為定期自動檢測。
進一步,透過網絡路徑追蹤技術,封包測試能夠精確定位網絡連接中的故障點,從而促進快速且有效的問題解決,確保網絡的穩定運行。

檢測網路設備存活/連線狀態

IP通信埠
針對有網路服務能力的設備定時進行Socket連線監測, 以確認主機的網路服務程式或連線是否中斷, 並檢測等待連線的服務是否為非法的Listening狀態。

檢測網路服務socket port存活狀態

網站偵測
網站偵測利用定時取樣,每個網站以至多取10個網頁的抽樣方式蒐集資料,
確定網路連線的每個節點(node)皆為通暢,以確保網站正常運行,
同時檢測網路連線與DNS解析,WEB Server服務狀態如:Apachem與IIS,中介程式如Java AP 後台資料庫連線或系統是否正常,取得網頁花費的時間與比對網頁內文確保網頁沒有被竄改。

檢測網站存活狀態/竄改與否

不斷電系統 - UPS
【電力設備-UPS】是拹助電腦機房環境監控輔助監測功能之一, 在維持資訊中心不斷電系統(UPS)扮演了不可或缺的角色。 Watchdog資訊維運監控系統不僅聚焦於資訊設備的日常監控, 同時亦著重於環境監控項目中的電力設備, 以確保整體運營的無間斷與效能最優化。

UPS監控狀態

網路佈線
網路佈線圖顯示兩個網路設備間經過的所有節點(node),利用ping指令逐一測試網路佈線圖尚未排除的節點, 便能找出有問題的網路設備。

檢測網路設備間經過的所有節點(node)

溫度/濕度感測器

在Watchdog資訊維運監控系統中,溫度與濕度感測器的輔助監控功能雖然不是主要的監控項目, 但Watchdog仍然提供相對應的輔助監控。

檢測溫濕度

其他還包含以下項目,可點擊各類偵測功能項目做更詳細的查閱。

➢定時檔案監控伺服主機的基礎運行系統或應用程式的存活標記 ➢警報閘道讓各專案的應用程式整合入監控系統,當應用程式的告警交由監控中心發佈 ➢IP與MAC綁定IP與MAC,並定時比對,降低IP衝突的危機,非法私接設備 ➢命令閘道經由警報機制連動命令或直接對資訊設備下達執行命令 ➢事件數據將其他應用程式整合入監控系統,讓應用程式將數據資料交由Watchdog系統來統計分析與發佈警報 ➢連線測速定時檢測二台主機間的網路傳送速度 ➢郵件轉送整合其他設備的警示訊息,利用郵件方式拹助其他設備處理告警事件 ➢網路流量-ARP即時掌控內網中ARP流動數量即時讓系統人員更能了解網路中的ARP流動量是否正常 ➢簡易網管-SNMP指定設備特定的MIB與OID定時取得文字或數據資料,依據警報條件值判斷為正常或異常 ➢簡易網管-SNMPtrap整合其他設備的警示訊息,當資訊設備有能力因設備,故障或特定訊息而發出SNMP TRAP訊息 ➢系統日誌-Syslog即時收集系統日誌或事件日誌,應付準則,利用等級分類或訊息內容篩檢而發出警報,事後追查問題 ➢數位輸入與數位輸出數位輸入/輸入在資訊中心的應用(如:緊急關機,一鍵關機) ➢緊急關機經由命令閘道設定的預先命令,可同時關閉上百台伺服主機 ➢網路流量NetFlow/sFlow即時掌控網路資料流向,提供詳細資訊,包含網路拹定的各種重要資訊