隨著技術的進步和業務需求的增長,選擇一套合適的維運監控系統變得日益重要。
這不僅僅是關於監控硬體設備或軟體應用的運行狀況,更是一個全面性的策略,涉及資料的即時分析、安全性的保障、以及業務連續性的維護。
因此,當企業在選擇IT維運監控系統時,必須考慮一系列的條件和能力,以確保系統不僅能滿足當前的需求,也能夠靈活應對未來的挑戰。
以下為選擇IT維運的監控系統需要考慮的條件
➣資訊機房內的設備類別可掌控的監控能力度(越多越可關聯整合)
➣受監控的設備與其項目是否能全面化深入資訊設備的各種功能結構
➣取得資訊資料的方法,深度與分析能力,各系統模擬檢測的機制
➣不同平台系統之伺服器詳細資訊(主機硬體,作業系統,應用系統,網路連線,資訊安全) 等類
➣網路設備的深度詳細資訊(如:追蹤IP在各Switch的串接進出埠的關連)
➣各類資訊的即時關聯資訊(如:主機與Switch的連接埠關係)
➣整合各種應用系統的能力與統一控管方式
➣資料保存與應用是否可分為即時資訊,短期圖表分析(7天),長期資料(一年或無限期限)
➣告警檢測的嚴緊度與警報通知的多元化
➣維運系統自我監控能力,包含作業平台資源與效能,系統程式存活與警報設備檢測
➣緊急狀況的應變處置(如:停電緊急關機)
➣即時資訊-戰情中心的能力
➣代理商或原廠對於監控系統的應用熟習度
➣客制化能力與在地習慣的維運文化
➣資訊管理人員建立維運監控系統與學習的困難度
➣符合在地化的組織架構與系統人員特性
此外, 我們公司自創的F0至F5等級制度
,為企業提供了一個評估維運監控系統的框架。
此分級系統從F0級(基礎級)到F5級(最高級),逐步提升對維運系統功能、整合能力、自動化程度、以及異常處理能力的要求。
每一級別代表了維運系統在技術成熟度、監控深度、預警機制、使用者介面友善度、以及客制化能力等方面的不同階段。
➣F0級:代表最基礎的人工檢測方式,依賴系統人員主動或定時進行檢測,缺乏自動化和預警通知。
➣F1至F4級:逐漸引入自動化工具和檢測軟體,提高異常檢測的效率和準確性,
但在不同級別中對於整合能力、自動化程度、預警通知等方面有所差異。
詳細【F0-F5等級表】可點此觀看
F5等級 — 最高標準打造
F5等級代表了我們公司對於IT維運監控系統的最高標準,
專為滿足複雜且多樣化的資訊科技環境而設計。
這一等級強調對各種資訊設備的全面監控,無論是伺服器、網路設備還是存儲系統,
F5等級的系統能夠透過最適合的方法獲取資訊或執行命令,以達到對整個IT資訊機房內所有設備與廠牌的廣泛支援。
F5等級的核心特點在於其整合型的設計理念,使其能夠支援多種伺服主機作業系統,
包括但不限於Windows系列、Linux系列、IBM AIX、HP-UX、SUN Solaris、SCO UNIX以及FreeBSD等。
此外,透過安裝專門設計的Agent代理程式於伺服主機上,F5等級的系統能夠提供更加完整且深入的監控功能
,從而使得資訊管理人員能夠有效地監測、分析並管理IT基礎設施。
WATCHDOG系統正是基於F5等級的高標準開發而成,旨在為企業提供一個全面且高效的IT維運監控解決方案。
WATCHDOG系統結合了先進的技術與深厚的行業經驗,不僅能夠實現對各種作業系統和設備的全方位監控,
還能夠根據不同設備和環境的特點,提供定制化的監控策略和應對方案。
透過WATCHDOG系統的實務運用,企業能夠有效地提升IT基礎設施的穩定性與安全性,同時也能夠提高資訊管理的效率和靈活性。
其整體的設計架構如下:
WATCHDOG系統透過IPMI、ILO、IMM、iDRAC等管理協定,WATCHDOG系統能對伺服器主機本體的硬體狀態進行深入監控,
涵蓋電源供應器、溫度感測器、風扇轉速和電壓電流等安全指標數據,確保伺服器的運行可靠性和穩定性。
在磁碟陣列的監控方面,WATCHDOG系統支援包括HP Smart Array、Adaptec RAID、LSI MegaRAID在內的常用磁碟陣列品牌,
實現對磁碟陣列卡、陣列磁碟區、邏輯磁碟區和實體磁碟機的新增與移除功能的檢測,以及設備硬體和組織狀態的監控。
特別對於邏輯磁碟區和實體磁碟機的使用狀態訊息提供詳細的監控,包括但不限於以下異常訊息:
➣故障或硬碟已移除(Failed Physical Drive)
➣重建中,顯示進度百分比(Recovering, 5% complete)
➣準備重建(Ready for Rebuild)
➣實體磁碟機故障或已移除(Failed)
➣正在使用中的實體磁碟機(Data Drive)
➣備用的實體磁碟機(Spare Drive)
➣未指派的實體磁碟機(Unassigned Drive)
➣磁碟重建中(Rebuilding)
透過安裝專門的Agent代理程式,WATCHDOG系統提供更完整、更精準的硬體層監控,
以確保伺服主機在各種狀況下的最佳運行性能和數據安全。
這些功能共同確保了WATCHDOG系統能在第一時間內辨識出硬體的異常狀態,並及時進行適當的應對措施。
WATCHDOG系統的作業系統層監控功能,專為捕捉和分析作業系統的關鍵性能指標而設計。
這一層的監控確保了作業系統的健康,從而支持整個IT環境的穩定運行。
作業系統重要資訊:
➣系統位置、作業平台與平台版本
➣主機名稱、網路設定
➣程式狀態與版本
➣網卡資訊、連線狀態
➣目前執行程式、排程資訊、DLL程式
➣處理程序、網路狀態(TCP、UDP、ARP)
➣安全識別碼
WEB Command Line:
➣透過瀏覽器建立常用命令組合或Script
➣獲得各種作業系統命令的使用說明
➣系統資源使用狀況:
➣CPU使用率
➣實體記憶體與虛擬記憶體使用率
➣硬碟(Filesystem)使用率
➣硬碟索引(Filesystem inode)使用率(針對Linux/Unix)
➣硬碟效能(讀寫I/O效能)
程式與服務監控:
➣執行程式(檢測統計應該執行的程式數量或LISTEN服務程式)
➣常駐程式(Linux/Unix)
➣系統服務(Windows)
網路連線層監控功能,專門針對企業網絡的連線健康狀態和效能進行評估。
這一層的功能對於確保資訊流暢且無阻礙地在網絡中傳輸至關重要。
以下是WATCHDOG系統在網路連線層提供的關鍵監控功能:
➣代理偵測-封包測試:能夠監控非本網段設備的封包傳輸狀態。
➣代理偵測-IP通信埠:檢測非本網段設備的IP通訊埠開放情況。
➣代理偵測-定時檔案:對非本網段設備進行定時檔案的監控,以確保檔案傳輸的一致性和可靠性。
➣網卡流量監控:實時監測網卡的每秒流量,及時發現和預防網絡擁堵。
➣連線數量統計:根據IP地址和端口統計當前正在連線的數量,以評估網絡負載。
➣連線測速-接收/傳送:通過模擬資料傳輸來回速度,測試網絡的實際輸出效能。
此層面的監控確保了企業的關鍵應用系統能夠順暢運行,並在出現問題時迅速作出反應。
以下是WATCHDOG系統在應用系統層提供的關鍵監控功能:
➣執行程式監控:監控並統計應當運行的程式數量,以確保必要的服務和應用在正確的時間運行。
➣檔案數量統計:計算特定目錄或資料夾中的檔案數量,監控資料存儲情況。
➣檔案偵測:追蹤檔案的異動時間與容量變化,對系統內的資料異動保持警覺。
➣事件警報:與應用系統結合,針對異常事件進行即時警報,快速響應潛在問題。
➣事件數據分析:輔助應用系統對數據類型的事件進行分析,並在檢測到異常時發出告警。
➣排程資訊監控:監控應用程序的定時執行任務,對任務的進行情況進行事件分析,並在出現異常時發出告警。
這一層的功能著重於預防未經授權的訪問和檢測系統內可能存在的安全漏洞。實施有效的安全監控措施,有助於及早發現和阻止安全威脅的發生。
以下是WATCHDOG系統在資訊安全層提供的關鍵監控功能:
➣外網連接測試:測試外部網絡可能的連接點,以確保無不當外部存取。
➣非法TCP LISTEN檢測:檢測並識別非授權的TCP LISTEN活動,以預防潛在入侵。
➣非法程式執行檢測:識別和報告任何未經授權執行的程式。
➣非法硬碟掛載檢測:檢測系統中任何未經允許的硬碟掛載行為。
➣非法網卡掛載檢測:確保網絡介面卡的使用是合法和安全的。
➣程式竄改比對檢測:通過百分百二進位比對,檢測任何非授權的程式修改。
➣檔案和目錄竄改檢測:監控資料夾內容,確保檔案和程式未被篡改。
➣系統程式竄改檢測:偵測系統程式文件的任何不正常變更。
➣作業系統封裝比對:比對整個作業系統的封裝,以檢測非法變更。
➣執行中程式竄改比對:實時監控正在執行的程式,確保它們未被竄改。
➣非法檔案偵測:在根目錄中尋找和報告任何非法檔案的存在。
➣系統內新增檔案或程式監控:追蹤系統內新添加的檔案或程式,以防止惡意軟體的滲入。
這些細緻入微的安全檢測功能,使得WATCHDOG系統成為企業資訊安全的堅實後盾。
透過全面的監控和即時反應機制,助力企業及時偵測和應對各種安全威脅,維護業務連續性和數據完整性。
WATCHDOG系統對虛擬主機的監控功能涵蓋從硬件層到系統資源分配的全面監控,確保虛擬化環境的高效運行和安全性。
虛擬主機(VM)技術已成為現代IT架構中不可或缺的一部分。
以下是WATCHDOG系統在虛擬主機監控中提供的關鍵功能:
虛擬主機-主機硬體層
通過IPMI、ILO、IMM、iDRAC等協定取得主機板的安全指標數據狀態,如電源供應器、溫度感測器、風扇轉速和電壓電流。
虛擬主機-作業系統層
➣CPU使用率:監控CPU的負載情況。
➣記憶體使用率:追蹤物理和虛擬記憶體的使用情況。
➣硬碟(Filesystem)使用率:監控硬碟空間的使用狀態。
➣作業系統重要資訊:提供200項以上的系統資訊,包括硬體清單、iSCSI清單、網路介面和軟體配置等。
虛擬主機-VM系統資源
➣提供詳細的虛擬主機系統資源與Guest主機資源分配圖,
包括VMHost CPU Core、Memory、主機廠牌和Guest主機數量。
➣記載Guest主機資源分配情況,如CPU Core、Memory、VMTools安裝狀況與PowerOn/Off狀態。
虛擬主機-磁碟陣列(VM RAID)
➣品牌支援:兼容常見的磁碟陣列品牌,包括HP Smart Array、Adaptec RAID與LSI MegaRAID,以保障廣泛的應用場景與硬體設備。
➣檢測新增設備功能:
磁碟陣列卡:監控新加入的磁碟陣列卡。
陣列磁碟區與邏輯磁碟區:追蹤新建立的陣列與邏輯分區。
實體磁碟機:檢測新加入的實體硬碟。
➣檢測設備移除功能:相同於新增設備的監控,但針對的是設備的移除操作。
➣設備硬體狀態監控:
磁碟陣列卡與記憶體狀態:確保磁碟陣列卡與其記憶體運作正常。
電池狀態:監控磁碟陣列卡電池的健康狀況,這對於緩存數據的保護至關重要。
➣設備組織狀態檢測:
詳細記錄並監控磁碟陣列中各組件的運作狀態,包括但不限於:
邏輯磁碟區與實體磁碟機的使用狀態:涵蓋從正常運作到重建中的各種狀態,如故障硬碟的標示與重建進度。
此模塊專注於監控交換器(L2、L3 Switch)、路由器(Router)、防火牆(Firewall)、UTM、負載平衡器(Load Balance)等關鍵網絡設備,確保網絡的連續性和安全性。
以下是對WATCHDOG系統對網路設備監控功能的列舉展示:
主機硬體層
➣CPU使用比
➣記憶體使用比
➣電源供應器、溫度感測器、風扇狀態
串聯架構
➣串接拓撲圖:顯示每一連結埠(PORT)與MAC、IP、設備資訊(如:伺服器)的關聯。
➣資訊設備位置圖
➣流量分析與記錄:包含流量比/秒、Bytes、封包(Packet)統計量、連結埠速度、MTU,以及依整台SWITCH、VLAN、每一連結埠(PORT)的分析、統計、資訊。
如:封包流量比-進出、
封包流量數-進出、
廣播封包流量-進出、
錯誤封包流量-進出、
忽略封包流量-進出、
未知封包流量-進出、
狀態資訊
➣VLAN分佈圖
➣埠速度分佈圖
➣各類封包流量排名圖
進階功能
➣依IP搜尋交換器位置的連接埠:可輸入IP直接搜尋交換器的位址與連接埠。
➣追蹤來源IP與目地IP交換器的使用連接埠:可輸入來源IP與目地IP,顯示兩IP之間經過的交換器(Switch)位址與連接埠的關連圖。
➣可自定埠速度:可自訂埠承載速度,計算準確的流量比,用於承租專線(如:GSN)。
➣WEB CLI(Command Line Interface):經由預定之CLI命令隨時可取得Switch設定與狀態之資訊。
➣設定檔(Config)備份:定時自動備份設定檔,並比對與上次之差異,發出告警訊息。
➣圖形展示:展示盡量符合Switch面板設計的實際排列,尤其是核心交換器的模組排列。
告警項目
根據整台SWITCH、VLAN、每一連結埠(PORT)的告警機制,包括Switch硬體層、各類流量數、連結埠啟用/關閉(down/up)、連結埠速度、MAC控管、離線警報等。
WATCHDOG系統在網路流向與安全監控方面,提供了一系列功能來追蹤和分析網絡流量,確保網絡的安全性和效能。透過深度分析NetFlow、sFlow等流量資料,系統能夠識別不同類型的網絡活動,從而幫助管理者針對潛在的安全威脅和效能瓶頸採取適當的措施。
以下是對網路流向與安全監控功能的概略展示:
網路流量監控:
➣支援NetFlow、sFlow協定,能夠分析TCP、UDP、ICMP、IGMP、ARP-Request、ARP-Reply等協定的流量。
➣能夠顯示目的IP(Destination IP)、目的通信埠(Destination Port)、來源IP(Source IP)、來源通信埠(Source Port)。
➣提供國家網域、網外IP國家歸屬、危險性IP、通用協定IP的分析。
➣統計與分類IP數量、次數、Bytes數、封包數,提供不同類別的分析圖與詳細明細資料。
➣國家網域與IP分佈圖,內建全球網域與IP資料庫。
警報項目:
➣定義網內與網外流量。
➣定義流出與流進流量。
➣依目的IP及目的IP加通信埠的警報。
➣每小時總流量(以MB和Packet為單位)。
➣每小時次數總量。
網路流量-ARP監控
➣收集並分析ARP-Request與ARP-Reply流量,統計來源IP的每小時次數總量。
➣降低IP衝突的危險,控管非法私接設備,確保IP、MAC與DHCP伺服器的正確配對與管理。
WATCHDOG系統在網路連線監控領域提供了全面的檢測和分析,以確保網絡間的通訊品質和設備的連線狀態得到有效監控。
通過一系列的測試和檢測,WATCHDOG系統能夠即時發現網路問題,從而幫助維護網絡的穩定運行和服務的可用性。
以下是對網路連線功能的概略展示:
封包測試:
定時執行ping操作,監測ICMP封包的漏失率和回應時間,評估網路品質和設備連線狀態。
IP通信埠:
定時檢查網路服務程序的LISTEN port,確保服務的正常運作。
網域偵測:
針對指定的DNS Server,檢測解析網域位址(IP)的回應時間,評估網路品質。
網站偵測:
定時檢測網站運作狀態,包括DNS解析、連線狀態、中介程式與後台資料庫連線、網頁索取時間、網頁內容、服務系統(如Apache、IIS、GSE等)和網頁索取狀態碼(如200、404、505等)。
連線測速-傳送與接收:
透過測量電腦在網路間的傳送速度和品質,深入了解可能影響網路速度的設備位置和原因。例如,測量從A電腦到B電腦的網路傳輸速度(如20MB的數據以100MB/秒的速度傳送)。
透過WATCHDOG系統的這些綜合監測功能,企業可以實時監控和評估其網路連線的性能,從而快速識別並解決可能的網路問題,確保網路的穩定運行和業務的高效進行。
WWATCHDOG系統的應用系統整合主要透過以下四個專屬功能,使其他應用程式能夠無縫地整合進WATCHDOG系統中,從而構建一個高效的警報系統:
定時檔案:
此功能要求指定應用程式定時回報一個【暗號】,
WATCHDOG系統通過接收比對該【暗號】來確認相關應用程式或服務的存活狀態。
警報閘道:
提供一個接口,使得各專案的應用程式可以直接向WATCHDOG系統發送告警或解除警報的資料。當應用程式檢測到需要立即注意的情況時,可以通過這個閘道快速將警報資訊傳遞給監控中心。
事件數據:
專門針對需要監控特定數據指標的應用程式設計。WATCHDOG系統可以讀取一個包含數字的檔案,並根據這個數字判斷是否需要發出警報。這使得對於數據敏感的應用程式能夠在達到特定閾值時觸發警報。
資訊收集:
WATCHDOG系統能夠收集並分析來自各類系統日誌(如Unix/Linux/Switch的系統日誌或Microsoft
Windows的事件日誌)的資訊。這不僅幫助統一標準化日誌資料,還能根據日誌中的等級分類或特定訊息內容發出警報,以及時應對潛在問題。
透過這些功能的整合,WATCHDOG系統為企業提供了一個強大的監控與警報平台,使得應用程式開發者和IT管理員能夠更有效地監控應用系統的運行狀況,並在出現問題時及時作出反應。
WATCHDOG系統的轉送機制是為了實現對各種警示訊息的有效管理與快速反應而設計。
透過簡易網管-SNMP TRAP和郵件轉送功能,WATCHDOG系統能夠整合並轉發來自不同設備的警報,保障企業IT環境的穩定性與安全性。
簡易網管-SNMP TRAP:
此功能允許WATCHDOG系統接收來自其他資訊設備的SNMP TRAP訊息,這些訊息可能因設備故障或特定事件而發出。
能夠有效整合來自儲存系統、網路設備等的警示訊息,如硬碟故障、網路連接異常等,並進行統一的管理與處理。
郵件轉送-本機信箱與遠端信箱:
WATCHDOG系統透過郵件轉送功能,將警示訊息轉發至指定的本機或遠端信箱,提高警報的可視性與反應速度。
適用於從防火牆、UTM、門禁系統、環境控制系統等設備發出的警報事件,確保相關人員能夠及時獲取警報資訊,並採取必要的應對措施。
整合其他設備的環控系統,門禁系統並加入不足的監控設備
(如:溫度收集器、濕度收集器、資訊機房的人員移動攝影快拍)
機櫃PDU電力系統配合緊急關機整合各資訊設備等
WATCHDOG系統中的緊急處置功能,旨在為不同的緊急情況提供迅速且有效的應對策略。透過針對作業系統特性精心設計的緊急執行命令,
WATCHDOG能夠在發生停電、淹水、火警、地震或網路攻擊等情況時,啟動預設的標準處理步驟(SOP)。以下是緊急處置功能的核心要素:
緊急執行命令:根據作業系統的不同特性,組合出一系列緊急執行命令,以應對突發事件。
標準處理步驟(SOP)建立:
➣停電:制定在停電發生時的緊急應對措施,以保證關鍵設備的安全和數據的完整。
➣淹水:當機房可能面臨淹水風險時,啟動預設的疏散和設備保護程序。
➣火警:制定火災發生時的緊急疏散和設備保護措施,確保人員安全和最小化財產損失。
➣地震:在地震發生時,按照SOP進行緊急反應,以減少對設備的損害和保障人員安全。
➣網路攻擊:面對網路攻擊時,快速啟動網絡防禦和數據保護措施,防止數據洩露或系統被破壞。
緊急關機程序:
在必要時,WATCHDOG系統能夠執行緊急關機程序,迅速將系統安全地關機,以保護系統和數據免受進一步損害。
WATCHDOG系統中的緊急處置功能,旨在為不同的緊急情況提供迅速且有效的應對策略。透過針對作業系統特性精心設計的緊急執行命令,
WATCHDOG能夠在發生停電、淹水、火警、地震或網路攻擊等情況時,啟動預設的標準處理步驟(SOP)。以下是緊急處置功能的核心要素:
緊急執行命令:根據作業系統的不同特性,組合出一系列緊急執行命令,以應對突發事件。
標準處理步驟(SOP)建立:
➣停電:制定在停電發生時的緊急應對措施,以保證關鍵設備的安全和數據的完整。
➣淹水:當機房可能面臨淹水風險時,啟動預設的疏散和設備保護程序。
➣火警:制定火災發生時的緊急疏散和設備保護措施,確保人員安全和最小化財產損失。
➣地震:在地震發生時,按照SOP進行緊急反應,以減少對設備的損害和保障人員安全。
➣網路攻擊:面對網路攻擊時,快速啟動網絡防禦和數據保護措施,防止數據洩露或系統被破壞。
緊急關機程序:
在必要時,WATCHDOG系統能夠執行緊急關機程序,迅速將系統安全地關機,以保護系統和數據免受進一步損害。
在IT維運的監控系統中,對於監控項目的效率、整合關聯、告警效率、檢測項目、長短期資料收集與關聯資訊的理解與管理至關重要。
以下是對這些核心概念的詳細條列式說明,旨在提供一個清晰的視角,理解我們是如何將維運系統分級:
檢測項目的效率
每台設備的檢測項目達到100點,若有100台設備,則每小時的檢測次數為12次,相當於每小時120,000次檢測,每天達到2,880,000次檢測。
整合關聯
➣本機資源關聯:如CPU效能與主機板溫度、風扇轉速,以及處理程序與CPU、Memory、硬碟、I/O效能的關聯。
➣網路連線關聯:如伺服主機網路效能與Switch、網路佈線盤面板品質的關聯,以及伺服主機網路效能與網路中的流量。
➣依賴關聯:如伺服主機與UPS的關聯。
告警效率
➣告警效率取決於資訊設備的特性與重要性,需要有不同的返定依據。
➣包括相關事件的計算與統計能力,以及取得資訊後與其他資訊項目的計算能力。
➣告警嚴緊度與警報敏感度是通過檢測次數與間隔時間的乘積來確定。
檢測項目
根據資訊設備定義其設備功能的組合,包括設施、效能、資源與記錄等。
長短期資料收集
用於比較設備系統是長期狀態還是短暫現象,如CPU使用率長期維持80%可能表示正常運作狀態。
關聯資訊
分析用戶感受到的連線速度慢的問題可能涉及多個方面,包括用戶電腦、網路連接線、網路佈線盤面板、交換器設定或連接線、伺服器等多個環節。