選擇IT維運的監控系統

選擇IT維運的監控系統的條件
     IT維運的監控系統依下列能力與條件分為六個等級 F0-F5,其中以F5等級最為完整
      *.資訊機房內的設備類別可掌控的監控能力度(越多越可關聯整合)
      *.受監控的設備與其項目是否能全面化深入資訊設備的各種功能結構
      *.取得資訊資料的方法,深度與分析能力,各系統模擬檢測的機制
      *.不同平台系統之伺服器詳細資訊(主機硬體,作業系統,應用系統,網路連線,資訊安全) 等類
      *.網路設備的深度詳細資訊(如:追蹤IP在各Switch的串接進出埠的關連)
      *.各類資訊的即時關聯資訊(如:主機與Switch的連接埠關係)
      *.整合各種應用系統的能力與統一控管方式
      *.資料保存與應用是否可分為即時資訊,短期圖表分析(7天),長期資料(一年或無限期限)
      *.告警檢測的嚴緊度與警報通知的多元化
      *.維運系統自我監控能力,包含作業平台資源與效能,系統程式存活與警報設備檢測
      *.緊急狀況的應變處置(如:停電緊急關機)
      *.即時資訊-戰情中心的能力
      *.代理商或原廠對於監控系統的應用熟習度
      *.客制化能力與在地習慣的維運文化
      *.資訊管理人員建立維運監控系統與學習的困難度
      *.符合在地化的組織架構與系統人員特性




IT維運的監控系統等級分類
   ---------- F0等級
     檢測方法與重要項目: 人工檢測
     檢測週期: 系統人員不主動或不定時人工檢測
     告警檢測: 人工檢測
     檢測項目: 少
     整合關聯: 無
     異常通知: 90%使用者,使用單位發現異常時通知系統人員查詢異常原因,10%系統人員主動發現
     告警效率: 無
     告警嚴緊度: 依系統人員個性
     警報敏感度: 依系統人員個性
     告警機制: 人工
     警報控制: 無
     自我監控: 無
     使用者介面: 無
     戰情中心: 無
     登入安全: 無
     客制化能力: 無
     緊急處置: 無
     建置難度: 依薪資
     狀況處理: 依系統人員經驗與功力
     除錯能力: 不能建立相關長短期資料收集與設備關聯資訊,無法進階比較問題所在
   ---------- F1等級
     檢測方法與重要項目: 人工檢測
     檢測週期: 依資訊設備分類,將系統人員分組負責主動或定時人工檢測
     告警檢測: 人工檢測
     檢測項目: 少,僅看燈號
     整合關聯: 無
     異常通知: 80%使用者,使用單位發現異常時通知系統人員查詢異常原因,20%系統人員主動發現
     預警通知: 無
     告警效率: 依人力巡查時間
     告警嚴緊度: 依系統人員個性
     警報敏感度: 依系統人員個性
     告警機制: 人工
     警報控制: 無
     自我監控: 無
     使用者介面: 無
     戰情中心: 無
     遠端登入: 無
     客制化能力: 無
     緊急處置: 無
     建置難度: 難,依系統人員專業知識與能力
     狀況處理: 依系統人員經驗與功力
     除錯能力: 不能建立相關長短期資料收集與設備關聯資訊,無法進階比較問題所在

   ---------- F2等級
     檢測方法與重要項目:簡易檢測工具系統與大量的資訊收集(簡易付費軟體,免費軟體)
                  如: 自動ICMP(ping loss),SNMP,SNMP TRAP,Syslog 資料收集,服務連線通信埠(80,25,110)
                  *.異常警報點必須人工判別
                  *.無相關事件計算與統計能力
                  *.無預設檢測項目之告警臨界值
     告警檢測: 人工檢測
     檢測週期: 定期主動檢測與資料收集
     檢測項目: 少,主機CPU,Memory使用率,與Switch基本封包(Packet)流量數據
     整合關聯: 無
     異常通知: 70%使用者,使用單位發現異常時通知系統人員查詢異常原因,30%系統人員主動發現
     預警通知: 無
     告警效率: 依人力巡查時間
     告警嚴緊度: 依系統人員個性
     警報敏感度: 依系統人員個性
     告警機制: 郵件(mail)
     警報控制: 無
     自我監控: 無
     使用者介面: 單人,不同系統不同介面,若要多人或WEB介面,另須架設WEB伺服器與資料庫
     戰情中心: 無
     登入安全: 無
     客制化能力: 無
     緊急處置: 無
     建置難度: 難,依系統人員專業知識與能力
     狀況處理: 依系統人員經驗與功力
     除錯能力: 不能建立相關長短期資料收集與設備關聯資訊,無法進階比較問題所在

   ---------- F3等級
     檢測方法與重要項目:完整的檢測工具系統與大量的資訊收集(付費,免費)
             *.無系統整合之單一功能:
                  如:NetFlow,sFlow資料收集,Syslog資料收集
                  使用 SNMP 協定 收集資料的套件系統
                  可對伺服器,Switch有部份資料有少量收集能力
                  如: CPU,Memory使用率,封包(Packet)流量,但無進階項目
                  如: 執行程式,磁碟陣列
             *.可使用 Script 設定異常警報點或簡易程式設定異常警報點
             *.無或部份相關事件計算與統計能力
             *.無預設檢測項目之告警臨界值

     檢測週期: 統一項目定期主動檢測與資料收集
     檢測項目: 特定常用,依系統人員認真度少,主機CPU,Memory使用率,與Switch基本封包(Packet)流量數據
     整合關聯: 無
     異常通知: 50%使用者,使用單位發現異常時通知系統人員查詢異常原因,50%系統人員主動發現
                  * 若告警嚴緊度或警報敏感度處理不好而關閉告警機制,則會下降成
                  90% 使用者,使用單位發現異常時通知系統人員查詢異常原因,10%系統人員主動發現
     預警通知: 部份
     告警效率: 依系統巡查效率
     告警嚴緊度: 寬鬆,導至經常警報,最後關閉告警機制,恢復人工檢測
     警報敏感度: 不可調整
     告警機制: 郵件(mail),或外接簡訊模組,網路簡訊(SMS),告警群組分類少
     警報控制: 無
     自我監控: 無
     使用者介面: 單人,不同系統不同介面,若要多人或WEB介面,另須架設WEB伺服器與資料庫
     戰情中心: 無
     登入安全: 無
     客制化能力: 無
     緊急處置: 無
     建置難度: 難,依系統人員專業知識與能力或代理商理解程度(一般為20%)
     狀況處理: 依系統人員經驗與功力
     除錯能力: 無相關長短期資料收集與設備關聯資訊,無法進階比較問題所在

   ---------- F4等級
     檢測方法與重要項目:完整的檢測工具系統與大量的資訊收集(收費系統),安裝作業系統 Agent 代理程式
                  僅特定作業系統強(如:Microsoft Windows),其他作業系統功能低(如:Unix/Linux)
                  可對伺服器,Switch有部份資料有收集能力
                  如: CPU,Memory使用率,封包(Packet)流量,但無進階項目
                  如: 執行程式,磁碟陣列
                  可使用 Script 設定異常警報點或簡易程式設定異常警報點
                  無或部份相關事件計算與統計能力
                  無預設檢測項目之告警臨界值
     檢測週期: 定期主動檢測與資料收集
     檢測項目: 特定常用
     整合關聯: 無
     異常通知: 40%使用者,使用單位發現異常時通知系統人員查詢異常原因,60%系統人員主動發現
                  * 若告警嚴緊度或警報敏感度處理不好而關閉告警機制,則會下降成
                    90%使用者,使用單位發現異常時通知系統人員查詢異常原因,10%系統人員主動發現
     預警通知: 部份
     告警效率: 依系統巡查效率
     告警嚴緊度: 寬鬆,導至經常警報,最後關閉告警機制,恢復人工檢測
     警報敏感度: 不可調整
     告警機制: 郵件(mail),或外接簡訊模組,網路簡訊(SMS),告警群組分類少
     警報控制: 無
     自我監控: 無或僅記錄不通報
     使用者介面: 單人,不同系統不同介面,若要多人或WEB介面,另須架設WEB伺服器與資料庫
     戰情中心: 無
     登入安全: 無
     客制化能力: 無
     緊急處置: 無
     建置難度: 難,依系統人員專業知識與能力或代理商理解程度(一般為10-20%)
     狀況處理: 依系統人員經驗與功力
     除錯能力: 無相關長短期資料收集與設備關聯資訊,無法進階比較問題所在



---------- F5等級
     檢測方法與重要項目: 整合型維運系統可依不同的資訊設備,使用其功能最適合的方法,
             來取得各項資訊或下達命令,要盡量含蓋大部份IT資訊機房內所有設備與廠牌
             如: 支援較多的伺服主機作業系統,Windows系列,Linux系列,IBM AIX,HP-UX,SUN Solaris,SCO UNIX,FreeBSD
             檢測與監控條件至少要有下列項目之層次:
             *.伺服主機要安裝Agent代理程式,功能才能更完整

         伺服主機-主機硬體層
             *.伺服器-主機本體
                  可經由IPMI,ILO,IMM,iDRAC等協定取得主機板各項安全指標數據狀態
                  如:電源供應器,溫度感測器,風扇轉速,電壓電流
             *.伺服主機-磁碟陣列
                  必須支援常用之廠牌 "HP Smart Array","Adaptec RAID","LSI MegaRAID"
                  檢測新增設備之功能
                      磁碟陣列卡,陣列磁碟區,邏輯磁碟區,實體磁碟機
                      檢測設備移除之功能
                      磁碟陣列卡,陣列磁碟區,邏輯磁碟區,實體磁碟機
                      檢測設備硬體狀態
                      磁碟陣列卡,記憶體狀態,電池狀態
                  檢測設備組織狀態
                    邏輯磁碟區的使用狀態訊息(正常與異常的訊息) 如:
                      Failed Physica Drive ->故障或HD己移除
                      Recovering,5%complete ->重建中
                      ReadyforRebuild ->己重建
                    實體磁碟機的使用狀態訊息(正常與異常的訊息) 如:
                      Failed ->故障或己移除
                      Data Drive ->使用中的實體磁碟機
                      Spare Drive ->備用的實體磁碟機
                      Unassigned Drive ->未定義的實體磁碟機
                      Rebuilding (重建中)

         伺服主機-作業系統層
             *.作業系統重要資訊
                   系統位置,作業平台,平台版本,主機名稱,網路設定, 程式狀態與版本
                   網卡資訊,連線狀態,目前執行程式,排程資訊,DLL程式
                   處理程序,網路狀態-TCP,網路狀態-UDP,網路狀態-ARP,安全識別碼
             *.WEB Command line
                   建立常用命令組合或Script,經由瀏覽器取得命令資料
                   經由瀏覽器取得各種作業系統的命令使用說明
             *.CPU使用率
             *.實體記憶體與虛擬記憶體使用率
             *.硬碟(Filesystem)使用率
             *.硬碟索引(Filesystem inode)使用率(Linux/Unix)
             *.硬碟效能(讀寫I/O效能)
             *.執行程式(檢測統計應該執行的程式數量或LISTEN服務程式)
             *.常駐程式(Linux/Unix)
             *.系統服務(Windows)

         伺服主機-網路連線層
             *.代理偵測-封包測試(非本網段可監測之設備)
             *.代理偵測-IP通信埠(非本網段可監測之設備)
             *.代理偵測-定時檔案(非本網段可監測之設備)
             *.網卡流量(每秒流量)
             *.連線數量(依IP與Port統計目前正在連線之數量)
             *.連線測速-接收(模擬資料傳送的來回速度)
             *.連線測速-傳送(模擬資料傳送的來回速度)

         伺服主機-應用系統層
             *.執行程式(檢測統計應該執行的程式數量)
             *.檔案數量(目錄,資料夾內容檔案數量統計)
             *.檔案偵測(檔案異動時間與容量檢測)
             *.事件警報(結合應用系統對異常事件之發佈)
             *.事件數據(拹助應用系統對數據類型的事件分析與異常告警之發佈)
             *.排程資訊(結合應用程式定時執行並做事件分析與異常告警之發佈)

         伺服主機-資訊安全層
             *.外網可能連結之測試
             *.非法TCP LISTEN檢測
             *.非法執行的程式
             *.非法掛載硬碟檢測
             *.非法掛載網卡檢測
             *.程式竄改比對檢測
             *.目錄(資料夾)內容檔案或程式竄改比對
             *.偵測系統程式竄改比對
             *.整體作業系統封裝比對
             *.執行中程式竄改比對
             *.非法執行程式
             *.系統內程式竄改比對
             *.非法檔案-根目錄
             *.系統內新增檔案或程式



         虛擬主機(VM)
             虛擬主機-主機硬體層
                  可經由IPMI,ILO,IMM,iDRAC等協定取得主機板各項安全指標數據狀態
                  如:電源供應器,溫度感測器,風扇轉速,電壓電流
             虛擬主機-作業系統層
                  *.CPU使用率
                  *.記憶體使用率
                  *.硬碟(Filesystem)使用率
                  *.作業系統重要資訊(200項以上),如:硬體清單,iSCSI清單,網路介面,軟體配置,存儲設備
             虛擬主機-VM系統資源
                  詳細分析虛擬主機(VMWare)系統資源與Guest主機資源分配圖
                  包含了VMHost CPU Core,Memory 主機廠牌等系統資源與Guest主機數量
                  詳細記載 Guest主機資源分配 如:CPU Core,Memory,VMTools安裝與PowerOn/Off
                  等資訊,同時串聯伺服主機之監控資訊
             虛擬主機-磁碟陣列(VM RAID)
                  必須支援常用之廠牌,"HP Smart Array","Adaptec RAID","LSI MegaRAID"
                  檢測新增設備之功能
                    磁碟陣列卡,陣列磁碟區,邏輯磁碟區,實體磁碟機
                    檢測設備移除之功能
                    磁碟陣列卡,陣列磁碟區,邏輯磁碟區,實體磁碟機
                  檢測設備硬體狀態
                    磁碟陣列卡,記憶體狀態,電池狀態
                  檢測設備組織狀態
                    邏輯磁碟區的使用狀態訊息(正常與異常的訊息) 如:
                      Failed Physica Drive ->故障或HD己移除
                      Recovering,5%complete ->重建中
                      ReadyforRebuild ->己重建
                    實體磁碟機的使用狀態訊息(正常與異常的訊息) 如:
                      Failed ->故障或己移除
                      Data Drive ->使用中的實體磁碟機
                      Spare Drive ->備用的實體磁碟機
                      Unassigned Drive ->未定義的實體磁碟機
                      Rebuilding (重建中)



     網路設備-交換器(L2,L3 Switch),路由器(Router),防火牆(Firewall),UTM,負載平衡器(Load Balance)
             網路設備必須支援核心交換器(Core Switch)與Edge Switch
             核心交換器必須支援40個以上的擴充模組,1000個以上的連接埠,資訊收集與告警設定,設備串聯能力
             主機硬體層
                  *.CPU使用比
                  *.記憶體使用比
                  *.電源供應器,溫度感測器,風扇狀態
             串聯架構
                  *.串接拓撲圖
                    每一連結埠(PORT)與MAC,IP,設備資訊(如:伺服器),
                    每一連結埠(PORT)與MAC,IP,設備資訊(如:伺服器),
                  *.資訊設備位置圖
                  *.流量分析與記錄
                    包含: 流量比/秒,Bytes,封包(Packet)統計量,連結埠速度,MTU
                    依三種不同角度分析,統計,資訊(整台SWITCH,VLAN,每一連結埠(PORT))
                    封包流量比-進出
                    封包流量數-進出
                    廣播封包流量-進出
                    錯誤封包流量-進出
                    忽略封包流量-進出
                    未知封包流量-進出
                  *.狀態資訊
                    VLAN分佈圖
                    埠速度分佈圖
                    各類封包流量排名圖
             依IP搜尋交換器位置的連接埠
                    可輸入IP直接搜尋交換器的位址與連接埠
             追蹤來源IP與目地IP交換器的使用連接埠
                    可輸入來源IP與目地IP,可將兩IP之間經過的交換器(Switch)位址與連接埠串接其關連圖
             可自定埠速度
                    可自定埠承載速度算出準確的流量比,用於承租專線(如:GSN),進出相同或不同速度
             WEB CLI(Command line interface)
                    經由預定之CLI(Command line interface)命令隨時可取得Switch設定與狀態之資訊
             設定檔(Config)備份
                    定時自動備份設定檔(Config),同時比對與上次之差異與發出告警訊息
             圖形展示
                    盡量合乎Switch面板設計的實際排列,由其是核心交換器的模組排列
             告警項目
                    依整台SWITCH,VLAN,每一連結埠(PORT)的告警機制
                    如: 要有Switch硬體層,各類流量數與連結埠啟用/關閉(down/up),連結埠速度,MAC控管,離線警報


     網路流向與安全
             網路流量 NetFlow,sFlow
             包含TCP,UDP,ICMP,IGMP,ARP-Request,ARP-Reply等協定
             目地IP(Destination IP),目地通信埠(Destination Port),來源IP(Source IP), 來源通信埠(Source Port)
             國家網域,網外IP國家歸屬,危險性IP,通用協定IP
             依IP數量,統計次數,Bytes數,封包數依特性分例不同類別的分析圖,與詳細的明細資料
             國家網域與IP分佈圖(要有內建全球網域與IP資料庫)
             警報項目分
                  *.網內與網外的定義
                  *.流出與流進的定義
                  *.依每目的IP與依每目的IP+通信埠
                  *.每小時總流量用MB與Packet為單位
                  *.每小時次數總量

             網路流量-ARP
                  收集網路流量-ARP分ARP-Request與ARP-Reply,統計來源IP(Source IP),每小時次數總量
                  降低IP衝突的危機,非法私接設備而必須控管IP與MAC與DHCP伺服器


     網路連線
             網路連線的檢測項目與應用有很多種類,通常會依其通信協定定義
             用於設備在網路間的品質與設備本身的存活狀態
             *.封包測試
                 封包測試(ping)定時測試ICMP封包漏失(loss)與回應時間,用於監測設備的,網路品質與斷線
             *.IP通信埠
                 定時監測設備的網路服務程序之通信埠(LISTEN port)是否正常運作
             *.網站偵測
                 定時索取網站內10個網頁資料確認是否正常運作
                 包含:
                    檢測DNS解析
                    連線狀態
                    中介程式(如::Java AP)與後台資料庫
                    網頁索取時間
                    網頁內容
                    網站服務系統(如:Apache,IIS,GSE,...)
                    網頁索取狀態碼(如:200,404,505...)
             *.網域偵測
                 依指定的網域主機(DNS Server),檢測其取得網域位址(IP)的回應時間, 確認網路品質是否正常
             *.連線測速-傳送與接收
                 用於檢測電腦在網路間傳送的速度與品質,進階了解影響
                 網路速度的設備所在與原因
                 如: A電腦(20MB) -> B電腦(網路傳送速度 100MB/秒)

     應用系統整合
             定時監測設備的網路服務程序之通信埠(LISTEN port)是否正常運作
             *.定時檔案
                 監控主機與特定主機系統或主機執行程式的存活標記
             *.警報閘道
                 讓各專案的應用程式整合入監控系統,當應用程式必須將告警或解除警報資料立即交由監控中心發佈時
             *.事件數據
                 客制化應用,讓特別專屬的應用程式整合入監控系統
                 當應用程式必須將數據資料交由此項功能來統計分析與判別正常或發佈警報時
             *.資訊收集
                 收集系統日誌(Unix/Linux/Switch)或事件日誌(Microsoft Windows)
                 通常為了統一標準會將"事件日誌"轉換成 "系統日誌"的協定
                 同時利用等級分類或訊息內容篩檢而發出警報

     轉送機制
             *.簡易網管-SNMP TRAP
                 整合其他設備的警示訊息,當資訊設備有能力因設備故障或特定訊息而發出SNMP TRAP訊息時
                 如: 儲存系統硬碟故障
             *.郵件轉送-本機信箱與遠端信箱
                 整合其他設備的警示訊息,利用郵件方式,拹助其他設備處理
                 告警事件 如: 防火牆(Firewall)或UTM,門禁系統,環控系統

     機房環境
             整合其他設備的環控系統,門禁系統並加入不足的監控設備
             (如:溫度收集器,濕度收集器,資訊機房的人員移動攝影快拍)
             機櫃PDU電力系統配合緊急關機整合各資訊設備

     緊急處置
             依作業系統特性組合緊急執行命令,建立停電,淹水,火警,地震時的
             標準處理步驟(SOP)或網路攻擊時標準處理步驟(SOP)
             如: 緊急關機程序




     檢測週期: 依不同的系統設備與協定並考慮系統與網路負載之因素,使用不同之方式
                  主動或被動檢測與資料收集
     檢測項目: 整體IT資訊機房大部份的資訊設備有影響維運的細項目標
     整合關聯: 強,任何有可能之串接關聯
                  如: 伺服主機-Switch,伺服主機-UPS,伺服主機-iLo,IMM,Switch-資訊設備-設備地圖-資產
     異常通知:
                  10%使用者,使用單位發現異常時通知系統人員查詢異常原因,90%系統人員主動發現
     預警通知: 任何的檢測目標可設定不同群組或必要名單
     告警效率: 依每一監控項目可調整巡查效率
     告警嚴緊度: 嚴緊,要提供每一監控為項目與偵測目標有獨立的調整之能力
                  異常時檢測的次數與時間與解除警報的通知
     警報敏感度: 依每一監控為項目與偵測目標可調整
     告警機制: 郵件(mail),簡訊(SMS),音效廣播,警報燈,即時圖形警示,電源開關
                  訊息轉送SNMP Trap,傳真通報
     警報控制: 有,DO輸出,電源開關,連動控制伺服器電源,伺服主機各項命令或CLI
     自我監控: 作業平台,監測系統程式與警報設備(如:簡訊模組自我重啟)
     使用者介面: WEB介面,無限使用者
     戰情中心: 統合各項監控設備,使用簡單的圖表即時顯示警報,異常與正常或數據
                  依各類不同的資訊設備展示不同的資訊圖控
     登入安全: 有時效之簡訊(SMS),郵件(Mail)隨機(一次)密碼
     客制化能力: 可依實際需求增加功能
     緊急處置: 可依實際需求建立 如: 不同群組之緊急關機(要在安全正常程序下依序關機)
     建置難度: 要由原廠生直接教育訓練,才能發揮系絕最大使用功能且容易快速
     狀況處理: 系統提供完整問題訊息,讓系統人員即時排除狀況
     除錯能力: 任何的監控目標必要有長短期資料收集與設備關聯資訊,
                  追蹤問題時可以跨越設備與系統進行資訊比對

IT維運的監控系統等級分類-特別說明
     *.檢測項目的效率
             每一設備的 檢測項目 100點,有100台設備
             100台x100點12(次/小時)=120,000次/小時
             120,000次/小時x24=2,880,000次/天
     *.整合關聯
             所有的資訊設備大部份時是有互相關聯
             本機資源關聯
                  如: CPU效能與主機板溫度,風扇轉速有關,處理程序與CPU,Memory,硬碟,I/O效能有關
             網路連線關聯
                  如: 伺服主機網路效能與Switch,網路佈線盤面板(Panel)品質有關,伺服主機網路效能與網路中的流量有關
             依賴關聯
                  如: 伺服主機與UPS
     *.告警效率
             每一監控項目因資訊設備特性與重要性不同,必須有不同的返定依據
             相關事件計算與統計能力
             取得資訊後必須與其他資訊項目的計算能力
             如: Switch每一port流量的進/出總合,每一連接port 進,出與進+出 的秒平均流量
             伺服主機執行的程式數量與dll統計
             告警嚴緊度與警報敏感度
             異常時連續檢測的次數與檢測的區間時間
             檢測次數x間時間=告警嚴緊度與警報敏感度
     *.檢測項目
             依資訊設備定義其設備功能的組合,設施,效能,資源與記錄
     *.長短期資料收集
             用於比較設備系統是長期狀態或短暫現象
             如: CPU使用率80%一個月前至今都是80%,那可能是正常
     *.關聯資訊
             如: 使用者感覺連線速度很慢,可能發生的問題點有很多
                  . 使用者電腦
                  . 網路連接線
                  . 網路佈線盤面板(Panel)
                  . 交換器(Switch)設定或連接線
                  . 伺服器(程序,CPU,Memory,硬碟,I/O .. 等等很多)




回到首頁