Watchdog Rooty 整合性資訊管理中心

難於決解的問題追蹤

有些問題會跨越伺服器的硬體,作業系統,網路設備,應用系統或無權控管的資訊設備,並涵蓋了各專業領域的技術知識
這些問題會造成資訊部門的各專業人才為了決解一個系統上問題而產生"責任歸屬"與常常 "爭論不休"的狀況出現
當系統出現問題時,負責主機硬體與作業系統,網管人員,應用系統等各部門最大的困難是不容易找到全能通才的決解人員,往往就會有互推的狀況出現
當然平常未定時收集"系統狀態值"與設定"警報異常點"也是最大的問題,造成在需要
長短期資訊數據做為問題追蹤研判之根據時無法立即執行
專業人才的能力也是倍受考驗,培養或聘請資深的專業人才必須付出很大的成本
(可能要20年以上經驗),所以大部份的單位僅能聘請"學習中"有証照的"作業人員"
像:會安裝與設定"作業系統"不表示有能力掌控系統或找出問題與Debug
如何讓系統管理人員全面控管,系統效能,執行狀態,網路節點數據,找出危機點,設立早期預警
就有可能會讓"難於決解的問題"減少發生於資訊中心

難於培養的專業人才

伺服器的作業平台與應用系統

如:IBM AIX,HP-UX,Sun Solaris,FreeBsd,SCO Unix,Linux,Microsoft Windows Server,Vmware .....
資料庫:Oracle,Sybase,IBM DB2,Information,MS Seq,My Seq .....
程式語言:C,VB,Java,Cobol,html.....

網路設備

如:交換器(Switch),防火牆(Firewall),路由器(Route),負載平衡器,UTM,流量管制設備....等等
而更嚴重的是"不同廠牌",會有不同的語言與設定方式
如: Cisco,Juniper,Extreme,HP,Dell,3com,Dlink,Hiper,Zyxel,Buffalo,Networks,Netgear,Trapeze
LinkSys,Nortel,Alcatel,SMC.PCI,Accton.Edge-core,H3C
需要多少年與設備才可培養出來的專業人才- 100年 ?

伺服器管理

遠端主機/伺服主機的偵測系統

資訊類: 硬體資訊,作業系統版本,網路卡設定,網路狀態,環境設定,處理程序,連線狀態等等.
檢測類: CPU使用率,記憶體使用率,Swap使用率,硬碟使用率或File System使用率等等...
硬碟效能,連線數量,執行程式,網卡流量,處理程序,檔案數量,檔案偵測,
應用系統,常駐程式,事件日誌與系統日誌
代理偵測,封包測試,IP通信埠,定時檔案
磁碟陣列: HP,IBM,Dell 等廠牌伺服器
HP Smary Array,Adaptec RAID ,LSI MegaRAID等.磁碟陣列卡
磁碟陣列資訊與偵測項目有:
陣列磁碟區狀態,邏輯磁碟區狀態,實體磁碟機狀態,記憶體狀態,電池狀態,
硬碟編號,硬碟介面,硬碟型號,硬碟容量,應用狀態,使用狀態,掛載位置
資訊安全: 程式比對,執行程式,目錄比對,系統比對,非法程式,非法硬碟,非法執行等項目
控制主機: 緊急關機,代理執行關機,重新開機,重啟服務,備份等各種命令或指令程式

網路管理

網管型Switch與骨幹交換器(Core Switch)的管理

很多人不要管理Switch,是因為要管的項目實在很多而且很難,廠牌又雜,所以設定好後就不再管它
但Switch又是所有網路連線與資料傳遞的核心-非管不可

常用的Switch管理工具有

telnet,ssh 連線 Switch下CLI管理與設定或查詢命令
WEB方式管理設定與查詢
Snmp 定時收集資訊,Snmp Trap主動訊息
系統日誌(System Log) 收集由Switch主動發出之事件

Switch管理項目的建議

例舉常用項目-設定與使用狀態如:
電源狀態,溫度感測,風扇狀態
連接埠降速,流量過大,流量集中,連接線接觸不良,連接線脫落,連接埠故障
連接埠開啟與關閉,埠編號,名稱,簡稱,速度,連接埠啟用,連接埠連結,連接設備離線或連線狀態
通信埠速度,Vlan分佈圖,VlanId,Vlan名稱,閘道(GateWay),拓樸圖,歸屬主機
MTU,Trunk,Tag,configuration 定時備份
效能分析,警報分析,總流量,區間流量,區間秒數,封包長度,秒平均資料值
連線或離線的IP與MAC控管,各項目和告警機制的臨界值

Switch流量的分類統計

依整台Switch
依每一個 VlanID
依每一個連接埠

Switch流量分析的項目

平均負載-進,平均負載-出,平均負載-進+出
封包流量-進,封包流量-出,封包流量-進+出
廣播封包-進,廣播封包-出,廣播封包-進+出
錯誤封包-進,錯誤封包-出,錯誤封包-進+出
忽略封包-進,忽略封包-出,忽略封包-進+出
未知封包-進

網路連線

經常背黑鍋的網管人員與系統管理員

系統出問題時,長官,使用者首先指責的就是他們
主機硬體結構不良,軟體撰寫時Bug一堆,低價設備,採購單位與維護單位不同調等等因素常造成整體穩定性差,維運績效不佳,問題不斷出現
例如: 網頁與資料庫中間介面的中介程式當掉,廠商維護,拔錯線路...
定時(3-10分鐘)做好連線測試,收集回應效能,遇有"無法連線","無法取得資料",反應時間太慢"時
應立即通知系統人員處理,比長官,使用者早知道,就不會有事

檢測系統異常與警報通知

何為系統異常?

系統異常的定論並無固定數據,例如有二台伺服器 "CPU平均負載"各為 20 與 90 百分比
那一台是異常? 使用 20 或 90 的那一台
這個答案必須由實際的系統管理員來定義,如:下列狀河況
使用率 20 這台伺服器因某些服務掛掉,而造成使用率下降至 20 ,故視為異常
使用率 90 這台伺服器因從安裝啟用後負載就很大,故視為正常
系統異常的定論並無固定數據,必須依實際使用後的數據加於範圍

警報通知

告警機制的臨界值設定與時機是一個讓人頭痛的事情
不嚴慬的檢查機制會讓"警報通知"亂發,造成系統管理員感到痛苦-最後關閉"告警機制"
嚴慬告警機制必須考慮,"異常發生次數","時間範圍","排除時段","有效時間","重複發佈" 等因素
檢查資訊類別也要非常的多元化如:
數字類: "大於","小於"之範圍,如:數據大小,時間,長度,百分比,容量,數量 ..等
字串類: 字串比對的邏輯判斷 and,or,not等方式
訊息類: 事件觸發,事件等級與字串比對的邏輯判斷 and,or,not等方式如:snmp trap,mail,system log
隨人所愛的告警通報方法與命令控制
首先"通報名單"必須要有擴充性,依偵測項目,部門群組,必要名單,系統用途等分別設定
通報人數也要有30人組以上的量,針對 "維護廠商","管理單位","使用單位" 分別發佈
通報方式要提供因時而異的管道如:圖控系統警報提示,簡訊(SMS),郵件(Mail),音效廣播,警告燈閃爍
如有必要時還要對伺服主機下達命令如:重啟服務,開機,關機等指令
實際場景-即時資訊監控中心

無論是系統,程式或網路每一個節點都是環環相扣-無法用部門或專業分類來切割