資訊維運

資訊維運從1980年代至2010後有重大的改變,電腦主機從小量的大型,中型,小型主機到大量伺服器與虛擬主機
不同特性的網路設備與多元化的應用服務系統建立,而網路速度也從10Mb進入10Gb時代
但管理資訊的方法並沒有太大的改變,幾乎全使用人工方式檢測系統或由最終使用者提出告警
在資訊系統監控方面,最多僅使用免費或收費的SNMP協定資料收集器,取得網路流量,
伺服器基本效能的單項資料數據(如:Mrtg,Cacti,Nagios,NetWorx,Prtg,What's Up)等軟體系統
而作業系統(OS)方面也無法支援多元化的能力(如:IBM AIX,HP-UX,SUN Solaris,
SCO UNIX,Linux,Microsoft Server系列)
個體式的監控系統是無法做到全面性的系統整合尤其各資訊設備的關聯,
而自動化預警系統與即時監控則需要有更多資訊設備納入監控才有可能達到全面化監控
而整合告警機制與緊急事件的遠端控制能力也是必要的一環
如何讓系統工程師一個當十個用而快速的進入整合關聯性的資訊維運系統也是一項系統設計與規範的重點

資訊維運1.0

1980年代前是專屬作業系統的天下,IBM,HP,王安,DEC等公司的主機
使用各專屬的通信介面連結文字型終端機與印表機,網路幾乎沒有
專屬的作業系統功能較少,軟體僅用於各專業應用系統(如:貿易,會計,製造業,金融等系統)
資訊維運的工作僅限於應用系統與硬體,由於軟硬體設備少各類應用都不對外開放,
而且使用者較少基本上很少有資訊維運的重大問題

資訊維運2.0

1990年後開放系統Unix大量出現後,很多電腦公司轉向使用Unix作業系統(如:HP 9000,IBM RS600,DEC OSF/1,Tru64),
再加上IBM PC與Intel x86 CPU 的出現而產生更多的PC Unix主機(如: SCO Openserver,AT&T Unix)
在主機的價位降低後,使用者數量逐年增加,而文字型終端機與印表機還是主流的使用者設備,
Microsoft Windows與Microsoft Windows NT 伺服器版出現後,才有較多的個人電腦(PC)加入使用者終端設備,
但網路功能較低,大多是用撥號數據機(Modem)來對外連線
網際網路(Internet),全球資訊網(WWW),電子郵電(Mail)的需求較低
雖然 Etherneti己出現,但由於網路寬頻較低,普遍性無法太高
伺服器與網路設備也不會太多,在資訊維運上還不會有太大的困難

資訊維運3.0-全面自動化監控

[資訊維運開始進化]
網路寬頻增加後,網際網路開始普級化,各項資訊服務同時大量建立,應用伺服器,網站伺服器,服務伺服器與資料庫等 不同性質之伺服器應用與資訊服務,大量建置使用,而不同特性的網路設備也同時增加,網路速度從10Mb進入10Gb時代
如: 伺服主機(實體主機/虛擬主機)
      實體主機:IBM AIX,HP-UX,SUN Solaris,SCO UNIX,Linux,Microsoft Server系列
      虛擬主機:VMware,Microsoft Hyper-V,Sun Virtualbox,Linux KVM
      不同特性的網路設備 如:交換器(L2,L3 Switch),路由器(Router),防火牆(Firewall),UTM,負載平衡器(Load Balance)
資訊中心由主要的對內服務系統轉成資訊對外開放的服務架構進入私有雲的IDC模式(Internet Data Center),
對外服務品質變成很重要
[資訊維運困難開始]
伺服主機從實體主機進入虛擬主機的時代至超融合伺服器的產生,大大的降低主機建置成本
資訊設備從數拾台直線上升至數百台上千台以上之規模
然而硬體問題,作業系統,應用系統與網路問題隨之大量出現,讓整體資訊設備的維運上更加困難
嚴重的是系統維運人員,無法同時深度了解各類型設備的應用與操作熟習度
尤其大部份的資訊設備都有非常緊密的資訊整合關聯性
將會是考驗系統工程師的通才本領,或採用大量各領域專精的技術人員
政府部門委外維護案中明顯可看出,由於預算與競爭的關係,得標之SI公司派出的駐點工程師其人數與能力有限
工程師的資歷與專業通常是無法預先防止狀況發生,僅能處理善後與基礎安裝設定的工作 更無法進一步進行設備關聯之進階除錯與追蹤(Debug)
每100台伺服器規模的資訊中心,合併相關的資訊檢測點(node)約有200,000個
如何7x24每3-10分鐘檢測一次,以5分鐘計算,每天檢測次數高達200,000x288=57,6000,000次
用人工方式無法負擔此頂工作,只好等使用者或客戶回應後才能開始找尋問題與決解之道,
無法在第一時間使用預警式通知,固在決解問題時有極大的時間壓力
[資訊維運3.0-是自動化IT維運的時代]
建立自動化IT維運的基本條件
*. 盡可能完整的收集各類型資訊設備的狀態資料
*. 廣泛的納入偵測目標與檢測項目
*. 依應用特性定義所有偵測目標的異常臨界點
*. 要有嚴緊的告警流程與多元化通報的機制
*. 重復性的工作盡量自動化
*. 依照自動化維運機制建立維運標準規範
*. 從資訊中心常見與重要的資訊設備開始
盡可能完整的收集各類型資訊設備的狀態資料
自動化IT維運的首要工作是要盡量完整取得各類型資訊設備的狀態與大數據資料,
透過多元化的通信與資料協定採用主動或被動的方式取得相關的數據或狀態字串資料
(例如:安裝代理程式(Agent),CLI,SNMP,SNMP TRAP,NetFlow,Sflow,IPMI,Modbus Protocol與各功能之網路檢測程式),
並將所有資訊整合關聯化,經由分析,統計,比對,歸類與串聯,同時分即時,短期,中長期與長期記錄
完整資料收集對於整體性的IT維運系統是非常重要
依一台 48Port Switch為例,約有 50,000個檔案資訊做演算
如果有充足的數據與細膩的設計,就能從各項關聯數據資料中就能找出解決的方案
特別注意:
       系統必須要有能力讓使用自定某些數據條件,才能讓維運人員即時準確的判斷狀態
        例如:
            提供Switch有自定埠速度的功能,就能比較精準的算出流量使用率
            在承租GSN網路時寬頻通常不會是此台Switch的埠速度,
            當在計算"流量率"時會有不對稱的使用比,容易造成直覺上的誤判
廣泛的納入偵測目標與檢測項目
資訊中心內的資訊設備或屬外站的資訊設備,無論是伺服主機,網路設備,作業系統,應用系統或電力系統都有緊密的關聯
每樣設備都有可能發生異常狀況,若能隨時預期檢測設備與連線或系統程式執行,
在事件尚未嚴重時,提出告警或由資訊戰情中心即時監控顯示,即能立即處置

一套完整的監控系統,不單單僅有監控基本的"資源使用"狀態,
僅收集CPU使用率,記憶體使用量,網路流量等簡易的效能資訊而己
必須含蓋更多層面的資訊狀態
例如:
            伺服器的磁碟陣列(RAID)
            伺服器主機板,CPU的溫度,風扇轉速
            系統或應用程式執行狀態(如:工作管理員中的處理程序)
            交換器(Switch)的VLAN分佈圖與每一個埠的速度檢查是否因線路接觸不良或網卡故障而降速
            網站中的網頁下載檢測
            虛擬主機VMware之VMHost,VMGuest資源配置與整合關聯
            使用者端或外站的網路反向檢測
            儲存系統(storage),電力排插PDU,UPS,系統日誌(syslog)等裝置
尤其是在作業系統下的各種服務應用系統包含了處理程序,檔案,連線數量,程式比對
硬碟使用(Filesystem),應用程式異常介接...等功能
*.每100台伺服器規模的資訊中心,約有200,000個檢測點(node)
定義所有偵測目標的異常臨界點
定義偵測目標檢測的異常臨界點,最重要的目的是當資訊設備在運作時若是在效能,流量,連線,執行,故障 等各種因素,
對資訊維運有影響之事件都應納入,設定其最高,最低或訊息字串 等觸發元件
當檢測目標的值超過或符合異常臨界點時,必須依通報機制發出告警訊息或執行預定的處置程式
但不是所有的檢測項目告警異常臨界值都時相同的,必須要依照設備,系統,應用等不同的特性更改,
才不會造成更大的誤判
同時必須要讓每一個最小的檢測目標都能獨立設定自己的告警臨界點與通報名單
建立嚴緊的告警流程與多元化通報的機制
當有異常狀況時無法即時通知系統負責人或維運工程師即時處理而錯失
但如果告警機制不夠嚴緊將會造成對於告警事件的忽視與恐懼 最後將關閉告警功能,這是一個常見的現象
一個嚴緊的告警機制必須要有下列條件
*. 每一個最小的檢測目標都能獨立設定自己的告警臨界點
*. 每一個最小的檢測目標都能獨立設定自己的告警嚴緊度或警報敏感度之條件
    包含了在符合告警臨界點後的 "重試次數","延遲時間",有些項目還要需依時段才能發佈
    在不同時段某些檢測目標超過告警臨界點算是正常
*.多元化通報方式
            依偵測目標(如:某台伺服器的CPU)
            依主體設備(如:伺服器,Switch)
            依通報群組
            依特定功能群組
            整體名單
            必要名單
            經由介接系統整合EIP訊息推播系統
*.觸發控制命令
            "控制命令"主要用途在於當警報發出後可依事先預定的機制進行遠端執行命令
            如:讓200台主機依正常程序關機或經由IPMI,ILO,IMM將主機電源開啟,執行Switch CLI 等各項 工作
重復性的工作盡量自動化
讓時間用在經驗與專業有關重要事情上
在IT資訊維運中除了狀況處理,定時檢測系統與設備狀態外,有很多例行工作必須用人工方式做,
讓系統維理人員花費很多時間
列如
            . 網路連線品質測試
            . 備份交換器(Switch)的設定檔(Configure)
            . 伺服主機效能與資源使用的定期巡查報表
            . 資訊維運管理之事件報表
依照自動化維運機制建立維運標準規範
自動化維運機制的維運標準規範可能會與人工化的制度規範不太相同
人工化的制度規範因為無法建立預警系統,告警機制,即時資訊與資訊維運戰情中心 ...等各類型的數據分析,與即時展現
所以大部份都採用人工批次方式的日,週,月例行抽檢狀態報表或由使用者回應的事件處理回報記錄
或使用事件日誌(Syslog,Event Log)記錄追查,當然無法滿足即時化與預警的需求
雖然維運規範必須配合"使用單位"需求來建立,但自動化的維運機制亦必須要有其基本建置與規範
完整的基礎建設
    . 從資訊設備的屬性與設備專業做分類,讓資訊設備全面納入自動化監控
充份了解資訊設備的資源
    . 從自動化資訊收集中了解資訊設備之配備,效能與資源,做全面性健康檢查,對於效能較差之設備提出解決方案
預警建立與告警處置流程
    . 依資訊設備的特性,資源與健康狀況,修改特殊檢測目標的異常臨界點
      設置維運人員與系統負責人的告警處置機制
即時資訊戰情中心儀表板
    . 全面掌控系統資訊,無法隱藏潛在危機,使得系統狀態透明化,讓異常狀況發生時能即時處理
進階除錯與追蹤(Debug)
    . 整合關聯性設備,利用即時,短期,長期資訊做深層分析
建立不停頓的系統人員的交接模式
    . 自動化維運模式與完整的基礎建置,詳細的建立設備說明資訊
建立緊急事件理機制
    . 市電臨時停電,而發電機未能即時啟動的狀況下,如何能讓各種伺服器的作業系統(OS),
      應用系統能用正常程序快速緊急關機
      使用快速安全的"一鍵關機"來完成,緊急關機機制
先從資訊中心常見的資訊設備開始
資訊中心集中的資訊設備 通常會占使用單位總資訊設備90%以上
如果能將"資訊中心"90%的資訊設備與模擬使用納入自動化監控,則己完成自動化資訊維運的基礎工程
在資訊中心常見的資訊設備與網路連線測試
伺服主機
            實體主機(1U,2U,4U主機)
            虛擬主機(VMware,Microsoft Hyper-V,Sun Virtualbox,Linux KVM)
            主機硬體(磁碟陣列卡(RAID),硬碟,主機板CPU的溫度,風扇轉速)
            作業系統(IBM AIX,HP-UX,SUN Solaris,SCO UNIX,Linux,Microsoft Server系列)
            應用系統
網路設備
            交換器(Core,L2,L3 Switch)
            防火牆(Firewall,UTM)
            負載平衡器(Load Balance)
            路由器(Router)
儲存設備(storage)
            NFS,SMB類或NAS,SAN
網路連線
            封包測試(loss與回應時間)
            網路服務程式(Socket service,服務通信埠啟用或停止)
            網站網頁(DNS解析,網站存活,網頁回應)
電力設備
            不斷電系統(UPS)
            電力排插(PDU)

看 -> 伺服器圖形監控詳細說明

從資訊設備的屬性與專業做分類
*.主機硬體層-BIOS控制層
*.作業系統層-主機效能
*.作業系統層-虛擬主機
*.網路連線層-存活指標
*.網路連線層-忙碌指標
*.網路連線層-品質檢測
*.應用系統層-啟用執行
*.應用系統層-輔助監測
*.應用系統層-訊息溝通
*.應用系統層-進階使用
*.資訊安全層-潛在危機
*.網路監控層-網路設備
*.網路監控層-網路連線
*.網路監控層-網路安全
*.輔助監控層-轉送機制
*.輔助監控層-特定資訊
*.輔助監控層-應用系統整合
*.輔助監控層-緊急處置
*.輔助監控層-機房安全
*.輔助監控層-系統日誌
*.輔助監控層-拹助監控




回到首頁