佈署自動化IT資訊維運系統的要領

重要的觀念
      *.要認知IT資訊機房維運管理最大的原則是正確而快速的提供終端使用者資訊服務
      *.依設備用途與特性監測的細項規範與細部資訊佈署
      *.尋找服務目地的存活指標
      *.廣泛的納入任何有危險因素系統運行項目
      *.嚴緊的異常事件告警機制
      *.戰情中心概念的即時資訊
      *.整合設備與系統關聯性資料與架構
      *.跨越部門或設備的除錯追蹤(Debug)機制
      *.統合一貫的管理制度與標準程序
      *.讓操作維運系統是一項科技簡單化的運用
      *.拹助接管的資訊管理人員快速掌控設備之設定與應用狀況
      *.拹助資訊管理人員專業養成教育
      *.建立自動化維運的標準流程,降低系統人員異動的衝擊力
存活指標的定義
      伺服器與作業系統是應用系統的寄宿的殼與生活環境,每一台伺服主機都有其主要
      的應用目地,了解其主要應用目地才能知道此台伺服主機的監控重點
      一台伺服主機的運行不是光從主機效能(一台CPU使用率10%,另一台CPU使用率90%) 就能得知其有無問題
      每一個資訊設備的啟用都有其主要用途之項目,為"服務目地"的重要存活指標
      當設備的"服務目地"功能喪失後,此設備等於沒有用途 如: 伺服器存活指標
      建立一套伺服主機一定有一項以上的重要"服務目地"與"服務目地"的相關系統
      例一: DNS 伺服器但DNS Service未啟動,53port不通 -> DNS伺服器失效
      例二: 網站伺服系統的主要"存活指標"
            WEB Service(Apach,IIS..),Java中介軟體,資料庫應用系統,DNS伺服器
      當伺服器 "服務目地"的重要存活指標出問題時,縱然此台伺服主機的其他效能都
      很健康,但也沒用(如:CPU,Memory,硬碟空間,網路很快)
      當然除了主要功能存活指標還有其他運行指標
       *. 系統效能運作指標
       *. 重要程式指標
       *. 硬體運作指標

資訊收集的用途與迷思
      產生與收集大量的資訊資料是件容易的功能,但這些資料大部份僅會提供事後搜尋與
      追查訊息的功能,並不是可以收集到大量的資料就是了解系統是處於正常或異常的狀態
      更會導至系統人員花費大量的時間來研判解讀資料內容的涵意
      資訊收集的主要目的
       *.掌控資訊設備運行或設定的透明度
       *.做為異常判定與告警依據的數據或行為
       *.做為機器擴充或更新的數據參考值
       *.即時資料 - 即時資訊之戰情中心,立即處置
       *.短期資料 - 拹助效能與狀態比對之判斷,使用時間點做為進階除錯追蹤(Debug)
       *.長期資料 - 進階除錯追蹤(Debug)與大數據分析

      定義資訊收集的堅難度
      *.單一設備的資訊收集-比較簡單
         僅使用一行(60字)的SNMP指令可取的1,000以上的資訊
      *.整合性關聯資訊收集-比較困難
         整合不同設備的關聯性與依賴性,串聯可能相關的資訊項目
         依據使用者習慣分類統計適當的資訊值
         如:看伺服器資訊時,也同時知道此伺服器接在那一台Switch的連接埠上,
         此連接埠上的流量,速度等各項資料,設備的存放位置地圖與照片一併出現
         如:Switch 每埠的流量比


定義告警機制的嚴緊度
      *.單值的異常告警定義-比較簡單
         僅依監測系統單一的取得值
         如: CPU負載上限80%發出警報,但此伺服器CPU負載每5分鐘會有一次
         持續2秒81%,如此告警訊息會產生每5分鐘發出一次或每晚10點-11點做備份CPU負載90%

      *.多重定義的異常告警定義-比較困難
         如上列
         定義(A)CPU負載上限80%+(B)連續3次+(C)每次間隔每5分鐘
         . A+B+C同時成立才發出告警訊息
         . 定義每晚10點-11點不發出告警訊息
每天都會發生重大事件
      每台系統設備每年才會發生一次嚴重事件,看起來是很少的偶發事件,
      但如有300台以上的設備,那等於每天都有嚴重事件發生
      建立自動化IT維運系統不能因為是偶發事件,而不納入監控
      舉個實列:
         使用者索取較大量資料時發覺速度很慢,系統人員開始追查
         1. 使用者電腦CPU,Memory,網路卡,硬碟I/O,防火牆,軟體系統,看起來都沒問題
         2. 資料庫伺服器CPU,Memory,網路卡,硬碟I/O,防火牆,軟體系統,看起來都沒問題
         3. 網路連線與ping回應都正常
         4. 請網管幫忙看Switch設定,網管回應也正常
         5. 請資料庫軟體廠商來檢查也很正常
     花了一整天時間,跨越了不同系統領域或部門,結果都是正常,僅能請使用者再試試.
     有一天突然找到問題點了,原來是網路佈線盤面板(Panel)轉接點接觸不良,
     造成網路經常自動降速,而小量資料無感,而大資料量時使用者就很有感覺

     唯有全面性的監控才能跨越專業領域或部門,進行橫向關聯資訊整合,才能有效的
     追蹤問題,不讓不同部門或廠商發生互推的狀況
     例如:應用組認為是網路的問題

       
回到首頁