開始佈署自動化IT維運系統

建置目標與階段
     建置自動化IT維運系統,初期的建置階段會是比較辛苦,費時
     除了建立前的準備事項外,必須要有人來統合執行各專業資訊人力配合,有時還有些阻力
     整體的基礎建設完成後才有機會進入資訊維運3.0全面自動化監控的績效
     其執行的內容有
       *. 基本建置
       *. 進階建置
       *. 緊急事件
       *. 網路架構重整
       *. 維運流程建立
       *. 展示績效與定時演綀
執行進度分三階段
     第一階段
       基礎建置:
           建立IDC機房內所有有網路能力的資訊設備之監控名單
           監控項目的異常值先使用系統預設值做為告警臨界值
     第二階段
       調整與補充建置:
           完成基礎建置後一段時間必須調整告警臨界值,依每項資訊設備應用之特性調整
           如: Microsoft Windows Exchange 記憶體使用率91%算正常,告警臨界值可調整至95%
           加強監控項目,依每項資訊設備需要增加監控項目
     第三階段
       管理與制度建立:
           自動化IT維運服務系統對於系統維運管理上可能會和之前人工方式有些不同
           即時通報與大量自動化的監控項目,對於系統維運人員會有些壓力
           尤其在完成監控系統建置後,資訊中心內大部份的資訊設備在發生異常狀況時都可即時展示與通報
           如何快速的決解問題與處理時效,狀況回報與記錄,誰決解問題(維運人員,系統負責人或維護廠商),
           處置流程與處理機制或上班,下班,放假不同時段的人員安排..等管理制度都須重新建立


各類型系統與偵測項目的建置階段

設備偵測項目第一階段第二階段第三階段依需要
伺服主機-硬體層主機板狀態(IPMI,ILO,IMM,iDRAC)_2__
伺服主機-系統層磁碟陣列 1___
_CPU與記憶體1___
_硬碟使用1___
_硬碟索引1___
_網卡流量1___
_連線數量1___
_硬碟效能1___
_系統服務(Windows service)__3_
伺服主機-代理偵測封包測試_2__
_IP通信埠_2__
_定時檔案_2__
伺服主機-應用系統層執行程式_2__
_檔案偵測_2__
_檔案數量_2__
_事件警報_2__
_事件數據_2__
_排程資訊_2__
伺服主機-網路效能連線測速-接收__3_
_連線測速-傳送__3_
伺服主機-資訊安全層常駐程式(Unix/Linux)___O
_程式比對___O
_目錄比對___O
_系統比對___O
虛擬主機(VM)磁碟陣列 1___
_Guest主機1___
_VMhost資訊收集1___
_檔案系統(Filesystem)1___
_系統資源配置1___
儲存系統檔案系統(Filesystem)1___
網路設備(Switch,防火牆)整機,VLAN,埠各類流量數據1___
_自定埠速度(GSN)專線1___
_CLI命令_2__
_Config備份_2__
_進階MAC控管___O
網路設備-網路安全NetFlow流量_2__
_sFlow流量_2__
_ARP流量_2__
網路連線封包測試1___
_IP通信埠1___
_網站偵測1___
_網域效能1___
轉送機制郵件轉送__3_
_SNMP TRAP(如:NetApp)__3_
特定資訊SNMP-指定MOB/OID___O
應用系統整合定時檔案___O
_警報閘道__3_
_事件數據__3_
網路環境安全ARP要求與回應1___
_DHCP伺服器__3_
_IP與MAC控管__3_
系統與事件日誌系統與事件日誌__3_
拹助環境監控不斷電系統-UPS1___
_PDU電力整合_2__
_溫度與濕度感測器___O
_網路攝影機 ___O
緊急處置緊急關機-第一段_2__
_緊急關機-第二段 __3_


建置自動化IT維運系統之準備事項
     開始建置前有許多資料必須預先準備,節省與縮短建置成本與時間才能完整將系統完成
     準備"監控清單"是最基本的資料,檢測的方法通常會依其"目的"內容結果而採用何者功能項目 來監控
     *.伺服主機
       .伺服主機清單 內容要有:
                  IP清單
                  硬體廠牌
                  作業系統(Windws,Linux,AIX..)
                  安裝帳戶,使用本機帳戶(Local Administrator)或AD帳戶, 若使用AD帳戶,其權限要同 "Administrator"
                  伺服主機依重要性等級分類 A級,B級,C級 依A->B->C 順序建立
                  伺服主機中文化別名,用於圖形監控與告警通知
                  防毒軟體加入程式白名單
                  本機防火牆要開 5000-5012
                  網路型防火牆要開 5000-5012
                  若經NAT則需IP與Port
                  特別定義的告警通報名單
                  安裝Watchdog Client系統

     *.網路設備
       網路設備包含了 交換器(L2,L3 Switch),路由器(Router),防火牆(Firewall),UTM,負載平衡器(Load Balance)等設備
       取得網路設備的資料常用的協定(Protocol)是 SNMP與CLI
       要準備的事項如下:
         設備IP清單
         硬體廠牌
         SNMP 群組名稱 (如:public)
         SNMP 要啟用
         CLI 帳戶與密碼
         網路設備依重要性等級分類 A級,B級,C級 依A->B->C 順序建立
         專線或GSN線路的進出的承租速度與連接埠編號位置
         設定檔(Config)備份的CLI指令
         網路設備中文化別名,用於圖形監控與告警通知
         特別定義的告警通報名單
         中間防火牆要開 UDP 161,162 Port

     *.伺服主機-硬體(IPMI,ILO,IMM,iDRAC)
       IPMI,ILO,IMM,iDRAC是屬各伺服器硬體廠牌對於主機板,電源,溫度感測,風扇狀態..等
       硬體方面的監測與管理系統,屬BIOS層設定與管理
       要準備的事項如下:
         設備IP清單
         硬體廠牌
         專屬管理網段
         需要網路配線
         專屬交換器(Switch)
         BIOS 要設定IP,使用者(User),密碼(Password)
         中間防火牆要開 UDP 623 Port

     *.PDU電力排插
       電力排插(PDU)是在機櫃中常見的智慧型電力排插是網路管理的功能在機櫃中常見的資訊設備,
       可經由SNMP協定(Protocol)取得電力使用狀態底統計分析電力使用
       要準備的事項如下:
         設備IP清單
         硬體廠牌
         專屬管理網段
         需要網路配線
         專屬交換器(Switch)
         中間防火牆要開 UDP 161,162 Port

     *.拹助環境監控
       拹助環境監控主要是配合原環控系統進行整合使用,包含了 圖控,告警通報..等項目
       由於原環控系統對於整合能力有所不同,故採用的整合方式依其能力而不同
       其方式有:
         原環控系統有能力送出狀態數據
           可使用 "伺服主機-事件警報","伺服主機-事件數據" 整合其數據與訊息
           整合至Watchdog系統圖形監控,告警通報..等各項功能
         原環控系統無法送出狀態數據
         可使用"畫面快照"的方式將其 "監控畫面"定時複製存檔,並整合至Watchdog系統圖形監控內
         原環控系統無法再擴充增加溫度與濕度感測器
           可使用Watchdog系統之"類比輸入 AI-溫度與濕度"或數位輸(DI,DO)偵測系統彌補其設備不足之狀況



     *.緊急關機-第二階段
       緊急關機的第二階段是使用"實體按鍵"與"一鍵關機"來進入行緊急關機的執行方法
       緊急關機通常是用於特殊狀態之緊急狀況(如: 市電停電,發電機無法立即接手,UPS電力不足,火警)
       如果無法使用"實體按鍵"也可用"虛擬按鍵"執行"一鍵關機"的功能
       使用"實體按鍵"與"一鍵關機"的好處:
           在緊急狀態任何值班人員經由電話授權即可立即執行,無權限,無專業之問題
           在時間有限的情況下,不需登入,密碼即可執行
           按原設定之標準程序進行關機
           關機速度快速(同步發出指令)
           機房發生火警,人員無法進入操作,可在外部操作
           實體裝置容易操作,展示,使用
       要準備的事項如下:
           小型 PCL
           按鍵模組
           音效廣播
           警告燈具
           關機清單 可分為 A級,B級,C級 依C->B->A 順序關機
           標準執行程序

     *.網路攝影機
       使用網路攝影機主要是用於"快照記錄",適用於電腦機房進出記錄或特殊重要地點
       使用照片記錄可輔助原有登記,刷卡門禁更為清礎
       "快照"的好處是 檔案空間使用量少,追查記錄容易
       要準備的事項如下:
           網路攝影機有CGI功能
           設備IP清單
           硬體廠牌
           感應器(如:紅外線感應器,磁簧開關)
           小型 PCL
           照明燈具
自動化IT維運系統後特別注意事項
     在建置自動化IT維運系統後,系統開始取得各項數據並對監控設備進行健康檢查, 將會出現許多的問題
     下列事項可提供參考:
       * 網路設備(如:Switch)
           連接埠高流量集中一連接埠
           VM主機集中一連接埠
           連接埠降速
           Load Balancer架構問題(如:太過集中特定 伺服器)

       * 伺服主機系統
           檢查伺服主機系統時間準確性
           作業系統,應用系統優化調整
           儲存系統之儲存空間優化調整
           每月統計伺服器異常告警排名,優先決解其問題

       * VM伺服器(VMWare)
           CPU,Memory資源分配使用狀態
           Guest主機資源分配使用與效能狀態
           檢查VMware Guest主機 VMtools安裝狀態與PowerOff/On狀態

       * 數據與訊息外送整合
           Watchdog收集檢測後的數據與訊息提供外送至其他主機進行資料整合
           如:維運管理平台,推播系統或其他系統整合主機

       * 管理與制度建立
           重新開機的機制
           即時監控螢幕畫面安排
           依系統負責人監看伺服器
           即時監控的事件處理流程
           客服中心事件處理流程

       * 架設反向監控系統
         在每一據點建立一套網路反向偵測點指向使用者必用之各伺服器
         可隨時常態收集使用者端往伺服器端之網路品質數據


自動化IT維運系統後的維運績效(KPI)
     在建置自動化IT維運系統後,系統開始取得各項數據並對監控設備進行偵測項目的各項資料
     分析與統計並歸類,此時系統將會出現各頭維運績效(KPI)的相關資訊
     此階段以總管理面為主要版面設計,重點於重要資訊各類型之維運績效(KPI)為主
     可參考下列項目
       *.伺服主機
         全部主機總數
         正常主機總數
         異常主機總數
         暫停主機總數
         維修主機總數
         失聯主機總數
         CPU 大於90%主機總數
         MEM 大於90%主機總數
         SWAP(虛擬記憶體) 大於90%主機總數
         A 級主機總數 / B 級主機總數 / C 級主機總數
         正常主機總數
         異常主機總數
         暫停主機總數
         維修主機總數
         失聯主機總數
         CPU 大於90%主機總數
         MEM 大於90%主機總數
         SWAP(虛擬記憶體) 大於90%主機總數
       *.虛擬主機(VMHost)
         全部主機總數
         正常主機總數
         異常主機總數
         暫停主機總數
       *.封包測試
         全部總數
         正常總數
         異常總數
         Loss大於50%總數
         回應時間1ms內總數-很好
         回應時間5ms內總數-不錯
         回應時間10ms內總數-普通
         回應時間50ms內總數-差
         回應時間100ms內總數-很差
       *.IP通信埠
         全部總數
         正常總數
         異常總數
       *.網站偵測
         全部總數
         正常總數
         異常總數


回到首頁