伺服器硬體層的監控IPMI(ILO/IMM/RSA/DRAC)


     Watchdog資訊維運監控系統對於伺服器硬體層(包含:實體主機/虛擬主機VMHost)的監控
     支援依IPMI(ILO/IMM/RSA/DRAC)協定取得資訊內容與數據,其偵測項目包含
     主機板狀態,工作電壓,溫度,風扇轉速,電源供應器等數值,可自訂異常值加以偵測,並提供異常告警訊息
     同時對伺服器的電源供應器可依狀況需要控制電源開關開啟,關閉,重新啟動

     "主機硬體-IPMI"是伺服主機在應用系統層的輔助監測功能之一
     維運系統對於伺服器是採全面監控,而不放過任何有可能造成主機營運異常的事件
     當上述情況發生時,Watchdog資訊維運系統即會發佈警報並且執行警報機制,務求達到整體妥善率的防護加強

     監控"主機硬體-IPMI"的系統規格
       偵測目的: 即時掌控主機板安全指標數據狀態,保全主機硬體運作正常使用介面:IPMI,ILO,IMM,iDRAC等
       如:風扇出問題時會讓主機溫度上升面當機,若是VMhost則會影響多台伺服主機
       監測目標: 溫度感測器,風扇轉速,電壓電流
       警報條件: 高於/低於 警覺值
       即時資訊: 數據/警報發佈
       資訊收集: 訊息,數據,警報發佈/解除時間點
       緊急處置: 通報,執行預定程式
       警報臨界值: 依設備(要觀查7天後才定義警報值)


下圖為主機硬體-IPMI功能的主偵測頁面:



     "主機硬體-IPMI"功能在維運系統上運作的主要偵測目的為即時監控伺服主機的主機板與硬體之指標數據
     並在偵測指標超過警戒值時即時發出告警訊息通知系統人員進行處理
     以伺服器硬體的穩定運行在資訊維運的角度上是相當重要的,當運作不穩甚至當機可能造成嚴重後果
     若是發生虛擬主機的VM Host當機時,影響Guest的層面將會更廣

     下圖形為點選IPMI之偵測點所進入的詳細偵測畫面,可以秀出各種偵測狀態:



     維運系統功能中的主機硬體-IPMI之偵測畫面,協助維運人員快速判讀伺服器電壓
     風扇轉數與主機板溫度等統計資料,可設定偵測臨界值來產生告警偵測的功能,警報資料可以進行長期的記錄
     並且透過跟其他關聯功能的整合與應用,達到全面的掌握機房維運的整體概念

     進入本功能的主偵測頁面,請如下圖由偵測狀態中,點選文字連結即可進入:



     可點選偵測點進入到更深入詳細的偵測狀態,如下圖:



     主機硬體-IPMI功能為資訊維運系統收集伺服器資訊環境的重要功能之一

     進一步點選進入底下的詳細功能偵測:



     上圖的偵測結果最重要的是依照最高最低警戒值與偵測值的比較結果,警報狀態是否正常
     並且依偵測項目不同,關鍵指標也有可能為電壓Volts等項目

     可以點選有效快速的文字型偵測,進入以下畫面:



     主機硬體-IPMI功能可以偵測目標伺服主機上的溫度,風扇以及電源等各項目,各廠牌對IPMI會有不同的名稱
     但底層基本上都使用IPMI的拹定,如下說明:
       HP->ILO2,ILO3,ILO4....
       IBM->RSA,RSA2,IMM,IMM2,IPMI,BMC
       DELL->iDRAC
       ASUS->ASMB,ASMB4-iKVM,ASMB5-iKVM
       SUN->ALOM
       Fujitsu->iRMC

     請點選偵測名單中的連結件入以下畫面:



     主機硬體-IPMI功能的設定方式如下:
       序號:本功能設定的排序序號(依照版本不同,也會有數量上的不同,詳見規格)
       啟用,暫停:選擇偵測目標是否啟用
       刪除與確認刪除:將偵測目標的刪除掉
       次數:異常的次數,若是設定為3,系統測試連續三次異常即發送通報.(初值3,最高值999)
       間隔:發生異常後的測試間隔秒數,若是設定值為30,系統則每30秒測試一次
       主機IP:輸入偵測目標的IP的欄位
       通信埠:輸入偵測目標的IPMI服務Port的欄位,初值為623 PORT,如沒有特殊需求不建議更改此欄位
       使用者:輸入該台伺服主機的管理使用者名稱的欄位,務必要輸入才能發揮效用
       密碼:輸入該台伺服主機密碼的欄位,務必要輸入才能發揮效用
       基本閘道:為設定偵測目標所經過的閘道,可設一個IP或使用路由表進行偵測,避免因閘道IP異常造成系統誤判
       歸屬主機:於欄位內輸入主機的IP即可產生分群監控的效果
       硬體平台:顯示平台與系統的欄位
       系統:依輸入的IP,維運系統可判別一定程度的系統,並顯示在此欄位上為顯示哪種作業系統
      
       命令:此連結畫面為輸入與更改設定該項次主機的IP,使用者名稱與密碼的欄位,並且可自由選擇顯示
       此欄位是進行哪種偵測畫面,包含有:電源狀態,感測器狀態,可更換的配件與事件記錄等多種的選項



       初值:搭配命令這個選項,進行初值的擷取,此欄位所收集的數據是重要的分析關鍵,會直接影響到警報臨界點的設定
              如果取不到初值,也有可能連線或是設定上出現了錯誤,務必要確認清楚此項


       說明:利用此項功能將"主機硬體"的IPMI資訊先收集後,再依需要項目設定各項警報值
       警報:此欄位為根據前面的初值,設定警報臨界值的欄位連結,包含可以自由設定項目名稱與單位
              並且針對最近取得值進行欄位的警報設定,超過或是低於警報臨界值,則是為異常狀態
              同時可選擇相對應的圖型,進行監控畫面的展示



     相對應的圖型有下列:



       群組名單:如果有建立通報群組的部分即可以作選擇,針對要分群通報時要設定的項次
       單位部門:本項次呼應群組名單,如果群組名單所選擇的群組,有單位部門的名稱,會顯示出來方便人員判別
       別名:此項目為設定產生在監控畫面上的偵測目標的名稱,設定畫面如圖,可以設定中文
       群組:點選進去設定要通知的對象,通知方法為信箱與簡訊等,此項次可以參照通報名單(群組)的說明
       資訊:為設備資訊,主要設定偵測點的詳細資料,設定畫面可以參照設備資訊內的設定圖說,使用說明如下:



     *.設定IPMI基本上各廠牌都會在BIOS上設定IP,使用者名稱以及密碼
     *.請注意HP的ILO 2其"BIOS Firmware"版本要2.0以上才會支援IPMI
     *.如果要執行"電源控制",僅有"admn"使用者有權限



回到首頁