回到首頁
緊急關機事件處置
-
停電/斷電-IT資訊機房最大的夢饜
在資訊中心的IT機房內集中存放大量的資訊設備其用電量也相當大,所以最擔心的狀況是"斷電"
最常發生"停電"的狀況有下列原因
*.市電中斷
*.電路故障
*.供電設備故障
*.預定維修
*.斷電演練
UPS與發電機
大部份的資訊中心資訊機房都有配置不斷電系統-UPS與發電機,僅有少數電腦機房因地理位置問題無法安裝發電機
而不斷電系統-UPS在正常的情況下能夠供應的時間通常在20-30分鐘以內
發電機則大部份都歸由大樓管理單位負責,發電機與不斷電系統-UPS之間的配合運作因為無法經常演練,
所以必須等到實際斷電時才能驗証
當實際發生"市電中斷"的停電狀況時發電機確無法提供電力給不斷電系統-UPS
可能是發電機電問題或因發電機與UPS電路設計問題造成無電力來源僅能靠不斷電系統-UPS獨撐
如何建立緊急依正常程序的關機步驟,是讓恢復無損開機最大的問題
此時必須做緊急事件處置-關機
緊急關機
如果是"預定維修","斷電演練"則會有充足的時間慢慢關機,或伺服器集體關機
但如果遇到斷電,火災是屬"緊急事件處置",則關機時間僅有20-30分鐘,都是與時間賽跑,
當需要用到"緊急關機"的情況下必須要先規劃"緊急關機處理程序"的流程步驟
先將資訊設備分類:
*.可以直接斷電的資訊設備
如:交換器(Switch)
*.一定要有正常的關機程序
如:有作業系統之伺服主機(Windows,Linux,Sun Solaris,IBM AIX,HP Unix)
*.必須要先有前置關機或命令程序後才能關機之設備
如:VMWare主機 VMHost
*.等到UPS完全沒電後再自動關機之設備或所有的設備都己完全關機完畢後才關
如:儲存系統
當系統不按照正常程序進行關機時,可能會在下次開機時產生嚴重問題,這應該所有有經驗的系統工程師都遇過
規劃"緊急關機"的流程步驟
一定要使用正常程序來關機-伺服主機
由於現代的伺服器架構依附關係非常複雜(尤其虛擬主機),要能夠在安全的關機後
重新開機啟用後能保持完整依附原有關係是非常不容易,如果能將關機的SOP定義完整是最好的辦法
但如何使用最少的時間來回復系統原來的架構是關機流程首要工作
在緊急狀況下,依各作業系統特性進行正常程序關機,可確保讓系統正常歸位,
再重新開機時系統能順利啟動,系統資料結構不會損壞
依伺服主機的重要性等級分段關機,讓重要主機有機會支撐更久時間運行
*.可將伺服主機依重要性分A,B,C三大等級
*.建立緊急關機群組,依伺服主機的重要性等級分段關機,以不重要性為優先關機
如: C級, B級, A級,演練展示,全體緊急電源關閉
執行關機的主控台有兩種
1.直接由Watchdog依預定命令執行
正常關機的命令有多種方式可選擇
socket command,Batch command,PowerCli command,esxcli command,ssh,telnet CLI,IPMI(ILO,IMM) 等...
每一種命令均可混合使用,完全依實際需求而組合
而選用"socket command"正常程序關機是最為快速,常用的方法,使用指令"shutdown",
經由"命令閘道"同步下達指令正確又快速關機,可完全按照預定的標準程序進行
2.由代理主機執行關機命令
利用一台主機來執行遠端各應用伺服器主機群的關機動作為"代理主機"
由Watchdog使用 "命令閘道" 之功能驅動伺服主機執行代理關機
使用"代理主機"來關閉其他伺服主機僅適合下列狀況
*.使用批次命令(Batch command),僅適合Microsoft Windows 系統做為"關機代理主機"
*.使用PowerCLI對VMWare系統依VC名冊進行關機,僅適合Microsoft Windows 系統做為"關機代理主機"
關機動作執行規範
*.每個關機動作都可獨立組合執行程序
*.每個關機動作都可有由多個"命令閘道"組成一群組動作
*.每個關機動作都可安排執行順序或延遲執行時間
*.每一個"命令閘道"可同時對256台主機下達關機或其他命令
*.每一個關機動作可同時對1,000台以上主機下達關機命令
*.可以自定"緊急關機"之關機政策,按照預定的標準程序進行
如:關機順序分二批,若有勾選第二批之主機,會在第二輪才關機
特別注意事項
*.關機前必須要特別執行的命令動作
*.要考慮到系統之間的依賴關連與對關機有前後順序的應用系統或主機(如:DB與AP)
*.若系統有"Vmotion"時要特別注意移轉問題
*.若系統有"Cluster/HA"時要特別注意移轉問題
*.關機時必須考慮VMGuest與VMHost依附關系,不可在VMGuest未關機的狀況下先將VMHost要關機
*.若VMWare採用PowerCLI依VC名刪關機必須特別注意優先順序與"Cluster/HA" 問題
*.若採用"Batch command"方式關機必須特別注意AD/DC優先順序的問題
執行緊急關機的方案
執行"緊急關機"必須要先考慮到下列幾個因素
*.下班時間與颱風時段有無值班人員與值班人員的操作能力
*.執行"緊急關機"的順暢度(如:忘記密碼)
*.確定執行"緊急關機"的連絡步驟與管制方法
*.執行"緊急關機"的管制方法
*.建立安全防護,防止誤觸
*.若為"實體按鍵"則要考慮安裝位置
以下為常用的執行"緊急關機"方法
*.使用瀏覽器介面操作Watchdog功能表
*.使用瀏覽器介面操作Watchdog己預定功能的"虛擬按鍵"
*.建立"一鍵關機"硬體式"實體按鍵"的按鍵模組
最簡單,最快速的方法是"實體按鍵"
以下為各方案優缺點:
*.使用瀏覽器介面操作Watchdog功能表
缺點:
緊急關機機制由於不常使用或人員異動常會有下列狀況發生
. 忘記密碼
. 找不到操作功能
. 忘記執行程序
. 不確定執行過程是否正確
. 現場無有經驗之工程師,無法執行
. 人員交接容易錯誤
. 較無實體真實感
優點:
. 預設功能,不需任何裝置與費用,立即可用
*.使用瀏覽器介面操作Watchdog己預定功能的"虛擬按鍵"
缺點:
緊急關機機制由於不常使用或人員異動常會有下列狀況發生
. 忘記密碼
. 找不到操作功能
. 忘記執行程序
. 不確定執行過程是否正確
. 現場無有經驗之工程師,無法執行
. 人員交接容易錯誤
. 若使用行動裝置風險較高
. 比較容易按錯鍵
. 較無實體真實感
優點:
. 預設功能,不需任何裝置與費用,立即可用
. 模擬實體按鍵,執行時較有真實感
. 使用行動裝置操作方便
*.建立"一鍵關機"硬體式"實體按鍵"的按鍵模組
缺點:
. 需要增加設備與費用 如:小型PLC,按鍵組,小量配線
. 無法遠端按鍵(但可用"虛擬按鍵"輔助)
優點:
. 簡單迅速,操作容易
. 可建立一組定時演練或展示的"一鍵關機"機制
. 在緊急狀態下任何值班人員經由電話授權即可立即執行
. 實體按鍵在執行時真實感比較豐富
. 實體裝置比較容易操作,展示或使用
. 有實體裝置在介紹展示時比較有實質效果
. 加入音效廣播與警示燈後比較有一體性的執行步驟感覺
. 加入即時關機監控劃面,立即展示主機之關機狀態
. 除了上述優點外,在演練與展示時會有很好的效果
以下為一鍵關機(實體按鍵)特別說明
"一鍵關機"是利用"實體按鍵"來執行"緊急關機"的標準程序進行全面性關機或集體關機
當需要執行全面性的"緊急關機"時利用"實體按鍵"由系統人員或值班人員即時按下"緊急按鍵"
立即進行整體伺服器做正常程序關機
建立一組"實體按鍵"的"緊急關機"可以考慮下列建議
設備輔助裝置
*.實體按鍵控制平台與按鍵模組
*.小型PCL
*.音效廣播(音效器,擴大器,廣播喇叭)
*.緊急狀況警示燈
按鍵控制平台的設備位置
*.不建議放在機房內,當機房發生火警時人員無法進入操作
*.演練與展示時之動線
*.有攝影機的地點
安全管制
*.使用按鍵控制組可用
.鑰匙上鎖
.按鍵面板上蓋
.貼封條
*.建立標記閘道
.執行管制確認放行控制點
.確保執行程序
*.簡訊命令
.執行管制確認放行控制點
定時檢測關機設施
*.PLC (封包測試)
*.代理關機主機(連線與系統測試)
*.應用伺服器主機群(封包測試)
*.應用伺服器主機群(IPMI資訊測試)
關機監控圖形介面
畫面資訊內容與檢測方式
*. DI PLC (封包檢測)
*. DI Trap 警報 (警報檢測)
*. 命令閘道 (警報檢測)
*. IP通信埠 (socket連線檢測)
*. 代理執行-主機與關機名單(封包檢測)
*. VMhost/VMguest主機(封包檢測)
*. IPMI Power (Power status資訊檢測)
回到首頁