停電/斷電 - IT資訊機房最大的夢饜
在當代IT資訊機房營運中,斷電及其他突發狀況常常導致嚴重的危機,這不僅威脅到機房設備的安全,更可能對企業的業務運營造成無法預估的影響。
面對這樣的挑戰,一套能夠迅速且有效應對緊急情況的解決方案至關重要。
WATCHDOG系統在此背景下,結合各類資訊設備的資訊偵測外,也提供「一鍵關機」功能。這項功能允許使用者在遇到斷電等緊急情況時,
能夠依照正常的關機程序,一鍵同時關閉上百台運行不同作業系統的伺服器,確保資訊設備的安全與數據的完整性,
從而最大限度地減少潛在的損失和風險。
常見斷電原因
➢市電中斷
➢電路故障
➢供電設備故障
➢預定維修
➢斷電演練
UPS與發電機的關鍵角色
大部分資訊機房配備了不斷電系統(UPS)和發電機,以應對斷電情況。
然而,因地理位置等因素,少數機房無法安裝發電機。在正常情況下,UPS能提供20至30分鐘的電力支持。
發電機的運作由大樓管理單位負責,但其與UPS之間的協同作業往往缺乏經常性演練,只能在實際斷電時驗證效果。
緊急關機的策略與步驟
在無預警的緊急情況下,如市電中斷或火災,緊急關機變得迫在眉睫,關機時間僅限於UPS支持的20至30分鐘內。因此,預先規劃緊急關機流程變得至關重要。
資訊設備的分類及處理
➢可直接斷電設備,如:交換器(Switch)。
➢需正常關機程序的設備,如:操作系統伺服器(Windows, Linux等)。
➢需前置關機或命令程序的設備,如:VMWare主機 VMHost。
➢需待UPS完全耗盡電力後自動關機的設備,或等待所有設備關機完畢後再行關機,如:儲存系統。
當系統不按照正常程序進行關機時,可能會在下次開機時產生嚴重問題,這應該所有有經驗的系統工程師都遇過,卻又無可奈何。
規劃【緊急關機】的策略與步驟
在現代資訊中心,伺服器和虛擬主機的架構相依性極為複雜,
這使得在安全關機後能夠順利地重新啟動,並保持原有的架構相依關係,成為一項重大挑戰。
因此精確定義一套完整的關機標準操作程序(SOP)是關鍵,旨在確保在最短時間內恢復到系統的原始架構。
正常程序關機的重要性
在緊急情況下,根據不同作業系統的特性執行正常程序關機至關重要。這樣做不僅能確保系統能夠正確地返回其初始狀態,還能在重啟時無障礙地啟動系統,避免系統資料結構的損壞。
伺服主機的重要性等級分段關機
在WATCHDOG系統上,可以將納入監控的伺服主機分為A、B以及C級主機,這些重要等級可以依照使用者的使用環境自行定義,
經過定義的主機即可以使用重要性等級作為整批關機的群組,讓重要主機有機會支撐更久時間運行。
➢根據伺服主機的重要性分為A、B、C三大等級。
➢建立緊急關機群組,按重要性等級順序進行分段關機,優先關閉較不重要的主機。
關機命令的執行方式
1. 直接由Watchdog系統之預定命令執行:
使用多種關機命令:包括socket command、Batch command、PowerCli command等,
每一種命令均可混合使用,完全依實際需求而組合。
如「socket command」是一種快速且常用的關機方法,
能通過
【命令閘道】
下達指令,可完全按照預定的指令進行標準程序關機。
2. 透過代理主機執行關機命令:
利用一台主機來執行遠端各應用伺服器主機群的關機動作為【代理主機】,
由Watchdog使用 【命令閘道】驅動伺服主機執行代理關機。
➥使用批次命令(Batch command),僅適合Microsoft Windows系統做為【關機代理主機】
➥使用PowerCLI對VMWare系統依VC名冊進行關機,僅適合Microsoft Windows系統做為【關機代理主機】
關機動作的執行規範
➣每個關機動作可以獨立組合,並由多個「命令閘道」形成一個群組動作。
➣可以安排執行順序或設定延遲執行時間。
➣每一個「命令閘道」可對多達256台主機下達關機命令。
➣每一個「關機動作」可同時對1,000台以上主機下達關機命令
➣可以自定義【緊急關機】的政策,按照預定的標準程序進行。
如:關機順序分二批,若有勾選第二批之主機,會在第二輪才關機
特別注意事項
➣在關機前需執行的特別命令動作
➣考慮到系統間的依賴關係及關機順序(如:DB與AP)
➣特別注意處理Vmotion和Cluster/HA的移轉問題
➣關機時必須考慮VMGuest與VMHost依附關系,不可在VMGuest未關機的狀況下先將VMHost要關機
➣若VMWare採用PowerCLI依VC名刪關機必須特別注意優先順序與【Cluster/HA】 問題
➣若採用【Batch command】方式關機必須特別注意AD/DC優先順序的問題
執行緊急關機的策略與考量
在面對必須執行【緊急關機】的情況時,有幾個關鍵因素需要被細心考慮,以確保過程能夠平穩且有效率地進行。
必須考慮的因素
➢在下班時間或颱風時段,是否有值班人員及其操作能力。
➢緊急關機的順暢度,例如避免因忘記密碼而延誤。
➢明確的緊急關機連絡步驟與管制方法。
➢建立安全防護措施,防止誤觸緊急關機。
➢若使用【實體按鍵】,考慮其安裝位置。
使用Watchdog系統可使用以下方式來進行緊急關機
➢透過瀏覽器介面操作Watchdog的功能表。
➢使用瀏覽器介面操作Watchdog已預定的【虛擬按鍵】。
➢建立【一鍵關機】的硬體式【實體按鍵】按鍵模組。
使用【實體按鍵】是最簡單且最快速的方法,可以在緊急情況下迅速執行關機,最大程度減少損失與風險。
各方案優缺點整理
在考量執行【緊急關機】的不同方案時,理解每個選擇的優缺點對於決策過程至關重要。
使用瀏覽器介面操作Watchdog功能表
優點:
➢預設功能,不需任何裝置與費用,立即可用。
缺點:
➢由於不常使用或人員異動,常見問題包括忘記密碼、找不到操作功能、忘記執行程序、不確定執行過程是否正確、現場無有經驗之工程師無法執行、人員交接容易錯誤、較無實體真實感。
使用瀏覽器介面操作Watchdog已預定功能的【虛擬按鍵】
優點:
➢預設功能,不需任何裝置與費用,立即可用。
➢模擬實體按鍵,執行時較有真實感。
➢使用行動裝置操作方便。
缺點:
➢常見問題包括忘記密碼、找不到操作功能、忘記執行程序、不確定執行過程是否正確、現場無有經驗之工程師無法執行、人員交接容易錯誤、若使用行動裝置風險較高、比較容易按錯鍵、較無實體真實感。
建立【一鍵關機】硬體式【實體按鍵】的按鍵模組
優點:
➢簡單迅速,操作容易。
➢可建立一組定時演練或展示的【一鍵關機】機制。
➢在緊急狀態下任何值班人員經由電話授權即可立即執行。
➢實體按鍵在執行時真實感比較豐富。
➢實體裝置比較容易操作、展示或使用。
➢有實體裝置在介紹展示時比較有實質效果。
➢加入音效廣播與警示燈後比較有一體性的執行步驟感覺。
➢加入即時關機監控劃面,立即展示主機之關機狀態。
➢除了上述優點外,在演練與展示時會有很好的效果。
缺點:
➢需要增加設備與費用,如小型PLC、按鍵組、小量配線。
➢無法遠端按鍵(但可用【虛擬按鍵】輔助)。
若欲使用【實體按鍵】作一鍵關機
【一鍵關機】機制透過【實體按鍵】來執行緊急關機的標準程序,是一種在需要全面性緊急關機時的有效方案。
系統或值班人員只需即時按下緊急按鍵,即可觸發整體伺服器按照正常程序進行關機。
在設計此方案時,我們深入考慮了多種實際操作的情境,力求讓系統不僅強大而且易於使用。
為了幫助想要採用【一鍵關機】功能的單位,避免初次使用時可能遇到的挑戰,
我們結合實務上常遇到的問題,提出以下幾點需要留意的方向,以確保您的過渡過程順利且高效。
建立【實體按鍵】緊急關機系統的考慮要素:
設備輔助裝置:
➢實體按鍵控制平台與按鍵模組
➢小型PLC
➢音效廣播(音效器、擴大器、廣播喇叭)
➢緊急狀況警示燈
按鍵控制平台的設備位置:
➢避免放置於機房內以免火警時無法操作
➢考慮演練與展示時之動線
➢選擇有攝影機監控的地點
安全管制措施:
➢使用按鍵控制組的安全設施,如鑰匙上鎖、按鍵面板上蓋、貼封條
➢建立標記閘道和執行管制確認放行控制點以確保執行程序的準確性
➢透過簡訊命令進行執行管制確認
定時檢測關機設施:
➢對PLC進行封包測試
➢代理關機主機的連線與系統測試
➢對應用伺服器主機群進行封包測試及IPMI資訊測試
關機監控圖形介面:
➢設計一個直觀的監控介面,包含:
➢DI PLC封包檢測
➢DI Trap警報檢測
➢命令閘道警報檢測
➢IP通信埠(socket連線檢測)
➢代理執行-主機與關機名單封包檢測
➢VMhost/VMguest主機封包檢測
➢IPMI Power狀態資