IT資訊維運的核心-系統管理員

以"人工"為主的維運管理思維
     如果系統人員的工作安排不當,將使擁有專業領域的系統人員陷入困境,無法發揮其應有的效率成本
     在系統維運的領域中最常出現的狀況
       *.機器人般每日重複的檢測工作,考驗人耐力的極限
       *.等待異常事件發生接到通知後再進行緊急處理,時間壓力很大
       *.必須投入大量的人力與時間做定時巡迥檢查與系統定期檢查
       *.沒有有效的系統檢測基準點,沒有自動化系統工具
       *.不知道系統問題的根源,盲目亂猜,沒有相關數據與分析資料可佐証問題所在
       *.無法同時擁有全領域的專業知識,僅能就本身熟習的領域中追求答案
       *.關聯因素與牽連設備太多無法一一檢查求証
       *.當追蹤問題時無法跨越系統領域或部門拹調來決解時,問題就會不了了之
          或草草回應,無法針對問題加於解決,讓問題隨時又會發生的可能
       *.系統發生問是題時,不同部門或廠商發生互推是常有的事,讓同事間產生不愉快
          如:應用組認為是網路的問題
       *.資訊維運管理的系統人員,在異動時短時間要了解所有系統的架構有時間壓力


降低維運成本最好的方法

     降低維運成本最好的方法就是提升系統管理人員的效率與系統使用的妥善率,從運用系統工具與制度規範中取得答案
       *.最好能讓系統人員一人當十人用的全能角色
       *.採用自動化的定時巡迥檢測系統,讓佔人力90%的系統檢測工作交由系統自動運行,
          不要讓系統人員淪為看守資訊設備的機器人
       *. 讓異常狀態由被動告知轉為主動式的預警防制
       *. 使用整合性設備關聯資訊,讓跨越部門的橫向溝通有數據與資料關聯佐証
          整合設備,人員的關聯讓系統人員能在不同設備與部門之間溝通
       *.選擇在地化的系統工具軟體,讓系統人員在短時間內就能完成學習,立即上線使用
       *.選擇具有教育訓練意義的管理工具系統,彌補資訊專業人員的之應用與技能
       *.在不同作業系統,不同廠牌網路設備也能使用統一格式的維運規範以降低學習時間成本,
          提升資訊專業人員的資訊管理能力
       *.建立不停頓的系統交接模式
          不會因系統人員異動而影響到整體資訊中心的運行控管機制,讓承接人員在短時間內
          迅速的進入正常運行的作業軌道
       *.讓系統人員回歸到應有的專業
          讓系統人員擁有更多的時間做多些需要"思維"與"溝通"的工作
          列行工作則由"自動化系統"完成,溝通拹調,進階除錯追蹤(Debug)由"人"來完成
          如:規劃,安裝設定,系統操作,系統問題決解,進階除錯追蹤(Debug),跨越不同設備與部門的溝通拹調
       *.從即時資訊中建立系統管理規範的原則
          立即處理,狀況排除是即時資訊最大的用意,了解即時資訊的重點,
          告警機制的用意與應用,減少跨越不同設備與部門的溝通障礙
          建立管理與執行的標準流程(SOP),就能大幅降低維運的人力時間成本
       *.選擇可用度好的資訊設備
          品質良好的資訊設備,考慮週詳的系統設定,可以減少莫名狀況出現增加妥善率
跨越系統溝通的問題可以用系統工具與管理制度輔助

     負責維運的系統人員與應用系統負責的人員通常會分屬不同單位部門
     而應用系統的核心運作必須仰賴低層系統的效能,資源與穩定度支撐,兩者都會互相影響
     有些伺服主機的作業系統層還會由應用系統組負責管理

     當系統出現問題時,在 網路,硬體,作業系統,應用系統,中介系統中都有可能是原因
     在溝通的過程中,收集各關聯資訊數據與各類系統設定值是一個問題追蹤的重要指標

     管理技術包含了專業人員,管理規範,應用工具,溝通拹調等不同層面
     設備與系統發生問題是不可避免的狀況,偶發與意想不到的事件可能會常常出現
     而解決狀況的時間與發生問題的頻率是維運的關鍵指標
     系統人員在處理狀況時幾乎是要與時間賽跑,系統狀況會因危險因素與危險指標
     出現不同的跡像

     最常出現的異常狀況與處理程序
     漸近式 如: 記憶體負載每天上升一點,而無回復跡像,使用者感覺存取速度很慢
     突發式 如: 硬碟故障,服務程式中斷.
     外力介入 如: 市電中斷,誤按關機
     莫名狀況 如: 主機當機,網路不通
     使用者發現 -> 通知 ->排除 ->改進或無法解決,重新開機
     管理者發現 -> 排除 ->改進或無法解決,重新開機

     當問題無法解決或找出確定原因時
     .列出所有可能關聯之因素,進入除錯追蹤(Debug)的程序
     .尋求相關設備部門或原廠專業領域的系統人員拹助從 設定,功能,效能,管制,程式
     等方面了解影響層面
     .尋求第三方拹助




回到首頁