データセンターで働く人々・・・その1

オペレータ
業務内容はシステムが問題なく稼働しているかどうかを常時監視する役目をしており、障害が発生した場合は手順に基づき復旧対応であったり、運用連絡、ユーザ連絡などを行います。
勤怠はシフト(2交代)制を採用しており、24時間365日で対応をしていました。時間配分は以下のような割り振りとなります。
・09:00~18:00(休憩1時間、稼働 8時間) ※3名体制(1名リーダー)
・17:00~10:00(休憩2時間、稼働17時間) ※2名体制(1名リーダー)
交代際前後1時間を引継ぎ時間としており、1名が引継ぎを行い、残りのメンバーは引き続き業務を継続し、引き継ぎが終わり次第、次勤怠と交代し全体の締め作業に向かっていく形になります。
1名で業務を遂行することはなく、必ず作業者、確認者のスタイルで作業を行っていく形になります。チームとして動くので連携や情報共有がとても大切になります。コミュニケーション能力が求められる環境と言えます。
業務について
業務は大きく分けて4つ、稼働確認、障害対応、巡回監視、日次報告書作成です。
・稼働確認 – 1つの例としてJP1(運用管理ツール)に登録されているジョブからのメッセージの監視があり
ます。主にオンラインやバックアップ、夜間処理の開始と終了です。
これらは主に時間が決まっており、ここの確認が正常に稼働しているかどうかの判断となり
通常通りメッセージが発生しない場合はどこかで異常を期している可能性が高く、予定通り
進んでいないという判断となり、遅延という形でJP1からメッセージが出力されます。
他の監視機器も同様です。開始は決まった時間がほとんどで、終了時間はまちまちですが
予定時刻は設定されているのでそこまでに終了を確認する必要があります。
・障害対応 – 上記で記述した例の他、ジョブ自体が様々な原因で異常終了する場合もあり、この場合も
メッセージが出力されます。異常を期した場合の対応としてはジョブのスキップ or 再起動
or 運用連絡となります。手順書によって対応内容が変化します。
他の監視機器も基本は同じです。手順書に基づき対応となり、オペレータ自身で対応する必
要があるのか、運用へ連絡するのか、このパターンの対応のケースが多いです。
・巡回監視 – データセンターには機器が多く設置されているので契約があるユーザの機器は決まった時間
にサーバールームへ行き、機器のランプの状態を確認します。電源であったり、ステータス
であったり、LANのポートであったり、機器によって確認する部分は様々です。巡回対象の
機器はチェックシートなどでまとめており、それに基づきランプの状態を確認します。
チェックシート通りでない場合は障害となり、運用またはユーザへの報告となります。
報告方法は電話 or メール or 両方となります。
・日次報告書作成 – 全案件ではありませんが、契約があるユーザ案件の日々の稼働状況であったり
オンライン開始、終了時間や巡回監視状況などその日の出来事を記載し
日次ではオペレータ管理者が確認し、月1の報告会で運用が作成する報告書に
載せてユーザへ連携します。
他にも地震発生時の対応やユーザからの連絡の受付窓口になっていたり、運用やユーザからの依頼作業などイレギュラーな作業なども多くあります。
オペレーションミスについて
人は機械ではないのでどうしてもミスは起ってしまいます。オペレーションミスが発生した場合は基本は状況を動かさず、担当の運用へ速やかに連絡し対処を仰ぎます。 運用側でしか処理出来ない件であれば運用側で処理となり、どうにもならない場合は委託元からユーザへ連絡する形となります。
後に「時系列」、「なぜなぜ分析」、「始末書」の作成を行い、業務改善を行います。
・時系列 – 該当勤怠の出勤者全員の動きを記載。1人1人行動を洗い、動きを確認し、原因を探ります。
・なぜなぜ分析 – 原因を追及する分析手法であり対象の業務に関わったオペレータが対象になります。
運用側へ報告し、原因の究明と対処法を話し合い、業務改善に努めます。
対処法は例えば再教育であったり、手順書の改善、専用チェックシートの作成など
があります。
・始末書 – 謝罪文、経緯、対処法などを記載し、ユーザへ提出となる文書です。
オペレータ管理者
オペレータを束ねる管理者がいます。オペレーション業務を一通り理解していることはもちろん、
オペレーション業務のフォローであったり、不足な事態やオペレーションミス発生時の連絡先、新たな業務を受け入れる際の手順書の精査、業務工数の管理などのオペレーションに関わる管理であったり、
シフトの管理、オペレータ個々の状況確認などのメンバーマネジメントなどを主に行います。
求める人物像
オペレーション業務は定例作業以外はすべて不測の対応業務です。チーム内での情報共有は必須ではありますが、それでも不明点が改善できないであったり、複数の障害が同時に起こる可能性もあります。
その場合はオペレータ管理者や運用などと連携を取り、判断、対処を仰ぐ方法もあります。前途で記述したコミュニケーション能力以外にも判断力や状況説明を簡潔に出来ることもとても重要な要素になります。
②へ続く。