経験談②

≪コロナウイルス流行の影響≫
事象:コロナの流行によりオペレータの約1/3が出社停止に。
コロナが流行りだしたころ私達運用部隊はリモートワークに切り替わりましたが、オペレータはデータセンターでサーバが稼働している以上、どうしても出社が必要でした。その中で流行りに乗ってしまいオペレータ内でコロナが蔓延し約1/3が出社停止となる事態が発生してしまいました。
シフトが回らなくなり、会社単位での話し合いの結果、当時、運用担当であった私が異例のオペレータ業務のフォローに入る事態になりました。週末の勤務でしたので定例業務も少なく、大きなトラブルもなく終える事が出来てホッとしました。
その他、コロナ時の対応としては、オペレータ、データセンターの設備担当の半数、警備員などの建物関係者以外はすべてリモートワークへ切り替え。データセンター入館時は(来場者、従業員すべて)消毒、及び体温のチェックが行われました。37℃以上は入館不可になり、作業で来たベンダーが入れず、別の方が改めて来たり、オペレータが入れずシフト変更を余儀なくされたり、トラブルがちらほらあったと受付の警備員の方からお聞きしました。更には食堂も閉鎖、パンの移動販売もなくなりました。
≪JP1ジョブ操作ミス≫
事象:対応ミス。
夜間処理中の出来事で上位階層をスキップ(動かない)指示であり、本来であれば下位階層の後続である2を「実行中止」とし、後に1を「スキップ」し完了となるところ、いきなり1の方を「スキップ」し、
後続である2を動かしてしまった。
上位階層 下位階層
例えば更新処理を行うものの場合、1でデータの更新を行い、2で取り込む処理を行う、と言う動きになります。1を先にスキップしてしまったことで、昨日分のデータのまま、2で処理を取り込んでしまった。
翌日のオンラインを止め、修正する必要となってしまったため、大規模障害として扱われました。
夜間処理は特に対応が必要な場合、動かしてはいけないものを動かしてしまうと、夜中にいろんな人達、運用、開発、ユーザなどを巻き込んでの大騒動になるケースが非常に多いです。対応にはいつも以上に慎重さ、かつ正確さが求められます。
後日談:このレベルの障害だと会社単位での話し合いが行われたりします。損害賠償責任が問われたり
とかの可能性も…。
≪メール誤送信≫
これが運用、オペレータ通して1番ミスが多かった用件になります。宛先やCCは手打ちすることはほぼないのでコピー&ペーストの間違い、過去のメールを引用、編集した際の件名、本文の修正漏れ。本文の修正漏れは宛名を修正せず送信するケースが目立っている印象でした。
1件、事例をあげます。
事象:重要書類添付のメールを違うユーザへ送信してしまった。
宛先に出力された入力候補を間違えて選択し送信。まったく違うユーザへ送信してしまい、情報漏洩、セキュリティ事故案件として取り扱われ、全従業員を対象に注意喚起、セキュリティ教育が行われました。
メール送信はどうしても忙しい時などは特に見直しせず送信してしまうこともあるとは思います。後にそれが事故に繋がり、報告書の作成など更に忙しくなってしまいます。メールを送信する際は忙しくても長時間要するものでもないので、宛先、CC、BCC、件名、本文(特に宛名と署名、宛名は年配の方ほど意外と気にされる気もします)とを見直してから送信する必要があると感じました。
他にもメール関するトラブルは多く、毎日数百、数千受信するケースもあり、見落としであったり、
連携不足による別の担当者と2通返信、配信不能で返信されているのに気付かないなど、数えきれないくらい色々な事がありました。
③作成考え中…