経験談①

長年、運用・保守、またマネージャーやオペレータ管理者を努めてきて様々な経験、体験がありました。
その中で印象深かった出来事を記述してみたいと思います。
「そんなことある?」みたいな話もありますが、すべてノンフィクションです。
≪DVD挿入ミス≫
事象:DVDをドライブへ挿入する業務を行う際に、DVDを設置する際にスピンドル(真ん中部分)にちゃんとはめ込まない(DVDが浮いてる)状態でトレイを閉じたために装置上部の隙間にDVDが入り込んでしまう。
ユーザから「ディスクがないんだけど」との連絡があり発覚。確認したところトレイには何もなく初期段階ではDVDが消えた感覚も細かく調べると隙間に入り込んでいることを確認。ユーザの環境なのでうかつにドライブの取り外しが出来ないため、定規や社員証など細いものを使いDVDを救出。
下図のディスクドライブが設置されている上部の隙間に滑り込んでいました。
後日談:ユーザ、委託元からかなり怒りを買うこととなり、「オペレータに装置を触れせるな」と言われ、ほとぼりが冷めるまで(1週間くらい)は運用側で作業を行う羽目になりました。
≪サーバーラックキー紛失(セキュリティ事故)≫
事象:手を滑らせサーバーラックキーをエレベーターの隙間に落としてしまう。
オペレータ内で起こった事故。そもそも前提としてサーバーラックキーを使用する際はルールとしてネックストラップに掛ける、エレベーターの使用はしない、とあったにもかかわらず手に持ち、よりにもよってエレベーターの隙間に落とすと言う失態でした。
唯一の救いはマスターキーではなかったので業務影響はなし。
後日談:又聞きではありますが、サーバーラックキーは月1のエレベーター点検の業者の方に拾って頂いたとのこと。また会社単位で厳重注意があったとのこと…。
≪隣の建設中の建物で火災発生≫
就業中の14時くらいから隣の建設中の建物で火災が発生し、死者も出るほどの大参事でした。20時くらいまで鎮火活動が行われており、近くのコンビニエンスストアの駐車場が避難場所として使われていました。消防車、救急車も10台以上来ており、報道の車やヘリ(3機)も飛び交っており、交通渋滞もすごかったです。翌日まで焦げた匂いも広がっており、悲惨さを物語っていました。
さて、隣の建物の私達は警備員の指示のもと、避難の準備はしていましたが、運よく風向きで煙が建物と反対に流れていたため、風向きが変わるまでは避難はしない方向になりました。結果として避難はしませんでした。ただ、データセンターと契約しているユーザからの電話、メールでの問い合わせがものすごく、その日はその対応に1日追われていました。
後日談:中の様子までは分かりませんが数年後には無事その建物は完成し稼働している様子でした。
≪稼働中インターネットサービスの停止≫
事象:インターネットサービスを提供しているユーザの設定変更作業を誤り、平日の日中帯に稼働中のサーバを30分ほど止めてしまう事象が発生。
運用側で起こした事故であり、そのユーザと契約しているお客様のインターネット環境を止めてしまった大事故。その場では気付かずユーザからの指摘で発覚。切り戻し作業も含め、即作業を行うも止めてしまってから復旧までに30分ほどかかり、総務省へ報告するまでの件となってしまいました。
(聞いた話でうろ覚えですが、世に出ているネットワークの環境を20分だか30分以上だか止めてしまうと総務省へ報告する必要があるそうです)
作業者、確認者、そのチームの上長、他のメンバー、委託元の担当、その案件に関わっている担当全員で1週間程(土日も出勤)かけて、かなり細かな原因究明、対策案などの話し合いが綿密に行われました。
チームの上長、委託元の担当がユーザ先に出向き謝罪を行ったり、1つの作業に対する大切さであったり重要さなどを改めて感じた件となりました。
≪監視メッセージ報告ミス?≫
事象:オペレータが監視機器で検知したメッセージを手順書に従いユーザへ連絡するも、メッセージの中に含まれていた英単語が読めず、1文字ずつアルファベット読みで伝えたところ「何行ってるか伝わらない」とクレーム。
特にミスをしている訳ではないのですが、アルファベット読みはたしかに連絡を受けている方の立場からすると非常に聞き取りづらく、馬鹿っぽいので読み方を調べるのは数秒であり対応するにあたり影響がないと判断し、読めない単語は調べてから連絡するよう口頭引き継ぎベースでオペレータへ依頼し対策しました。
②へ続く。