忍者ブログ

denchi-pc

ITインフラの障害時、「今どうなってるんだおじさん」にならないために 必要な心構えを考える

photo
 先日、KDDIが大規模な通信障害を起こした。社会インフラである携帯電話に関する障害ということもあって影響は大きく、SNSでもさまざまな話題のタネになった。障害対応をしている真っ最中の現場など、関係各所に「今どうなってるんだ」と怒鳴り込み、解決を遅らせる「今どうなってるんだおじさん」もその一つだ。
 例えばauの障害時は、auショップに怒鳴り込む人が相次いだという。総務省がKDDIに幹部を直接送り込んだ報道に対しても「『今どうなってるんだおじさん』ではないのか」と疑問視する声が見られ、後に総務省が「足を引っ張ったわけではない」と詳細を説明していた。
 実はこの問題、携帯回線だけでなく、クラウドなど、他のITインフラの障害時にも起こり得る。もし周りでITインフラが障害を起こしたとき、今どうなってるんだおじさんにならないためにどんな考え方をすればいいのか。auの一件や、エンジニアやコンサルタントとして筆者が見てきた事例を振り返りながら考えてみる。
「今どうなっているんだおじさん」の実態 事例から振り返る
 まずはauの回線障害について、筆者の視点で少し振り返ってみる。少し旬を過ぎてしまったが、原因などの情報は出そろっている。
 障害発生は7月2日未明。当時は休日で、家族にauユーザーがいないこともあり、障害を知ったのは夕方のニュースだった。この時点でauショップに怒鳴り混んだ人がいたり、「今どうなってる? いつ直るんだ」という問い合わせが続いていたりしたという報道があった。警察が出動する事態もあったというニュースも見掛けた。
 料金を支払っているにもかかわらずサービスを受けられない不満は分かる。社会インフラである携帯電話が長時間利用できないと支障が出るし、救急への連絡で問題が出た件は文字通り致命的だ。さらにいつ直るのかも分からないとなると、フラストレーションがたまるのも無理はない。
 とはいえ、あくまで販売店にすぎないauショップに怒鳴り込んでもしょうがない。障害はauショップでは起きていないし、auショップの店員さんこそ「いつ直るの?」と思っているだろう。それでも不満のはけ口が欲しいのか、auショップに突撃し、さらなる混乱を起こす「今どうなっているんだおじさん」がいたようだ。
 同じような事例はクラウドツールを使うときにも起こり得る。7月21日や8月25日に発生した「Microsoft Teams」の障害時、業務に支障が出た人もいたはずだ。例えば筆者は予定していた社内会議に遅れて入ろうとしたが、参加できなかった。障害発生前から開かれていた会議は問題なく続行できていたが、別件があり後から参加しようとした筆者は弾かれてしまったのだ。
 ちなみに、会議は筆者がいなくとも滞りなく進んでしまい、存在価値を問われる悲しみに見舞われてしまった。幸いにも業務に支障がなかったような気もする。とはいえ、実際は業務に支障が出た人も多かったはずだ。ここでも「今どうなっているんだおじさん」がいたかもしれない。
絶対に止まらないシステムは絶対にない
 そもそも携帯電話もクラウドも、人が機械を使って管理・提供している以上、サービスが止まってしまうことは当然あり得る。機械は壊れるし、人間がやっているのでミスもある。
 もちろん通信会社もクラウド事業者もシステムを止めないように努力はしている。機器は十二分に冗長化(予備の設備や機能などを用意すること)しているし、人間の作業品質を担保するためにさまざまな仕組みやルールを作り込んでいる。しかし、au回線障害も始まりは人的ミスと発表されているように限界はある。絶対止まらないシステムなど絶対にないのだ。
 一方で「じゃあ、現場に詳細を聞きに行こう」と行動を起こしても、良い結果が得られるかどうかは微妙なところだ。関係のない窓口に連絡しても意味はないし、問い合わせに対応するにもリソースが必要なので、むしろ悪化する可能性だってある。例えばTeamsの障害時に、情報システム部門に問い合わせても、基本的には提供元である米Microsoftの対応を待つしかないので、事態は進展しないだろう。
PR

コメント

プロフィール

HN:
angel
性別:
非公開

カテゴリー

P R