KDDIは、iOS端末で起きたEメールリアルタイム送受信の障害について、発生した事象とその影響、および原因について発表しました。
発生した事象は大きく分けて以下の3つとなります。直前に起きた、200人に影響する1時間の障害も新たに公表され、事象1として区分されていることがわかります。全国のユーザーに大きく影響していたのは事象2~3です。しかし事象1~3は全て関連した障害であることがわかってきました。
まず事象1。バージョンアップ作業の途中で、ユーザー認証サーバーにおいて、ユーザー情報の不一致が発生。この原因は、手順書記載ミスによるコマンド誤りであったとのこと。事前検証試験の不足によるものであると言えます。
続いて事象2。そしてこの事象1を解消したため、作業を続行。新サーバーへの切り替えを実施するも、エラーが発生。予期せぬエラーのため現行設備への切り戻しを実施。しかし切り戻し作業を実施中に、新サーバーの片方がハードウェア障害によりダウン。新サーバーのもう片方も過負荷によりダウン。これによりEメールの送受信が不可能となります。
そして事象3。この事象2により、再起動を実施。しかし62台の中24台のサーバーで高負荷状態が継続。結局解消されたのが4月19日02時54分となったようです。
つまり、原因は以下の通りです。
- 手順書記載ミスによるコマンド誤り(事前検証試験不足)
- HW障害(片系)と二重障害時の対策準備不足
- メールBOXサーバ再起動手順の考慮不足
こうした原因について、KDDIの発表した対策の多くが5月末までに完了する見込みです。メールサーバーの増強、ストレージの負荷対策のみ8月末までに行われる予定です。
今年は業績こそ好調ではあるものの、障害続きのKDDIですが、このような障害を二度と起こさないよう、通信事業者として責任ある態度が望まれます。
情報元:KDDI