auのメール障害、KDDIが原因を正式発表。 手順書の誤りによる人的ミス、障害への対策不足が明らかに。 すまほん!!

 KDDIは、iOS端末で起きたEメールリアルタイム送受信の障害について、発生した事象とその影響、および原因について発表しました。

 発生した事象は大きく分けて以下の3つとなります。直前に起きた、200人に影響する1時間の障害も新たに公表され、事象1として区分されていることがわかります。全国のユーザーに大きく影響していたのは事象2~3です。しかし事象1~3は全て関連した障害であることがわかってきました。

 まず事象1。バージョンアップ作業の途中で、ユーザー認証サーバーにおいて、ユーザー情報の不一致が発生。この原因は、手順書記載ミスによるコマンド誤りであったとのこと。事前検証試験の不足によるものであると言えます。

 続いて事象2。そしてこの事象1を解消したため、作業を続行。新サーバーへの切り替えを実施するも、エラーが発生。予期せぬエラーのため現行設備への切り戻しを実施。しかし切り戻し作業を実施中に、新サーバーの片方がハードウェア障害によりダウン。新サーバーのもう片方も過負荷によりダウン。これによりEメールの送受信が不可能となります。

 そして事象3。この事象2により、再起動を実施。しかし62台の中24台のサーバーで高負荷状態が継続。結局解消されたのが4月19日02時54分となったようです。

 つまり、原因は以下の通りです。

  1. 手順書記載ミスによるコマンド誤り(事前検証試験不足)
  2.  HW障害(片系)と二重障害時の対策準備不足
  3. メールBOXサーバ再起動手順の考慮不足

 こうした原因について、KDDIの発表した対策の多くが5月末までに完了する見込みです。メールサーバーの増強、ストレージの負荷対策のみ8月末までに行われる予定です。

 今年は業績こそ好調ではあるものの、障害続きのKDDIですが、このような障害を二度と起こさないよう、通信事業者として責任ある態度が望まれます。

情報元:KDDI