総務省が9月4日、2019年度に発生した通信サービスの障害について、検証結果を発表した。総務省では電気通信事業法の規定に基づき、一定規模の通信障害について、通信事業者から報告を求めている他、再発防止を目的とした「電気通信事故検証会議」を開催している。今回の内容は、各事業者からの報告や同会議をもとに取りまとめたものとなる。

 2019年度に発生した「重大な事故」は3件で、2003年以降では最小となった。重大な事故とは、キャリアやMVNOなど緊急通報を取り扱うサービスでは、障害が「1時間以上続き、影響数が3万人以上」だと該当する。3件のうち、モバイル通信サービスは、2月に発生した「mineo」、2〜3月に発生した「どんなときもWiFi」の障害が該当する。

 今回は重大な事故にはカウントしていないが、「本格サービスが展開された場合には重大な事故に該当する可能性のある障害」として、楽天モバイルで2019年12月と2020年2月に発生した障害についても言及している。なお、総務省では本格サービス開始前ということであえて事業者は明記していない。楽天モバイルの障害が発生した当時は「無料サポータープログラム」の提供中で、影響範囲が3万人未満だったため、重大な事故には該当しない。

●mineo、どんなときもWiFi、楽天モバイルの障害原因

 mineoで発生した障害は、キャリアのネットワークに接続する装置「PGW(Packet Data Network Gateway)」の異常に伴い、ユーザー情報を管理するサーバへの再接続要求が大量に発生し、処理が集中したことが原因。その結果、データ通信と一部の端末で音声通話が利用できなくなった。

 どんなときもWiFiでは、2月21日〜3月21日にかけて11回にわたって通信障害が発生した。データ無制限をうたっていたクラウドSIMサービスで十分なデータ容量を確保できず、容量上限に達して低速化したSIMをユーザーに割り当てたため、通信速度が著しく低下。さらに、低速化したSIMの停止や他のSIMへ切り替えを行うアクセスサーバがビジー状態になり、通信サービスが利用できない状況が発生した。

 楽天モバイルでは、2019年12月10日に約1000回線でデータ通信が、約150回線で音声通話が利用できない障害が全国で発生。PCRF(ポリシー・課金制御装置)のデータベースの不具合に伴い、データーベースへのアクセスを無限に繰り返してタイムアウトが起こったことが原因。

 2020年2月17日には、大阪市、神戸市、名古屋市の一部、約70回線で音声通話が利用できない障害が発生した。こちらは、サービス普及拡大に向け実施した電気通信設備の構築作業にて、不要なデータを削除する際に、作業従事者のオペレーションミスが発生し、削除不要なデータを削除したことが原因。

●障害発生を防止するのに必要なことは?

 2019年度に発生した障害は、新たな技術やビジネスモデルを用いたサービス(クラウドSIM)、新規参入事業者(楽天モバイル)のサービスで起きたことが特徴的だった。

 一連の障害で得られた教訓として、「1.仮想化ネットワークの管理運用のための人材確保や育成」「2.予備系が使えない状態で発生する障害に備えた対策の実施」「3.利用者による平常時と異なる挙動等も考慮した設備の設計および試験の実施・不具合の検知」を挙げる。

 1については、仮想化ネットワークだけでなく、既知のプログラムも活用しつつ質・量ともに十分な人材を育成することが必要だとしている。

 2については、発生する可能性が非常に低い異常や二重故障など、予備系が使えないことで発生する障害に備えるため、機器をさらに冗長性の高い構成にしたり、対応手順を準備したりすることが必要だとしている。

 3については、本格サービス展開前の限定的な無料サービスの場合も含め、利用者が平常時とは異なる挙動などがある場合や、今後も無料サービスの提供が想定されることから、それらも踏まえた設備の設計、試験の実施、不具合の検知が重要だとしている。また再発防止にあたり、関係する全ベンダーに対して、サービスに影響のあるアラームへの対処方法について情報共有をすることが望ましいとしている。

 クラウドSIMサービスについては、その仕組みやリスクについて、正しく理解することが必要だとしている。同サービスでは、キャリア、代理店、サービス提供者、仕組みの提供元など多くの事業者が関わることから、責任分界や役割分担の明確化、設備を適切に管理するために必要な情報を共有することが必要だとしている。

 障害が発生したときのユーザーへの告知については、SMSやメールをはじめ、ユーザーの希望に応じた多様な方法で情報提供することが望ましいとしている。また障害の詳細な原因について当初は分からず、「調査中」としていた場合、詳細が判明した時点で、その結果を公表することが望ましいとしている。

 障害の詳細な原因が見えない場合、当該メーカーに対して発生原因の追及を徹底することが重要だとしている。