- システム障害ってどんな原因があって、どんな状況で起こるのだろう?
- システム障害で炎上したサービスはどんなところがある?
- システム障害が発生したらどんな対応をすることになる?
- 世の中のシステム障害をリアルタイムでチェックしたい。
今回の記事はそんな疑問を持っている人向けの記事です。
どうも!サーバー監視員として数々のシステム障害を対応した経験のあるエンジニアの てぃかし です。
「システム障害」と聞くと、エンジニアは気が重くなりがちです。
エンジニアの中には軽いシステム障害なら、ワクワクしながら対応している人たちもいますが、
お客様の機会損失に繋がるシステム障害、そして大勢の人に迷惑がかかるシステム障害は、冷や汗ものです。
今回は、エンジニアなら知っておきたいシステム障害の原因と事例、対応内容についてお伝えします。
この記事を読んで、システム障害の現実を知って、業務や今後のキャリア選択に生かして頂けたら幸いです。
システム障害とは?
システム障害とは、システムが何らかの原因で不具合が発生し、システム本来の機能に支障を与え、正常にシステムを利用できな状態のことです。
数分で対応が完了する軽微のシステム障害から、対応に数時間を要する大規模のシステム障害があり、「システム障害」と言っても、色んな種類があります。
発生したら、ログなどを参照し、障害発生の原因を調べて対応しながら、関係各所に状況について連絡、対応が完了したら、お詫びの連絡を入れるといった対応をします。
システム障害情報の分類
システム障害には、大きなもの、小さなもの、色んな種類があるとお伝えしましたが、具体的には、
- プログラムのバグ
- デッドロックの発生
- アクセス過多によるサーバーダウン
- ハードウェアの故障
- 通信ケーブル切断
- オペレーションミス
- セキュリティシステムにおける暗号化認証有効期限切れ
- システム更新時の再起動失敗・設定ミス
- コンピューターウイルスによるシステムへの攻撃
- 災害による通信不良・機器の故障
- 外部サービスのシステム障害により発生するシステム障害
などに分類できます。
※デッドロックとは、ITの分野では、複数の実行中のプログラムなどが互いに他のプログラムの結果待ちとなり、待機状態に入ったまま動かなくなる現象を指す。 引用元: https://e-words.jp/w/デッドロック.html
最後の「外部サービスのシステム障害により発生するシステム障害」は、例えば、AWS(クラウドコンピューティングサービス「Amazon Web Services」)で障害が発生した場合、それを利用しているサービスは、軒並みシステム障害が発生する可能性があります。サイトが閲覧できなくなるなどの不具合が起こります。
サービス別システム障害の原因・炎上例
それでは、実際にどんなサービスでシステム障害が起こるのか、実際のサービス例とその原因を挙げていきます。(ネット上で話題に上がることが多いサービスや話題になったことが過去にあったものの一部をピックアップしています。)
Twitterのシステム障害
Twitterは、今の気持ちをテキストで即座につぶやけるので、システム障害が発生すると、話題になりやすいです。
例えば、Twitterでツイートの取得やプロフィールページの閲覧ができない時がありました。
原因は、Twitterの公式アカウントで報告されます。
原因は内部システムの問題であり、セキュリティ侵害やハッキングではない
とツイートし、原因を報告することもありました。
Twitterの障害をチェックする方法としては、「Twitter 障害」などのワードでTwitter内を検索してもいいですし、Downdetectorというサイトで確認することもできます。
Downdetectorでは、様々なサービスの状況がわかるので、これから紹介するほとんどのサービスもDowndetectorで調べることが可能です。
Android(GmailやLINE等のアンドロイドアプリ)のシステム障害
Androidは、Google社が開発したOS(オペレーティングシステム)で、スマートフォン用Androidソフトウェアとして使われていますが、多くの人が利用しているので、話題になることが多いです。
過去のシステム障害事例としては、Androidアプリ障害の原因となった「WebView」の問題があります。
WebViewとは、アプリケーション内にてWebページを取得、表示する機能、コンポーネントのこと。アプリ内のブラウザーの仕組みの一つです。
このWebViewによるシステム障害でGmailやLINEなど、一部のAndroidアプリが正常に利用できなくなりました。
WebViewを組み込んだAndroidアプリが不安定になり、クラッシュしたことが原因です。
Google Playから「WebView」と「Google Chrome」をアップデートすることで解決できるようになりました。
これを受け、Googleは、WebViewのシステムコンポーネントに関する変更管理とロールアウトポリシーを改善する取り組みを発表しています。
iPhone(iOS)のシステム障害
iPhoneもよく利用している人がいるので、システム障害があれば話題になりやすいです。
iPhoneのシステム障害というより、iOSの不具合が起きています。
iOSは、Apple社が開発するiPhone製品に用いられているOSです。
過去にはApp StoreやiTunes Storeなどのオンラインストアで課金・決済サービスが正常に動作しなかったことがあります。
原因は内部のDNSサーバエラーでした。
影響は様々な企業であったようです。
Appleのストアでゲームを販売しているメーカー各社が公式Twitterなどで障害について報告していました。
例えば、mixiのモンスターストライク公式TwitterでAppStoreにて「障害が確認されています。障害が解消されるまでお待ちください。」といったことをツイートされています。
現在、AppStoreにて障害が確認されております。iOS端末をご利用の方はアプリのインストールおよび、オーブの購入がご利用いただけない状況です。障害が解消されるまでお待ち頂けますと幸いです。 #モンスト
— モンスターストライク公式(モンスト) (@monst_mixi) March 11, 2015
au(KDDI)のシステム障害
au(KDDI)のシステム障害としては、通信がしづらい状況になることや、機種変更ができなくなった下記の障害の例があります。
システムの障害により、au/UQ mobile携帯電話サービスの新規加入や機種変更、通話停止/解除等のお手続きができない事象が発生しております。
システム障害発生時に上記のように、auが告知しています。
約5時間後には復旧の告知があり、収まりました。
その他にも通信障害で一部エリアで通信しづらい状況が発生することも起こっています。
原因等、詳しい情報はauのホームページのこちらのページで確認できます。
docomoのシステム障害
docomo(NTTドコモ)のシステム障害では、通信しづらい状況になることがあります。
docomoのシステム障害については、docomoのホームページ内で掲載されています。システム障害事例を確認したい方はこちらのページをご参照ください。
日時、対象地域、原因がしっかりとまとめられています。
原因の一例としては、ネットワーク工事の切り戻しに伴う信号量増大でネットワークに不具合が生じたということがあります。
SoftBankのシステム障害
SoftBankのシステム障害では、通信しづらい状況になることがあります。
SoftBankのシステム障害についても、SoftBankのホームページ内で掲載されています。システム障害事例を確認したい方はこちらのページをご参照ください。
発生日時、復旧日時、影響地域、原因が記載されています。
原因の例としては、「他社伝送路設備の故障による影響」「大雨に伴う停電および伝送路支障の影響など」などがあります。
Googleのシステム障害
Googleは世界で利用されているので、1つのシステム障害が大きな影響、炎上に繋がります。
システム障害時は、SNS上で「Gmailが受信できない」「Google Mapが開けない」といった投稿が相次ぎます。
原因の例としては、「Googleとサードパーティのサービスへのログイン方法を管理する認証ツールに問題が起きたこと」などがあります。
YouTubeのシステム障害
YouTubeはGoogleの傘下です。
YouTubeは、普段見る人も多いと思いますが、システム障害が起こるとアクセスできなくなる時があります。
例としては、「500 Internal Several Error」というプログラム自体へのアクセスはできるが、実行・処理が完了しない場合に発生するエラーが起こったことがあります。
d払いのシステム障害
d払いは、スマホ決済アプリです。
ドコモのd払いのシステム障害も起こることがあります。
原因としては、決済のデータ量がサーバーの処理性能を超えたことによって、システムが停止するといったことが挙げられます。
2021年6月の例では、発生から約10時間半で復旧したものの、利用者約3500万人に影響があったということです。
PayPayのシステム障害
PayPayは、PayPay株式会社が運営している、QR・バーコード決済サービスです。
PayPay株式会社は、ソフトバンク株式会社とヤフー株式会社の合併会社として2018年6月に設立されています。
過去には、PayPayアプリが利用できない、PayPayボーナスの反映遅延、PayPayクーポンが適用されないといったことなどが発生しています。(全て復旧済み)
PayPayアプリが利用できない障害は、AWSの障害が原因になっていたことがあります。
PayPayの不具合などの状況についてはこちらのページでお知らせされています。
Peachのシステム障害
Peach(Peach Aviation)は、関西国際空港を拠点とする日本の格安航空会社です。(ANAホールディングスの傘下)
Peachの予約・発券などの処理を担う「Radixx Res」でシステム障害が発生したことがあります。
2021年4月に発生した障害の原因については、「マルウェアの影響」と発表しています。
マルウェアへの感染で2日間は正常にシステムが使えなくなる事態でした。
Pontaのシステム障害
Pontaは三菱商事の関連会社である株式会社ロイヤリティマーケティングが発行、運用、管理するポイントプログラムです。
Pontaでシステム障害が起こり、Pontaの利用ができなくなることがありました。
Pontaポイントは、色んなサービスで利用されているため、影響範囲が大きいです。
リクルートサービス(じゃらんnet、ホットペッパーグルメ、HOT PEPPER Beautyなど)にも関係しています。
Pontaの障害については、調べた限りは原因が不明でした。
AWSのシステム障害
AWS(Amazon Web Services)は、Amazon.comが提供しているクラウドコンピューティングサービスです。
AWSはエンジニアは、職種によってはよく利用します。
僕は、エンジニア転職時にポートフォリオを作った時は、AWSを利用してサイトを構築しました。
クラウド上でサーバー環境の構築(EC2)、データ保存(S3)、データベース利用(RDS)など利用用途は多岐に渡り、多くの開発者が利用しています。
大手企業も利用しているので、重大なシステム障害に繋がることがあります。
例えば、三菱UFJ銀行やみずほ銀行のスマートフォン用アプリでAWSが利用されています。
過去にAWSの東京リージョンで大規模な障害が発生し、これらの企業は影響を受けました。
その時の原因は、ネットワーク接続サービスである「AWS Direct Connect」の不具合です。(詳しい原因についてはこちらの記事を参照。)
スタバのシステム障害
スターバックスは、公式モバイルアプリでシステム障害が起こったことがあります。
福袋などのキャンペーンもあるので、その時にアクセスが集中し、サーバーがダウンしたことがあるようです。
ローソンのシステム障害
ローソンでは、バーコード決済ができなくなる障害などが過去にあります。
ローソンと決済事業者を繋ぐシステムに不具合があったようです。
他には、Loppiでのチケット発券及び、入金手続きができない状況になったことあります。
ZOZOTOWNのシステム障害
ZOZOTOWNでは、システム障害により、ZOZOTOWNのウェブサイトにアクセスまたはアプリを起動しても正常にページが表示されないといったことが起こったことがあります。
データベース上のトラブルが過去に発生しています。
セブンイレブンのシステム障害(セブンペイ炎上)
セブンイレブンの7ペイは、システム障害でサービス廃止まで追い込まれました。
2019年7月に7ペイのサービスが開始するも、「身に覚えのない取引があった」との問い合わせが寄せられました。
サービス停止の流れは、以下のようになっています。
2019年(令和元年)
7月1日 - 「7pay」サービス開始[7][8][9]。
7月2日 - 「身に覚えのない取引があった」との問い合わせが寄せられる[10][11]。
7月3日 - 「7pay」の大規模な不正利用が判明し、サービスの制限を開始。以後、サービス制限の範囲を拡大(詳細後述)。
7月4日 - 店舗レジ及び、セブン銀行ATMからの現金チャージ利用を停止。新規会員登録を停止。[10]
7月8日 - 一連の不正使用案件に関連し、金融庁がセブン・ペイに対して資金決済法に基づく報告徴求命令を出す[12]。
7月11日 - 外部IDによるログインを停止[10]。
7月30日 - 共通IDの7iDの全会員約1650万人のパスワードを一斉リセット[10][13][14]。
8月1日 - 7pay のサービスを2019年9月30日24時に廃止することを発表[10][15][16][17]。
9月27日 - 残高払い戻し方法を発表[18][19]。
9月30日24時 - 7pay サービス終了。 引用元:wiki
みずほ銀行のシステム障害(大炎上)
みずほ銀行のシステム障害は、何度も発生し、炎上しています。金融庁からの指導が入った後にも関わらず、また障害が発生したり、大変なことになっています。
最近の例では、4000台以上のATMが停止し、キャッシュカードや通帳が吸い込まれ、取り出し不能となるトラブルが5000件以上発生しています。
このシステム障害発生後、立て続けに複数回のシステム障害が起こり、ATMが一時使用不能となったり、外国為替取引に遅れが出るトラブルが発生するなど、数々の問題が起こっています。
システムは大規模で作り直すことはほぼ不可能で、システム障害が起こったら、即直すを繰り返すことでしか対応ができないなどと関係者が報告しています。
みずほ銀行のエンジニアになる人は度胸のある人だと思います。
以上、話題に上がるシステム障害を取り上げましたが、大きなシステム障害があれば、追記していきたいと思います。
システム障害に対するエンジニアの対応内容と注意点
システム障害時の対応としては、この記事内で取り上げた「原因」を見てもらえたらだいたいわかると思います。
まず、注意点として、システム障害は、基本的に問い合わせが来る前に気づいて対応をすべきです。それは前提です。(問い合わせで気づいた場合は仕方ない…)
システム障害に気づいたら、まず、上司に報告し、影響が出ている可能性が少しでもある関係各所の連絡先を洗い出し、状況について連絡を一斉にお知らせします。
それをしている間、他の社員は、システム障害の原因を調査します。
原因が特定できたら、修正&テストをして、問題なければ、状況、対象範囲、原因などを先ほど連絡した関係各所にお知らせします。
日本全体で騒ぎとなるような大きなシステム障害であれば、記者会見を開くこともあります。
システム障害のお詫び(報告書)内容
システム障害時は緊急事態なので、まずは簡易な連絡として、メールや電話で対応しますが、契約によっては、システム障害後にお詫びや報告書を送ることもします。
会社にとって重要なクライアントであれば、直接訪問し、謝罪することもあります。
報告書には、発生した事象、システム障害の原因、経緯、対応内容、再発防止策などを書き記します。
今日もどこかでシステム障害が起こっている
今回は、ネット上で話題によく上がるシステム障害を紹介しましたが、これは世の中で発生しているシステム障害の一部です。
今の時代、ITシステムはどこの企業でも使われていますから、大なり小なり毎日のようにシステム障害が発生しています。
今日もどこかでエンジニアがシステム障害を対応しています。
システム障害をリアルタイムでチェックできるサイト紹介
システム障害が起こっているかどうかは、各サービスのサイトでも確認できますし、TwitterなどのSNSでもサービス名を検索したら、同じように困っている人を見つけることで確認できます。
本記事の最初の方で紹介した「Downdetector」でもリアルタイムでシステム障害の確認ができます。
特にエンジニアは、このサイトに目を光らせて、自社サイトに不具合が起こった時などには参照して対応していくと良いでしょう。
僕がサーバー監視をしていた時の話は、下記の記事をご覧ください。
20代でエンジニア転職に失敗した経験談を赤裸々に書いてみた
どうも、てぃかしです。 今回は、タイトルにも書いてある通り、僕の昔話、エンジニア転職に失敗した時の話をしていこうかなと思います。 過去の話は、今まであまり書いてきませんでしたが、自己紹介がてら、読んで ...
続きを見る