JRネット大規模障害、本当に電源関係ダウンなのか?

JR東のネット大規模障害が復旧し「現金最強だ」みたいな事が言われているが、今回は現金とは関係無い部分にも障害が発生した。現金をsuicaにチャージして使うという部分以外にも、例えば公式サイトやえきねっと等であり、モバイルsuicaアプリが立ち上がらない事で残高が分からないという副次的な不具合も出ていたようである。
公式には電源のブレーカーを誤って落としたためみたいな事を言っているが、電源関係ならば電源そのものが逝かれていない限り数分で復旧できるのでシステム界隈ではそれは建前ではないかと言われている。なぜなら復旧まで12時間も要しているからである。元々この時間はメンテナンスが予定されており、そのメンテナンスに失敗した可能性が高い。メンテナンスに失敗した場合はロールバックと言って元に戻す処理を行うが、それにも失敗してカオス状態になったのではないだろうか。多くのシステムは主系と従系に分かれており今回のシステムも当然それを備えているはずであるが、主系に新しいプログラムを流し込んでそれに不具合が発生したので従系を動かすもそれに失敗して全体が止まって長引いたという可能性も考えられる。事前の環境でバグ潰しをしっかり行うのは当然であるが、ハード環境等が違う本番環境に流し込んで初めて気づくバグも多いという物である。
ドコモが大規模障害を起こした際も元々はメンテの失敗に伴うものであり、メンテ自体のマニュアル整備は勿論であるが、従系切替が正しくできるかも含めてメンテ失敗時のマニュアル整備も必要であると言えるだろう。