東証システム障害 原因・理由・再発防止策を技術者が予想してみる

東証システム障害は、多くの株主や投資家等に甚大な影響を与えました。マスコミ等は東証やシステムベンダーを叩いていますが、システムは生き物なので叩かないでもらいたいものです。またシステムに無知なマスコミが多すぎて閉口します。ハード故障と言っているのに、サイバー攻撃は全く関係ありません。PC歴20年以上でパソコンも自作した事がある私なりに考えてみたいと思います。
人間でも体調不良があるように、システムにも体調不良はあります。確かに止まってはいけないシステムなのはごもっともですが、どんなシステムでも稼働率100%のシステムはありませんから、障害が起きた後のフォローこそが重要なのです。今回は「すぐに再起動しようと思えばできたものの、あえてしなかった」というのはデータベースのトランザクションに差異が生じて面倒な事になるのを防ぐ為、フェールセーフの考え方、つまり目の前の株価や損害よりも安全を取ったという事です。データベースのロールバック処理が面倒なので1日止めたという判断は賢明です。
で、私と友人で議論した結果、原因はメモリーではないかと考えられます。パソコンの故障時は通常、電源→メモリー→記憶装置の順に疑いますが、電源が落ちれば通常は従系システムに切り替わりますから、今回電源は壊れていなさそうだ。電源が落ちずに止まった、つまりメモリーや記憶装置などに何らかの原因が生じた可能性が考えられます。特にメモリーは人間の肝臓などと一緒で自分で体調が悪いと言わずにいきなり止まり、いきなり止まる割にはランプも消えず、画面も消えず、正常稼働しているように装って一切の操作を受け付けないので再起動するまで治りません。再起動したら治ったという事ですから、メモリーの可能性が高いです。過去の株価等のデータも吹っ飛んでいないことから、記憶装置も壊れていない、つまり一部のメモリー上の基盤や電源系等に不良が生じて、システム全体が止まったと解釈する方が自然と考えられます。
「メモリーの事前チェックをしておけばよかった」という人がいますが、東証規模のシステムとなれば天文学的容量のメモリー(一般のパソコンで8GB程度)ですから、検証するにしても膨大な時間がかかりチェックは不可能で、納入されたものを簡単な試験をして実機にぶっこむしかないのが現状でしょう。ちなみに完全メモリチェックで8GBで半日ぐらいかかりますから、仮に800GBだとしたら50日かかるのは言うまでもありません。金融庁は報告命令を出していますが、再発防止策と言われてもメモリーを全部新品に交換し、納入するメモリーの点検時間を延ばしますとしか言いようがないでしょう。システム障害を寛容している訳ではありませんが、メモリー障害の再発防止策を考えることなど実際に無理であり、仮にこの障害箇所が本当であれば受け入れるしかない障害、つまり起きた後に破損部分を特定して交換するというリカバリー力が問われる障害と言わざるを得ないのが現状です。