木走日記

場末の時事評論

新幹線運休は明らかな人為ミス〜発生トランザクションの増加は十分に予見できた

 20日付けの朝日新聞社説は、新幹線が運休した問題を取り上げています。

混乱新幹線―人を惑わせぬシステムを
http://www.asahi.com/paper/editorial.html

 社説はこう結ばれています。

 交通機関に限らない。原発などライフラインの運行や、現金自動出入機(ATM)や電子決済といった経済活動、ネットを通じた情報のやりとり。様々なシステムなしで現代社会は動かない。人は使いこなせているか。人を惑わせるシステムになっていないか。他山の石とする機会だろう。

 うむ、リスクアセスメント、危機管理の問題として今回の運休問題を「他山の石とする機会」ととらえたいとまとめています。

 古い話で恐縮ですが20年ほど前のことですが、不肖・木走は関西某私鉄の列車運行管理システムの開発に一技術者として参加したことがあります。

 列車運行管理システムとは、鉄道において列車集中制御装置、運転整理システム、旅客案内システムなどを一括管理する総合システムでありまして、列車運行管理の効率化・旅客サービス向上のために導入されているわけですが、例えば人身事故や降雪などの理由でダイヤが乱れた場合、コンピュータに諸条件を与えれば、正常ダイヤに復旧するまでどう調整していくか最適のプランが瞬時に自動的に計算されるといった利便性を持った優れモノのシステムであります。

 「鉄道ダイヤの作成・変更といえば、定規と鉛筆を手にした鉄道マンの職人的技術の領域」(朝日社説)だったわけですが、「それを自動化して人為ミスを防ぎ、正確さと安全をより追求しようと導入されたのがコスモス」であるわけです。

 20年前私が参加した某私鉄の列車運行管理システム開発は当時としてはたしか初めてAI(人工知能)搭載システムとしてダイヤを自動生成する先駆けとなったシステムでありました。

 開発に参加して鉄道運行など素人だった私は、鉄道のダイヤを正常に運行することがいかに緻密な工程のもとで行われているか、その事実に感嘆したモノでした。

 例えばという一例ですが、私が担当した部分は、一日の終わりに、何カ所かある車両基地に電車をどうしまうのか、それをコンピュータに最適なしまう順番を計画させるという機能でした。

 その日の電車が車両基地(車庫)に帰るとき、次の日のダイヤが平日なのか土曜なのか祝祭日なのかで、車庫に戻る順番が替わるのです。

 当たり前ですが、電車はレールの上を走る宿命ですから、一本のレールで単純に言えば、最後に車庫に入れた電車から翌日は最初に車庫を出発することになるので、翌日のダイアのことを考慮して電車をしまう順番を決めるというわけです。

 さらに電車の編成(4両編成か6両編成かなど)も考慮しなければなりませんし、場合によっては今日4両だった編成に2両連結して6両にして車庫に入れたり、あるいは逆に連結を解く必要なケースなども発生します。

 いくつかある基地のどこにある電車がどこからの始発で何番目に運行されるべきか、これはかなり複雑なシミュレートとなります。

 こうしてさまざまな条件を考慮して、翌日、各電車が最短の動きで各車庫を出てダイヤ通り運行できる最適な車庫のしまい方をコンピュータに計画させるのです。

 まあ鉄道ダイヤの作成・変更のIT化ですが、これは大変緻密なアルゴリズムでできているのであります。

 ・・・

 20日付け朝日新聞記事から。

新幹線運休、同じフロアにシステム開発者 連携できず

JR東日本の新幹線が一時運休した問題で、「システムの不具合が発生した」と誤解した運行担当の指令部門が所属する新幹線運行本部には、システムの開発者もいたことが関係者への取材でわかった。しかし連携できず「不具合ではない」と見抜けなかったため、1時間15分の全面運休を招いた。

 JR東の発表によると、17日朝、東北新幹線の沿線で雪が降り、福島県内でポイントが切り替わらなくなる事故が相次いだ。新幹線運行本部(東京都)では同8時ごろから、指令部門の7人が、24本の列車ダイヤの変更を入力し始めた。

 運行管理システム「COSMOS(コスモス)」では1分ごとにデータ修正が必要な箇所をチェックしており、上限の600件を超えると各列車の駅到着予定時刻を示す線がモニター上から消える仕組みになっていた。だが、これを知らされていなかった指令部門はシステムの不具合が起きたと考え、同8時23分に全線で停車を指示した。

 しかし、JR東の関係者によると、同じフロアにあるシステム部門には、システムを開発して仕組みをすべて把握している社員が複数いた。だが、発生時のシステム部門の当番は開発者に連絡をとらず、指令部門とも十分な協議をしなかったという。

 同本部に詳しいJR東社員は「表示が適正だと知っていれば列車は止めない」と指摘する。同本部の元幹部は「指令はシステムに聞くべきだったし、システムは情報を集約して指令に教えるべきだった」と話す。

 JR東は朝日新聞の取材に「システムに最も詳しい社員の勤務は午前9時からだった。発生時に適切な助言ができる社員がいたとは承知していない」としている。

 今回の問題でJR東は、システム導入以降に列車本数が4割増え、2008年にはシステム更新をしたのに上限は600件のままにしていたことが原因で、「配慮不足だった」と説明した。

 その上で(1)続けてデータを修正する場合、時間をおいて入力する(2)600件を超えても到着予定時刻を示す線をモニターに表示するようにする――を再発防止策に掲げた。

 だが、元幹部は「対症療法でしかない。部門間の連携を密にしなければ同じトラブルが繰り返される」と危惧する。(小林誠一、宮嶋加菜子)
http://www.asahi.com/national/update/0119/TKY201101190517.html

 うむ、どうやら今回のかぎは「1分ごとにデータ修正が必要な箇所をチェックしており、上限の600件を超えると各列車の駅到着予定時刻を示す線がモニター上から消える仕組み」を、「これを知らされていなかった指令部門はシステムの不具合が起きたと考え同8時23分に全線で停車を指示」してしまった点にあるようです。

 いくつかの不幸が重なった点はありますが、システム運用上の人為的なミスと考えてよろしいかとおもいます。

 「上限の600件を超える」とありますが、記事を読む限りこれは表示上の制約であり重大な不具合の発生を意味してはいないようですが、過去にないケースでありオペレーターである指令部門が「全線で停車を指示」したのは判断としては正しいです。

 不具合が最悪人命にも関わる場合も想定される交通システムの運用では、リスクをヘッジするには、フェールセーフ(Fail Safe)つまり失敗しても安全であるということと、フォールトトレランス(Fault Tolerance)つまり欠陥があってもそれを許容するということ、この2点のさじ加減が重要です。

 フェールセーフが直接「安全性」を目標にしているのに対し、フォールトトレランスは「信頼性」の向上を目標としています。

 旅客機の運行の例でわかりやすく説明しますと、悪天候のため旅客機を飛ばすことを見合わせる、これは「停止安全」つまり飛行機は飛ばなければ安全という、「安全性」を重視したフェールセーフ的対応です。

 一方、一度飛び立った後は、例えば2機あるジェットエンジンの片方が停止してしまっても飛行可能のようにあらかじめ設計しておく、これは不具合が発生してもできうる限り「信頼性」を保つという、フォールトトレランス的対応です。

 今回のケースでは、オペレーターである指令部門がシステムの不具合と勘違いしたわけですが、即座に「全線で停車を指示」したのは、「停止安全」つまり新幹線は止まっていれば安全であるという事実に基づいたフェールセーフ的対応であり、まったく正しい対応でありました。

 しかしシステムは正常だったわけですから、そもそも不具合と勘違いするような仕様はダメですね、せめて起こっていることの説明「警告メッセージ」はモニターに出すべきだったでしょう。

 それはともかく、私が「システム運用上の人為的なミス」と指摘するのは、次の二つの事実からです。

 ひとつは、報道によればJR東管轄の新幹線は、このシステムができた16年前から1日の列車の運行回数は230回から320回に4割も増加していたそうですが、にもかかわらず600件という上限を引き上げてこなかったこと。

 そしてもうひとつは、おそらくはこちらのほうが影響が大きかったと思われますが、やはり報道によればコスモスは08年5月に全面改修され、ダイヤ予測機能を従来の4時間から、列車が車庫に入るまで終日予測できるようにした事実です。

 今回不幸なのは七人のオペレータが同時に入力行為をしてしまったのが早朝だったことです。

 事実上、終日の予測データが大量発生したはずであり、一回の入力でそれ以降のダイア変更情報がたくさん作成されたはずであり、7人が同時にオペレートしていたそうですから、それぞれの件数の総和が1分間に600件という上限を超えてしまったのでありましょう。

 運行回数が4割も増えている上に予測時間を4時間から終日予測に変更したのなら、当然ながら発生トランザクションは増加されるわけで、これは08年5月のシステム全面改修の際、当然予見されていたわけで、そのとき1分間に600件という上限は当然見直されるべきであったし、見直さないにしても運用上の問題として上限越えが発生しうる状況は想定すべきだったわけで、そこに何も策を講じてこなかったのは、明らかに人為的ミスであると言えると思います。

 発生トランザクションの増加は十分に予見できたはずです。


 今回の問題発生ですが、コスモスの仕様の全面的チェックと見直しをこれを機としてするべきでしょう、今後世界に新幹線技術を輸出するためにも、新幹線システムの精度向上のよい機会と考えればよいでしょう。



(木走まさみず)