自動運転開発の拡張性比較：May MobiltiyのMPDM技術 🆚 ルールべースでの開発

Address: 日本
Price range: $

当社の独自のMulti-Policy Decision Making (MPDM：自動運転意思決定AI)システムの仕組みと他の自動運転アプローチとの比較については、当社のホワイトペーパーをご覧ください。

ホワイトペーパーPDFをダウンロード（英語）

ルールベースでの自律走行開発における課題

自律走行へのアプローチの多くは、何らかの形でルールベースを使用して意思決定を行っています。ルールベースとは、運転判断に使用するロジックが、実際にシナリオに遭遇する前に 固定さ れ決定されることを意味します。

ルールベースはリアクティブ（反応的）です。運転は頻繁に反応的に行われるため、特に一般的な状況では、このタイプの意思決定が機能することが多い。例えば、ドライバーは前方の赤信号に対応するためにルールベースを使用します。私たちは、ドライバーの訓練や経験から、赤信号の前で停止し、青に変わるまで進んではいけないと知っています。考えるまでもなく、信号に対する反応は「ハードワイヤリング」されているのです。また、隣の席の人と話をするなど、別の作業をしていても、正しく反応することができます。

このようなシンプルで応用範囲の広いアプローチから、エンジニアはルールベースを、自動車を自動運転させるための最初の、そしてしばしば唯一のアプローチとして採用しています。ルールベースは、通常2つの方法で実装されます：

エンジニアが、「if/then」ルールに似た形で意思決定を直接エンコードする（例えば、「前方に赤信号があれば、あらかじめ定義された地点で停止する」）。
エンジニアは、機械学習を使って、同じ状況に対応するようにシステムを訓練します。この場合、学習プロセスでは、プログラマーがさまざまなシナリオを「観察」する（訓練する）ことで作成するルールに相当するものを生成します。例えば、速度や距離の異なる赤信号へのアプローチを何十、何百と学習させることができます。

一見すると異なるアプローチですが、どちらも最初の1マイルを走行する前に、遭遇するすべての状況に対して車両がどのように反応するかをハードコーディングしています。これらのアプローチは、多くの状況に対して迅速かつ正確に対応できるという点で共通しています。しかし、実際には2つの重要な欠点があり、その威力は限定的です。

エンジニアが想定していない状況や、エンジニアのトレーニングセットには存在しないような状況には、確実に対応できない。
構築と維持にリソースを要するため、異なる環境や状況への拡張が困難である。

これらの制限と、May Mobilityがどのようにそれを克服しているかをよりよく理解するために、私たちはもう少し深く掘り下げます。

ルールベースでの自律走行開発における課題
実装の課題：社会実装への複雑さの把握
その解決策とはマルチポリシー・デシジョンメイキング（MPDM）
当社 MPDM（自動運転意思決定AIシステム）は不確実性を克服し、社会実装の拡張性を促進する

ルールベースで開発した際の技術及びコスト上の課題

図１をご覧ください。自動運転車両（緑色）は、2台の車両（青色）と歩行者（水色の丸）がいる交差点に近づいています。

エンジニアは、ルールベースメントシステムにおいて、状況に基づいてどのように反応するかを選択するアルゴリズムを作成します。実際のシステムにはもっと多くの例がありますが、ここではこれを行うための2つの例として、次のようなものがあります。

1. 自動運転車両が、自身の前方にある車両を追跡するために最も近いオブジェクトを選択します。
2. 最も高いリスクをもたらすルート近くの対象物（例えば歩行者。歩行者が道路に対してどこに立っているかによって異なります）を選択します。

エンジニアが直接これらの決定をプログラムするのではなく、システムがたくさんのシナリオ（例：シミュレーション）を確認し、結果が安全（「良い」）か危険（「悪い」）かに応じて走行可否を判断します。

このアプローチの問題は、このシナリオが様々な方法で展開される可能性があることです。

図2（以下）では、比較的穏やかなケースからいくつかのトリッキーな停止シナリオまで、5つの異なる可能性を示していますが、これらは決して網羅的ではありません。

プログラマーがシステムが状況に遭遇する前に何をすべきかを決定すると、この決定が誤っている場合、悪い結果につながる可能性があります。たとえば、シナリオ5がシステムが先行車に従っているときに発生した場合、またはシナリオ2が車両が歩行者に反応しているときに発生した場合、どうなるでしょうか？エンジニアが考慮しなかったシナリオが発生した場合はどうでしょうか？実際、現実世界で起こりうることの組み合わせは広範囲にわたるため、この最後の状況は実際に起こり得ます。

図2：図1のシナリオは、これらの5つを含めて多くの方法で展開する可能性があります。すべての可能なシナリオを予測するためのロジックを書くことは困難です。また、どのシナリオが発生するかを予測し、正しいアクションを選択することも困難です。

これらの問題を緩和するため、エンジニアは予測を使用して、選択されたアクションが状況に最も適している可能性を高めることがよくあります。過去に各オブジェクトがどこにあったか、どのように動いたかに基づいてアクションを選択するのではなく、システムはオブジェクトが将来どこにあるかを計算してアクションを選択します。

例えば、システムは、シーン内のすべての物体の位置と速度をニューラルネットワークで処理し、シナリオがどのように進行するかを予測します。この例では、ネットワークトレーニング中に観察されたケースに基づいて、図2のシナリオ1が最も可能性が高いとシステムが判断することがあります。

通常、この種のアプローチはより良い結果をもたらしますが、それでも基本的にはルールベースのアプローチです。選択されたアクションは現在の観測状態ではなく予測に基づいていますが、このアクションはエンジニアまたは機械学習アルゴリズムによって事前に決定されています。

例えば、予測システムは、横断歩道に入ると予測される場合には、横断歩道に入るのを待つのではなく、歩行者のために停止します。しかし、停止動作はまだハードコードされており、システムは異なるエンティティ間の複雑な相互作用（例えば、図2のシナリオ4はこれらのシステムにとって特に困難です）や、過去のトレーニングやテストデータで観察されなかったシナリオに遭遇した場合には、まだ誤りを犯す可能性があります。

これらの問題を解決するために、自動運転チームはエンジニアリングチームを拡大し、データニーズを指数関数的に増やす必要があります。十分なデータが収集されれば、システムはすべての状況を見て、正しく対応することができると考えられています。しかし、実際には、可能な行動の組み合わせのスペースは広大であり、道路幅、植生の位置、駐車場の位置、横断歩道の位置などの小さな環境の変化でも、正しく処理するためには大きなエンジニアリング努力とデータ処理が必要です。

基本的に、ルールベースに基づくシステムはシナリオの拡張が難しく、構築と維持に多大なリソースが必要です。

図3：一部の自動運転システムは機械学習を使用して、何が起こるかを予測します。これにより性能が大幅に向上することがありますが、システムが誤った場合、悪いまたは危険な振る舞いを引き起こす可能性があります。

実装の課題：社会実装への複雑さの把握

自動運転システムにおいて、ルールベースシステムの課題は、何が起こるかを確実に知る必要があることです。正しいアクションを選択するためには、この情報が必要です。この確実性の要件があるため、高価な知覚システムの完璧化、ペタバイト単位のトレーニングデータの収集、数百万のシナリオの処理に多くの時間と労力が費やされます。不確実性はほぼゼロにまで抑えられなければなりません。

もし私たちが確信を持つ必要がなかったらどうでしょうか？不確実性がある場合でも安全で効果的な決定をする方法があったらどうでしょうか？そのようなシステムは、はるかにシンプルで拡張可能なものになるでしょうし、未知のシナリオでも上手に運転することができます。実は、人間は常にそれができています。

人間は、図1に示されるようなシナリオを運転するために意図的な推論を使用します。人間がこのような場面に遭遇すると、運転手は副次的な行動（例えば、乗客と話すこと）を遅らせ、車両を減速し、何が起こるかを予測することに集中し始めます。人間の運転手は、素早く「もしも」のシミュレーションを頭の中で行います。歩行者が先頭の車の前に移動したらどうなるか？対向車が先に曲がったらどうなるか？対向車が私の車の前を曲がったらどうなるか？人間の運転手は不確実性が残る間、行動は慎重になり速度は遅くなります。他の車や歩行者が行動を決定した後、人間の運転手は自信を持って運転することができます。

不確実な状況でも同様に振る舞うようにコンピューターシステムを設計することは可能でしょうか？その答えは「はい」であり、そうすることで、より少ないリソースで構築できる行動の可能性が開かれ、より多くの状況に安全に対応できるようになります。
Multi-Policy Decision Making (MPDM：自動運転意思決定AIシステム)」は、未知のシナリオに遭遇した場合でも、常に安全な運転決定を行うために特別に設計された自動運転システムです

その解決策とはマルチポリシー・デシジョンメイキング（MPDM）

MPDMは、あらゆる可能性を考慮した決定を行うことで、以前に説明した問題を回避します。このアプローチは、システムが可能な限りオプションを開放し、行動を起こす必要がある時点で最終的な行動を決定するため、最小限のコミットメントアプローチと呼ばれています。

自動運転意思決定AIシステム・MPDMでは、アクションはあらかじめ特定のシナリオに合わせてハードコーディングされていません。システムは将来の予測を行いますが、どの未来が起こるかを知っているという前提はありません。代わりに、MPDMは多くの未来を想像し、どの未来が起こっても安全なアクションを選択します。

MPDMが不確実な状況下で安全な運転を実現するかを示すために、図4を考慮してください。MPDMは、知覚システムが提供するもの、つまりシーン内のすべてのエージェント（車、人、自転車など）の位置と速度（過去数秒間）から始まります。これらのエージェントのそれぞれについて、MPDMはそれに対して可能性のある行動のセットを生成します。ここで「可能性がある」とは、環境制約に従って物理的に可能であり、過去数秒間に観察された移動パターンと一致していることを意味します。これらの行動は常に起こりうるわけではありませんが、高リスクな行動が確率的に低い場合でも考慮する必要があるため、重要です。

MPDMは、自動運転車両（緑色）のために、潜在的に有用なアクション（ポリシーと呼ばれる）のセットを選択します。これらのアクションは、特定のシナリオに合わせて選択されたものではなく、幅広い状況で役立つ一般的な行動です。「リード車に従い速度制限を守る」「前方の歩行者にブレーキをかける」「交差点手前でブレーキをかける」「少しゆっくり走る」「少し左に寄る」などが含まれます。

図4：MPDMが実行できる各ポリシーに対して多くの未来を想像する方法の例。ポリシーは、車両の振る舞いを特定の方法で制御するアルゴリズムです（例：減速、加速、方向転換、停止）。ここでは、単純化のために、2つのポリシーオプション（オプション1：速度制限を守る、オプション2：少し遅く運転する）のみを示していますが、実際にはMPDMは6〜12のポリシーを考慮して決定を下します。これらのオプションのそれぞれについて、多くの未来が想像されます（つまり、実際の時間よりもはるかに速くシミュレートされます）。ここでは、シミュレートされた5つのシナリオを示していますが、実際には何百ものオプションがシミュレートされます。

次の2つのステップが、意思決定の問題を解決する重要な要素です。

ステップ1

MPDMは、世界中のオブジェクトに対して1つのアクションと自己車両に対して1つの方針を選択します。そして、これらのオブジェクトが選択されたアクションを使用して振る舞った場合に起こる未来をシミュレーションします。しかし、MPDMはここで止まりません。システムは、シミュレートされた未来が本当に起こるかどうかを確信することができません。エージェントが異なるアクションを取った場合はどうなるでしょうか？そこで、別の異なるアクションを選択して、それらをシミュレートします。実際、これを何度も行い、何百回もシミュレートします。最終的に、MPDMは多くの未来をシミュレートし、確実ではないがすべてが可能性がある結果を作り出します。実際に、車両はその特定のシーンを何百回も仮想的に走行し、時には失敗し、時には成功し、リアルタイムで最適な方法を学習しています。

ステップ2

MPDMは、自動運転で実行できるすべての方針について、想定される未来を評価します。もし、何か悪いことが起こる可能性がある未来がある場合（例えば、衝突や接近事故など）、その方針は却下されます。却下されなかった残りの方針の中で、目的地に向かって最も快適な進行を提供する方針が実行されます。
ステップ1と2は1秒間に5回繰り返されます。したがって、世界が変化するたびに（例えば、新しい障害物が検出された場合や、車両が方向や速度を変更した場合）、最新の状況に最適な方針で即座に応答します。

当社 MPDM（自動運転意思決定AIシステム）は不確実性を克服し、社会実装の拡張性を促進する

MPDMは表面的にはシンプルに見えますが、ある意味ではそうです。MPDMを動かすためには、運転シチュエーションにおける人間の行動モデルを作成し、リアルタイムよりも何百倍も速く実行できるシミュレータを作成するという2つの難しい問題を解決する必要があります。しかし、これらの問題が解決されると、MPDMのシンプルさは、初期のコミットメントシステムにとって新規性、不確実性、スケールがもたらす課題を克服する力を持っていることがわかります。

まず、MPDMは人間の行動をモデル化できるあらゆる状況に対応できます。それは、MPDMの決定が状況の特定に依存しないため、新しい状況にも対応できるからです。MPDMは適用可能なすべての行動を常に考慮し、仮想的にそのシナリオを走行してから選択します。最適な行動は仮想走行から生まれます。

MPDMは、環境に不確実性がある場合でも安全な行動を選択します。

例えば、隠蔽により、認識システムが人が歩行者か自転車乗りかを判断できない場合、MPDMは両方の可能性をシミュレーションします。車両が2つのレーンのうちどちらにいるかを完璧に判断できない場合、MPDMは両方の場合における可能性のある行動をシミュレーションします。歩行者が道路を横断するか、歩道で立ち往生するかを確実に判断できない場合、MPDMは選択された行動がどちらの場合でも安全であることを確認します。その結果、自動運転意思決定AIシステム・MPDMの振る舞いは人間のようになります。不確実な場合は減速し、余裕を持って運転し、確実な場合はより断固とした運転をします。

MPDMは、初期のコミットメントアプローチよりもはるかにスケーラブルであり、多くの開発者やリソースを必要としません。このスケーリングの利点は、MPDMをプログラムする際に、物事の組み合わせを認識またはモデル化する必要がないためです。物事の組み合わせ（例えば、歩行者が横断する可能性がある車に従って黄色い信号が点滅する）は、直接モデル化する場合、大量のエンジニアリングやデータ処理リソースが必要になります。MPDMでは、運転シチュエーションにおける人間の行動のモデルを作成するだけで済みます。このモデルの構築には、かなりの労力と時間がかかるかもしれませんが、一度機能し、検証されたら、すべての環境や状況に適用できます。MPDMは、自動運転の開発において最もスケーラブルなアプローチです。

これらの3つの利点を合わせると、スケールの構築に必要な基盤が提供されます。技術が効率的に構築され、新しい高度な状況でもうまく機能し、サイトのカスタマイズを制限することができれば、数千の異なる環境に迅速に展開することができます。MPDMはこれらの利点を提供し、スケールでの自動運転を実現するユニークな技術です。