AFEELAのAIを強化する—学習のボトルネック解消のサイクル

ソニー・ホンダモビリティ株式会社オートノマスシステム開発部 AIモデル開発課シニアマネジャーの周藤泰広です。前回に続き、AFEELA独自の先進運転支援システム（ADAS）である「AFEELA Intelligent Drive」のAIモデルの開発について紹介します。

学習効率の向上
入力データ量が膨大になる中、様々な改善や最適化を施し、GPUの稼働率を3倍に向上

マルチタスク学習の進化
タスク間の不整合を解消する新しい学習方法を確立し、シングルタスク学習を上回る性能を発揮

マップ活用への考え
認識精度向上のため使える情報は最大限活用。SDマップとのリアルタイムな情報統合で、より賢く走行可能に

学習効率の向上における課題

AI開発において学習効率の向上は極めて重要な課題です。特に我々のAIモデルは、LiDARやカメラ、レーダーなど、複数の高解像度センサーの情報を入力しているため、入力データが非常に多くなっています。この結果、中間メモリが大きく、データローダやCPU-GPU間のメモリ転送といったCPU処理に時間がかかり、GPU側に待ち時間が発生する点が課題です。私たちは、詳細なプロファイリングでボトルネックを特定し、分析や改善を重ねてきました。データローダ処理の高速化や、CPU-GPU間のデータ転送時間の短縮、同期の改善を継続的に行うことでGPUの待ち時間を短縮し、開発当初に比べて現在のGPUの有効利用率は3倍以上になるなど、学習効率を日々向上させています。
また、モデルは毎週のように変わり、実装もそれに合わせて更新されるため、ボトルネックもその度に姿を変えます。私たちは、高速でサイクルを回しながら、絶え間なく課題を洗い出し、改善を積み重ねています。

学習効率の継続的な改善

マルチタスク学習における勾配の衝突

学習規模が拡大するにつれて、マルチタスク学習における勾配の衝突といった問題にも直面しています。「3次元オブジェクト検出と2Dオブジェクト検出」のように関連性の高いタスクは互いに良い影響を与え合う一方で、「レーントポロジーとオブジェクト検出」のように性質が異なるタスクを同時に学習させると、学習の方向性を示す勾配が逆向きになり、互いの学習を阻害して精度が低下してしまいます。このように複数のタスクを同時に学習する場合、タスク間で様々な矛盾が生じ性能が低下することがあります。勾配の衝突以外にもLossのスケール不整合、データ拡張の整合性が要因となり、シングルタスクで学習するよりも精度が低下してしまいます。私たちはこのような様々なタスク間の不整合を解消した学習方法を開発し、シングルタスク学習の性能を上回るマルチタスク学習を実現しています。

マルチタスク学習の改善効果

大規模化するAIの学習効率を上げるために、GPU、CPU、専用AIアクセラレータなど、異なる種類のプロセッサを計算処理の特性に合わせて使い分けるヘテロジーニアス・コンピューティングのアイデアも検討しています。各プロセッサの強みを活かすことで、全体的な学習速度の向上を目指しています。

静的な地図情報とリアルタイム情報の統合

AFEELA Intelligent DriveのAIモデル

現在の自動運転業界ではHDマップを使わないアプローチが注目されています。我々も基本的にはHDマップを用いずに走行できることを目指しています。しかし人間も地図情報を参照するのと同様、認識を補完するために、マップが使える状況では使うべきだと考えています。使える情報は最大限活かそうという考えです。
２次元地図データであるSDマップは、道路の車線情報や交差点の大まかな位置を含んだ静的な情報です。この地図情報と、車載センサーが捉えた高精度な形状情報を持つ動的なリアルタイムの情報とを統合することで、AIは「自分がいま地図上のどこにいて、周囲がどうなっているのか」を高精度に把握できます。さらにマップのベクトルデータを言語や画像と同じようにTransformerに入力することで、カメラやLiDARだけでは解けない見通しの悪いカーブの先の状況予測を行い、頑健性を高めています。
マップがないと走れないわけではありません。「マップがあればもっと賢く走れる」し、見えない情報も把握することができるのです。

※HDマップ : High Definition Map. LiDARを用いて作成した精緻な3次元マップで、センチメートル精度の車線ごとの情報を持つ
※SD マップ : Standard Definition Map. メートル精度の道路単位の情報を持つ２次元マップ

チャレンジャーとしての戦略

我々は市場においては後発のチャレンジャーです。先行する他社に追いつくため、データセット戦略を立てて鋭意開発を進めています。ただ、一定の時間がかかることも事実です。我々はリッチなセンサーを最大限に活かし、ハードウェアとソフトウェアを垂直統合して開発することで差別化を図っています。前回のブログでも触れましたが、最重視しているのは「Reasoning（推論）」です。今後は言語モデルとの統合によって、例えば「交差点に立っている人が、次にどう行動するかを予測する」といった、より高度なタスクへの対応も視野に入れています。
チャレンジャーであるという自覚は、チーム全体の、変化に躊躇しない姿勢につながっています。開発コンセプトは非常にシンプルで、「とにかくサイクルを高速で回す」ことです。課題の発見から、改善、実装、評価に至るサイクルを高速で回し、モデル構造、学習アルゴリズム、パラメータの全てが毎週変わります。積極的に新しい技術やアイデアも積極的に導入し続けており、時には抜本的なアプローチ変更もいとわずに行っています。世界トップレベルに挑戦する現場環境は、我々エンジニアにとって非常に貴重です。大きなやりがいと成長機会を感じながら、日々開発を続けています。

当記載内容は開発段階の情報やデータに基づくものです。