Share

  • X
  • Facebook
  • linkedIn
2025年10月16日

認識を超えて関係性を理解する「AFEELA」のAIモデル

Tech Blog ADAS #1

――ソニー・ホンダモビリティのテックブログへようこそ。

私たちはモビリティ・テックカンパニーとして、モビリティ業界のイノベーションをリードすることを目指しています。このテックブログでは、私たちの挑戦や技術的な取り組みをエンジニアの視点から発信していきます。未来のモビリティをつくる舞台裏を、ぜひ一緒に覗いてみてください。
今回は、AFEELA独自の先進運転支援システム(ADAS)である「AFEELA Intelligent Drive」のセンサー設計やAIモデルについて、直面する課題とそれに対するアプローチを紹介します。

「認識」から「推論」へ

ソニー・ホンダモビリティ株式会社 オートノマスシステム開発部 AIモデル開発課 シニアマネジャーの周藤泰広です。ソニー・ホンダモビリティは2026年に、最初のモデルとなる「AFEELA 1」の納車を米国で開始する予定です。私たちはその先進運転支援システム(ADAS)の開発にあたり、世界トップクラスのAIモデルを目指して、自社で一から設計・構築を進めています。
目指しているのは、車両周辺を個別に理解するだけでなく、対象間の関係性を理解し、状況全体を推論することです。カメラ、LiDAR、レーダー、SD マップ、オドメトリなどの多様な情報を統合し、世界でも前例の少ないレベルで「理解するAI」を実現するため、日々挑戦を続けています。

ソニー製SPADセンサーが使われているLiDARの搭載とルーフ上への配置はADASへの意志の現れ

「AFEELA 1」に搭載されている40個のセンサー
「AFEELA 1」には40個のセンサーを配置

私たちは、高度な運転支援を実現するには、単一センサーへの依存では限界があると考えています。多様なセンサーで互いを補完することで、高いロバスト性と冗長性を確保しています。その一つがレーザーを使って物体の距離や形状を精密に測定するLiDARの搭載です。
AFEELAにはソニーが開発したSPAD(Single Photon Avalanche Diode)を受光素子とした、LiDARを搭載しています。ToF(Time-of-Flight)方式で、最大20Hzで高密度3D点群データを取得できるLiDARです。

AFEELA Intelligent Driveでオブジェクトを認識しているイメージ

LiDARは認識AIの性能を大きく向上させます。検証では、カメラにLiDARを追加することで、物体認識精度が格段に向上しました。特にLiDARは、暗所での認識や、遠距離にある物体の正確な3次元形状や距離情報の取得において優位性を発揮します。反射強度データを解析することは、白線の検出や人と車の境界の識別などにも有効です。

AFEELA 1 ルーフ上に配置されているLIDARとカメラ
ルーフ上に配置されているLIDARとカメラ

センサーの配置にもこだわり、既存の常識に挑戦しました。通常はデザイン性が優先されることも多く、バンパー下や、Bピラーにカメラを組み込んでいる例もあります。我々も様々な配置を検討した結果、ルーフ上にLiDARとカメラを設置する選択を行いました。車体による死角を最小化し、広範囲を見渡せる視界を確保するためです。これは単なる技術的な選択にとどまらず、経営トップも含めた「世界最高水準のADASを実現する」という強い意志の表れです。

トポロジーで関係性を理解するReasoning

AFEELAの認識AIの真価は、単に物体を識別する(Perception)を超えた「Reasoning(推論)」にあります。見えたモノ同士の関係性を理解し、文脈に基づいた解釈を行います。
Reasoningを実現するために重要な概念が「トポロジー」です。見えたオブジェクト間の空間的、あるいは論理的な関係性を構造的に理解し、解釈・推論する能力を与えることができます。
たとえば「レーントポロジー」というタスクでは、白線と白線の関係性、交差点でのレーンの接続や分岐、標識とレーンの関連性といった解釈を含む関係性を解きます。すなわち、単なる認識から一歩進んだ「状況の理解」が可能になりました。

Transformerによる信号とレーンの関係づけ
Transformerによる信号とレーンの関係づけ

道路上の各要素は、「遠くの信号」と「自分の車の走行レーン」のように、物理的に離れていても関係性を持つことがあります。こうした関係性を導く上でキーとなるのがTransformerです。Transformerの「アテンション」機構は、入力された情報の中から、こうした関連性の高いペアを自動的に見つけ出すので、要素間の関連性を効果的に学習することが出来ます。
たとえば、LiDARによる3D点群情報とカメラによる2D画像といった異なる種類の情報も、前処理なしで、自動的に紐付けて関係性を学習できます。レーン情報は3次元、信号情報は2次元で処理されているにもかかわらず、自動で紐づけられます。その一方で、タスクとしての抽象度は高くなるため、モデルに与える教示データの一貫性が非常に重要となります。ソニー・ホンダモビリティでは、教示の一貫性を重視したモデル及び教示ガイドラインを設計することで、精度を向上させています。

Transformer活用において乗り越えるべき「実行効率」

Transformerは非常に強力ですが、実行効率の低さは大きな壁です。開発の初期段階では、従来のCNN(畳み込みニューラルネットワーク)に比べて実行効率が10分の1以下と、「本当に動くのだろうか」と心配になるレベルでした。
ボトルネックは、演算そのものではなくメモリアクセスにあります。関係性を自由に紐付けできる反面、要素を全て掛け合わせるような演算が毎回発生することからメモリへの読み書きが頻繁に発生し、SoCの性能を活かしきれないのです。そこで私たちは、AFEELA に搭載しているSoCの製造元であるQualcomm Technologies社と密に協業することでTransformerの最適化を図り、高いパフォーマンスを実現しています。アーキテクチャの変更や地道な最適化によって、現在は当初に比べて5倍程度にまで向上しました。
こうした最適化により大規模なモデルのリアルタイムでの実行を実現できましたが、CNNとの比較ではまだ最適化の余地があり、根本的な解決に向けた取り組みを続けています。

マルチモーダル統合による「現実世界で使える知能」の実現

マルチモーダル統合による認識精度向上
マルチモーダル統合により認識精度が向上

私たちは、AIモデルにおいて、様々なデータソースを活用することが重要と考えています。LiDARやレーダー、SD マップなど、異なる情報源を組み合わせたマルチモーダル統合を行うことで、現実世界において、よりロバストでインテリジェントな走行が可能になります。
AFEELAのAI開発は、世界最先端のAI研究と実車開発を融合させるフィールドです。私たちエンジニアにとって、「AIが現実世界を理解する」という挑戦に携われる貴重な環境です。

次回は学習効率について書きたいと思います。

当記載内容は開発段階の情報やデータに基づくものです。

Related