Algorithms

教材への理解を深めるために、理解しておくと良いアルゴリズムについて紹介します。興味を惹かれる論文があれば、Sample NodeのDesignを参考にして、ROS Nodeを作成してみてください。

前提知識

ALVINN

DAVE-2 Architecture

CVPR2023でOpenDriveLabから発表された手法で、画像を入力とし、trajectory(waypoints)を出力します。現在幅広く使われている、センサが入力、trajectoryが出力となる自動運転手法の基礎となっています。
"Query based"と呼ばれる方法で、各module間をつなぐ手法を採用。
複数の画像を、BEVFormerと呼ばれる手法で処理し、BEV特徴量(Bird-eye-view, 鳥瞰図のように交通環境を上から見たときの特徴量)を取得します。
Map情報はRasterで表現しており、かなり推論が遅いです(A100で1~4 FPS)
論文: Planning-oriented Autonomous Driving
code

UniAD

UniAD-poster

ICCV2023で発表された手法です。
BEV特徴量の使用、"Query based"な思想をUniADから引き継ぎながらも、Raster mapではなくVector mapを使用することで高速化・軽量化を達成。RTX3090で16.8 Fpsで動きます。
論文: VAD: Vectorized Scene Representation for Efficient Autonomous Driving
code

VAD Architecture

Sample ROS NodeではVAD-tinyと呼ばれるmodelを使用しています。

F1TENTHにて使用された手法です。
2D LiDARのデータから、速度とステアリング角を推定します。
- input: 長さ1081の1次元配列。2D LiDARで得られたxy平面上の距離を格納。
- output: Speed, Steering Angle
5層のconvolution, 4層のFully-connectedから構成されており、非常にシンプルなモデルです。そのため、1万sampleを使った学習がNVIDIA Jetson Xavier NXにて4分で終了し、int8量子化したmodelがESP32-S3にて16msで動くなど、かなり軽量です。
static obstacleしか含んでいないデータセットで学習させたにも関わらず、他の車のovertakeを実行できたり、実データで学習したモデルをシミュレータ上で評価しても(Real2Sim)高い走破性を誇る(論文 Table. Ⅱ)など、性能も安定しています。
論文: TinyLidarNet: 2D LiDAR-based End-to-End Deep Learning Model for F1TENTH Autonomous Racing
code

TinyLidarNet Architecture

Geminiを自動運転データでfine-tuningして使用しています。
道路上にカバンやハシゴが落ちていたら避ける軌道を出力し、路上にリスがいたらslow downするなど、long-tail driving scenario(珍しいシナリオ)に対応できるとの結果が得られています。
論文: EMMA: End-to-End Multimodal Model for Autonomous Driving

NVIDIAがCVPR2025で発表した論文です。
「もしこの状況でこうするとどうなりますか？」というcounterfactual reasoning(反実仮想)の訓練ができるようなdatasetを作成しています。
論文: OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning
code

OmniDrive Poster

WaymoがCVPR2025で発表した論文です。
「VLMが2次元画像でしか事前学習しておらず、Motion Planningでの性能が低い」という課題感から、UniAD, VADのようなBEV特徴量を使った手法から着想を得て、BEV特徴量を使用したVLM modelを提案しています。
論文: S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Modelwith Spatio-Temporal Visual Representation

S4-Driver Poster

"Fast&Slow"と呼ばれる、「VLMによる遅い推論」と「VADのようなmodelによる速い推論」を組み合わせたmodelです。
「草木が落ちているような状況で回避軌道を生成できる」「警察の手でのジェスチャーに対応した軌道を生成できる」といった、long-tail driving scenario(珍しいシナリオ)に対応できるとの結果が得られています。
論文: DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
youtube link

DriveVLM Pipeline

VLMと学習ベースのPlannerを結合した手法です。
VLMでhigh levelなcommandを決定し、VADのようなBEV特徴量を用いたmodelで使用します。
論文: Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving
code

Senna