Skip to content

Algorithms

教材への理解を深めるために、理解しておくと良いアルゴリズムについて紹介します。興味を惹かれる論文があれば、Sample NodeのDesignを参考にして、ROS Nodeを作成してみてください。

前提知識

  • 機械学習、深層学習の知識
    • MLP, CNN, Transformer等の用語について理解している方を対象とします。

ALVINN

  • 1980年代に発表された、深層学習による自動運転手法です。
  • 当時の計算能力は非常に限られていたため、たった3層の全結合型Neural Networkが使われていました。
  • 論文: An Autonomous Land Vehicle In a Neural Network

ALVINN

引用元: https://jmvidal.cse.sc.edu/talks/ann/alvinn2.gif

DAVE-2

  • 2016年にNVIDIAから発表された手法で、CNNを用いています。
  • ALVINNよりも計算機が強力になったものの、5層のconvolution layerと3層の全結合層からなる、コンパクトな構成でした。
  • 論文: End to End Learning for Self-Driving Cars

DAVE-2 Architecture

引用元: https://figures.semanticscholar.org/0e3cc46583217ec81e87045a4f9ae3478a008227/3-Figure2-1.png

UniAD

  • CVPR2023でOpenDriveLabから発表された手法で、画像を入力とし、trajectory(waypoints)を出力します。現在幅広く使われている、センサが入力、trajectoryが出力となる自動運転手法の基礎となっています。
  • "Query based"と呼ばれる方法で、各module間をつなぐ手法を採用。
  • 複数の画像を、BEVFormerと呼ばれる手法で処理し、BEV特徴量(Bird-eye-view, 鳥瞰図のように交通環境を上から見たときの特徴量)を取得します。
  • Map情報はRasterで表現しており、かなり推論が遅いです(A100で1~4 FPS)
  • 論文: Planning-oriented Autonomous Driving
  • code

UniAD

引用元: https://opendrivelab.com/assets/publication/uniad.jpg

UniAD-poster

引用元: https://github.com/OpenDriveLab/UniAD/blob/v2.0/sources/cvpr23_uniad_poster.png?raw=true

VAD

VAD Architecture

引用元: https://raw.githubusercontent.com/hustvl/VAD/main/assets/arch.png

Sample ROS NodeではVAD-tinyと呼ばれるmodelを使用しています。

VLM based planner

  • 言語モデルを使用したPlannerも多数登場しています。いくつか例を紹介します。

EMMA

  • Geminiを自動運転データでfine-tuningして使用しています。
  • 道路上にカバンやハシゴが落ちていたら避ける軌道を出力し、路上にリスがいたらslow downするなど、long-tail driving scenario(珍しいシナリオ)に対応できるとの結果が得られています。
  • 論文: EMMA: End-to-End Multimodal Model for Autonomous Driving

OmniDrive

OmniDrive Poster

引用元: https://cvpr.thecvf.com/media/PosterPDFs/CVPR%202025/34693.png?t=1748858551.4455686

S4-Driver

S4-Driver Poster

引用元: https://cvpr.thecvf.com/media/PosterPDFs/CVPR%202025/32619.png?t=1748995327.7679746

VLM + BEVのhybrid planner

  • UniAD, VADのようなBEV特徴量を用いたPlannerと、VLMとを統合したPlannerも提案されています。

DriveVLM

  • "Fast&Slow"と呼ばれる、「VLMによる遅い推論」と「VADのようなmodelによる速い推論」を組み合わせたmodelです。
  • 「草木が落ちているような状況で回避軌道を生成できる」「警察の手でのジェスチャーに対応した軌道を生成できる」といった、long-tail driving scenario(珍しいシナリオ)に対応できるとの結果が得られています。
  • 論文: DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
  • youtube link

DriveVLM Pipeline

引用元: https://tsinghua-mars-lab.github.io/DriveVLM/images/pipeline.png

Senna

Senna

引用元: https://github.com/hustvl/Senna/raw/main/assets/teaser.png