Skip to main content

Detection and Tracking Overview

Object Detection と Tracking は、画像・動画から 「何が、どこに、どう動いているか」 を推定する基本タスクです。3D Reconstruction、SLAM、自動運転、video understanding、robotics、AR のすべての基盤になります。

全体像

詳細ページ

ページ内容
Object Detection FundamentalsTwo-stage / one-stage / DETR 系の整理
YOLO FamilyReal-time detector の代表系譜
DETR FamilyTransformer-based detection と DINO
Multi-Object TrackingSORT、ByteTrack、tracking-by-detection
Tracking Any PointCoTracker、TAPIR、TAP-Vid

3D Reconstruction との関係

  • Dynamic SLAM では moving object の mask が必要 → detection / tracking
  • 4D Reconstruction では object 単位の motion が重要 → MOT、TAP
  • Video Diffusion Models や World Models では、object identity の保持が必要
  • Embodied AI では target object の追跡が grasping や navigation の前提

関連ページ

主なソース