Detection and Tracking Overview
Object Detection と Tracking は、画像・動画から 「何が、どこに、どう動いているか」 を推定する基本タスクです。3D Reconstruction、SLAM、自動運転、video understanding、robotics、AR のすべての基盤になります。
全体像
詳細ページ
| ページ | 内容 |
|---|---|
| Object Detection Fundamentals | Two-stage / one-stage / DETR 系の整理 |
| YOLO Family | Real-time detector の代表系譜 |
| DETR Family | Transformer-based detection と DINO |
| Multi-Object Tracking | SORT、ByteTrack、tracking-by-detection |
| Tracking Any Point | CoTracker、TAPIR、TAP-Vid |
3D Reconstruction との関係
- Dynamic SLAM では moving object の mask が必要 → detection / tracking
- 4D Reconstruction では object 単位の motion が重要 → MOT、TAP
- Video Diffusion Models や World Models では、object identity の保持が必要
- Embodied AI では target object の追跡が grasping や navigation の前提
関連ページ
主なソース
- DETR: https://arxiv.org/abs/2005.12872
- YOLOv8 documentation: https://docs.ultralytics.com/
- ByteTrack: https://arxiv.org/abs/2110.06864
- CoTracker: https://arxiv.org/abs/2307.07635