Top Conference Trends Overview
近年の CVPR / ICCV / ECCV / NeurIPS / ICLR / CoRL では、Computer Vision と Robotics、Generative Models、Self-Supervised Learning が強く接近しています。単体の task 精度を上げるだけではなく、3D / 4D world understanding、foundation model、生成、planning を統合する方向が大きな流れです。
大きな流れ
頻出トピック
| トピック | 代表的なキーワード |
|---|---|
| 3D foundation models | VGGT、DUSt3R、MASt3R、Depth Anything 3 |
| 4D reconstruction | Dynamic NeRF、4DGS、deformable Gaussian、human avatar |
| Pose estimation | Whole-body pose、6D object pose、FoundationPose、camera relocalization |
| World models | Dreamer、Genie、GAIA-1、video world model、robotics planning |
| JEPA / predictive SSL | I-JEPA、V-JEPA、V-JEPA 2、representation prediction |
| Embodied AI | Vision-language-action model、robot foundation model、simulation |
| 3D generation | Text-to-3D、multi-view diffusion、3D Gaussian generation |
| Open-world perception | Open-vocabulary detection / segmentation / 3D semantic map |
なぜこれらがつながるのか
3D Reconstruction、Pose Estimation、World Models、JEPA は別分野に見えますが、実は共通する目的があります。
視覚入力から、世界の状態・構造・変化を、行動に使える形で表現すること。
この観点から見ると、
- 3D Reconstruction は「世界の幾何」を復元する。
- 4D Reconstruction は「世界の時間変化」を復元する。
- Pose Estimation は「人・物体・camera の状態」を推定する。
- World Models は「未来の状態変化」を予測する。
- JEPA は「未来や隠れた部分の representation」を予測する。
という関係になります。
詳細トレンドページ
より細かい topic は次のページで扱います。
- 3D Foundation Models Trend
- 4D and Dynamic Scene Understanding Trend
- Embodied AI and Robotics Trend
- World Models and Predictive Representation Trend
- 3D Generation and Simulation Trend
加えて、関連カテゴリとして 3D Generation、Gaussian Splatting、Vision-Language Models、Detection and Tracking、Video Understanding、Self-Supervised Learning も参照してください。