Top Conference Trends Overview

近年の CVPR / ICCV / ECCV / NeurIPS / ICLR / CoRL では、Computer Vision と Robotics、Generative Models、Self-Supervised Learning が強く接近しています。単体の task 精度を上げるだけではなく、3D / 4D world understanding、foundation model、生成、planning を統合する方向が大きな流れです。

大きな流れ

頻出トピック

トピック	代表的なキーワード
3D foundation models	VGGT、DUSt3R、MASt3R、Depth Anything 3
4D reconstruction	Dynamic NeRF、4DGS、deformable Gaussian、human avatar
Pose estimation	Whole-body pose、6D object pose、FoundationPose、camera relocalization
World models	Dreamer、Genie、GAIA-1、video world model、robotics planning
JEPA / predictive SSL	I-JEPA、V-JEPA、V-JEPA 2、representation prediction
Embodied AI	Vision-language-action model、robot foundation model、simulation
3D generation	Text-to-3D、multi-view diffusion、3D Gaussian generation
Open-world perception	Open-vocabulary detection / segmentation / 3D semantic map

なぜこれらがつながるのか

3D Reconstruction、Pose Estimation、World Models、JEPA は別分野に見えますが、実は共通する目的があります。

視覚入力から、世界の状態・構造・変化を、行動に使える形で表現すること。

この観点から見ると、

3D Reconstruction は「世界の幾何」を復元する。
4D Reconstruction は「世界の時間変化」を復元する。
Pose Estimation は「人・物体・camera の状態」を推定する。
World Models は「未来の状態変化」を予測する。
JEPA は「未来や隠れた部分の representation」を予測する。

という関係になります。

詳細トレンドページ

より細かい topic は次のページで扱います。

加えて、関連カテゴリとして 3D Generation、Gaussian Splatting、Vision-Language Models、Detection and Tracking、Video Understanding、Self-Supervised Learning も参照してください。

大きな流れ​

頻出トピック​

なぜこれらがつながるのか​

詳細トレンドページ​

関連ページ​

大きな流れ

頻出トピック

なぜこれらがつながるのか

詳細トレンドページ

関連ページ