Skip to main content

Top Conference Trends Overview

近年の CVPR / ICCV / ECCV / NeurIPS / ICLR / CoRL では、Computer Vision と Robotics、Generative Models、Self-Supervised Learning が強く接近しています。単体の task 精度を上げるだけではなく、3D / 4D world understanding、foundation model、生成、planning を統合する方向が大きな流れです。

大きな流れ

頻出トピック

トピック代表的なキーワード
3D foundation modelsVGGT、DUSt3R、MASt3R、Depth Anything 3
4D reconstructionDynamic NeRF、4DGS、deformable Gaussian、human avatar
Pose estimationWhole-body pose、6D object pose、FoundationPose、camera relocalization
World modelsDreamer、Genie、GAIA-1、video world model、robotics planning
JEPA / predictive SSLI-JEPA、V-JEPA、V-JEPA 2、representation prediction
Embodied AIVision-language-action model、robot foundation model、simulation
3D generationText-to-3D、multi-view diffusion、3D Gaussian generation
Open-world perceptionOpen-vocabulary detection / segmentation / 3D semantic map

なぜこれらがつながるのか

3D Reconstruction、Pose Estimation、World Models、JEPA は別分野に見えますが、実は共通する目的があります。

視覚入力から、世界の状態・構造・変化を、行動に使える形で表現すること。

この観点から見ると、

  • 3D Reconstruction は「世界の幾何」を復元する。
  • 4D Reconstruction は「世界の時間変化」を復元する。
  • Pose Estimation は「人・物体・camera の状態」を推定する。
  • World Models は「未来の状態変化」を予測する。
  • JEPA は「未来や隠れた部分の representation」を予測する。

という関係になります。

詳細トレンドページ

より細かい topic は次のページで扱います。

加えて、関連カテゴリとして 3D GenerationGaussian SplattingVision-Language ModelsDetection and TrackingVideo UnderstandingSelf-Supervised Learning も参照してください。

関連ページ