Skip to main content

DINOv3

DINOv3 は、Meta が DINOv2 をさらに大規模化・高度化した self-supervised vision foundation model です。Dense feature 品質と汎用性を同時に押し上げ、画像・動画・衛星画像など幅広い領域での foundation backbone を目指します。

DINOv2 からの主な発展

改良内容
Scale大規模 ViT を巨大 dataset で学習
DatasetWeb image に加えて domain 別 (衛星、医療など) を統合
Gram anchoring学習が進むと崩れがちな dense feature の劣化を抑える正則化
Distillation多サイズの ViT に蒸留して下流に提供

Gram anchoring の直感

長時間学習を行うと、self-distillation 系の dense feature は 均質化 が進み、局所識別性が落ちることが知られています。Gram anchoring は、初期段階の dense feature の gram matrix (パッチ間相関行列) を保持するように正則化することで、dense feature の構造を保ちます。

数式で見る Gram anchoring

DINOv3 で強調される Gram anchoring は、patch feature そのものを固定するというより、patch feature 同士の関係性を保つための正則化として理解できます。Patch feature を行に並べた行列を FRN×dF\in\mathbb{R}^{N\times d} とします。NN は patch 数で、dd は feature dimension です。このとき、patch 間の類似度構造は Gram matrix として表せます。

G(F)=FFRN×NG(F)=FF^\top\in\mathbb{R}^{N\times N}

参照 feature を FrefF_{\mathrm{ref}}、現在の model の feature を FθF_\theta とすると、Gram anchoring の正則化は次のように書けます。

Lgram=G(Fθ)G(Fref)F2\mathcal{L}_{\mathrm{gram}} = \left\|G(F_\theta)-G(F_{\mathrm{ref}})\right\|_F^2

さらに、DINOv2 型の self-distillation loss にこの正則化を加えると、全体は次のように整理できます。

LDINOv3=LDINOv2+βLgram\mathcal{L}_{\mathrm{DINOv3}} = \mathcal{L}_{\mathrm{DINOv2}} + \beta\mathcal{L}_{\mathrm{gram}}

β\beta は Gram anchoring の強さを決める重みです。この式の気持ちは、「各 patch の絶対値を完全に固定するのではなく、patch 同士がどのように似ているかという地図を保つ」というものです。長時間・大規模な self-distillation では dense feature が均質化しやすいため、Gram matrix を anchor にすることで、object boundary や局所対応に必要な構造を保ちやすくなります。

DINOv3 が強い分野

  • Image / dense feature (segmentation、tracking、matching)
  • Depth / 3D foundation backbone
  • Satellite imagery、medical imagery などの外領域
  • Open-vocabulary 3D の feature field
  • 4D / video 系 model の visual prior

DINO 系の位置づけ

世代主な特徴
DINOSelf-distillation の確立、attention の semantic 性
DINOv2大規模 curated data、汎用 backbone
DINOv3多領域 + dense feature 強化、最大規模

関連ページ

主なソース