DINOv3

DINOv3 は、Meta が DINOv2 をさらに大規模化・高度化した self-supervised vision foundation model です。Dense feature 品質と汎用性を同時に押し上げ、画像・動画・衛星画像など幅広い領域での foundation backbone を目指します。

DINOv2 からの主な発展

改良	内容
Scale	大規模 ViT を巨大 dataset で学習
Dataset	Web image に加えて domain 別 (衛星、医療など) を統合
Gram anchoring	学習が進むと崩れがちな dense feature の劣化を抑える正則化
Distillation	多サイズの ViT に蒸留して下流に提供

Gram anchoring の直感

長時間学習を行うと、self-distillation 系の dense feature は 均質化 が進み、局所識別性が落ちることが知られています。Gram anchoring は、初期段階の dense feature の gram matrix (パッチ間相関行列) を保持するように正則化することで、dense feature の構造を保ちます。

数式で見る Gram anchoring

DINOv3 で強調される Gram anchoring は、patch feature そのものを固定するというより、patch feature 同士の関係性を保つための正則化として理解できます。Patch feature を行に並べた行列を $F\in\mathbb{R}^{N\times d}$ とします。 $N$ は patch 数で、 $d$ は feature dimension です。このとき、patch 間の類似度構造は Gram matrix として表せます。

G(F)=FF^\top\in\mathbb{R}^{N\times N}

参照 feature を $F_{\mathrm{ref}}$ 、現在の model の feature を $F_\theta$ とすると、Gram anchoring の正則化は次のように書けます。

\mathcal{L}_{\mathrm{gram}} = \left\|G(F_\theta)-G(F_{\mathrm{ref}})\right\|_F^2

さらに、DINOv2 型の self-distillation loss にこの正則化を加えると、全体は次のように整理できます。

\mathcal{L}_{\mathrm{DINOv3}} = \mathcal{L}_{\mathrm{DINOv2}} + \beta\mathcal{L}_{\mathrm{gram}}

$\beta$ は Gram anchoring の強さを決める重みです。この式の気持ちは、「各 patch の絶対値を完全に固定するのではなく、patch 同士がどのように似ているかという地図を保つ」というものです。長時間・大規模な self-distillation では dense feature が均質化しやすいため、Gram matrix を anchor にすることで、object boundary や局所対応に必要な構造を保ちやすくなります。

DINOv3 が強い分野

Image / dense feature (segmentation、tracking、matching)
Depth / 3D foundation backbone
Satellite imagery、medical imagery などの外領域
Open-vocabulary 3D の feature field
4D / video 系 model の visual prior

DINO 系の位置づけ

世代	主な特徴
DINO	Self-distillation の確立、attention の semantic 性
DINOv2	大規模 curated data、汎用 backbone
DINOv3	多領域 + dense feature 強化、最大規模

主なソース

DINOv3 paper: https://arxiv.org/abs/2508.10104
Meta DINOv3 announcement: https://ai.meta.com/blog/dinov3-self-supervised-vision-model/

DINOv2 からの主な発展​

Gram anchoring の直感​

数式で見る Gram anchoring​

DINOv3 が強い分野​

DINO 系の位置づけ​

関連ページ​

主なソース​