DINOv3
DINOv3 は、Meta が DINOv2 をさらに大規模化・高度化した self-supervised vision foundation model です。Dense feature 品質と汎用性を同時に押し上げ、画像・動画・衛星画像など幅広い領域での foundation backbone を目指します。
DINOv2 からの主な発展
| 改良 | 内容 |
|---|---|
| Scale | 大規模 ViT を巨大 dataset で学習 |
| Dataset | Web image に加えて domain 別 (衛星、医療など) を統合 |
| Gram anchoring | 学習が進むと崩れがちな dense feature の劣化を抑える正則化 |
| Distillation | 多サイズの ViT に蒸留して下流に提供 |
Gram anchoring の直感
長時間学習を行うと、self-distillation 系の dense feature は 均質化 が進み、局所識別性が落ちることが知られています。Gram anchoring は、初期段階の dense feature の gram matrix (パッチ間相関行列) を保持するように正則化することで、dense feature の構造を保ちます。
数式で見る Gram anchoring
DINOv3 で強調される Gram anchoring は、patch feature そのものを固定するというより、patch feature 同士の関係性を保つための正則化として理解できます。Patch feature を行に並べた行列を とします。 は patch 数で、 は feature dimension です。このとき、patch 間の類似度構造は Gram matrix として表せます。
参照 feature を 、現在の model の feature を とすると、Gram anchoring の正則化は次のように書けます。
さらに、DINOv2 型の self-distillation loss にこの正則化を加えると、全体は次のように整理できます。
は Gram anchoring の強さを決める重みです。この式の気持ちは、「各 patch の絶対値を完全に固定するのではなく、patch 同士がどのように似ているかという地図を保つ」というものです。長時間・大規模な self-distillation では dense feature が均質化しやすいため、Gram matrix を anchor にすることで、object boundary や局所対応に必要な構造を保ちやすくなります。
DINOv3 が強い分野
- Image / dense feature (segmentation、tracking、matching)
- Depth / 3D foundation backbone
- Satellite imagery、medical imagery などの外領域
- Open-vocabulary 3D の feature field
- 4D / video 系 model の visual prior
DINO 系の位置づけ
| 世代 | 主な特徴 |
|---|---|
| DINO | Self-distillation の確立、attention の semantic 性 |
| DINOv2 | 大規模 curated data、汎用 backbone |
| DINOv3 | 多領域 + dense feature 強化、最大規模 |
関連ページ
主なソース
- DINOv3 paper: https://arxiv.org/abs/2508.10104
- Meta DINOv3 announcement: https://ai.meta.com/blog/dinov3-self-supervised-vision-model/