Self-Supervised Learning Overview

Self-Supervised Learning (SSL) は、人間の label を使わずに、データ自身から supervision signal を作って representation を学ぶ枠組みです。Vision、language、video、speech、graph などあらゆる領域に広がっており、近年の foundation model の中核です。

大きな family

Family	何を予測するか	代表例
Contrastive	Positive / negative の対比	SimCLR、MoCo
Non-contrastive	Augmentation 不変	BYOL、SimSiam
Masked modeling	Masked pixel / token	MAE、BEiT
Self-distillation	Teacher の representation	DINO、DINOv2
Predictive (JEPA)	Target embedding	I-JEPA、V-JEPA
Generative	データそのもの	Diffusion、AR

詳細カテゴリ

カテゴリ	内容
Contrastive Learning	SimCLR、MoCo、BYOL、SimSiam
Masked Image Modeling	MAE、BEiT、SimMIM
Self-Distillation	DINO、DINOv2、DINOv3
JEPA	I-JEPA、V-JEPA、V-JEPA 2

なぜ重要か

大規模ラベルなしデータが現実的に手に入る
Foundation model の事前学習方式として主流
Downstream task (classification、segmentation、3D、video、robot) に転移可能
JEPA や masked modeling は world model と直結

数式で見る SSL の統一的な見方

Self-Supervised Learning の各 family は、一見するとかなり違って見えますが、「context から target に関する信号を予測する」という形でまとめて見ることができます。

\mathcal{L}_{\mathrm{SSL}} = \ell\!\left( g_\phi\!\left(f_\theta(x_c)\right), \mathrm{sg}\!\left(h_{\bar{\theta}}(x_t)\right) \right)

ここで、 $x_c$ は model に見せる context、 $x_t$ は予測したい target です。 $f_\theta$ は trainable な encoder、 $g_\phi$ は predictor や prediction head、 $h_{\bar{\theta}}$ は teacher encoder または tokenizer に相当します。 $\bar{\theta}$ は多くの場合に $\theta$ の EMA で更新される teacher parameter です。 $\mathrm{sg}(\cdot)$ は stop-gradient を表し、target 側に直接 gradient を流さないことを意味します。

この式の気持ちは、「人間が付けた label を使わずに、入力自身から作った target を当てることで、下流 task に使いやすい representation を得る」というものです。Family ごとの差は、主に target の作り方と loss $\ell$ の選び方に現れます。

Family	$x_c$ と $x_t$ の作り方	Target	Loss $\ell$ の例	気持ち
Contrastive Learning	同じ画像の異なる view	Positive view と negative view	InfoNCE	同じ意味の view を近づけ、別の画像を遠ざける
Masked Image Modeling	visible patches と masked patches	Pixel または discrete token	MSE / CE	隠された patch を当てるために画像構造を学ぶ
Self-Distillation	student view と teacher view	Teacher distribution	CE / KL	安定した teacher の出力を student が追いかける
JEPA	context block と target block	Target representation	L1 / L2	Pixel ではなく抽象表現を予測する

この見方を使うと、SSL の設計は「どの情報を隠すか」「何を target として信頼するか」「collapse をどう防ぐか」という三つの問題に分解できます。

主なソース

SimCLR: https://arxiv.org/abs/2002.05709
MoCo: https://arxiv.org/abs/1911.05722
MAE: https://arxiv.org/abs/2111.06377
DINOv2: https://arxiv.org/abs/2304.07193
I-JEPA: https://arxiv.org/abs/2301.08243
Survey / tutorial: Balestriero et al., A Cookbook of Self-Supervised Learning: https://arxiv.org/abs/2304.12210

大きな family​

詳細カテゴリ​

なぜ重要か​

数式で見る SSL の統一的な見方​

関連ページ​

主なソース​

大きな family

詳細カテゴリ

なぜ重要か

数式で見る SSL の統一的な見方

関連ページ

主なソース