Self-Supervised Learning Overview
Self-Supervised Learning (SSL) は、人間の label を使わずに、データ自身から supervision signal を作って representation を学ぶ枠組みです。Vision、language、video、speech、graph などあらゆる領域に広がっており、近年の foundation model の中核です。
大きな family
| Family | 何を予測するか | 代表例 |
|---|---|---|
| Contrastive | Positive / negative の対比 | SimCLR、MoCo |
| Non-contrastive | Augmentation 不変 | BYOL、SimSiam |
| Masked modeling | Masked pixel / token | MAE、BEiT |
| Self-distillation | Teacher の representation | DINO、DINOv2 |
| Predictive (JEPA) | Target embedding | I-JEPA、V-JEPA |
| Generative | データそのもの | Diffusion、AR |
詳細カテゴリ
| カテゴリ | 内容 |
|---|---|
| Contrastive Learning | SimCLR、MoCo、BYOL、SimSiam |
| Masked Image Modeling | MAE、BEiT、SimMIM |
| Self-Distillation | DINO、DINOv2、DINOv3 |
| JEPA | I-JEPA、V-JEPA、V-JEPA 2 |
なぜ重要か
- 大規模ラベルなしデータが現実的に手に入る
- Foundation model の事前学習方式として主流
- Downstream task (classification、segmentation、3D、video、robot) に転移可能
- JEPA や masked modeling は world model と直結
数式で見る SSL の統一的な見方
Self-Supervised Learning の各 family は、一見するとかなり違って見えますが、「context から target に関する信号を予測する」という形でまとめて見ることができます。
ここで、 は model に見せる context、 は予測したい target です。 は trainable な encoder、 は predictor や prediction head、 は teacher encoder または tokenizer に相当します。 は多くの場合に の EMA で更新される teacher parameter です。 は stop-gradient を表し、target 側に直接 gradient を流さないことを意味します。
この式の気持ちは、「人間が付けた label を使わずに、入力自身から作った target を当てることで、下流 task に使いやすい representation を得る」というものです。Family ごとの差は、主に target の作り方と loss の選び方に現れます。
| Family | と の作り方 | Target | Loss の例 | 気持ち |
|---|---|---|---|---|
| Contrastive Learning | 同じ画像の異なる view | Positive view と negative view | InfoNCE | 同じ意味の view を近づけ、別の画像を遠ざける |
| Masked Image Modeling | visible patches と masked patches | Pixel または discrete token | MSE / CE | 隠された patch を当てるために画像構造を学ぶ |
| Self-Distillation | student view と teacher view | Teacher distribution | CE / KL | 安定した teacher の出力を student が追いかける |
| JEPA | context block と target block | Target representation | L1 / L2 | Pixel ではなく抽象表現を予測する |
この見方を使うと、SSL の設計は「どの情報を隠すか」「何を target として信頼するか」「collapse をどう防ぐか」という三つの問題に分解できます。
関連ページ
- Contrastive Learning Overview
- MAE
- DINO
- JEPA Overview
- Diffusion Models
- Vision-Language Models Overview
- World Models Overview
主なソース
- SimCLR: https://arxiv.org/abs/2002.05709
- MoCo: https://arxiv.org/abs/1911.05722
- MAE: https://arxiv.org/abs/2111.06377
- DINOv2: https://arxiv.org/abs/2304.07193
- I-JEPA: https://arxiv.org/abs/2301.08243
- Survey / tutorial: Balestriero et al., A Cookbook of Self-Supervised Learning: https://arxiv.org/abs/2304.12210