SA-1B Dataset
SA-1B は、Segment Anything の training に使われた大規模 segmentation dataset です。SAM の汎用性は、architecture と同じくらい、この dataset の規模と質に支えられています。
何が新しかったのか
従来の segmentation dataset は、
- 数万から数十万枚規模の画像
- 数十から数百クラスの object class label
- Class ごとに mask を付ける
という構成でした。これでは、「未知の object を segment する」 model を training することは難しいです。
SA-1B は、
- 約 1.1B 個の高品質 mask
- 約 11M 枚の画像
- Class label は付けず、mask そのものを中心 dataset
という構成にすることで、「class を意識せず、任意の object を切り出す」 prior を model に学習させました。
Data engine
これだけ大規模な dataset を、人手だけで作るのは現実的ではありません。Meta は data engine という考え方を導入しました。
大まかには次の三段階です。
- Assisted-manual stage: Annotator が point prompt を打ち、SAM が mask 候補を出し、人が修正。
- Semi-automatic stage: SAM が自信のある object を自動で出し、人は残りに集中。
- Fully automatic stage: ほぼ自動で mask を生成し、最後に品質 filtering。
これは、model と annotator が互いに改善しあうループです。Model が良くなるほど annotation の効率が上がり、annotation が増えるほど model が良くなります。
3D Reconstruction との関係
SA-1B 自体は 2D image の dataset ですが、3D Reconstruction では次のような場面で間接的に効いてきます。
- 任意 scene で安定して mask が取れるため、dynamic object 除去が現実的になる
- Object-level reconstruction で、未知 class の object も切り出せる
- Multi-view で mask を取って 3D に lift する pipeline で、mask source として使える
つまり、SA-1B の規模感が、「3D pipeline の前処理として SAM を当たり前に使える」状況を可能にしています。
関連ページ
主なソース
- Segment Anything paper: https://arxiv.org/abs/2304.02643
- Segment Anything project page: https://segment-anything.com/