Skip to main content

SA-1B Dataset

SA-1B は、Segment Anything の training に使われた大規模 segmentation dataset です。SAM の汎用性は、architecture と同じくらい、この dataset の規模と質に支えられています。

何が新しかったのか

従来の segmentation dataset は、

  • 数万から数十万枚規模の画像
  • 数十から数百クラスの object class label
  • Class ごとに mask を付ける

という構成でした。これでは、「未知の object を segment する」 model を training することは難しいです。

SA-1B は、

  • 約 1.1B 個の高品質 mask
  • 約 11M 枚の画像
  • Class label は付けず、mask そのものを中心 dataset

という構成にすることで、「class を意識せず、任意の object を切り出す」 prior を model に学習させました。

Data engine

これだけ大規模な dataset を、人手だけで作るのは現実的ではありません。Meta は data engine という考え方を導入しました。

大まかには次の三段階です。

  1. Assisted-manual stage: Annotator が point prompt を打ち、SAM が mask 候補を出し、人が修正。
  2. Semi-automatic stage: SAM が自信のある object を自動で出し、人は残りに集中。
  3. Fully automatic stage: ほぼ自動で mask を生成し、最後に品質 filtering。

これは、model と annotator が互いに改善しあうループです。Model が良くなるほど annotation の効率が上がり、annotation が増えるほど model が良くなります。

3D Reconstruction との関係

SA-1B 自体は 2D image の dataset ですが、3D Reconstruction では次のような場面で間接的に効いてきます。

  • 任意 scene で安定して mask が取れるため、dynamic object 除去が現実的になる
  • Object-level reconstruction で、未知 class の object も切り出せる
  • Multi-view で mask を取って 3D に lift する pipeline で、mask source として使える

つまり、SA-1B の規模感が、「3D pipeline の前処理として SAM を当たり前に使える」状況を可能にしています。

関連ページ

主なソース