Embodied AI Overview
Embodied AI の全体像、perception、world model、policy、robot action の関係を整理します。
Vision-Language-Action Models
Vision-Language-Action model の入力、出力、RT-2、OpenVLA、π0 などの流れを整理します。
Diffusion Policy
Robot action sequence を diffusion model で生成する Diffusion Policy を整理します。
Affordance and Contact Reasoning
物体がどのように使えるか、どこを掴めるか、接触がどう起きるかを推定する affordance reasoning を整理します。