Affordance and Contact Reasoning
Affordance は、物体や環境が agent に対して提供する「行動可能性」を表します。例えば、cup は掴める、chair は座れる、door handle は引ける、button は押せる、といった性質です。
なぜ重要か
Object category を認識できても、robot が行動するには不十分です。Robot には次が必要です。
- どこを掴めるか
- どの方向に押す / 引くべきか
- どこに接触すると動くか
- Object が articulated か rigid か
- 行動後に scene がどう変わるか
Perception との接続
Affordance prediction には、3D geometry、surface normal、semantic label、material、contact history などが役に立ちます。
Contact reasoning
Contact reasoning は、agent と object、または object 同士が接触したときに何が起こるかを推定する問題です。Manipulation では、contact point、force direction、friction、compliance が重要です。
World model との関係
Affordance は static な label ではなく、action-conditioned な予測です。したがって、world model と自然に接続します。
数式で見る affordance
Affordance は、「位置 に対して action を行ったとき成功する確率」として定式化できます。
この式の気持ちは、「物体が何であるかだけではなく、そこにどう働きかけられるかを予測する」というものです。たとえば handle を引ける、button を押せる、平面に物を置ける、といった action-conditioned な知覚になります。
Contact reasoning では、接触点集合 と法線 を考えます。Grasp や manipulation の安定性は、接触力 が friction cone に入るかで評価できます。
ここで、 は摩擦係数、 は法線方向成分、 は接線方向成分です。この式の気持ちは、「接触力が摩擦で支えられる範囲を超えると滑る」という物理的制約です。
関連ページ
- Embodied AI Overview
- World Models for Planning and Robotics
- 3D Scene Understanding Overview
- Pose Estimation Overview
主なソース
- Gibson, “The Ecological Approach to Visual Perception”
- Where2Act: https://arxiv.org/abs/2101.02692
- Contact-GraspNet: https://arxiv.org/abs/2103.14127