Generalist’s new physical robotics AI brings “production-level” success rates
> Source: Ars_Technica
Execute Primary Source
// Problem
ロボット学習における最大の課題は、大規模言語モデル(LLM)のような高品質な学習データの不足である。従来のロボットは、事前にプログラムされた動作や単一タスクに特化した学習に依存しており、予期せぬ事態や環境の変化、物体の柔軟な動きに対して柔軟に対応できないという欠点があった。
// Approach
「Data hands」と呼ばれるウェアラブルデバイスを用い、人間の微細な動きと視覚情報を組み合わせたペタバイト級の物理インタラクションデータを収集。スケーリング則をロボティクスに応用し、膨大なデータで事前学習を行うことで、特定のロボット形態への適応(ファインチューニング)をわずか1時間程度で完了させる手法を採用した。
// Result
箱の折り畳みや製品の梱包といった繊細な作業において99%の成功率を達成し、前モデル比で3倍の速度を実現。学習データに含まれない動作や、作業中の妨害に対する即興的なリカバリーが可能となり、経済的に有用な実用レベルの性能に到達した。
Senior Engineer Insight
> 物理的な「データ収集コスト」をどう抑えるかが、この技術の真のボトルネックだ。ウェアラブルデバイスによるデータ収集は、テキストデータに比べれば遥かに高コストかつ低速である。しかし、50万時間という規模を達成した点は驚異的であり、スケーリング則が物理世界でも有効であることを証明した。1時間の適応時間でハードウェアに適合できる点は、現場への導入スピード(Time-to-Market)を劇的に改善する。ただし、即興的な動作がもたらす「予測可能性」と「安全性」の担保が、実稼働環境における最大の課題となるだろう。