マルチモーダルデータ:汎用ロボティクスに欠けていた決定的な

ノイトムロボティクス 主任科学者 韓 磊(Dr. Lei Han)
ロボティクスの進歩はこの数年間で目覚ましいものがありました。
走る、バランスを取る、物をつかむ、複雑な空間を自律的に移動する——そんなロボットたちを私たちは目にしてきました。
しかし、私のようにこの分野に長く携わっている者なら誰もが知っています。
ほとんどのロボットはいまだに「スペシャリスト」であり、限られた環境やタスクでは卓越していても、
周囲の状況が変化すると途端に適応が難しくなるのです。
ロボットにとっての「経験(すなわち事前知識)」とは、データのことです——しかも、ただのデータではありません。
それは、人間が実際の環境の中で動くときにのみ得られる、視覚・聴覚・動作・触覚が精密に同期した高忠実度の情報、
言い換えれば「現実世界のマルチモーダルデータ」です。
では、なぜそれが決定的に重要なのでしょうか?
具身知能(Embodied Intelligence)の研究を率いてきた私の経験から言えるのは、
その答えはほぼ常に「データ」に行き着くということです。
データの「量」だけでなく、その「質」、そしてそれがどれほど現実世界の複雑で多感覚的な性質を正確に反映しているか——
それこそが鍵なのです。
なぜマルチモーダルデータが重要なのか
人間は、単一の情報経路だけで学習しているわけではありません。
私たちは「見る」「聞く」「感じる」「動く」——それらをすべて同時に行っています。
たとえば私がカップに手を伸ばすとき、視覚、固有感覚(身体の位置感覚)、触覚フィードバック、
そして周囲の環境に対する文脈的理解を統合して行動しています。
ロボットも、まったく同じことを行う必要があります。
そのためには、次のような要素を統合したデータセットが不可欠です。
- 視覚認識(Visual perception) —— RGB映像、深度情報、セマンティックラベル
- 触覚・力覚データ(Tactile and force data) —— 質感、滑り、把持圧力
- 固有感覚(Proprioception) —— 関節角度、速度、トルク
- 環境センシング(Environmental sensing) —— 温度、音響、物体の動的特性
- 人間の動作データ(Human motion data) —— 熟練オペレーターがタスクを実行する際の動作記録
単一のモダリティに依存したデータでは、知能は脆弱になります。
マルチモーダルデータこそが「転移可能なスキル」の基盤です——
つまり、ロボットがある状況で学んだことを、異なる環境や異なる形態の身体(エンボディメント)においても応用できる力を育むのです。
クロス・エンボディメントの課題
ロボティクスにおける最も難しい課題のひとつが、私が「エンボディメントギャップ」と呼んでいる問題です。
つまり、あるロボットで学習したスキルを、形状、駆動方式、センサー構成の異なる別のロボットへと転用するにはどうすればよいのか——という課題です。
私がTencent Robotics Xで取り組んでいた目標は、産業用アームから脚付きロボットまで、
まったく異なる形態のロボットを、一から再学習させることなく統一的に制御できるAIシステム、
TAIROSを構築することでした。
その実現を支えたのは、異なるエンボディメント間でデータと制御インターフェースを統合するという発想です。
しかし、この領域をさらに前進させるためには、
より優れたマルチモーダルデータ取得パイプラインが必要です。
つまり、人間とロボットの双方がループに入った状態で、環境やエンボディメントをまたぎ、
高精度かつ同期の取れたデータストリームを大規模に収集できる仕組みが求められているのです。
なぜノイトムロボティクスなのか
私は2025年8月、まさにこの課題に取り組むためにノイトムロボティクスの主任科学者として加わりました。
ここにあるチームは、私がこれまで見てきた中でも最も高度なマルチモーダルデータ基盤のひとつを構築しています。
モーションキャプチャ、触覚センサー、映像・音声ストリーム、ロボットのテレメトリー、
そして環境コンテキストを統合し、ひとつのデータセットとして扱えるインフラです。
しかし重要なのは、単にデータを「集める」ことではありません。
それを「活かせる」形にすることです。
それはつまり——
- ミリ秒単位でデータストリームを同期させること。
- 人間の動作をロボットの運動学モデルへ正確にマッピングすること。
- ロボットの制御ログと感覚フィードバックを統合すること。
- そして、AIモデルが精度を損なうことなく利用できる形式でデータをパッケージ化すること。
この基盤があってこそ、カメラのように「見て」、指先のように「感じ」、そして人間のように「適応する」モデルを訓練することができるのです。
これからの展望
ノイトムロボティクスにおける私の目標は、データ取得と汎用具身型AIの間にあるループを閉じることです。
それはつまり——
- 数千にも及ぶ多様なタスクや環境を網羅するマルチモーダルデータ収集のスケーリング。
- そのデータから転移可能なスキルを学習できるアーキテクチャの構築。
- そして、一からやり直すことなく、複数のロボットエンボディメントにそのスキルを展開すること。
私が思い描く未来——それは、ひとつの「ロボットの頭脳」が、
家庭ではヒューマノイドのアシスタントを、現場では四足歩行ロボットを、そして工場ではマニピュレーターを自在に操る世界です。
それらをシームレスに切り替えられるのは、その知能が「自身の身体」ではなく、「世界そのもの」を理解しているからです。
ロボティクスの次なる飛躍は、ハードウェアの進化だけから生まれるものではありません。
それは、豊かで統合されたマルチモーダルデータ、そしてそこから学習できるAIによって実現されるのです。
——それこそが、私がここノイトムロボティクスで取り組んでいる仕事です。
お問い合わせください
実証プロジェクト、共同研究、またはカスタム統合にご関心がありますか?
メールでお気軽にお問い合わせください:contact@noitomrobotics.com



