Noitom Robotics、智象未来と提携し、身体性知能データの新たな可能性を切り拓く

「ビジョンギャップ」を超えて：NoitomとHiDream.aiはいかにして身体性AIのデータ危機を解決しようとしているのか

大規模言語モデル（LLM）は、オープンインターネットから何兆もの単語を収集できるという恩恵を受けています。一方で、身体性AI――すなわち物理世界の中で存在し、動き、作用するAI――が進むべき道は、はるかに険しいものです。ロボットは、コップをどう持つかを文章で読むだけでは不十分であり、それを見て、感じて、実際に動きの中で理解する必要があります。

業界はいま、データという壁に直面しています。とりわけ不足しているのは、高品質で、多様性があり、かつスケーラブルなマルチモーダルデータです。このボトルネックを打破するために、Noitom RoboticsとHiDream.aiは正式に戦略的パートナーシップを締結し、身体性知能のための新たな道を切り拓こうとしています。

問題：モーションキャプチャのパラドックス

ロボットを訓練する過程で、私たちは二つの大きな矛盾に直面しています。
1. 現実世界の多様性にかかるコスト：ロボットを「賢く」するためには、100万通りもの異なる環境を見せる必要があります。しかし、管理されたラボ環境と比べると、現実世界で高精度なデータを収集することは、非常に高コストです。
2.「ビジョンギャップ」：これはロボティクスにおける見えにくい障壁です。人間の正確な動きを捉えるために、私たちは光学式または慣性式のモーションキャプチャ（mocap）スーツやセンサーを使用します。しかし問題はそこにあります。スーツそのもの、マーカー、そしてハードウェアが「視覚的ノイズ」を生み出してしまうのです。モデルがこの映像から学習しようとすると、見えているのは自然な環境の中の人間ではなく、機材を身につけた人間です。この「ビジョンギャップ」によって、モデルは現実世界での実装に必要な精度に到達できなくなります。

解決策：人間中心のデータとAI錬金術の融合

NoitomとHiDream.aiは、高精度な実空間キャプチャと制御可能な生成動画を組み合わせることで、これらの課題に取り組んでいます。Noitomは、世界トップクラスのモーションキャプチャ技術とマルチモーダルデータ基盤を提供し、人間の動きに関する「グラウンドトゥルース（真の基準データ）」を支えます。そこにHiDream.aiが先進的な生成動画モデルを適用し、そのデータを「クリーン化」し、さらに「拡張」していきます。

ビジュアル注記：左右比較のビジュアルで、この協業が実際にどのように機能するかを示しています。左側は、Noitomのフルモーションキャプチャスーツを着用した技術者がタスクを実行している様子。右側は、HiDream.aiによる出力で、同じ動作を保ちながらスーツがシームレスに取り除かれ、「ビジョンギャップ」が解消された、モデル訓練に適した映像です。

これはいわば「データの錬金術」です。HiDreamのモデルは、映像からモーションキャプチャスーツを取り除き、オクルージョンを補正し、さらには背景環境を入れ替えることさえ可能です。そのすべてを、ミリメートルレベルの物理的精度を維持したまま実現します。これにより、ラボで1時間かけて収集したデータを、多様で高忠実度な訓練映像数百時間分へと変換することができます。

なぜこれが業界にとって重要なのか

これは単なる技術デモではなく、ひとつの生産ラインです。この提携は、今年だけで数万時間規模の身体性AI向け映像データを生成することを目指しています。
「身体性AIは、本質的にはデータ駆動型のシステム工学上の課題です」と、Noitom共同創業者兼チーフサイエンティストのHan Lei博士は述べています。「Noitomの人間中心データと、HiDreamのスケーラブルな生成能力を組み合わせることで、私たちは単なるデータ収集から、真のデータエンジニアリングへと移行しています。」

一般的な“見た目重視”のAI動画生成モデルが、物理法則を無視したり、不整合を生じさせたりするのとは異なり、HiDreamのアプローチは物理的一貫性に重点を置いています。
「一般的な動画モデルは、しばしば論理性よりも見た目の美しさを優先します」と、HiDream.ai共同創業者兼CTOのYao Ting博士は説明します。「私たちの『データ錬金術』は、生成された映像のすべてのフレームが、基盤となるセンサーデータと完全に一致することを保証します。私たちは、次世代ロボットの進化に必要な高出力の燃料を提供しているのです。」

今後の展望：ワールドモデルの構築

この協業は、単にデータを整えることにとどまりません。最終的な目標は、物理的な結果や実行経路をリアルタイムで正確に予測できるシステム、すなわちワールドモデルを構築することです。
デジタル生成と物理的検証のループを閉じることで、NoitomとHiDream.aiは、単にスクリプトに従うだけでなく、自らが存在する世界を真に理解するロボットの基盤を築いています。