展会活动 关于我们 加入我们 洞察 JA | 联系我们 EN ZH |

中文翻译
下一个训练数据集:为具身智能捕捉社会语境

By Roch Nakajima, CMO, Noitom Robotics

异国路口的隐形规则,决定了我们的机器人将何去何从

相信所有去过河内的人,都会对当地的交通印象深刻。在河内,如果你稳稳当当地走进路中央,不跑不停,那么所有摩托车电动车,都会如同流水般绕过你。看似危险重重,其实这样的场景是这片土地上每天上演的日常。

那么在东京又会是怎样一番情形呢?无论是在新宿,还是在涉谷,每一个过马路的人都要耐心等待——红灯停,绿灯行——即便路上空空荡荡,但这仍然是你在这片土地上必须要遵守的规则,毫无争议。

这两种行为都合理、安全,却依附于两套截然不同的社会契约。 一个以“流动的协商”为秩序,另一个以“明文的规则”为信任。它们都是人类社会的自然逻辑,也正是我们希望机器人学会理解的东西——机器人要在世界中生存,不能只读懂代码与坐标,更要读懂默契

而这种差异,正是机器人必须要理解、学会的东西。过街问题只是表象,真正的问题是:机器人——乃至更广义的自主系统——能否在每一刻被赋予“本地化的社会契约”?这不仅涉及人与机器之间的关系,也包括机器与机器之间的关系。

社会规范并非普世性的,它们在所谓“紧文化”(规范严格、容忍度低)与“松文化”(规范宽松、容忍度高)之间存在显著差异。 这并非纸上谈兵的社会学假设,而是跨国实证研究的结果。 当你让数百万人回答“自动驾驶汽车在道德边界情境中应如何决策”时,答案的聚类分布与文化高度相关。

既然规范与预期会因文化而异,那么 AI 的“良好行为”也必须随之不同。

机器的“礼仪”是什么

对于机器人而言,社会契约体现为:空间、时机、信号与语言

  • 允许你多近地经过他人(个人空间与行进队形);
  • 何时让行、何时“穿针引线”般通过;
  • 是否进行眼神交流、点头、或在移动前发出语音提示;
  • 在柜台前是否寒暄、是否保持简短;是否提示打赏,以及如何提示。

人机交互研究已证实这一点:当机器人展现出符合文化语境的社交信号与导航行为时,人们更愿意互动,也更少抱怨。 “社会感知导航(socially aware navigation)”成为一个独立研究领域,正是因为僵硬、统一的规则在真实人群中往往失效。

仅有规则还不够——机器人需要经验

交通法规与安全边界固然必要,但并不充分。 业界已多次在现实中得出教训:哪怕规则完美无缺,机器人在真实环境中依然可能表现笨拙、脆弱。

能够改变这一点的,是具身、多模态的真实经验——视觉、听觉、运动、触觉——在真实场景中被捕获、对齐,并最终提炼为习惯。

“机器人所缺乏的,不只是更多的代码,而是更丰富的经验。” ——诺亦腾机器人CEO 戴若犁博士

在诺亦腾机器人,我们正专注于这一层: 构建高保真、时序同步的人机环境交互数据管线,以及通过**遥操作回路(teleoperation loops)**让机器人在被信任“即兴发挥”之前,安全地练习本地社会规范。

在具身智能领域,将“动作”转化为“意义”,正是从“仅在仿真中可行”到“真正融入世界”的桥梁。

巴黎 vs. 洛杉矶:咖啡师测试

在巴黎,服务费通常已包含在账单中,小费数额有限且常为自愿;不过,刷卡终端在旅游旺季时逐渐改变了这种行为。 在美国,小费被视为理所当然,却又常引发争议——提示小费本身就可能带来不快。 一个在这两种市场中采用相同逻辑的机器人,必然会在其中一方显得“不合时宜”。

毫无疑问, 在设计支付与交流流程时,应像打奶泡一样细致地考虑本地规范——包括你提示的内容、询问的方式,以及是否进行闲聊。

机器人之间的“社会契约”也即将到来

这不仅关乎人与机器。 当一群自主系统共享同一空间时,它们也需要超越硬性协议的“惯例”。 如今,已有研究探索联网车辆通过通信协商并线或无保护左转;在多智能体系统中,规范甚至可以自发形成或漂移,无需显式编程。

如果一座城市是“紧文化”,另一座城市是“松文化”,那么机器人之间的礼仪也应随之调整——
比如在多大程度上主动进入空隙、何时示意对方先行、以及如何以人类可审计的语言协作。

将“本地礼仪”嵌入机器人系统的行动指南

我们如何在不把每次部署都变成社会学博士论文的前提下,实现这一目标?

  • 发布的不仅是安全栈,还要有“文化覆盖层”。 在机器人操作系统中加入明确的“社会行为层”——包括空间距离、速度节奏、让行逻辑、注视与语言模式——可按城市、场所或时间段进行配置。 将其视作一个“本地化包(locale pack)”,可以版本化、可测试。社会导航研究已提供线索,而你的任务是让它们根植于本地数据。
  • 训练于超本地的多模态数据。
    捕捉“礼貌”在当地的具象表现:人流的行走方式、声景、用于协商空间的微表情与动作。 机器人从同步的视觉—动作—音频—力反馈流中学习这些细节,而非仅靠规则。 将这一点内嵌进你的数据工厂
  • 保持“人类在环”——且是有意为之。
    如同自动驾驶汽车,大多数具身系统在很长一段时间内仍依赖远程人工协助。 在这些“机器人呼叫中心”中配置本地操作员,让他们引导机器人遵循当地社会契约,并将这些干预转化为训练数据。 将“操作员与机器人比例”设为一个关键绩效指标(KPI),并在报告中持续降低。
  • 审核文化契合度与道德风险。
    跨文化研究显示,道德偏好呈区域聚类。 建立部署伦理清单,使机器人的行为与本地期望保持一致,同时防止将偏见固化。 避免“道德殖民主义”,让地方规范塑造默认设置,并以透明机制覆盖安全与法律边界。
  • 为机器人间礼让建立统一的“公民握手协议”。
    推动你的供应商(乃至竞争者)采用开放的、人类可审计的协商通道(包括自然语言摘要),让混合车队能够协作;也让监管机构得以检视机器如何决定“谁先走”。

关于“河内与东京”的最后一言

过街的故事,只是一个清晰的隐喻。 在越南,道路生态由两轮车构成的主流逻辑主导,倾向于持续、协商式流动; 而日本的系统则强调基于规则的协调与行人信号纪律。 当每个人都理解同一套剧本,两者都安全。 我们的机器人,必须学会读取此时此地正在上演的那一幕剧本

为什么这对我们至关重要

我们的任务并不是硬编码礼仪,而是捕捉它、提炼它,并让机器人安全地练习它。 这正是我们强调端到端遥操作、动作到意义的数据管线,以及反映真实社会纹理的可部署数据集的原因—— 它们不仅描绘物理世界,更刻画人类社会的细腻肌理。
这就是“仅仅避开人群的机器人”与“真正融入人群的机器人”之间的区别。

联系我们

如您对试点项目、科研合作或定制集成感兴趣,欢迎联系我们:
Email us at: contact@noitomrobotics.com

滚动至顶部