当前位置:首页 > 科技 > 正文

机器人迈向 ChatGPT 时刻!清华团队首次发现具身智能 Scaling Laws

  • 科技
  • 2024-11-10 17:34:02
  • 7

想象一下,机器人能够在各种真实场景中自由行动,无需人类干预就能完成各种任务,这是否让你想起了科幻电影中的场景?清华大学交叉信息研究院的研究团队已经让这一梦想成为现实。他们发现了具身智能领域的“圣杯”——data scaling laws,让机器人实现了真正的零样本泛化,可以无需任何微调就能泛化到全新的场景和物体。这一突破性发现,很可能成为机器人领域的“ChatGPT 时刻”,彻底改变我们开发通用机器人的方式!

机器人迈向 ChatGPT 时刻!清华团队首次发现具身智能 Scaling Laws

研究团队将机器人带到了火锅店、咖啡厅、公园、喷泉旁,甚至是电梯里,让它们在这些前所未见的环境中都展现出了超强的适应能力。为了确保研究的可复现性,团队慷慨地开源了所有资源,包括耗时半年收集的海量人类演示数据。

清华团队首次证明:scaling laws 不仅在语言模型中适用,在机器人领域同样适用。真正的scaling laws 包含数据、模型和算力三个维度,而本研究重点突破了最基础也最关键的数据维度。研究团队使用便携式手持夹爪umi,在真实环境中收集了超过4万条人类演示数据。他们采用最新的diffusion policy方法从这些数据中学习机器人控制模型,并通过惊人的15000次实机测试进行严谨评估,最终发现了三个革命性的幂律关系。这意味着什么?简单说:只要有足够的数据,机器人就能像ChatGPT理解语言一样,自然地理解和适应物理世界!这一发现不仅证实了机器人领域与语言模型存在惊人的相似性,更为预测数据规模与模型性能的关系提供了坚实的理论基础。

研究团队还破解了一个困扰业界的难题:对于给定的操作任务,如何优化选择环境数量、物体数量和每个物体的演示次数?经过大量实验,他们得出了两个出人意料的结论:当环境数量足够多时,在单一环境中收集多个不同的操作物体的数据收益极其有限;单个物体的演示数据很容易达到饱和。为验证这个策略,团队找来4个人,只花了一个下午就收集到了训练数据。结果令人震惊:在8个全新场景中,机器人成功率高达90%!这意味着,原本可能需要几个月的数据收集工作,现在可能只需要几天就能完成!

除了数据规模,研究团队还在模型规模化方面有三个重要发现:视觉编码器必须经过预训练和完整的微调,缺一不可;扩大视觉编码器的规模能显著提升性能;最令人意外的是:扩大扩散模型的规模却没能带来明显的性能提升,这一现象还值得深入研究。

数据规模化正在推动机器人技术走向新纪元。但研究团队提醒:比起盲目增加数据量,提升数据质量可能更为重要。关键问题在于:如何确定真正需要扩展的数据类型?如何最高效地获取这些高质量数据?这些都是Data Scaling Laws研究正在积极探索的方向。相信在不久的将来,具有超强适应力的机器人将走进千家万户,让科幻电影中的场景变为现实!而这一切,都将从清华团队发现的这个基础性规律开始!

随机文章