机器人学习简史：一场机器与世界交互方式的革命

2026-04-19 11:15 泉水 Nature 阅读 0

核心摘要： 机器人学习经历了从基于规则的编程到模拟试错学习，再到数据驱动的基础模型革命的演变。最新的研究表明，利用大语言模型和域随机化技术，机器人能够在复杂环境中自我适应并执行复杂任务。此进展不仅提升了机器人的学习效率，也推动了行业向大规模应用的转变，标志着机器人技术的重大突破。

《麻省理工科技评论》发表的一篇“实地笔记”文章，回顾了机器人学习方式的演变历程。文章指出，机器人学习的最新繁荣代表了一场革命——机器不再依赖预先编写的规则，而是通过模拟试错、基础模型和真实世界数据训练等方式，学会与复杂的世界交互。仅2025年一年，投资者就向人形机器人投入了61亿美元，是2024年的四倍。

第一阶段：基于规则的时代（2015年之前）

早期的机器人编程遵循“手工规则”的思路：工程师为每一种可能的情况编写详细的指令。例如，要让机器人叠衣服，需要编写无数条关于如何识别领口、如何抓取袖子、如何折叠的规则。这种方法虽然可靠，但极其繁琐，无法应对现实世界的无限变化。

第二阶段：模拟与试错学习（约2015年-2022年）

从2015年左右开始，前沿研究转向了模拟环境。研究人员在数字世界中构建机器人的模型，并设定一个“奖励信号”。机器人通过数百万次的反复尝试（试错）来学习如何完成任务，就像AI学习玩游戏一样。

OpenAI的Dactyl：在2018年，OpenAI训练了一只名为Dactyl的机械手在模拟中操控一个方块。为了解决虚拟与现实之间的微小差异（如摩擦力、光线），他们使用了“域随机化”技术：创建数百万个略有差异的模拟世界，使机器人学会了适应真实世界的不确定性。一年后，Dactyl学会了拧魔方，尽管成功率有限。

第三阶段：基础模型与数据驱动的革命（2022年至今）

2022年ChatGPT的出现催化了当前的机器人繁荣。与传统的试错学习不同，大语言模型通过在海量文本上训练来预测下一个词。研究人员迅速将这一理念应用于机器人领域。

Google DeepMind的RT系列：Google的RT-1模型通过学习图像、传感器读数和机械臂位置，将指令转化为动作。RT-2则更进一步，直接在互联网上的通用图像上训练，使其具备了“零样本”推理能力，例如能够理解“将可乐罐放在泰勒·斯威夫特的照片旁边”这类复杂指令。
Covariant的RFM-1：该公司由OpenAI前成员创立，旨在打造实用的仓库机械臂。其RFM-1模型允许用户像与同事一样与机器人交互。例如，你可以让它移动物品，而机器人如果抓取不稳，会主动请求建议。
Agility Robotics的Digit：这是一款投入实际应用的人形机器人。亚马逊、丰田等公司已部署Digit在仓库中搬运货箱。与追求科幻美学不同，Digit的设计以功能为导向。其学习方式结合了模拟技术和Google的Gemini模型，以帮助它适应新环境。

未来展望

文章总结，机器人学习的革命已使该领域从“梦想远大但建造微小”（如Roomba扫地机器人）转向了“梦想远大且投资巨大”。尽管当前的人形机器人（如Digit）只能举起35磅的重量，在力量和续航之间面临权衡，且安全标准更为严格，但这一系列实验已经将行业推向了大规模建造的新阶段。

参考文献

Thompson, C. (2026, April 17). How robots learn: A brief, contemporary history. MIT Technology Review.

本文引用的案例和事件包括：

Cynthia Breazeal 于2014年推出的社交机器人 Jibo。
OpenAI 于2018年展示的机器人手 Dactyl 及其使用的“域随机化”技术。
Google DeepMind 的 RT-1 和 RT-2 机器人基础模型。
Covariant 公司的 RFM-1 模型及其与亚马逊的合作。
Agility Robotics 公司的人形机器人 Digit 在亚马逊、丰田等仓库的实际应用。

TAGS: 机器人学习模拟试错基础模型数据驱动人形机器人

发表评论

上一篇：溶菌酶在食品工业中的应用极其发展状况

下一篇：美VTI公司向中国发运体外人工肝辅助装置