《麻省理工科技评论》发表的一篇“实地笔记”文章,回顾了机器人学习方式的演变历程。文章指出,机器人学习的最新繁荣代表了一场革命——机器不再依赖预先编写的规则,而是通过模拟试错、基础模型和真实世界数据训练等方式,学会与复杂的世界交互。仅2025年一年,投资者就向人形机器人投入了61亿美元,是2024年的四倍。
第一阶段:基于规则的时代(2015年之前)
早期的机器人编程遵循“手工规则”的思路:工程师为每一种可能的情况编写详细的指令。例如,要让机器人叠衣服,需要编写无数条关于如何识别领口、如何抓取袖子、如何折叠的规则。这种方法虽然可靠,但极其繁琐,无法应对现实世界的无限变化。
第二阶段:模拟与试错学习(约2015年-2022年)
从2015年左右开始,前沿研究转向了模拟环境。研究人员在数字世界中构建机器人的模型,并设定一个“奖励信号”。机器人通过数百万次的反复尝试(试错)来学习如何完成任务,就像AI学习玩游戏一样。
-
OpenAI的Dactyl:在2018年,OpenAI训练了一只名为Dactyl的机械手在模拟中操控一个方块。为了解决虚拟与现实之间的微小差异(如摩擦力、光线),他们使用了“域随机化”技术:创建数百万个略有差异的模拟世界,使机器人学会了适应真实世界的不确定性。一年后,Dactyl学会了拧魔方,尽管成功率有限。
第三阶段:基础模型与数据驱动的革命(2022年至今)
2022年ChatGPT的出现催化了当前的机器人繁荣。与传统的试错学习不同,大语言模型通过在海量文本上训练来预测下一个词。研究人员迅速将这一理念应用于机器人领域。
-
Google DeepMind的RT系列:Google的RT-1模型通过学习图像、传感器读数和机械臂位置,将指令转化为动作。RT-2则更进一步,直接在互联网上的通用图像上训练,使其具备了“零样本”推理能力,例如能够理解“将可乐罐放在泰勒·斯威夫特的照片旁边”这类复杂指令。
-
Covariant的RFM-1:该公司由OpenAI前成员创立,旨在打造实用的仓库机械臂。其RFM-1模型允许用户像与同事一样与机器人交互。例如,你可以让它移动物品,而机器人如果抓取不稳,会主动请求建议。
-
Agility Robotics的Digit:这是一款投入实际应用的人形机器人。亚马逊、丰田等公司已部署Digit在仓库中搬运货箱。与追求科幻美学不同,Digit的设计以功能为导向。其学习方式结合了模拟技术和Google的Gemini模型,以帮助它适应新环境。
未来展望
文章总结,机器人学习的革命已使该领域从“梦想远大但建造微小”(如Roomba扫地机器人)转向了“梦想远大且投资巨大”。尽管当前的人形机器人(如Digit)只能举起35磅的重量,在力量和续航之间面临权衡,且安全标准更为严格,但这一系列实验已经将行业推向了大规模建造的新阶段。
参考文献
Thompson, C. (2026, April 17). How robots learn: A brief, contemporary history. MIT Technology Review.
本文引用的案例和事件包括:
-
Cynthia Breazeal 于2014年推出的社交机器人 Jibo。
-
OpenAI 于2018年展示的机器人手 Dactyl 及其使用的“域随机化”技术。
-
Google DeepMind 的 RT-1 和 RT-2 机器人基础模型。
-
Covariant 公司的 RFM-1 模型及其与亚马逊的合作。
-
Agility Robotics 公司的人形机器人 Digit 在亚马逊、丰田等仓库的实际应用。