当前位置: 主页 > 学术产业 > 生物产业

机器人学习简史:一场机器与世界交互方式的革命

2026-04-19 11:15 泉水 Nature 阅读 0
核心摘要: 机器人学习经历了从基于规则的编程到模拟试错学习,再到数据驱动的基础模型革命的演变。最新的研究表明,利用大语言模型和域随机化技术,机器人能够在复杂环境中自我适应并执行复杂任务。此进展不仅提升了机器人的学习效率,也推动了行业向大规模应用的转变,标志着机器人技术的重大突破。

《麻省理工科技评论》发表的一篇“实地笔记”文章,回顾了机器人学习方式的演变历程。文章指出,机器人学习的最新繁荣代表了一场革命——机器不再依赖预先编写的规则,而是通过模拟试错、基础模型和真实世界数据训练等方式,学会与复杂的世界交互。仅2025年一年,投资者就向人形机器人投入了61亿美元,是2024年的四倍。

第一阶段:基于规则的时代(2015年之前)

早期的机器人编程遵循“手工规则”的思路:工程师为每一种可能的情况编写详细的指令。例如,要让机器人叠衣服,需要编写无数条关于如何识别领口、如何抓取袖子、如何折叠的规则。这种方法虽然可靠,但极其繁琐,无法应对现实世界的无限变化。

第二阶段:模拟与试错学习(约2015年-2022年)

从2015年左右开始,前沿研究转向了模拟环境。研究人员在数字世界中构建机器人的模型,并设定一个“奖励信号”。机器人通过数百万次的反复尝试(试错)来学习如何完成任务,就像AI学习玩游戏一样。

  • OpenAI的Dactyl:在2018年,OpenAI训练了一只名为Dactyl的机械手在模拟中操控一个方块。为了解决虚拟与现实之间的微小差异(如摩擦力、光线),他们使用了“域随机化”技术:创建数百万个略有差异的模拟世界,使机器人学会了适应真实世界的不确定性。一年后,Dactyl学会了拧魔方,尽管成功率有限。

第三阶段:基础模型与数据驱动的革命(2022年至今)

2022年ChatGPT的出现催化了当前的机器人繁荣。与传统的试错学习不同,大语言模型通过在海量文本上训练来预测下一个词。研究人员迅速将这一理念应用于机器人领域。

  • Google DeepMind的RT系列:Google的RT-1模型通过学习图像、传感器读数和机械臂位置,将指令转化为动作。RT-2则更进一步,直接在互联网上的通用图像上训练,使其具备了“零样本”推理能力,例如能够理解“将可乐罐放在泰勒·斯威夫特的照片旁边”这类复杂指令。

  • Covariant的RFM-1:该公司由OpenAI前成员创立,旨在打造实用的仓库机械臂。其RFM-1模型允许用户像与同事一样与机器人交互。例如,你可以让它移动物品,而机器人如果抓取不稳,会主动请求建议。

  • Agility Robotics的Digit:这是一款投入实际应用的人形机器人。亚马逊、丰田等公司已部署Digit在仓库中搬运货箱。与追求科幻美学不同,Digit的设计以功能为导向。其学习方式结合了模拟技术和Google的Gemini模型,以帮助它适应新环境。

未来展望

文章总结,机器人学习的革命已使该领域从“梦想远大但建造微小”(如Roomba扫地机器人)转向了“梦想远大且投资巨大”。尽管当前的人形机器人(如Digit)只能举起35磅的重量,在力量和续航之间面临权衡,且安全标准更为严格,但这一系列实验已经将行业推向了大规模建造的新阶段。

参考文献

Thompson, C. (2026, April 17). How robots learn: A brief, contemporary history. MIT Technology Review.

本文引用的案例和事件包括:

  • Cynthia Breazeal 于2014年推出的社交机器人 Jibo。

  • OpenAI 于2018年展示的机器人手 Dactyl 及其使用的“域随机化”技术。

  • Google DeepMind 的 RT-1 和 RT-2 机器人基础模型。

  • Covariant 公司的 RFM-1 模型及其与亚马逊的合作。

  • Agility Robotics 公司的人形机器人 Digit 在亚马逊、丰田等仓库的实际应用。

    发表评论