栏目分类
热点资讯

关于沐鸣

你的位置:沐鸣 > 关于沐鸣 > “鸽”了一年,稚晖君连发五款机器人:打麻将、拆快递、纽扣穿针都不在话下,还有“0元”惊喜

“鸽”了一年,稚晖君连发五款机器人:打麻将、拆快递、纽扣穿针都不在话下,还有“0元”惊喜

2024-08-24 20:54    点击次数:64

作者 | 屠敏

去年 8 月 18 日,正值稚晖君离开华为后闯进创业赛道的第六个月,彼时的他及背后的团队之所以成立「智元机器人(AGIBot)」这家初创公司,也是深知自己想要的究竟什么:对标马斯克的特斯拉“擎天柱”,瞄准通用机器人领域,目标是打造一款具备百亿参数大模型支持、成本控制在 20 万元以内的商业智能机器人。那时,他携智能新人——智元具身智能机器人远征 A1 亮相上海,以一场仅 25 分钟、简洁有力的发布会惊艳全场。

时隔整整一年,智元机器人(AGIBot)这家初创公司不仅从 100 人的团队规模扩展到 350 人,其机器人技术也经历了显著的迭代。从最初的原型机到今天即将量产的远征系列商用人形机器人,这些机器人已经从蹒跚学步的发展阶段,成长为能够自主制作“萄汽可乐”(将葡萄与汽水混合并用榨汁机搅拌)、搬运超过 40 公斤的重物,甚至能够担任发布会开场主持人的设备。

今天这场发布会上,智元机器人公司宣布将于今年 10 月即将量产两款主要机器人产品,预计发货量超过 300 台,包括 200 台双足人形机器人和 100 台轮式机器人。此外,稚晖君还公布了一系列开源计划,并在“One More Thing”环节重磅发布了 0 元的模块化机器人产品,让“人形机器人人人造”这一理想逐步走向现实。

三款远征系列商用机器人惊艳亮相!

众所周知,人形机器人是一条全新的赛道,也是一个极其复杂的系统工程,几乎涵盖了制造业的所有技术,对系统设计能力提出了巨大的挑战。

发布会伊始,智元联合创始人彭志辉(稚晖君)表示,“商用落地则是检验人形机器人价值的关键。” 过去一年里,智元机器人团队通过软硬件的深度整合、供应链和制造流程的优化,成功推动了远征系列机器人从原型阶段迈向量产,从双足机器人逐步扩展为轮式、重载等形态的机器人,这也是今天发布会重点推出的三款机器人产品:远征 A2、远征 A2-W 和远征 A2-Max。

远征 A2:交互服务机器人。在功能上,它基于对人类行为和形态的理解,核心构造包括全身超过 40 个主动自由度的关节和仿生的灵巧双手,使其能够模拟出丰富且复杂的人类动作。它的身高和体重都与成人相仿,身高 169cm,重量小于 69kg,所以更容易融入人类的生活和工作环境中。在交互能力方面,配备了多模态感知输入系统,不仅能通过视觉感知互动者的情绪,还能通过高度仿真的音色与人们进行自然对话。

发布会现场,远征 A2 以主持人身份亮相,能够灵活地使用双腿移动,讲解能力同样流畅自如,效果不错。

远征 A2-W:柔性智造机器人。不同于 A2,A2-W 具备双臂协作与全域可达、高效部署与柔性作业、模型进化与持续演进、多模感知与安全无忧、持久作业与极简维护五大核心优势,同时它采用了轮式平台,配备了激光雷达、全景相机等高精度传感器,使得它能够在各种环境中快速且平稳地移动,并且可以高效地处理各种任务。

本次发布会上,它还实操了一把“萄汽可乐”(将葡萄与汽水混合并用榨汁机搅拌)的制作全过程,包括开启可乐瓶盖、向榨汁机中倒入葡萄和汽水、点击启动按钮、倒出鲜榨的“萄汽可乐”等等。

远征 A2-Max:重载特种机器人。得益于腿部直线驱动关节的强大推力和高扭矩的关节模组,A2-Max 具备力大无穷和灵巧作业的优势。演示中,它可以轻松搬动 40kg 的箱子,目前其正处于产品研发阶段。

稚晖君透露,其中远征 A2、远征 A2-W 规模量产 Ongoing(量产途中),预计于今年 10 月开始发货。

可拆快递、打麻将、纽扣穿针的机器人背后的技术升级

与去年远征 A1 相比,在面向量产方面的远征 A2 系列产品做了不小的改进。

首先是本体方面。在过去一年时间里,稚晖君及其背后的团队重新设计了机器人的构型,并进行了系列化的标准化处理,使用远征家族化 ID 语言。

其次,类似智能汽车的三电系统,稚晖君表示,人形机器人也有四大核心域,最新的机器人围绕这四个方面均做了升级:

动力域:相比初代远征 AI,最新的 A2 系列在 PowerFlow 关节模组实现量产化迭代升级;灵巧手自由度数跃升至 19 个,主动自由度翻倍至 12 个,引入基于 MEMS 原理的触觉感知和视触觉感知技术;高精度力控 7 自由度双臂,能精准执行阻抗控制、导纳控制、力位混控等多种力控任务,也支持双臂拖拽示教模式和可视化调节。

基于此,最新的机器人不仅可以手持电动螺丝刀、亲自拆快递,还能在三缺一的情况下上场“打麻将”、徒手抓东西等等。

感知域:集成了 RGBD 相机、激光雷达、全景相机等传感器,引入自动驾驶 Occupancy 前沿感知方案,通过 SLAM 算法进一步提升环境理解能力。

通信域:自研了具身原生、轻量化、高性能的智能机器人通信框架 AimRT。相比 ROS 等第三方中间件,提升了性能、稳定性、系统部署的效率和灵活性,同时又完全兼容 ROS/ROS2 已有生态。AimRT 将于 9 月底开源。

控制域:结合 Model-based 与 Learning-based 两种算法,进一步提升机器人运动控制与适应能力;预研了基于自然语言指令集驱动的、可以适配不同机器人本体的 AgentOS,基于强化学习,实现机器人技能的精准编排与高效执行。

人形机器人是一个软硬件高度复杂且紧密集成的系统。它不仅涉及多个硬件模块的协同与部署,还需要软件和算法的高效配合。稚晖君表示,希望将这些复杂系统的二次开发能力开放给外部合作伙伴,共同构建生态系统。为此,其团队构建了一个名为 AIMA(AI Machine Architecture)的软件平台。

软件框架的全景图

要知道本体的优化只是基础,作为一个通用任务平台,具身大脑才是重中之重。

在具身大脑方面,智元机器人团队面向实际应用场景,首次做了具身智能技术演进路线,类似于自动驾驶领域的 L1 到 L5 等级,其在具身智能维度也划分五个不同的等级——G1 到 G5。

G1 指的是传统的自动化阶段。这个阶段的技术主要依赖于手工设计的特征,并结合一些简单的机器视觉做反馈。整体来说,G1 阶段的技术依然是程序化、编程轨迹化的特征,因此部署时往往为特定场景量身定制。虽然这种方法能够解决某些场景下的任务执行问题,但由于需要手工配置,使其无法在不同场景中实现低成本、快速地迁移,几乎不具备泛化能力。

G2 阶段,针对不同的、大量的场景任务和作业需求,该团队提炼并抽象出了一些可以复用的原子能力(Atomic Capabilities),并以相对通用的方式实现这些能力。与 G1 的传统自动化不同,G2 阶段在一定程度上能够实现类似场景任务的快速迁移,并且配合大语言模型(Large Language Model, LLM)框架进行任务编排。通过将 LLM 作为通用规划器,结合开发的各种原子技能,机器人在 G2 阶段具备了一定的泛化能力。

G3 阶段,主要转向端到端(End-to-End)的路线。稚晖君表示,虽然 G3 和 G2 的算法架构类似,但它们的最大区别在于:G3 不再依赖手工设计的原子能力,而是通过大量数据采集,以数据驱动的方式进行端到端训练,从而生成一系列原子能力。因此,G3 阶段的最大价值在于形成一套通用的技能训练框架。在 G3 阶段,如果需要学习一个新技能,已经不再依赖算法工程师的手工设计,只需采集相应的数据并进行训练即可。

G4 阶段,结合了前面 G1、G2、G3 阶段的优点。在这一阶段,稚晖君解释道,希望实现一个通用的操作大模型,或称为 Large Motion Model (LMM)。与大语言模型 LLM 不同,大操作模型 LMM 的目标是解决 G3 阶段中可能存在的一些问题。例如,对于 “开瓶子” 和 “打开门把手” 这两个动作,在 G3 阶段,我们需要分别采集单独数据并训练出两个不同的技能。然而对于人类来说,这两个动作的底层逻辑是相通的,都是通过手部动作来完成。因此,在 G4 阶段,该团队希望引入大量跨场景的真实数据和仿真数据,并结合认知推理规划大模型等技术,帮助 AI 理解这些动作背后的物理原理,从而实现技能的泛化,进一步提升机器人在复杂任务中的表现。

G5 阶段,其愿景在于通过融合大语言模型 LLM 和大操作模型 LMM,在提供足够多的高质量、长期任务数据后,形成一个真正全面包括从感知、决策到执行的通用大模型。届时,具身智能将具备跨任务的泛化能力,并能在开放场景中高效运作。如果实现 G5,那么机器人将使我们距离人工智能的圣杯——通用人工智能(AGI)更近一步。

回归现实,就目前而言,行业机器人究竟进行到了哪个阶段?

稚晖君透露,过去一年,智元机器人在 G2 和 G3 阶段的研究中都取得了显著的进展。在 G2 阶段,智元机器人成功开发了一系列零样本(Zero-shot)或少样本(Few-shot)通用原子能力,如 UniPose(通用位姿估计模型)、UniGrasp(通用抓取模型)、UniPlug(通用利空插拔模型),他们已经成功地将这些能力应用于实际场景中,并且目前正在与多家制造业的龙头企业合作,进行联合场景的概念验证(Proof of Concept, POC)。预计在今年稍晚些时候,有望实现全流程的跑通,使机器人正式部署到客户的生产环境中,开始执行实际任务。

具身:没有免费的午餐

想要让具身机器人实现技术突破,数据在其中起到了关键作用。

相较大语言模型和自动驾驶领域分别可以依靠海量的互联网数据和数百万辆汽车的真车“Shadow”数据免费可用,稚晖君坦言:在具身智能领域并没有这样的“免费午餐”。

因此,在端到端的技术实现过程中,真实场景下的数据极为宝贵且稀缺。

「这再次验证了一句老话:“有多少人工就有多少智能”」,稚晖君说道。为此,本次发布会上,智元机器人针对数据方面进行了大量的基础设施建设,推出了一套完整的数据采集和应用方案——AIDEA(AgiBot Integrated Data-system for Embodied AI)。

面对行业内可能缺乏可靠的数采本体、缺乏简单高效易用的遥操设备,以及数据平台的安全性和管理等方面存在问题,智元具身智能数据系统 AIDEA 提供了相应的行业级解决方案,覆盖多种不同型号的机器人形态包括双臂和双足机器人、轮式等数采本体;该方案还提供了一套动作捕捉解决方法,可以实现毫秒级的低延迟,并能够捕捉到高自由度的动作,甚至包括手指的动作。

不过动作采集只是第一步,解决数据获取问题之后,还需要面对海量数据的存储、清洗、标注、管理和后端模型的训练及评测等一系列挑战。基于此,AIDEA 不仅提供硬件解决方案,还将提供云端全链路的数据平台,包括数据平台 AIDEA Data、AIDEA ML、AIDEA Sim 仿真平台等。这套系统已经在该初创公司内部实际运行。

据稚晖君透露,在今年下半年,其预计将部署百台以上的机器人,专门用于端到端的数据采集任务。同时,AIDEA 平台计划在今年第四季度(Q4)正式对外开放。

同样在今年 Q4,稚晖君宣布会开源百万条真机、千万条仿真数据的数据集,希望能以此激发更多创新与合作,加速整个具身行业的发展与应用。

拖更一年之久,此次加更的 One More Thing:0 元购

「到这里,本次的产品发布会理论上已经接近尾声。但是考虑到过去一年的长时间等待,我们认为仅此还不够」,稚晖君说道,「因此,还有一个 One More Thing:智元发布首个模块化机器人——灵犀 X1」。

稚晖君透露,在不到三个月的时间里,一个不到十人的团队创造出了灵犀 X1。

作为全栈开源机器人,灵犀 X1 采用串并联混合构型手臂和差分驱动双肩关节设计,支持“机-机模式”,即将手机置于机器人的“大脑”中作为其控制中心。要知道,手机本身就具备机器人所需的各项功能,如麦克风、扬声器、显示屏、网络连接以及强大的 AI 计算能力等,性价比极高。基于这种“机-机模式”,更多的科技爱好者可以开发出各种有趣的应用。

除此之外,灵犀 X1 全身采用了模块化设计,此次智元研发团队还为灵犀 X1 自主研发了两种新型关节,即 PowerFlow R-86 和 PowerFlow R-52,这两款关节覆盖了机器人全身 30 多个自由度,实现了高度标准化。

稚晖君表示,通过上述模块化设计、高自由度、标准化以及良好的可扩展性,灵犀 X1 有望应用于多种人机交互场景,包括数据采集等任务。

与此同时,基于灵犀 X1 的低成本硬件方案,该团队还带来了另两款机器人,即灵犀 X1-W,作为低成本的专业数采机器人;A2-W 则是集数据采集与推理于一体。这两种机型搭配使用,可以满足全栈数据采集需求。

以上所有创新技术和产品均出自于今年 6 月份刚成立的智元 X-Lab,即稚晖君实验室。稚晖君透露,灵犀 X1 从设计到加工再到组装仅耗时不到两个月,而从组装完成到现在还不到两周时间,相当于「未满月」就出来干活了。

谈及为什么这么着急?

稚晖君表示,“灵犀 X1 的诞生源于兴趣和热爱。我希望它能够触及更广泛的受众,特别是那些对科技感兴趣的同学们,希望能够降低他们的入门门槛。考虑到市场竞争激烈,我们认为它不必参与价格战。”

因此,稚晖君给出的定价为——0 元。

不过,这里的 0 元并非是指 0 元购得机器人灵犀 X1 ,稚晖君进一步解释道,「未来灵犀 X1 的大部分设计资料将开源,包括除了核心部件外的所有设计图纸、软件框架、中间件源码以及基础运动控制代码。」

如果有兴趣的开发者或企业想要自己组装灵犀 X1,可以通过上述开源方式获取相关代码,然后自行订购手臂、关节等结构件,实现“人人都能造人形机器人!”

而对于更为高端的远征系列产品,在接受媒体采访时,智元营销负责人姜青松透露,行业中身高在 170cm 的双足机器人,成本 20-30 万左右。本次发布会上,稚晖君表示,远征系列的产品主要面向企业市场 (ToB),售价策略会根据不同合作模式有所差异,具体还需要和销售进一步沟通才能有明确的价格。

总结来看,这些满怀机器人热情的极客们,在过去仅一年时间里推出了 5 款全新的机器人产品,智元的发展速度远超我们的想象。虽然面向商用场景时仍然面临挑战,但他们无疑具备强大的潜力。我们也期待智元在 AI 机器人领域带来更多突破和进展。



Powered by 沐鸣 @2013-2022 RSS地图 HTML地图