当机器与意识、感性、知识和自觉等人类的特征相互连结,会带来哪些新的可能?通用智能机器人可以完全取代功能型的专用机器人吗?9月30日特斯拉发布的人形机器人Optimus对行业意味着什么?通用机器人距离人类社会还有多远?
通用机器人背后,是人类一直以来对通用人工智能(AGI)的期待,不同公司也在以不同的方向和方式探索。5Y 3Sigma小圆桌第三期,我们聚焦于这个线位这个领域的创业者与研究者分享了他们关于通用机器人的观点与洞察。
讨论通用机器人,首先要回归到AI的场景和机会。在自动驾驶之后,我们在思考AI下一波的超大场景,这样我们关注到机器人在未来10年跟AI结合的巨大机会。
机器人领域过去几年的蓬勃发展,有一个有意思的现象,今天看到成功的机器人产品,都有典型的专机属性,比如达芬奇手术机器人和大疆航拍无人机,以及过去五年商业和应用快速发展的机器人方向,仓储机器人与扫地机器人。
这些机器人公司都有一个特点,在某一个有高价值的领域或者说海量的市场里提供了某项专有的技能,给用户创造了直接的价值。从定义来讲,它们还属于偏专用的机器人。如果比照智能手机的发展历史,我们不禁要问机器人领域是不是也有从专用到通用切换的机会?
以手机的发展历史为例,一个智能终端是如何从功能机时代到了智能机时代,我认为有几个关键要素。首先是算力和通信能力,零几年时,ARM作为一个低功耗高性能的处理器崛起,同时3G网络大概在06、07年出现,刚好与iPhone的发展时间匹配;另外苹果带来了非常关键的触摸屏,让人类第一次以一种简单的方式进行交互。最后是操作系统,如果没有iOS和安卓这种高级操作系统的出现,软件的开发和分发会非常困难。在这些基础上,功能机第一次被通用的智能手机打败。
那么通用机器人是否可以类比当时的智能手机,从几个维度来讲是有一定相似之处的。在算力上,今天已经过了简单的CPU算力增加的阶段,由于深度学习的发展,出现了大量的高性能的边缘的AI处理器。在传输层,5G这种低延时技术的出现让机器人在传输上较10年前有巨大的改进。
更关键的是交互层面,之前所有的机器人基本上是面对某一个具体的场景和硬件,而现在包括像特斯拉这样的公司,在积极地研究人形机器人,试图在机器人的交互场景里面形成统一。这也是一个非常重要的变化,因为只有人形机器人才有可能在人类所生活的环境里非常理想地适应不同的交互场景。
特斯拉在9月30日发布了人形机器人Optimus,有很强的标杆效应。特斯拉是一个真正具有庞大的车规级的量产能力、供应链能力和算法能力的公司,也有源源不断的资源的投入。在这样的前提下,人形机器人市场可能会更快形成共识,我们也看到很多公司正在进入这个市场,在以不同的方式进行迭代和尝试。我们正好借这样一个机会,邀请大家一起来加入讨论。
五源非常关注创新的机器人的公司,我们也希望通过这样的活动与大家碰撞最新的技术洞察和创业想法,以及识别和陪伴更多中国顶级的科技创业者,成为他们最早、最长期和最有影响力的合作伙伴。
陈哲:关于特斯拉发布Optimus,大家可能各自讲一下,哪些地方是超出你的预期或者超出之前的认知的?
张鑫亮:可能整体系统没有超出大部分人的预期,但我感觉它符合一个公司的正常的研发流程。比较超出预期的是一些电机的选型部分,确实特斯拉在造车上有丰富的经验,他们对电机的设计非常系统。还有就是感知这部分,在芯片加持的基础上,能用这么廉价的摄像头去完成建图以及视觉感知,这也是超乎预期的。
张巍:最开始Optimus被三个大汉用手推出来时,大家感觉会有点失望,因而会有一些负面情绪。但如果认真听完整个发布会,会发现特斯拉在人形机器人的研发方面做得非常专业和扎实。现在的样机不见得是最好的方案,但他们研发的方式是专业和正确的。这个很重要,马斯克最后也说我们的方案就是个方案,不是说就不会再变了,我们会不断迭代。我和鑫亮的感觉类似,它在电机的研发上,传动的设计上,基础打得非常好。他在用一个正确的方式去思考和投入,只不过现在还没有特别完美。
通用机器人想要使用起来,最关键的是场景,而场景要有很强的AI去赋能。仅仅一个机器人可以走起来、拿东西,这是相对容易解决的,但要它在一个开放场景去做很多事情的话,你要有巨大的AI能力才能真的跑通。而特斯拉拥有的无人驾驶的各种数据、芯片的基础以及顶级的研发能力,是很多公司可能都不具备的。
一开始我也觉得有点失望,但后来一想他们6-8个月的时间能把事情做到这个程度,可能也没有哪个公司可以做到。
陈哲:这个方法论对机器人行业来说也是新颖的。汽车产业是高度工业化的,怎么去做每个部分的定义,怎么去测试,这些东西在汽车行业是非常成熟的。但机器人行业其实没有这样一个开发的习惯,但要解一个这么复杂的系统工程,有一个好的开发流程、开发范式是非常关键的,可能特斯拉会引领整个行业。
段和磊:我也觉得它也很solid,两点细节我觉得能看出来没有取巧或者说走捷径,首先是它走出来的时候,一直在直着走然后突然拐弯,转动速度很大,这说明它的动力学模型以及整机的控制还是很扎实。第二点是他在演示操作的时候,已经想到用learning的东西去做这些online planning的事情,他在很扎实的同时还很前瞻的考虑这些问题,这也是超出预期的地方。
陈哲:其实大量的足式机器人,大家在解决基本的运动动力学问题已经非常吃力了,但马斯克在这么早期阶段也试图解决机器人的操作,包括搬运和取放过程的问题。我好奇大家怎么看它目前展示出来的这些,是不是在行业是很有前瞻性的创新?
张巍:是很好的创新。在我的理解范畴内,足式机器人各方面的运动和操作能力是一个可以解决的问题,真正难的是在要抓什么、抓在哪里,在复杂环境里是抓这个还是那个,这些可能需要强大的AI能力才会有比较大的进步。
张鑫亮:对于通用机器人,我觉得马斯克首先想的和别人不一样,是一个AI型的机器人公司,而不是像波士顿或者说像一些实验室的那种控制类型的。从原理来讲的话,他一开始就要做到最终形态,是要替代人而不是取代一个类似的专机,当然他也有资源去投入。
陈哲:足式机器人其实也发展了二三十年的时间,工业化进展其实还是比较有限的,可能特斯拉带来了一个新的变化。大家觉得以今天的节奏来看,未来五年会进化到什么样?会有真正商业化的产品进入市场吗,以及会是什么样的形态和功能?
张鑫亮:我个人感觉还是未来5年通用的控制会解决,而通用的感知可能有些不确定。它可能在一些特定场景里有一定的感知能力和决策能力。
段和磊:我觉得5年或者10年以内,我们应该会看到双足、四足机器人在特定的范围之内进行工作,比如工厂、物流站、配送中心。而家用的话还需要很多验证,机器人的安全性等还没有任何标准,没有行业规定。其实很有意思,很多人可能会有一种错觉,觉得足式机器人没有那么危险,像我们一样走来走去特别友好。但其实控制或者任何一个方面出错的话,就会造成很大的伤害,会有一定风险在里面。
陈哲:对,在工业机器人里面伤人的情况其实蛮多的,如何以一个更低成本和更紧凑的形态实现安全的机器人,还是一个很大的未被解决的问题。
张巍:我觉得3-5年应该会有一个固定场景的应用。如果在工厂里有一些工序需要机器人,还可以做到2万美元以下的成本,那在某些场景下是可以用起来的,然后逐渐是物流这种开放一些的场景,家庭服务场景就更开放了。我觉得特殊的家庭服务应用5年左右是有可能出现的,落地的难度取决于场景的开放性,这种应用不是说把机器人扔在家里什么都能干,也会是有很多设定的约束,比如现在老年社区可以定制化,有IoT配合落地会容易很多。另外在成本的考量上,可能并不一定是卖硬件赚钱,也可能有服务,各种商业模式有很多可以探索的方向。关键就是技术如果真的成熟了,这些东西可能会比我们想象的还要快。我是持比较乐观的态度。
季超:这个环节想讨论的一个问题是,在通用机器人真正落地之前,是不是还有其他中间态的机会?
如果我们分析通用机器人的落地所需要的时间,首先在AI技术比如foundation model进展的加持下,我觉得在simulation环境里训练通用机器人会比较快,但有两个gap会导致通用机器人的产品化可能还需要非常长的时间。一个是Sim2Real gap,虽然仿真技术有一些进步,但对于传感器、执行器等关键硬件的仿真还不够完善,很多长尾的corner case层面还没法完全解决;还有一个是engineering gap,如何从demo到量产的产品,取决于场景数据的积累,以及团队的工程化以及执行能力;这两个gap会拉长通用机器人商业化的时间。
但如果单独看机器人的移动或者操作,这两个技术栈都非常成熟,已经有一些将二者结合的新产品形态出现,比如在搬运、工业巡检、清洁以及仓储场景应用的复合机器人,智能化的程度和通用机器人还有差距,但考虑到通用机器人的timing还很久,那在这之前复合机器人会不会是也比较大的机会?
王启斌:我认为在仓储机器人是有很大的可能性,其实我们一直在讲拣选的场景,整个前端的执行器调整之后可以适应一些中小件的拣选。我个人认为在刚刚提到的几个gap之外,更大的gap是process的gap。仓储流程做得好的本质是我们在对整个流程再造。实际上复合机器人是有机会的,比如拣选流程的再造,尤其对于仓储这种对大流量、高效率需求的场景。
王启斌:是这样,其实目前正在解决的还都是正向流程,而整体要提高的更多是异常流程,类似于无人驾驶最终落地时corner case非常多。整个自主决策的东西能不能用到业务系统和基层执行系统,这个非常重要。
季超:我一直在想一个问题,复合机器人如果是一个大的机会,是新玩家还是老玩家更容易胜出?老玩家包括机械臂公司或者AMR公司,其实他们都具备技术栈当中的一环,谁可能有更好的位置?
罗璇:其实我认为AMR公司本质上和机械臂公司是没有区别的,都在整个业务的planing里面,就看各自的技术栈能否做到。我觉得最终还是看两方面,一个是算ROI,其次是我的技术有没有门槛。To B的核心逻辑还是看ROI的,而to C的话可能会更关注一些其他的创意点。我们也在研究一些相关的领域,看复合型产品在哪些领域和哪些市场真正能够跑出ROI。
季超:类比自动驾驶也存在渐进式和跨越式这两种路线。像复合机器人,它可能类似于自动驾驶里的渐进式路线,率先实现一个业务和数据的闭环,持续的迭代来实现更加通用的功能,通用机器人的发展路径更适合这种模式,还是更适合直接往终局的形态进行尝试?
张工:我也在思考,我自己觉得通用机器人to B的切入点还是在仓储这种地方的复合机器人。而如果是特斯拉的话,我反而觉得有没有另外一种可能,就像他在to C这块原来的一些打法,走酷的路线去引爆市场,也是一个思路。比如我就是技术狂热者,觉得机器人一定是未来,就会去买,就像看发布会的时候大家还是很兴奋。这种路线是不考虑ROI的,走通之后还是会推进整个商业与技术的进展。可能会点燃一些东西,从而带来背后一些通用化技术的演进。
季超:最后想和大家讨论一下,如果通用机器人最终实现了,专用的或者说特定场景的机器人,相比通用机器人来说是否具有防守力?通用和专用的界限会在什么地方?
王启斌:我认为通用的和专用的是两条曲线,专用机器人的护城河在于它的性能是否具有优势,而通用的曲线一定是上扬的。在前阶段一定是共存的,但当通用可以打死专用的时候,可能是一个极快的速度。就像当时手机市场,可能遵循类似的商业逻辑和产品逻辑。
那么通用机器人会在哪一年真正超越专用的曲线,可能在通用落地之后怎么也要5年以上。通用爆发后会是非常高的加速度曲线,现在很难具体说,不同细分场景也是不一样的。
张工:畅想下终局,如果真的实现了机器“人”,能够替代“人”完成任务,这种情况下机器人就等于“雇员”了。观测目前的生产情况,大部分雇员还是“专业/专用”的,背后是因为执行各不同任务的知识和操作是有差异的。如果利用技术能解决这些不同专业的知识和操作的泛化问题,通用机器人才会有可能。
个人预判上述目标的达成可能需要很长时间。这种情况下,被动的防守力可能来自于“通用”问题的难度;如果寻求主动的“护城河”,那就需要强化对某类行业“知识”和“操作执行”能力的深挖和沉淀。
罗璇:我试着拿手机来做个对比,机器人是完全不一样的,手机的核心价值是在获取信息,人机交互形式相对来说比较简单。而在机器人的人机交互太复杂了,一个机器人能否像手机一样在各个领域都做好,我是打问号的。当然我非常希望有这样的产品出来,因为这能够大大的改善整个现有机器人的供应链。我认为专用的机器人会长期存在,如果通用机器人没有办法通过供应链快速降低成本,还是很难替代掉专用机器人的。我非常乐见于通用机器人能够找到一个非常大的场景,替代掉很大一部分的专用机械,这样的话我们这个行业才能起来。kaiyun 开云 官方网站kaiyun 开云 官方网站