关于具身智能的一些思考

什么叫具身智能?具身智能不就是广义的让机器使用机器嘛。 让机器使用机器,有两种思路,一种是把工具的使用流程算法化(这就类似于机器的组装过程),但这种方法过于局限了,只要是稍微复杂一点的工具,那机器人就做不了。 所以我们有了第二种思路,也就是VLA,类似于大语言模型的发展,我们希望模型可以去学习人类的...
关于具身智能的一些思考
关于具身智能的一些思考

什么叫具身智能?具身智能不就是广义的让机器使用机器嘛。

让机器使用机器,有两种思路,一种是把工具的使用流程算法化(这就类似于机器的组装过程),但这种方法过于局限了,只要是稍微复杂一点的工具,那机器人就做不了。

所以我们有了第二种思路,也就是VLA,类似于大语言模型的发展,我们希望模型可以去学习人类的轨迹,从而来学会工具的使用。

但这种方法其实也是有局限性的,显而易见就是数据量的严重匮乏。

其实从人类自身的学习阶段其实很明显的可以发现,我们的具身智能还走在人类的婴儿期阶段。我觉得蹒跚学步这个词就很形象的形容当前的具身的方向。通过让VLA去学习各种轨迹,学会应该如何初步的去操作某些常用的工具。这必然意味着在他没有见过的工具,他可能甚至都不知道从何处下手,他如果只见过了抓取杯子的行为,那必然是没有见过使用锤子的行为,那你让一个只会用杯子的婴儿去拿起锤子干活,这显然有点不符合常理。

所以我们需要更多的数据,所以有了资本家把采集的装置安装到那些非洲印度的劳动者的身上,劳动者的价值被使用了两次。目前看来是两次,但是我觉得还会有第三次
现在主要是去训练,看见什么样的场景如何操作,增强行为知识的广度。之后需要学会看见什么样的场景如何去纠错,也就是错误轨迹的学习,也就是监督微调或者偏好对齐优化。

但这并不是最关键的问题,问题在于,通过VLA训练的具身智能是否真的具有泛化性?我认为这是很难有的,或者说即使有了泛化性,效果也并不一定见得会好。

所以我们需要第二阶段,也就是具身智能的自进化。我们需要让具身智能可以通过从实践的环境中主动获取反馈,并且将经验存入memory。这是一个很有挑战性的方向。

举个简单的例子,用锤子是使用工具吧。那具身智能怎么用好锤子呢。并不是说你看见一个东西,框一下砸上去。这叫用好吗?这不叫。

那我们想想人类会怎么使用锤子。因为我们在成长的过程中积攒了很多经验,所以我们看见不同的场景会使用不同的力度。现在的具身智能根本不能做到,怎么样去控制力度。或者是说,什么叫做力度。现在没有灵巧手,意味着他的锤子必须焊死在他的手里,或者说作为一个插件插进去。那比如让机器人打金子,要打一个首饰,你用力气大,框一下把金子打成金箔了,或者假设刚刚打好了一个粗略形状,然后机器人准备微调,框一下下去发现打好的形状没了,那他能不能及时的吸取教训,并在下一次的击打中说我掌握了这个经验,我下次要击打的轻一点呢,这就叫自进化。

很容易发现,环境反馈相对很好获取,但是如何去存储经验呢?根据人的发展历程来看,我们可能更倾向于把所有学到的方法全部存下来,然后在下次使用的时候进行检索。但是问题的关键就在于,我们不可能无限制的在memory存储所有的方法,否则检索带来的很多代价是具身的领域无法承受的,所以我们需要让模型学会在休息的时候自动的更新参数化的记忆。

这就必然会导致很多问题:会不会欠拟合?参数的数量是不是需要随着轨迹的数据动态更新?参数数量上去,端侧训练的成本和推理怎么办?出场时设置的固件真的够用吗?如果使用云端,带来的延迟问题和用户隐私的冲突怎么办?

所以,我们需要对知识层面进行抽象或者进行特定的遗忘。遗忘的困难在于如何遗忘,遗忘什么,如何消除遗忘带来的影响,如何通过遗忘来优化参数使得其即使经过更新但是仍然有效。抽象的关键在于如何进行经验的高效总结,比如不仅仅在于使用锤子,使用螺丝刀等等场景,我们都可以把经验抽象成一条————碰到有的场景轻拿轻放。所以他需要llm的大脑来为他做支撑,我认为具身智能永远不能独立于llm存在,或者说vla也应该具备和llm部分一样的能力。目前的vla更像是他的眼睛和小脑,看见什么做出什么行动,但是要实现自进化,我们势必要打通这一关,即让vla可以总结经验。

目前的具身智能还存在硬件设备上的不足,即就像刚刚的例子一样,你如何定义力气。

突然发觉人类是很精巧的设计,包括物种的设计,肌肉和神经的出现绝对是创世纪的存在。所以具身智能模仿灵巧手,通过多关节和软体的设计来促进具身智能的能力,即按照不同的场景进行发力等等。具身智能的硬件之路还道阻且长啊。

只能说目前市面上的在售的具身智能,还只是很初步的。当下的具身智能的机器人的宣传片在宣传什么?宣传自己的武艺高超,宣传自己可以和人类一样跑步,叠被子,用洗碗机洗碗。我倒是觉得这和llm的在code领域的涌现都只是取巧。并不是这个领域有多重要,而是这些领域好像天生就是为这些产品设计的。agent的纠错学习需要环境的反馈,通过不断编译器的及时的反馈,agent的代码越写越好,起码可以说可以根据报错来不断的修改。正如具身在这些领域大展拳脚,让人类觉得危险,其实并不是他们真的很强,只是这些领域不需要多么复杂的泛化性,模型架构做的好,整体的框架搭的好,数据好,模型就可以做到。为什么他们不去宣传让具身智能去做首饰呢,去那些需要高精度的且需要根据实时反馈来调整自己的做法的系统呢,不是说不想宣传,实则是能力不够

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文