决策大模型专题（一）

决策智能不应该停留在以前的思维中了，现在开一个专题来学习一下决策论坛的老师们的精彩的内容。本内容来自决策大模型论坛，张伟楠老师的内容整理。

决策大模型

是新一代人工智能的底层技术，它可以去赋能，智能体也就是AI agent，在数字世界当中去做出有效的决策，它也可以去赋能具身机器人，在物理世界当中做出有效的决策。

首先呢，我们主要是探讨这个，从生成到决策的一个范式的一个转变，因为我们其实这个论坛名字，叫做决策大模型，大家肯定会问说，那它和AIGC啊，在做生成式的大模型之间啊，决策大模型到底有什么样的区别呢，其实我们从机器学习入手，我们可以看得出来啊，机器学习当中其实有三类的问题啊，首先是预测问题，面向标签预测的这种有监督学习，去构建一个损失函数，然后最小化它来解决它，比如说分类、回归等等。那么第二个任务呢，叫做生成任务啊，往往是构建出一个拟合数据的这个最大化log（likelihood）这种方式，然后学到了分布之后呢，再从分布当中去采样它，背后的一个基本的一个技术呢，就是机器学习当中的无监督学习的技术，而第三部分内容呢，其实在我们人工智能当中，对于决策任务而言的话呢，在机器学习当中，也是有强化学习这样的一些工作，
预测型任务和生成式任务，还有决策式任务，生成式任务和预测型任务相似的点就在于，他们共同的拥有一个拟合数据分布的这样一个训练的过程啊，而生成式任务，它和决策式任务比较相似的一点则是，他们共同的，可以去使用模型产生出的数据，产生出的一些信号，
ChatGPT在训练的过程的这个三个阶段，则正好印证于这三个阶段，第一个阶段呢，是说我通过next TOKEN，prediction的有监督学习的损失，来去拟合出一个foundation model，这个过程呢，我们必须要将我们的学习任务，以及学习的架构本身做的非常的啊，可以scalable啊，scale up。第二个点呢，则是说我让我们的这个模型啊，比如这个GPT模型去对于一个任务呢，产生我们生成啊多个回答啊，基于这个多个回答呢，当然，我们会去做一些人工相应的标注啊，原因就是因为我们得做第三类任务啊，决策优化的任务，但是有一个关键点就在于，第二类，第二个阶段的这个标注的数据，得一定是基于啊，模型本身生成的数据啊，那么第三个阶段呢，则是通过学习好了奖励函数之后呢，在我们的这个基于奖励的这个指引下，去做强化学习啊，这样最终呢，我们chatgpt是一个实打实的一个优化决策的任务。

在这里插入图片描述

智能决策这样一个领域当中去啊，我们来啊，看看过去啊，的它的一个基基本的技术发展，在2012年以前的话，智能决策主要，使用到的一些技术，统称是类似于像是专家系统这样的一些技术，原因是要让一个决策智能真的可以工作的话，我们往往会需要有一个researcher啊，Developer，它首先在这个决策智能的任务上，他自己就是专家啊，基于这个任务的话呢，我们将这个专家的支持啊，扣银扣的在我们的模型当中啊，无论是我们的啊，搜索当中的一些价值函数，还是我们直接将这个任务，变成是一个优化问题啊，再用solver去求解它等等啊，这都是我们human得，首先成为理解这个任务的一个expert，那么基于这个export的system啊，我们可以去构建出一个，决策的一个解决方案，
那这样的一个逻辑的话，就会导致说，我们要铺啊决策智能的广泛应用，我们就得需要很多的human efforts啊，甚至是expert efforts，在这种情况下，其实是一个比较大的一个瓶颈对吧，那么这个瓶颈是如何解决的呢，在2012年的时候，2013年开始啊，deep mind提出了深度强化学习，在这个时候，智能体不需要，不需要human的一个一个expert dominology，而是说直接和环境进行交互，通过交互处的experience data，使用深度强化学习，我们就直接能够，较为自动的，去提升智能体的performance啊，
这个方法固然好，我们也是在很多游戏啊啊，这个发现一些物理结构啊啊啊，这方面去取，得了不错的效果啊，但是大家会发现，深度强化学习他在做跨任务，跨场景泛化的决策任务上，其实会碰到相当大的麻烦，原因是因为深度强化学习，他本质上是在，你和到一个动态环境当中的一个啊，我们也可以叫它漏洞，也可以叫它，就是说我可以去充分的去，exploit这个环境啊，它exploit的方法，就主要是使用的是贝尔曼最优迭代式，啊贝欧贝尔曼最优迭代式，将第二步的最大最大价值啊，引传到第一步上去，这样做的话，如果我的环境去，发生了相应的改变的话，那么这个传递，其实是将相应的一些拟合的error，往前去传，这样子，使得我们深度强化学习不太容易啊，我们说不太容易能够跨任务啊，或者跨环境去拟合啊，去做好做好泛化啊，
那么从22年开始呢，我们啊也是和世界其他团队提出说，我们有没有可能在决策这个方向上啊，提出类似于面向决策任务的大模型，因为在那个时候，自然语言处理已经在多个任务上，多个场景下啊，他都能够去使用一套模型，去做出有效的泛化，那么我们有理由相信说这一套，比如说基于Transformer这一类的模型，是有可能在多个决策任务上，去做出有效算法的，所以说在那个时候，我们开始推啊这个面向决策大模型。
在这里插入图片描述

两种范式

而到目前为止，决策模型其实已经发展成为了两种范式，范式a的话，是基于大语言模型为中心，构建出的agent，它可以去通过API的方式，调用相应的工具，去和这个user也好，去和system也好，去做出一个较为standardized的一个交互，我们叫它LLM agent，
我们首先来看一下范世a啊，张老师介绍了一些比较初级，入门级的一些一些观点啊，什么是智能体本身呢，智能体其实它是一个被，它是一个承载着啊，人工智能技术的一个实体，它可以不断的，和环境进行多轮的交互，交互是什么呢，得到环境当前的观测通过，计算呢得到具体的决策动作，进而将这个动作下达到环境当中去，得到环境的反馈，并且开始下一轮的感知决策啊，这样的交互，
这样的一种情况下，我们将大语言模型，去代替掉中间的这样一个智能体啊，去做环境的感知，去做出决策的选择的这么一个模块，当然，大语言模型智能体本身它是语言模型，它得它的输入输出，它都得是语言的token，所以说，我们往往会配上这个low level的啊，perceptor和executor，使它能够和各种各样的环境，进行交互啊，
像是大模型，它可以和我们的网网页环境进行交互，它作为一个智能体，作为个人助手，它可以去帮助我们user，去提供一些像定机票啊，去订酒店啊这样的一些服务啊，最终呢我们其实是用户心中，他其实想着是一个，我要achieve到的一个目标的状态啊，然后大圆模型通过和通过工具调用，或者通过和环境进行交互，最终啊，带这个用户走到他要的那个目标状态，我们其实user，它如果希望，能够检索到一些相应的文档的话，其实它的目标其实是达到某个status，然后通过agent的方式操作，最终我们可以走到这个status，而这个目标的status，我们完全可以是有一些别的，非信息检索的一些任务，比如说哎，我希望我家里面的冰箱里面，今天晚上出现青椒啊，那我其实是可以让我的agent，在网上去下单，去购买相应的青椒，并且送到我家里面啊，这是一种新型的一种啊，去达到某一种新的状态的，一个一种范式啊
包括我们梁一涛老师之前提到的，这个depths工作，可以让LM major和像Minecraft这样的游戏，去做相应的交互，去玩出来一些新的高度的performance啊，包括这个啊，Meta GPT啊之类的啊，通过把SOP注入到我们的啊，多正体协作的工作流当中，使得在这个协作过程当中，不要过于的发散，最终能够去协作出一个软件project，
像to former这样的任务，其实我觉得是一个啊最非常基础，但是能够产生啊，较为深远影响的工作啊，通过让agent通过大圆模型啊，它能够去呃，选择调用一些工具的API啊，然后将工具的API返回的结果呢，填充到它即将去啊，填补的这些文档的空缺的位置，最终完成一个更好的question answering啊，但其实啊，不止是question answering，它其实也是完全可以进一步的，将吐出来的这样一些文字啊，这些信号，再次去应用到下一步的这个决策，迭代当中去，去解决更加复杂的相应的问题啊，
所以说呢，我们其实LMH呢，他自己本身，还是可以去产生一些思维的，推理的因为我们做action的时候呢，大家可以发现，我们定义action本身，其实定义的是，它和环境可以直接进行交互的，改变，这个环境的信号我们叫action对吧，那如果说我产生一些信号，他不deliver到环境当中去，就在就像我们脑子当中产生过去的话，那么我往往叫思维吧，叫thought对吧，这thought，其实能够有助于我们进一步的，去做更加复杂的任务的推理，但是它不直接deliver到环境当中去，产生相应的影响，所以说在这将这两者结合的话，其实就会有类似于像react这样的工作，reasoning和action，都在同样一个framework下去做，输出但是呢，只有action会最终deliver到反应当中去，而reasoning中的thought，会帮助大语言模型进一步的去产生额外的一些思考啊，那么包括chain of thought，tree of thought都可以被更多的利用，
既然他有这样一个tree of thought的结构，当然可以像阿尔法go当中的MCTS，这样的一些技术，学习额外的一个价值函数啊，使得我们能够大致的知道说，往哪边去搜索啊，哪些action，最终deliver的一个后果是好的，哪些的后果是坏的，然后，在这样一个比较庞大的决策树下，可以去引导我们大语言模型，去做出相关的减枝，最终通过look ahead的技术，能够产生出啊当前可以有的更好的一个action。
在这里插入图片描述

第二类的范式呢，首先第一点就是说，基本上它是一个end to end 的 training，它不只是以一个已经被训练好的大语言模型为基础，更多的是，它就是一个强化学习的框架啊，然后呢，我们将强化学习当中的一些Module啊，去做出一个模型的一个更改，去完成跨任务跨环境的这样一个泛化，
在这里插入图片描述

这个范式下的话，我们往往训练的过程，就和一般的强化学习还会有所区别的，原因是因为我们既然是希望我们的，比如说一个agent，它能够在不同的任务上去做出泛化，那么往往我们训练它的一个范式，就变成了是goal condition reinforcement learning，而不是说我们是使用单一的奖励函数，它其实奖励函数源自于goal，goal怎么设计，奖励函数将会相应的被发展出来啊，
强化学习本身，它是由这么一些module构成的，像策略价值啊，等等，为什么他可以被这些model，为什么可以被大模型化啊，这行公式呢，其实是我自己呃总结出来一行公式啊，大家可以看到这公式当中呢，其实是有有这么几个模块出现，第一个模块呢，其实是我我我优化这个模型的参数啊，这第一个模块呢，其实是从某个数据分布下，我采样得到像SA这样的payer，第二个模块呢，其实是有一个类似于加码，或者是说，有一个类似于像加这个wait的，这么一个Mac的一个操作，第三个模块，其实就是啊，我去Maximus log，likely的的这么一个操作啊，大家可以看到，如果说我这个分布，是来自于专家的轨迹数据啊，那么MSA呢，有完全取义的话，那么它就是一个behavior colonial的啊，这个imitation learning的一个工作啊，如果说这个当前的这个轨轨迹数据，来自于我们当前agent交互出来的数据，并且Mac它是一个advantage function，或者是一个value function的话，那么这个gradient，它就是一个正常的policy gradient啊，它可以用类似于对，等价为PPU等等，这样相应的工作，如果这个数据本身，是一个离线的data say，采样出来的，并且我在这个过程当中再加上一些啊，conservative的regulation的话，那么它就是一个离线，强化学习的一个framework啊，所以说我们可以看到，是可以将这样的一个framework，其实啊既然它是可以以这种啊，MAXIMUM logolike可以获得的形式啊，的一个变种去做礼盒的话，我们就可以使用，类似于像sequation modeling当中的啊，MAXIMUM logolike获得的这种训练范式，只不过我们将其中的module，改成是强化学习当中的啊，基于Transformer的module啊，那这样的一些工作的话，其实也就是啊，这个我们将不同的task下的，一些专家轨迹啊，采样出来，有的时候，我们agent选择出来的一些轨迹呢，它其实是不是特别优秀的，我可能会把它毙掉，有的轨迹呢，它特别的result特别优秀，我们将啊采样下来，把它称作成专家轨迹啊，将这样的轨迹结合在一起呢，在同样的范式之下，就是上一页的那个公式，我们可以去训练一个智能体的policy，但是这种policy，我们往往统称它为通才智能体policy，它可以去完成很多的任务啊，它可以在新的task上，可能做出feel short的泛化，但是我们也不可能是说，让它这一个policy啊，能够在每一个任务上，能够去做的非常的精通啊，这个主要原因就在于是说，这个训练范式之下，如果我们只是使用behavior clone的范式它是没有价值函数的，在这种情况下，他可能只能学习的到一个比较啊，中庸偏上的一个智能体的一个模式啊，
那么这样的工作的话，其实在21年，由Berkeley提出来的decision Transformer当中，就已经啊初见端倪啊，我们其实是将这个一个upside down，Reinforce learning啊，的一个架构，用Transformer啊去给它实现了一下，将一个目标啊，其实这个return to go啊，是在它这边的一个啊，go的一个实现，它其实是一个go啊，就是说我希望接下来，能够达到怎样的一个目标，只不过呢啊，在decent Transformer当中，它使用的是我，我们agent在这个track，接下来，它可以去取得怎样的一个return啊，作为一个具体的目标，那么当场历史上给出来的那个action，则会变成监督信号啊，因为我有go，conditionary for some learning这样一个架构，所以说我们可以通过hintsight的方式，因为我目标要达到那个go，所以说当时的action，可以反而变成监督的action啊，来去直接训练我们中间的这样一个啊，策略的一个架构啊，那当这当然策略架构如果是像sober，它可以scale up的话，我们就可以往策略大模型，这个方向去走啊啊，于是一年以后，这个ghetto啊demon ghetto被提出来，这个其实也是我在22年的决策论坛上，啊已经给大家啊，讨论过的这样一个架构啊，被提出来，它使用了一套这个统一的架构啊，去在600多个任务上啊，将所有的多模态的数据，做出了tokenization，变成sequence of tokens，然后呢通过统一的，这样一个masking的一个源头啊，比如说机器啊，比如说机器人的话，它会有不同的频率啊，那么，我们就在不同的这个频率之下呢，出action的那些位置，我们要把它标标标出来，masking变成一，要去拿那个损失函数啊，要去拿那个action loss啊，比如说在对话上面的话，question这个部分是没有损失的啊，我就不拿全部mask为0对吧，在answer这个部分，全部mask变成一啊，去拿那个answer的损失还是等等啊，包括这个玩游戏啊等等也都是一样的，但是在同样的架构之下，我们就可以去训练这个GPD only啊，decoder only的这样一个transformer架构啊，那我们团队呢，也是在这个22年的下半年的时候啊，去开展了一个，对于get的一个副线工作啊，我们其实没有没有想到，会会花那么大的efforts啊，其实呃我们整个团队，大概有投入了15个学生左右啊，在800多个任务上，首先使用深度强化学习，拟合到这个任务当中的专家策略，然后再使用专家策略，去采样这个任务当中的专家轨迹，然后再选择了相应的一些数据，最终，积累了100T的这样一个专家轨迹数据，最终呢，训练出了这样一个可以同13.2亿参数，可以去同时啊，去去完成870个任务的这样一个模型啊，这个模型在这个过程当中，其实对我们而言，更多的是一个engineering的一，个积累而并不是在这个啊，这个model design方面，有任何的一个创新啊，那么最终呢，我们的这样一个模型，它是可以在类似啊question answering啊，visual language模啊QA，然后在游戏啊，在机械臂控制，在这个一些类目九口的控制环境当中，能够超过啊，达到专家策略的性能的76%啊，也还是可以的，并且在这过程当中，还有TSP这一类的啊，组合优化的文体，将这样一类的方法呢，我们其实可以用在机器，机器人的控制上面啊，呃这是我们在IC呃，ICRA2023上的一个工作啊，我们是将机器狗啊，落落上了这样一个啊，跟地形有关的Transformer模型啊，使得它能够更好地在地形上，去完成一个泛化性的学习啊，当然这个我们被称之为啊cm two real啊，dormitorization的技术啊，它就可以比较好的啊，相比于其他架构，比较好的遵循一个目标速度矢量啊，这个速度矢量，我们现在做出来的结果是，它可以全方位的去指啊，比如说我可以除了指向啊，往左往右往前往后以外，我还可以去指向，往往往往斜上方或者是斜下方啊，使得这个机器狗在走的过程当中，他还可以完成抬头或者低头的任务，一方面去看脚下的楼梯，另外一方面去抬头看到，我们现在需要让他找到门牌号啊，这样的话，他可以有更好的一个啊，上层任务的一个解决，此外呢，我们经常会控制这个机器口呢，会出现出一些关节损坏，或者关节失灵的这样一种情况，那么以前呢，这种情况出现之后呢，这狗就直接就当场就中断了对吧，那我们现在呢，会使用类似于像啊embodiment啊，wear Transformer这种架构，或者说对它去做一定程度的，一个关节失灵的一个泛化，使得我们将embodiment本身啊，Encode进当前的像，就像就像是一个condition一样的，一个架构当中去，使得他在关节失灵的情况下，仍然能够去哎，将另外三条腿啊去使用进来，能够完成一个，即使在关节失灵的情况下，我们仍然能够去完成行走的任务的，这样一个目标，除了这个，在策略上，我们去apply比较大的规模的，这种模型以外呢，我们还可以啊，在这个价值层面上去想办法scale up，其实到目前为止呢，使用在价值函数上，去使用较大规模的这种啊，工作其实还比较少啊，但是我们刚开最开始那个MCTS那一页，给大家诠释了，是说，是可以去使用一个语言模型的架构，去就跟GPT一样，它有个头出来是evaluate当前的价值啊，但是，在n to n的training的这样一个framework下，我们仍然是去思考说，如何去使用一些，可以scale up的一些framework啊，去做更好的价值函数的一个学习啊，Google这边提出来说使用，提了一个词叫queue Transformer啊，我后来才发现，Queue Transformer，其实是大家儿时看到一个动画片的，一个变形金刚的名字啊，呃他其实怎么做呢，我们想办法将多维的action，逐位逐维的action去做成序列，化啊那么这样的话，我们就可以上一个consumer，这样一个价格，在做q learning的这样一个，我们的一方面是offline的，另外一方面是q learning的啊，那么做q learning这部分当中呢，我们可以看到，如果说是action是中间的维度的话，我们就直接把它下一个维度，我们要的Max q拿过来，这是中间维度的action的TD啊和目标，如果这个维度，已经是这一个action的最后一个维度了，那么我们就直接把reward加上，下一个time step，action的第一个维度的q啊，做TD作为TD目标拿过来啊，这样做的话，其实我就将我的action，其实拆成了一个序列的过程，这个序列过程，我们套上Transformer架构啊，他有望能够更加scalable，能够他大概是看了一下有 3,500万参数，这个参数量，虽然比一般的语言模型要少很多，但其实作为价值函数而言的话，是一个非常不错的一个大的参数模型，啊然后呢，我们就因为它是离线强化学习嘛，所以说对于当时没选择出来的action，咱往往是使用，类似于像CQL那样的一个学习架构，将它的没有选择出来的action TOKEN啊，去对于当前这样一个q，往0进行学习啊，这样的话让它变得较为保守，不要走到OD啊，数据外的这个选择过程当中去啊，就是q Transformer，它的application仍然会落在，一方面是一些游戏，另外一方面是在这种机械臂的，这个操作的过，程当中去啊，然后对于环境本身，大家已经将上午也提到了这个，孙老师也提到了这个啊，世界模型啊，我们在强化学习范畴之下呢，经常会说的是环境模型啊，就是environment Dynamics model啊，丁曼的原班团队呢，其实在1年以后啊，在丁曼的这个gather出来之后，的一年以后，又提出了一篇工作，是使用啊，几乎一样的架构，但是它build的是一个environment model，它叫称之为叫Transformer Dynamics model啊，TDM这个model呢，大概是3.6亿参数啊，这个model拟合了一些比如像类目，周口这样的一些环境，之后呢它在这个环境上，去做MPC的一个action的一个选择啊，你会发现什么呢，你会发现说相比于behavior colony，一年前的ghetto这类的技术，我们一起拟合的是一个中庸的，较为偏上的generalist agent，咱不如去拟合一个generalist environment，在这个environment的一个基础之上，咱可以去做planning，这样选择出来的action，其实它会被证明说是比啊，我选择一个中庸的，你和的generalist agent policy选择出来的action，要效果会更好一些啊，此而言儿，这个方向的话呢，这个demon又发布了，这个接领啊，就是最近发布的一个工作，它使用了是视觉生成的一个信号啊，我们可以产生数秒的这样一种，像短视频的这样一个信号，基于当前的帧数，我们可以去简单的去infer说，在一个action sequence之后啊，我们这个environment去发生何种的变化，那么将这样一个叫做呃ST Transformer啊，可以和一个lightened action model，去构建出一个更好的啊，动态模型，并且能够产生啊，我可以去play这个game啊，或者说我们去可以去根据task instruction，去想象说机械臂接下来take action之后，接下来可以走到怎样的一个状态啊，然后再去对于当前的action，去做出一个啊，修复和执行这样一个工作啊，面向于这个Marty呃Marty agent方面的话，其实我们和这个呃徐索团队啊，在22年21年的时候，其实就有一个早期的工作，当然最近啊，在去年的时候被这个MIR所接受啊，这个MR正好也是我们今天看到MIR的，这个摊位啊，我们将agent之间啊，去做了一个持续上的延展啊，并且在每一帧上呢，去完成agent之间的interaction啊，这个是沿着持续展开的，March agent decision Transformer的工作，它能够被证明是说，可以在大量的离线数据之上啊，能够去训练得到一个基础的啊，March agent control the policy和act，然后呢我们可以在一些在线的，这个新的一些任务上，去做出额外的微调啊，包括actor，包括啊我们的critic啊，最终呢，能够在类似于像心计这样的任务上，能够取得更好的新环境上的，一个feel show的泛化的能力啊，此外呢我们后续也会发现，说a证与a证交互，可以将a证看成是一条序列啊，比如说有10个a证的交互，可以看成一条10个a证的，组成序列，大家可能会说，我为什么要将a证看成序列呢，啊其实也是序列，也可以不是序列，因为全松文本身它虽然叫序列模型，对吧但是它，其实它是不是一个在序列上去做啊，这个循环层的这样一个模型，所以说它只是将position encoding啊，放到了，我们的这个set的每一个elements当中去，啊所以说我们是有理由相信，将将agent本身去做出一个啊，序列化的这样一个建模，之后呢我们在允许中心化执行的，这样一个setting之下，是可以让我们所有的item的，是在每一帧，首先去计算出相互coordinate的action，然后在一起deliver到environment当中去，这样做的话，它的它的这个coordination的啊，这个架构，就会比centralized的，training d，centralized execution的这种架构会更强啊，只要我们的环境，我们的setting啊，是允许我们做中心化执行的，那么我们何不使用中心化执行的，这样一种架构呢，啊，所以说，无论是星际还是呃Google research book，呃呃Google这个footbook啊，他都可以，只要我们的呃，这个执行器满足这个相关的要求，他就可以去做出中性化的执行，那么中性化执行的话，大家就可以同时去采样，选择出相关的动作，在一起deliver到environment当中去，这样做的好处在于说，有的agent，它就可以去condition on前续，agent已经可以准备产生的action，然后再去计算，当前我这个agent应该可以产生的action，而这个过程，我们可以使用啊Transformer的架构，去对它进行一个啊sequence建模，无论是啊Critic的建模，还是每一个agent policy建模，它都可以去使用这个架构，我们称它为Marte agent transfer这个架构，这个架构在后续的一些呃，这个Benchmark当中，也是可以被，被证明说是一个SOTA级别的performance，当然这个对比的别的performance的话，也也很也很正常，原因是因为，别的算法大部分都是centralized training的，centralized execution啊，而我们这个mat呢，它其实是centralized execution的，所以说本身呢，setting也确实是要更加容易获得，coordination的能力的啊，
在这里插入图片描述

总结

好那么这两种算式，我们刚刚其实讲了一种是LM agent，它其实是基于一个pretrain好的大语言模型，去作为基础啊，然后在一些任务上去做啊，对其法人丘陵等等啊，还有另外一种任务呢，则更多的是一个端到端强化学习，只不过我们是将它的module去做的更大，更有更high capacity，这两种范式，其实，我们可以如何对它进行一个融合的，啊，其实在目前大家可能会越来越关注的，聚身智能，这个方向上，可能会得到一个融合啊，除了我我我这边提到的一个点，其实是不只是双层啊，可能是有三层架构，
当然最高的这层架构叫consciousness层呢，其实还没有太多的工作在这上面，它可能是一个1到3赫兹左右的，这样一个频率，在控制这个机器人的自主意识啊，基于此呢，我们下面会有一个3到，10赫兹左右的这个这个认知层啊，是基于我们当前的啊，vision language model或者是纯language model agent，去对于当前的任务啊，去对于当前状态去做评估，去做出认知，做出任务的规划啊，然后呢我们下底层其实会有这个啊，对于环境的感知层，和我们底层的动作的控制层啊，包括我们之前去控制机器狗，或者说控制人形机器人，它都是有一个五十赫兹以上的，这样一个啊，控制的一个频率啊，再和环境进行交互，但是这个频率，它很显然，是不可能有当前的大语言模型啊，或者是大的微信language摩托去控制的，而更多的是一些比较小的控制模型啊，它可以更好的，去和中层的这样一个认知模型，进行交互，共同完成啊，这样一个控制，此外这个这个分层架构呢，它其实不不像我们之前讲的，to use那种架构啊，to use那种架构，其实是说中间的cognation层啊，大语言模型agent它调了一个任务之后，调了一个工具之后，它在等那个工具返回的结果，它再进一步的去往后走，而这个架构，它更像是平行执行的一个架构啊，我们的low level Controller和proceptor，一直在执行啊，直中间呢，我们再以一个更加低的频率呢，再去调接下来的这个，中层的一个任务的推理，或者是分解啊，在人形这边呢，其实我们会有一个更加明显的体现啊，其实大家可以基本上啊，看到现在目前为止，人形机器人他做的一些主要的工作，主要demo其实分为两部分，第一部分就是类似于啊，这个open AI figure one的这样一种结构，就是说它其实更关注的是一些啊，智能的任务，包括和人去直接进行沟通，能够对于任务进行拆解，但是它的action，大家可以看到都是接近于静态的action，什么意思，就是说我以最慢的速度执行，我也仍然能够执行下来啊，叫做静态的action，而另外一类任务呢，则更多的关注机器人的agility，就是它的灵活度，比如说以语数，或者Boston Dynamics为代表的这种机器人，这是真机视频啊，不是虚拟视频啊，这个它是做了一个后空翻的，这样一个纯电机的机器人，它首先是在模拟环境当中去使啊，使用深度强化学习，训练出了一个啊翻，翻空翻的这样一个policy，再通过SIM to real transfer，再到现实当中去啊，完成这个现实当中的，这个运动的一个控制啊，所以说在这两方面大家可以看到，其实呃，open AI的这样一个figure one机器人，就是中层的corporation架构，而这个语数，或both Dynamics的一些agility级别的控制，则是低低层的，这个非常高频的这样一个控制架构，而这两者智能，将会在非常快的速度之内，我们相信，它可以去完成一个范式的融合，好那么这就是我今天的分享，
我认为呢，决策大模型，是打造通用决策智能体的基础能力啊，它是我们新一代人工智能的底层技术，啊，然后他我们目前呢大致看到了两类的，范式的一个技术，包括，使用基于大语言模型做额外微调的，这样一种AIA技能的一个范式，以及啊通过end to end training啊，使用大的强化学习模块的这样一种啊，延展式的范式，这两者的融合呢，可能会在这个智能体的多层啊，通用决策智能体的多层上面，去完成一个相互的融合，能够为我们接下来的智能决策的，打开一个新的技术的一个通路，以上就是我的汇报啊，

在这里插入图片描述