1.强化学习方案

生物最大的特点是在完全对外部世界不存在精确模型的前提下通过环境交互获取奖励提高智能体对环境的认识(强化学习),通过专家的评判和标签构建正确与不正确的模糊映射(深度学习)从而用实现用时间换经验的方式,提高环境模型的精度采用简单的方法论能适用于不同的任务。

对智能体训练最有名的工作就是由Google DeepMind提出的AlphaGo项目其通过计算机上万次的模拟博弈与学习超越了人类选手,后续其更是被进一步推广到星际争霸或Dota2等电子竞赛游戏中使得智能体能更加胜任复杂决策和多维度操作的任务。

ALphaGo深度学习模型

AlphaGO基于深度学习和强化学习技术从人类棋谱中提取特征信息和决策方法,在模拟环境中进行大规模自我博弈从而不断训练智能体采用对抗式训练的方式不断提升最终智能程度。

基于该框架大大推动了强化学习技术的发展,从早期的Q-Learning采用查表方法解决离散控制问题的算法,进化到DDPG和PPO这些能解决连续状态和连续输出的强化学习算法,后续出现的A3C更是实现了大规模并行运算的能力大大加快了智能体的训练速度,随着强化学习基础理论的深入智能体已经能从小样本学习中获取长期回报,网络训练能有效避免局部最优具有更好的泛化能力,采用同一个框架能更好地解决多种不同的任务,如最早期的倒立摆、小车避障到现在的多自由机械臂抓取控制甚至是仿生机器人本体稳定控制,相比传统算法其能训练出更自然并且更复杂的步态。

如OpenAI提出了一种端到端的足式机器人强化学习系统,解决了传统足式机器人步态算法设计复杂和参数调节困难的问题。为加快网络的收敛其首先提供了一个开环的步态信号让机器人在虚拟环境下进行有监督学习,通过建立精确的电机模型并且增加仿真延时来解决向实际机器人系统中的滞后,同时在仿真环境中为增加了模型的随机扰动来提高模型的泛化能力,最终其实现了四足机器人Trot和Gallop步态的学习并成功在真正机器人系统中部署,论文中使用PPO网络完成了网络的训练,系统状态为机器人关节角度和IMU测量姿态数据,最终输出期望的电机角度,而奖励函数则希望能最大化机器人的移动速度。

OpenAI强化学习迁移

强化学习技术也同样被应用于双足机器人上,研究人员提出了一种新的训练方法使得机器人在学习新步态的同时不会对已有的技能产生遗忘,该算法实现了仅需要少量的训练样本就能达到有效学习的目的,同时将有监督学习与强化学习向结合,使用已经收敛的策略作为参考通过增加新的奖励函数来学习新的技能,通过分层强化学习的方式大大提高了对多维度机器人训练的效果。

分层强化学习Cassie

ETH在近年来公开发表了多个AI训练机器人的成果,智能体不但相比传统控制算法在提高机器人移动速度的同时降低了能耗,同时实现了流畅的倒地自恢复和跟随音乐自己舞蹈这些传统逻辑编程难以实现的功能。为减少执行器、数据通讯和减速组带来的模型非线性和反馈滞后,构建了单独的神经网络对执行器进行有监督学习,较好地估计出减速组驱动器的力矩输出,并增加了一个关节记忆存储网络来帮助检测机器人腿部触地模态。

ETH通用强化学习框架

上述方法针对智能体的训练大多采用贪婪算法,即让其随机在动作空间中尝试,因此往往最终训练出来的步态与实际仿生步态相差较大,同时模型收敛没有指向性导致网络收敛慢。

为解决该问题伯克利提出了一套完整的解决方案Deeploco和DeepMimic,其较好地结合了强化学习、分层学习与模仿学习,智能体能基于参考的行为轨迹比如采用动态捕捉系统捕获武打演员的关节数据训练智能体,提高训练的指向性智能体首先模仿参考行为输入进一步在物理仿真引擎中二次训练模型使得其能更好的适应不同程度的干扰,采用分层训练的方式智能体能在保证本体模型稳定的前提下进一步增加新的目标,如末端跟踪一个目标或者固定一个姿态。

Deeploco强化学习框架

可见,上述框架形成了一套十分工程化的智能体训练框架,首先基于高精度视觉动态捕捉系统为智能体提供目标的参考行为,之后采用分层和并行强化学习的方法在仿真环境中进行二次学习提高模型的泛化能力,最终通过迁移学习和ETH等大学提出了分级学习、伺服模型预训练等方式完成在真实机器人上的部署,但该团队目前没有相关面向机器人实机部署强化学习模型的成果,最新研究成果被应用于游戏人物动画和影视CG渲染中。

综上,总结基于深度AI学习的控制方案特点如下:

(1)深度AI学习不需要精确的模型,采用通用的方法论来解决所有问题;

(2)智能体指向性训练是目前需要解决的重要问题,网络泛化能力不足,训练时间长网络收敛慢是工程化应用中需要解决的主要问题;

(3)仿真环境与真实机器人上的模型部署是未来的主要研究难点,如何解决虚拟模型和物理样机间存在的滞后和模型误差不但是算法上进一步优化的方向也需要软件编程、智能硬件研发支持;

(4)网络模型为黑盒,训练完成的智能体难以进行局部修改和改进优化,训练成果间的迁移与保留任然是目前难以解决的技术难题;

2.降维解耦控制方案

如前文所述仿生控制最大的特点是相比传统控制系统具有自学习和自优化的能力,即控制算法能对所采用的数学、控制模型在线辨识、对能对反馈状态进行预测估计、采用自适应控制和优化算法来解决系统参数摄动和模型失配,最终与AI深度学习方法一样在总体目标下优化控制系统达到最优。

对于复杂的机器人控制问题目前主要还是归结到传统的控制和状态估计框架下,近年来随着优化理论的发展以MPC和QP优化为主的新兴控制方法得到了逐步的应用,传统的现代控制理论如LQR、滑膜、鲁棒等控制算法更是成为如无人机、自动驾驶技术中采用的先进技术,使得对复杂机器人系统的控制精度、控制鲁棒性都得到了极大到的提高。面向足式机器人等仿生机器人来说其相比传统无人机或车辆自由度更多、非线性、欠耦合问题更加明显,因此对该类系统的精确、鲁棒控制一直亟待突破。为解决这类复杂问题国外提出了一系列的相关控制框架,其中以波士顿动力公司CEO Raibert提出的降维解耦分层控制框架作为代表,将足式机器人动态平衡技术提高了一个层次,后续MIT和ETH继续将该框架推广扩展引入LQR、QP优化和MPC等非线性控制理论取得了诸多突破性的进展。

无人机与足式机器人

分层降维解耦控制可以归结为仿生控制框架中的一种典型代表,其将复杂的机器人抽象为刚体非线性控制问题,仅建立与伺服驱动输出相关的力分配模型即可实现对机器人的动态平衡控制,同时面向不同的伺服驱动执行器引入相应的柔顺阻抗控制模型提高与环境的交互柔顺性,其除了可以适用于无人机控制外也能应用于车辆控制和足式机器人控制。

如类比生物该框架能与脑机控制一一对应,大脑完成基于外部传感器数据的处理产生决策命令完成对简化刚体模型的虚拟伺服控制,面向足式机器人该简化模型可以一般弹簧负载倒立摆模型,通过在顶层进行虚拟伺服控制产生刚体位姿调节所需要的虚拟力和力矩控制量,进一步在底层完成对控制量向驱动执行器的映射如在足式机器人中采用QP优化或传统静力学分析的方式完成对虚拟力的分配输出,最终将关节输出中引入柔顺阻抗控制模型构建类生物体的神经末梢感知和交互能力。

上述降维解耦控制模型中最典型的就是波士顿动力早期提出的三通道解耦控制,将倒立摆稳定控制简化为高度、姿态和速度三个通道,分别构建简单的PD控制律实现机器人的控制,最终将需要的弹簧力和机体扭矩输出给伺服执行器和液压执行器。

Raibert简化倒立摆模型

上图所示为Raibert采用弹簧负载倒立摆模型简化足式机器人,假设机器人质量集中于机体并忽略腿部质量和惯量,则基于虚拟腿理论抽象为与质量块连接的单弹簧,进一步基于SLIP运动模型实现腾空和支撑的状态切换并以周期形式规划仿生前馈信号,即实现弹簧能力的补偿和吸收规划正旋的弹跳力前馈、前向牵引力前馈和侧向扰动引起的落足点前馈。

进一步,基于在质量块上构型刚体控制虚拟伺服,实现对机器人三轴加速度和角度的控制,输出全局三轴期望力和力矩实现刚体位姿的闭环控制,通过叠加前馈信号实现腾空相控制,通过所述力分配算法将虚拟力向足力分解,进一步转化到跨部坐标系采用雅克比矩阵结合位力混控算法输出个关节期望扭矩,并最终转化为电路命令发送给电机实现电流环控制。

可见,采用降维解耦的框架整个四足机器人的控制流程十分清晰,采用分层控制的思想近似生物简化复杂行为的机制,而对其中各部分的优化正是近年来国外学者主要的工作核心。

传统降维解耦框架

(1)全局轨迹和落足迭代规划层:

足式机器人往往面向复杂地形仅依靠本体IMU和运动学数据是难以应对上述任务要求的,面向复杂地域如碎石地、梅花桩或壕沟、楼梯等传统轮式机器人无法应用的地形足式机器人需要借助外部感知数据建立地形障碍物拓扑图在全局层完成本体运动轨迹和落足点的规划从而提高越障能力,目前主要基于激光雷达或深度视觉的技术建立机器人周围的高精度立体地图,在该方面研究中以ETH、MIT等大学作为代表具有在矿坑、厂房等工业场景下建立精确感知地图并对机器人本体进行运动学规划的能力。

由美国DARPA支持的仿生机器人研究项目重点关注了仿生机器人在复杂地形下的行为动态规划问题,以波士顿动力公司为例的LittroDog其基于环境高度包络图能实现对机器人落足点的在线规划,保证跨腿时机器人末端位于平整安全的区域。

落足点离线规划与SLAM感知建图

另外对于一些高难度的全身配合行为如前扑、后空翻等采用传统的反馈控制首先无法保证对轨迹跟踪的快速性,另外期望信号也难以设计,因此需要在顶层依据任务进行全局运动学规划产生最优化的轨迹和前馈信号,进一步底层虚拟阻抗控制器完成对期望轨迹的跟踪,如MIT Cheetha3就基于非线性优化技术实现机器人跳跃上50cm平台的复杂任务,系统通过离线优化方式基于简化动力学模型规划起跳阶段各关节的轨迹命令,在落地时基于QP优化力控实现稳定控制,由于在优化过程中不但考虑了机械模型和能量模型,最终的规划结果能兼顾能耗和成功率,该框架同样适用于后空翻等任务,但由于采用离线规划的方式为主使得其难以应用于机器人崎岖地形下的越障行为控制。

MIT离线空翻规划逻辑

面向广域地形下的越障行为规划问题目前主要还是借助SLAM技术与非线性优化技术相结合在任务驱动的机制下让机器人自主确定向航迹点的运动轨迹与底层行为规划。以MIT研究团队为例其基于深度视觉感知数据完成了机器人对障碍物动态避障和崎岖地形落足的修正,其采用Intel T265运动捕获相机自带视觉里程直接输出全局定位数据,基于D435 RealSens 深度相机建立包络图和避障地图代替传统昂贵激光雷达方案,进一步结合MPC控制和全局位置估计对已有倒立摆模型落足点进行位置修正。

MIT视觉感知与落足点在线规划

上述方法主要基于原始倒立摆模型采用SLAM感知数据进行二次修正,实现简单仅需对原始控制系统中落足环境进行修正为实现对机体质心轨迹进行规划,因此难以实现高动态和高坡度斜面下足端滑移的控制规划;以ETH为代表的研究团队采用动态优化的方式实现了机器人在多个大斜面间的跳跃切换移动,其采用MIP混合整数非线性规划和图搜索等理论来获取最优路足点,但局部最优以及无法完全考虑障碍物碰撞等问题需要进一步研究,如目前比较常用快速扩展随机树(RRT)算法就被ETH研究人员成功应用于解决机器人在狭小崎岖环境下的顶层规划问题中。

在规划过程中首先基于全局规划算法获取质心运动轨迹进一步结合SLAM感知数据规划落足点信息,经过运动学和机体碰撞模型检测修正后调整规划结果,最终结合机器人腿部运动学工作空间完成对落足轨迹行为的优化。

ETH全局位姿优化与落足规划

(2)刚体非线性模型控制层:

面向分层解耦控制框架的改进优化方法,国外学者提出了引入先进控制理论的想法,如对无人机控制来说其可以作为该框架最简单的代表,其将飞行器简化为刚体采用PD控制产生机体所需要的升力和扭矩,进一步将该虚拟控制量进行分解到各螺旋桨转速从而实现飞行,在该问题中传统的PD线性控制器难以满足刚体非线性模型、多输入多输出系统的设计,其参数调节和稳定性分析都十分复杂,因此研究人员引入了如LQR和H无穷等面向非线性系统和未知内部参数扰动的先进控制算法,并取得多方面的效果,相比原始控制器能更好的抵抗外部干扰、传感器数据噪声以及模型变化,同时对于多输入多输出系统的稳定性分析和参数调节也更加具有了指向性,另外也可以进一步引入许多自适应控制方法提高控制系统的稳定性。

对于虚拟控制分配问题可以类比为对顶层直觉控制量与实际物理模型间的空间映射,如对四轴飞行器来说就是将虚拟力分按飞行器动力学和构型分配和各个电机,对于多足机器人来说就是将虚拟力按机器人腿组构型、位置、支撑情况分配給各虚拟腿。对于无人机或特殊步态下的足式机器人力分配问题往往可以得到解析解,但对于更复杂的步态或电机角度则往往面临求解超定方程和多冗余分配问题,因此研究人员引入了最优化理论,通过增加约束条件来保证最终的分配结果满足实际控制的需求,MIT和ETH等大学在早期足式机器人控制中将虚拟输出分配的问题归结为非线性优化问题,采用QP优化工具和理论求解,实现对冗余分配问题的求解同时满足实际控制中面临的力约束、能量约束和关节物理参数约束问题。

在上述的控制问题中顶层的直觉控制和底层的分配求解无论在PD还是QP框架中都是明确划分的,未考虑顶层刚体可能接受到感知数据需要在空间中进行轨迹控制的问题,它们与传统状态反馈控制类似主要完成对系统平衡状态的问题而无法做到对轨迹的跟踪控制,而要实现更自然和更仿生的控制需要进一步引入轨迹优化控制思想,因此国外研究学者目前主要采用MPC理论来解决上述问题,如MIT和ETH就采用在上层简化刚体模型并规划轨迹,在底层考虑机器人本体复杂的数学模型,从而产生更符合机器人动力学特性的关节伺服命令,最终完成对轨迹的精确跟踪,基于该方法其统一了分层框架将控制、分配优化、柔顺控制均涵盖在了统一的框架下处理,但随之带来的是运算量的大大增加,因此目前的方法仍然是将完整的MPC问题融合进一个或多个QP子问题,再通过实时求解这些 QP 问题来产生最终的关节轨迹。

MPC控制框架

传统MPC控制问题采用复杂的模型,算法每个控制周期所需要的滚动优化带了了巨大的运算量,这使得MPC控制的周期相比传统算法来说很低,对于一些高动态如足式机器人快速奔跑任务来说其稳定性和参数敏感性制约了其的进一步应用。为解决这一问题MIT提出了新的框架仍采用MPC完成对刚体简化模型的控制,进一步引入机器人全逆动力学模型的WBC控制,完成对简化MPC模型低速率控制量的快速进行修正,从而大大提高对高速和机体惯量扰动的控制性能,同时也提高了整体的力控带宽。

MPC+WBC四足机器人控制策略

(3)底层柔顺伺服控制层:

仿生机器人往往需要与地面或者其他物体进行交互,在全力控机器人系统中除了需要保证按照上层控制率完成对虚拟控制量的输出外还需要具有一定的柔顺性,在保护关节执行器的同时提高机器人对抗外力冲击的性能并提供移动的稳定性,这在崎岖地面和机器人从高处落下时十分重要,以MIT等机器人为例其能从2m以上的高台落下采用阻抗控制实现生物腿的虚拟弹簧缓冲效果,因此可以看到阻抗控制实际是通过主动调节执行器的刚度模拟不同的弹簧性能从而提供机器人末端对期望力的跟踪效果。

阻抗控制模型

传统的阻抗控制或者导纳控制主要采用简化的弹簧模型来确定最终执行器产生的力矩输出,其通过给定合适的阻抗模型参数就能模拟不同的柔顺效果,保证在冲击接触下对期望信号稳定的跟踪。

3. 复合方案

采用人工智能的方法不需要机器人精确的模型,仅需要训练数据就能实现对复杂任务的不断提升,但采用黑盒模型使得无法对其内部具体性能进行针对性优化,同时神经网络训练成本和难度较大,对于多自由度机器人控制问题仍需要继续提出新的理论和方法,但对于复杂逻辑决策控制采用人工智能除了能实现复杂的逻辑外还能在任务驱动的模式加自主迸发出新的最优的决策机制与行为;采用降维解耦的方法能较好地满足工程设计的需求,分系统对各环节具体技术问题和需求进行优化,但传统算法采用固定参数和线性控制理论使得系统缺乏自学习能力,难以应对复杂的任务和环境动态变化,另外从直观上得到的步态行为机械感太强缺乏仿生性能,更难以实现复杂和高难度的步态行为,因此目前许多研究机构开展了将两种方案融合的新框架,希望借助人工智能技术提高现有控制系统的智能化程度,实现对典型控制模型参数的在线学习以及行为动态决策规划。

(1)全局规划层深度AI混合方案

全局规划层主要承载对机体质心轨迹、机体姿态和落足点的规划,传统算法基于SLAM感知数据和遥控控制命令完成对期望速度的生成,机体控制器基于虚拟伺服完成对其的反馈控制,目前ETH的研究人员在传统规划层中引入了人工智能和深度学习和模仿学习技术有效提高了机器人的仿生行为能力,如其通过深度学习技术实现对音乐向步态行为的自动转换,进一步基于MPC稳定控制器对该自由步态信号进行跟踪实现了机器人跟随音乐自主扭动舞蹈的复杂仿生行为。

对于仿生机器人主要应用的野外自主作用任务来说,引入人工智能技术已经是目前的主要趋势,除了简单地采用深度学习技术对可疑目标、障碍物和地面可通行区域的在线识别外,还可以引入强化学习技术让机器人不断在任务中学习提高自身对避障或者目标搜索任务的执行能力,调节系统模型参数规划最优的质心轨迹位姿。如ETH的研究人员就基于CNN循环神经和2D RGB图像,通过有监督训练完成对不同路面可通行需求的自主分类并进一步借助SLAM系统提供的精确空间位姿和障碍物包络图规划落足点,从而实现机器人在给定航点间的自主路径规划和步态行为动态切换。

ETH基于有监督学习的步态规划与轨迹规划

(2)刚体稳定控制混合方案

在分层控制框架中刚体稳定控制层主要完成对顶层期望轨迹的跟踪,在人工智能方案中目前主要借助强化学习和模仿学习方法完成对机器人本体在虚拟仿真环境中的训练,通过设定不同的任务提高智能体模型的泛化能力,最终将模型迁移到实际模型中二次学习解决仿真与物理实际存在的误差和延时,在分层架构中则基于现代控制理论和状态估计理论通过建立系统的非线性模型采用如PD、LQR或MPC等不同的控制理论完成对系统的反馈控制,以MIT等高校为例目前主要采用最优化控制理论完成对机器人这里多自由度、多输入多输出非线性系统的控制问题,而将人工智能技术引入在传统控制理论中也是目前的一个主流方案,如最简单地采用神经网络在线调节控制器的增益参数以更好地使用系统的扰动,或者采用其辨识系统模型参数从而主动调节控制策略,提高机器人在执行器顺坏或模型失配时的控制性能。

如ETH的研究人员就在传统MPC控制理论上进一步引入强化学习技术解决其控制频率低等问题,通过建立最小化哈密顿控制函数的强化学习机制提高了对约束条件的逼近能力并最终实现了多种不同步态的稳定移动。

ETH基于强化学习改进的MPC控制框架

综上,总结分层复合AI方案特点如下:

(1)保留分层架构针对性解决类脑控制框架中各环境的任务;

(2)通过引入AI模型提高了系统的自适应能力,具有在线学习、经验记忆回放机制,能自我演化为最符合任务的控制范式;

(3)避免了纯AI框架下的黑盒模型易于系统升级、维护与二次开发;