智能机器人在动态未知环境中的路径规划方法探寻
摘 要
目前,智能机器人面对动态未知环境的避障及路径优化问题仍存在一定困难,而恰恰这方面的应用研究更具有实用价值,如灾难搜索营救、安保巡逻、家政服务、导游迎宾、餐饮服务等都要求机器人能够进行环境探测分析、主动避障和路径规划的能力。本文作者将强化学习的思想用于移动机器人在动态未知环境的路径规划中,结合改进的学习算法,实现机器人对运动障碍物的有效躲避,并通过仿真实验证实了该策略和算法的有效性。
【关键词】智能机器人 动态未知环境 路径规划 强化学习 状态预测
面对大多数实际工作环境,机器人不仅对空间信息做不到全局掌握,而且在工作环境中还存在随机移动的障碍物,这就需要工作机器人能对环境进行有效地探测,并做出合理的路径规划。因为对全局环境的不可预知,局部路径规划方法更适合于机器人在这种动态未知环境下使用,它只需要机器人获得较近的障碍物信息,避开对其安全行驶构成威胁的障碍物。通常情况下,机器人利用传感器反馈的信息实时规划出机器人的运动轨迹,这种方法可以处理环境中的不确定因素,实现在线路径规划。
多数研究者认为要使机器人系统具有更大的潜能,其控制系统应具有学习能力,已经提出学习方法诸如神经网络、进化算法、强化学习以及它们的一些组合。其中,强化学习具有对复杂系统的自学习能力和较强的在线自适应性,在机器人研究中受到广泛的关注。将强化学习的理论及算法用于移动机器人环境探索中可以使控制系统具有良好的冗余性和鲁棒性。
1 初始状态设置及环境模型
本文讨论的初始机器人和障碍物均随机分布于工作环境中,且障碍物形状任意、数量有限。为了使问题简化,我们只考虑二维环境下机器人在运动方向正前方210°范围内的避障问题。沿运动方向在机器人周围对称安装7个超声波传感器(cs)和红外传感器(hs),感知范围分别是规划区和避障区,传感器布局如图1所示。如果机器人与障碍物的距离大于避障半径r,则机器人可以向目标点匀速直线移动;如果机器人与障碍物之间的距离小于r,则需要实施相应的避障策略。
同时假定机器人能够在狭小的环境区域内自由转身而不会与障碍物相碰,因此在路径规划算法中不必考虑机器人的转动半径。
以下是文中使用的参数:机器人与障碍物之间的距离;机器人与目标点间的距离;机器人运动方向与机器人到目标点间连线的夹角α;最小危险距离dmin,安全距离dmax。
2 基于强化学习的移动机器人在规则运动动态障碍物环境中的路径规划
2.1 运动障碍物的预测与模型
当机器人在含有运动障碍物的环境中移动时,需要将运动障碍物t+Δt时刻的位置信息作为机器人规划路径的一个重要依据,所以我们首先要预测出运动障碍物在t+Δt时刻的位置信息,即状态预测,同时与路径规划方法相结合以解决含有运动障碍环境中的移动机器人路径规划问题。
机器人通过传感器获得一系列按时间先后排列的离散的障碍物位置数据。对于规则运动的障碍物,当前时刻t的位置与时刻前的位置、……呈线性关系,所以障碍物位置坐标可以表示成式
,其中均为未知待估参数,随着机器人不断运行中检测到的障碍物位置信息实时修正参数,得到运动障碍物未知的预测值。如果障碍物当前时刻的位置坐标为,相对运动速度沿X轴的分量为,沿Y轴的分量为,采样周期为,则障碍物下一时刻的预测位置坐标即为:。
2.2 路径规划策略
移动机器人在规则障碍物环境下进行准确路径规划的前提是能够对障碍物下一时刻的位置做出及时准确的预测,针对该问题,作者给出了相应的路径规划策略和流程图。
智能机器人按时间周期采样当前状态,若没有检测到运动障碍物,则向目标点直线移动;若发现就要马上对障碍物在下一时刻的位置进行判断和预测,具体方法是:
(1)当预测障碍物的位置与机器人运动方向的垂直距离大于安全距离时,则暂时不需要避障,机器人继续向目标点移动,否则就要实施一定的避障策略:当预测障碍物的位置与机器人运动方向的垂直距离介于时,根据障碍物的运动方向与机器人的运动方向的夹角决定机器人的下一步动作,是沿原运动方向移动?还是待障碍物离开避障区域后继续前进?还是调整一定角度后沿新方向继续移动。
(2)当预测障碍物的位置与机器人运动方向的垂直距离小于dmin时则视为避障失败,机器人需要沿原路返回至安全区域重新选择动作。以上过程的流程图如图2所示。
2.3 强化函数的设计
考虑到障碍物的运动特性,我们将机器人的运动建立在一个坐标系上,β为动态障碍物的运动方向在该坐标系上的对应角度。因此,针对躲避动态障碍物的强化函数表示为:
。移动机器人在规则运动障碍物环境下的强化信号函数设计主要考虑被预测的动态障碍物下一时刻的位置与机器人运动方向的垂直距离d和β,以障碍物在机器人右侧为例给出f(d,β)函数:
强化信号的设计原则主要依据在下一时刻,若障碍物的运动方向相对机器人的运动不造成干涉,则给一个较大的强化信号;否则就给一个较小的强化信号。此外,还要考虑从完成任务全局设计的强化函数r,设计为
,因此,机器人最终得到的强化函数为:。
2.4 算法描述
(1)状态初始化:,。
(2)观测当前状态,预测下一时刻状态,根据动作选择策略选择并执行动作。
(3)得到强化函数,环境状态转入;
(4)观测下一状态,根据动作选择策略选择动作。
(5)计算时刻t的时序差值: 。
(6)更新所有状态的资格迹函数:
(7)更新所有状态—行为对值函数:
(8)如果机器人没有到达目标点,则,循环(2)~(7);如果稳定达到期望的控制目标,则结束整个学习过程。
3 仿真实验结果与分析
仿真实验是在50×50的栅格环境下进行,规则运动障碍物沿水平方向做往返直线运动,运动速度与机器人的移动速度一致(蓝点表示运动障碍物,红点表示目标点)。首先让移动机器人在简单的规则运动障碍物环境下进行学习,积累躲避规则运动障碍物的路径规划经验,然后将经过学习的机器人置于动态未知环境下进行路径规划,实施合理避障。从仿真实验的结果看,机器人在学习末期得到的运动轨迹顺利避开了运动障碍物并选择了较优的路径到达目标点,如图3所示。
图3:学习末期机器人完成路径规划时创建的地图
4 小结
本文主要讨论了单个机器人在规则运动障碍物环境下应用强化学习的方法进行环境探索的路径规划策略,仿真实验的结果证明移动机器人通过不断学习,实施该策略可以有效的躲避规则运动的障碍物,选择合理的路径顺利到达目标点。
参考文献
[1]易晨,樊晓平,罗熊.平面移动机器人最短路径规划的几何算法研究[M].长沙铁道学院学报,2003,21(1),52-56.
[2]黄素平,何清华.一种移动机器人路径规划方法[J].机床与液压,2004(5):28-30.
[3]张彦.未知环境下移动机器人路径规划研究[D].中国科学技术大学,2007.
作者单位
山东劳动职业技术学院 山东省济南市 250022