结合LSTM的强化学习动态环境路径规划算法-Linux大棚

admin 管理员组

文章数量: 1184232

2024年4月13日发(作者：base解码网站)

小型微

型计算

机系统

Journal

Chinese

Computer

Systems

2021

年

月第

期

Vol.

No.

2021

结合

LSTM

的强化学习动态环境路径规划算法

武曲

，

张义

，

郭坤

，

王玺

(青岛理工大学信息与控制工程学院

，

山东青岛

266520)

E-mail

zhangyi_626@

126.

com

摘

要

：

在路径规划领域已经涌现出了诸多的优秀的经典算法,但这些传统方法往往基于静态环境

，

对于动态可变环境缺乏处

理能力.本文提出一种结合

LSTM

强化学习动态环境路径规划算法.首先

，

本文以环境图像作为输入

，最大限度了保证了原始

的信息来源.而后构建了自动编码器用来对环境图像进行特征降维

，

降低了整体模型的复杂程度.最后釆用深度强化学习算法

DDPG

进行路径规划

，

其中

Actor

部分釆用

LSTM

的网络构建

，

使

Actor

在决策时可以参考前序信息

，

做到有预测的避开动态障

碍.最后通过实验证明了本文算法的可行性和高效性.

关键词

：

自动编码器;

LSTM

；

DDPG

；

强化学习

；

动态路径规划

中图分类号

：

TP391

文献标识码:

文

章编号:

1000-1220

(

2021

)

02-0334-06

LSTM

Combined

with

Reinforcement

Learning

Dynamic

Environment

Path

Planning

Algo

rithm

Qu,ZHANG

Kun,WANG

(

School

of Information

and

Control

Engineering

Qingdao

University

Technology

Qingdao

266520

China

)

Abstract

Many

excellent

classical

algorithms

have

emerged

the

field

path

planning,but

these

traditional

methods

are

often

based

static

environment

and

lack

processing

power

for

dynamic

variable

environment.

This

paper

proposes

path

planning

algorithm

for

dynamic

environment

based

LSTM

reinforcement

learning.

First

all,this

paper

takes

the

environment

image

the

input

ensure

the

original

information

source

the

maximum

extent.

Then

Autoencoder

built

reduce

the

dimension

environment

image

which

reduces

the

complexity

the

whole

model.

last

the

deep

reinforcement

learning

algorithm

DDPG

used

for

path

planning

and

the

Actor

part

uses

LSTM

network

that

the

Actor

can

refer

the

prior

information

and

make

decisions

with

the

prediction

environment

change.

Finally,

the

feasibility

and

efficiency

the

proposed

algorithm

are

proved

experiments.

Key

words

autoencoder

；

LSTM

；

DDPG

；

reinforcement

learning

；

dynamic

path

planning

引言

路径规划是人工智能领域的一个重要研究方向

，

在各个

领域得到了广泛的应用•迄今已经有许多经典的路径规划算

近年来

，

随机人工智能的兴起

，

很多基于人工智能的路径

规划方法被提出,

Chen

等⑷提出了一种双向神经网络来解决

未知环境下的路径规划问题.

等⑸将路径规划任务转化

为环境分类任务

，使用

CNN

来进行路径规划.

等⑹提出

了一种基于神经网络的鲁棒控制方案,并结合自适应补偿器

法被提出.

Dijkstra

算法是一种很早就被提出的路径规划算法⑴

，

它

和自适应控制增益来实现具有避障能力的编队控制.

强化学习是一类应用在未知环境的算法,作为机器学习

的

大分支之一

，

不同于监督学习和无监督学习

，强化学习无

将环境抽象为一个图问题

利用广度优先搜索策略遍历图

，

直

到找到最短路径.

算法是

Dijkstra

算法⑷的改进.在原有

算法的基础上增加了启发式函数，并定义了一种当区域与扩

需提供数据,所有的学习资料都将从环境中获取.智能体通过

不断的探索环境,根据不同的动作产生的不同的反馈进行模

型的学习

，

最终智能体将能以最优策略在指定环境中完成

任务.

展点之间的一种度量作为扩展优先级,

在进行路径扩展时会

优先扩展优先级高的节点.但当该方法用于处理多维复杂问

题时

，

无论是把环境抽象为图模型还是对图模型求解都将变

得很复杂.势场法⑶把规划空间看作物理学中的场

，把智能

体看作一种粒子.障碍物对粒子产生排斥力

，

目标对粒子产生

引力.两者的合力即为智能体的最终运动的方向.这种方法实

自

Mnih

等提出

DQN

[71

以来

，

深度强化学习不断取得

突破性进展

，

也有一些研究者尝试通过深度强化学习解决路

径规划问题.

Piotr

Mirowski

等⑻以多模态感知信息作为输

入,通过强化学习进行决策来完成网格空间中的导航任务.

Panov

等⑼使用神经

Q-Leaming

算法来完成网格环境下的路

时性较好

，

产生的路径通常十分平滑

，

适合于机械臂一类的应

用

，

缺点是在合力为

的位置智能体容易陷入局部最优解.

收稿日期

：

2020Q8Q3

收修改稿日期

:2020-09-25

基金项目

：

山东省自然科学基金项目

(

ZR2017BF043

)

资助.作者简介

：

武

曲

，

女

，

1982

年生

，

博士

，

副教授,

CCF

会员

，

研究方向为强化学习

、

深度强化学习

；

张义

，

男

，

1995

年生

，

硕士研究生

，

研究方向为深度强化学习

；郭坤

，

女

，

1995

年生

，

硕士研究生

，

研究方向为深度强化学习

；

王

玺

，

女

，

1996

年生

，

硕士研究生

，

研究方向为深度强化学习.

期

武曲等:结合

LSTM

的强化学习动态环境路径规划算法

335

径规划任务.

Lei

等

"°)

采用

CNN

和

DDQN

进行动态环境下

前序时刻信息对当前时刻的输出而言并没有价值

，

参与到当

的路径规划

.Lv

等

提出了一种改进的基于

DQN

的学习策

前时刻输出的计算过程中反而会造成误差

;

大量的前序信息

略

，

在学习的初始阶段

，

创建一个体验价值评价网络,当发生

参与当前时刻输出的处理过程将增加计算的负担

，

该问题在

路径漫游现象时,利用并行探索结构考虑对漫游点之外的其

序列较长时将会变得尤为突出.

他点的探索,提高体验池的广度.

长短期记忆

(Long

Short-Term

Memory

LSTM

)

是一种改

尽管上述方法在各自的领域都取得了不错的效果

，

但是

进的

RNN,

该网络结构在产生当前时刻的输出时又增加了一

他们实现路径规划仍存在一些不足之处.他们大多数只是在

项遗忘门的设计

，

通过一个状态参量

来实现遗忘功能

，

静态环境中进行路径规划,缺乏处理动态场景的能力;动作空

LSTM

的结构但愿如图

2(b)

所示.

间或状态空间是离散的

这与连续的现实环境是不符合的

，

而

且在某些情况下,离散动作得出的最优解还可以被连续动作

进一步优化;上述方法实现的路径规划多是从固定起点到固

定终点的路径规划

，

这相当于模型只学习到了一个局部最优

解

，

并不能完成整个环境的路径规划

，

这对指导现实应用具有

很大的局限性.

为了实现全局动态环境下的路径规划任务

，

本文提出了

一种结合了

LSTM

的路径规划算法.本文算法以环境图像作

(a)

(b)

为输入

，

通过预训练的自动编码器进行降维提取特征.在训练

模型时

，以连续

帧图片降维后的特征信息作为输入

，

通过

图

RNN

结构单元

LSTM

构建的

DDPG

模型进行路径规划

，

利用

LSTM

处理时

Fi&

RNN

unit

序数据的特性

，

实现了在动作选择时进行有预测的规避环境

在

LSTM

的当前时刻

，

计算单元首先通过

和曾"计算

中的危险区域的动态路径规划.

出一个中间结果

，

而后通过状态参量

C-

参与构建的遗忘门

相关工作

进行选择

，

最终输出

y,.h,

以及

c,.

LSTM

的设计方式以一种

更有效的方式利用了前序信息

，

同时也减少了中间过程携带

2.1

自动编码器

的数据量

，

相对于经典

RNN

具有更好的效果.

自动编码器

(

Autoencoder)

可以看做是利用深度学习的

2.3

DDPG

对数据进行降维的一种方式

，

通过一系列的神经网络计算将

2.3.1

马尔科夫决策

高维数据压缩到低维

，

再以对称的方式将数据复原

，

其结构图

强化学习过程普遍遵循马尔科夫决策过程

(

Markov

如图

所示.

cision

Process,

MDP

由一个

的四元组组

成

，

其中

S(Stole)

为状态空间

，

表示智能体在环境中可能存在

的状态描述的集合

-A(

Action)

为动作空间，

表示智能体在环

境中可能采取的动作描述的集合

-P(

Policy)

为转移策略

，

处

在某个状态的智能体将依

进行动作选择

，

进而从一个状态

转移到另一个状态

.R(

Reward

)

为回报

，

表示智能体在某个状

态下采取某个动作而从环境中获得的回报值.强化学习的目

图

自动编码器

标即为一个求取最佳策略

在环境中进行执行一系列的动

Fig.

Autoencoder

作

，

使智能体以最佳的回合回报完成给定任务.

当编码器模型收敛后即可认为中间的低维数据为压缩后

3.2

Actor-Critic

的降维数据,再对低维数据进行其他操作

即可在保证达到与

Actor-Critic

[

121

是

Vijay

Konda

和

John

Tsitsiklis

提

原数据相同效果的同时

，

亦能极大地降低操作过程的复杂度.

出的一种应用在马尔科夫决策过程中的算法,该算法由两部

2.2

LSTM

分构成

，

用来生成决策动作了

Actor

部分和用来对动作进行

循环神经网络

(

Recurrent

Neural

Network

RNN

)

是一种

评价的

Critic

部分,

Actor

是动作生成器

，

以当前状态作为输

处理时序数据的神经网络,

RNN

以一条时序数据为输入

，

其

入

，

输出一个当前状态下的要执行的动作.

Critic

则是一个评

结构单元如图

2(a)

所示

，

在一个计算单元的计算中

，

输入部

价器，

即值函数生成器,以当前状态和

Actor

生成的动作为输

分除当前时刻数据

之外

，

还有一项人

该数据是由之前的

入

，

生成一个价值量

，

该量用以衡量

Actor

生成的动作的

t-1

个时刻的数据传导计算而得

，

同样地,

RNN

在

时刻的输

优劣.

出

，

除了

之外

，

还会生成一项人

，

而曾则是包含了前

个时

在训练过程中

，

模型按式

(

所示对探索过程中产生的

刻的信息,曾将被传送到

时刻参与到

时刻的输出的

数据进行处理.

计算过程中.

RNN

的这种结构设计

，使得

RNN

网络具有了预测的能

/(兀⑷二工记妳兀,")

(

力.但是

，

在经典的

RNN

网络中

，

隐藏单元

所携带的信息

使

Critic

模型学会为

Actor

生成的动作进行评估,

Actor

是所有前

个时刻的信息

，

这样的结构产生了两个问题:有些

则向着

Critic

评价高的方向学习.

336

小型微型计算机系统

2021

年

Policy

Grident

编码器首先对图片进行预处理

，

包括通过常规方法降低

策略梯度

(

Policy

Grident

)

是由

Richard

Sutton

等

图片尺寸和灰度化

，

然后对得到的灰色图片进行编码和解码

人提出的一种独立与价值函数的、根据期望回报进行策略更

新的强化学习方式⑴]

,PG

采用回合更新的方式，

在得到一条

完成回合序列之后

，

对于序列中的状态的值函数定义如式

(3)

所示.

过程

，

通过解码后的图像与编码器的图像的差值作为损失来

拟合编码器的参数.表

所示为本文设计的编码器参数表

，

本

文编码器由

层组成

，

前

层为编码部分

，

后

层为解码

部分.

(

表

编码器参数

Table

Parameters

autoencoder

Layer

Neure

多个回合后,的值应表示为多个回合的期望值,其定义

如式

(3)

所示.

。

”

}

Parameters

Data size

(after process)

(3)

200

100

Conv

；

s=5

；

p=0

；

16*40*

16*40*20

在

方法中

，

策略

按式

(4)

所示进行参数更新.

fl*-0

logir

(J,,a,)

Relu

Pool

Conv

(4)

；

2.3.4

DQN

*20

深度

网络

(

Deep

Network,DQN)

是深度强化学习的

一个重要算法

，

它通过神经网络来构造状态价值函数,直接生

Relu

Pool

；

成

值,解决了传统

Q-Learning

方法维度受限

、

无法处理未

ConvTrans

；

s=2

；

p=0

；

参与训练的状态数据的问题;通过

off

policy

的策略解决了强

化学习数据的强相关性导致的很难应用深度学习方法处理的

问题.

DQN

由两个结构相同

，

时间差分的网络构成,通过式

(5)

所示的算法进行网络参数的更新

，

由

DQN

开始

，

围绕深

Relu

ConvTrans

16*20*10

；

Relu

ConvTrans

Tanh

200

100

；

-5

-0

*200

100

度强化学习不断涌现出许多优秀的研究成果.

-ymax

，

(s'

,a')

4(0)

=Eg,

”

，

[(Q

・(

s,aW)

-y)T

代表深度

、

代表卷积核尺寸

、

代表步长

、

代表填充

3.2

结合

LSTM

的

DDPG

本文算法的主要目标是更好的避开动态危险区域

，

根据

2.3.5

DDPG

到动态危险区域的距离来进行规避诚然是一种可行方式

，

但

DDPG

[I4]

(

Deep

Detenninistic

Policy

Gradient)

算法结合

是这种被动的响应方式对整体的路径规划是不利的

，

它仍然

避免不了智能体需要探索对应区域才能进行规避

，

这造成规

划路线上增加了一些额外的长度.如果模型能预测环境的变

化趋势

，

就可以避开某些未来不能通过的区域

避免一些没有

结果的探索工作

，

直接规划出一条最佳的可行路径.本文利用

了

AC,PG,DQN

中的诸多特点

，

率先将深度强化学习扩展到

连续空间领域.

DDPG

整体采用

Actor-Critic

的框架结构

，

DDPG

中的

Actor

和

Critic

两部分都由神经网络来构建

，

两部

分的网络各自采用

DQN

的设计思路,分别为是两个时间差

分的网络.在

Critic

更新时

，

采用策略梯度的更新方式

、

与传

统的策略梯度不同的是,

DDPG

采用一种确定性策略进行动

作选择.

结合

LSTM

的强化学习动态环境路径规划算法

在很多路径规划研究中,通常为智能体设置扫描射线

，

以

此来观察周围的环境

，

智能体需要对当前周围的不同类型的

实体进行扫描

，

然后构建包含到这些物体距离的向量,提供给

模型进行动作选择.使用扫描射线的方式虽然可以尽可能的

使得智能体获取周围的信息

，

但是仍然不可避免地会信息遗

漏,针对这种情况

，

本文采用图像为模型提供输入.图像虽然

极大地保留了环境的真实数据

，

但是同样存在着维度过大

，

模

型难收敛的问题.自动编码器是一种采用深度学习对数据进

行降维的方式

本文在处理图像数据时,首先采用预训练的编

图

LSTM

DDPG

结构图

Fig.

Structure

LSTM

DDPG

码器对图像数据进行了降维.

3.1

预训练图像编码器

了循环神经网络实现了这一设想

，

循环神经网络是一种用来

为了降低高维图像对模型收敛增加的复杂度问题

，

本文

设计了图像编码器对图像数据进行特征降维,本文构建的图

像编码器结构如图

所示.

处理时序数据的神经网络

，

会结合前序信息来生成当前时刻

的输出

，

当前时刻的输出参考了之前时刻信息的变化趋势

，

所

以循环神经网络是一种具有预测功能的网络

LSTM

的

RNN

期

武

曲等:结合

LSTM

的强化学习动态环境路径规划算法

337

的一种改进

，

解决了经典

RNN

无差别携带前序信息带来的弊

端.

DDPG

是一个在连续动作上有很好表现的强化学习算法,

dmger

本文将

LSTM

融合到

DDPG

的框架中

，

构建了如图

所示的

Reward

”

(6)

LSTM-DDPG

算法.

其中

Actor

网络由

层构成

，

分别是两层

LSTM

和

层

else

全连接层

，

对于

LSTM

设置

input

size

为

400,

隐藏层单元为

64,

之后接一个全连接层以

维数据为输入计算生成

维的

实验及结果分析

动作输出

•

Critic

网络首先对输入的环境数据和动作数据做分

本文通过

Unity-3D

引擎构进行了强化学习环境的搭建,

别处理

，

其中环境数据利用

LSTM

进行处理

，

网络设置与

实验所用的软硬件配置如下:

CPU

i7-8750H,

内存

24G,

显卡

tor

中的

LSTM

部分设置相同;对于

Actor

产生的

Action

用一

GTX1060

，显存

软件环境

Unity2019.

2fl

深度学习框架

个全连接层将

维输入映射到

维;然后将上面两步的输出

使用

Pytorch.

拼接一个向量传递给下一层的全连接层

，

由这个全连接层计

4.1

实验环境搭建

算生成对

Action

的评价

值.

在

Unity

工具中构建如图

所示的环境.

3.3

动作空间

本文模拟人类的动作行为方式设计了智能体的动作空

间

，

采用连续的动作空间设计

，

将动作空间设计为两个维度

(8,1),

其中

表示智能体的转动角度

，

取值范围设定为

(

-180,180),

其中当

5<0

时

，

智能体向左转动相应角度

，

当

8>0

时,智能体向右转动相应角度.

表示智能体执行动作的

位移大小

，

取值范围为

(

-0.7,0.7),

其中/

当时,表示智

能体后退相应距离

,/>0

时,表示智能体前进相应距离.

3.4

环境回报

图

实验环境

在强化学习中

，

智能体通过在环境获得的累计回报来修

Fig.

Experimental

environment

正策略函数的参数

，

因此

，

环境回报的设定对策略函数能否收

该环境由面积为

40x20

矩形区域构成

，在地面平面建立

敛到理想的状态而言至关重要.为了验证本文方法处理动态

坐标系

，

以矩形区域中点为坐标原点,分别以向右和向上为

环境的能力

，

本文除了设计墙体这种单纯的静态障碍之外

，

还

轴,

轴的正方向.其中中部较小的圆形个体为智能体

，

半径

设计一种危险区域

，

智能体接触该区域即死亡

，

回合结束

，

视

为

在每个回合训练开始时智能体将会随机生成在环境

为一次失败的路径规划.结合现实经验和多次试验结果作为

中的任意位置.两处黑色圆形区域为危险区域,智能体碰撞到

参考,本文进行了以下环境回报的设定.

该区域即死亡

，

回合结束.该区域为动态变化区域

，

两处危险

3.4.

决策回报

区域各自由初始半径为

0.5

的规格随智能体决策次数的增加

在一条路径生成的过程中,智能体通过一系列的动作选

而扩大

，

其半径依

0.3

单位

/次的速度增加

，

此处之所以设置

择在不同状态间切换

，

为了能保证智能体能以最少的状态切

危险区域依智能体决策次而变化

，

是因为执行一个回合的具

换次数即为了使智能体尽可能规划出一条更短的路径

，

智能

体时间会因计算机处在不同状态而有所差异,从而造成训练

体每执行一步动作,为智能体设置

-1

的回报

，即

『,

“

结果不稳定.左边危险区域的底面圆心坐标为

(

-6.

3.4.2

碰壁回报

-1.5),

右边危险区域的底面圆心坐标为

(6,

-6).

图中的灰

本文在环境中设置了墙体,用来圈围边界和构建智能体

色条形实体为墙体

，

该区域为静态障碍.左右两面边界墙的中

前进的障碍.对于智能体而言

“

撞墙”的行为是无意义的

，

不

线分别为

±20.5,

上下两面边界墙的中线分别为

士

但增加了动作执行次数

，

也不会增加位移

，

因此对于智能体撞

10.

内部的障碍墙的中心线为

10,

墙的长度为

12.

图中

墙这种行为应该给予一定的负回报

，

在本文中设置口„=

-1.

右下角的深灰色区域为安全出口

，智能体到达此处视为路径

3.4.3

遇险回报

规划成功的标志.

本文设置了动态变化的危险区域来对提出的算法进行验

根据上述设定

随着智能体决策次数的增加，

障碍墙下方

证

，

该区域设置在智能体和目标位置之间

，

其体积会随着时间

的通道将会被危险区域封堵，

智能体只能选择从上方的通道

动态变化,对于智能体而言该区域的效果为在智能体接触到

绕行到达终点.另外

为了避免智能体在训练前期探索环境的

该区域时,智能体即死亡

，

回合结束

，

路径规划任务失败

，

因此

阶段不停地在环境中往返而不能结束一个回合，

设定智能体

应该对涉足该区域的智能体以最低的回报来使智能体远离该

单个回合的最大步数为

200.

区域,在本文中设置『

沁

”

-50.

4.2

图形编码器训练结果

3.4.4

目标回报

首先

，

通过随机动作的方式令智能体在环境中探索

，

获得

目标区域是路径规划任务的最终目标

，

应该给予其全局

不同状态下的环境截图

，

为了减小模型训练的难度

，

在训练时

最大的回报

，

引导智能体向着最终目标进行路径规划.在本文

将环境地面设置为白色,并为智能体设置添加一个箭头用来

中设置

=200.

指示方向•截取的原始图像大小为

1200

600.

综上

，

设置环境回报如式

(6)

所示.

在本文实验中

，

共截取

万张环境图像用来训练编码器.

338

小型微型计算机系统

2021

年

在正式训练之前，

为了降低模型的处理难度

，

首先使用

OpenCV

模块下的函数将截图初步降维到

200

x100,

再对图

片进行灰度化处理

，

处理后如图

5(a)

所示.本文使用小批量

(a)

(b)

图

“编码-解码

”

过程前后的图片

Fig.

Images

before

and

after

encode-decode

梯度下降的方式训练自动编码器,设置学习率为

0.01

，

经过

1000

轮训练之后,模型趋于收敛.提取训练好的模型

，

对一张

环境截图进行编码解码过程

，

得到如图

所示

“

编码-解码

”

过

程前后的两张图片对比,可以看到降维后的数据被比较完整

的复原了,说明本文构建额的编码器成功的完成了图像数据

降维的工作,训练的编码器可以应用到后续的任务中.

4.3

LSTM

DDPG

实验结果

通过上一步的编码器

，环境图像被压缩到了

400

维的大

小.通过连续

帧图像编码后的数据构成时序数据作为

LSTM-

DDPG

算法的输入数据.实验设置

Actor

学习率为

001

Critic

学习率为

001

回报衰减设置为

0.95

采用小批量梯度下降

的方式进行模型训练

，

批次大小设置为

128

；

模型收敛后

，

收

集到的训练过程中的数据变化如图

所示.

图

LSTM

DDPG

模型训练数据

Fig.

Training

data

LSTM

DDPG

其中图

6(a)

为

Actor

部分的损失变化曲线

，图

6(b)

为

Critic

部分的损失变化曲线

，

观察两图可以发现

，

模型的两个

部分都可以收敛

，

说明本文设计的模型是合理的

，

具有可行

性.图

6(c)

为平均回合步数

(/1000

步)的变化

，

图

6(d)

为平

均回合回报

(/1000

步)的变化

，

结合两图可以发现

，

在训练的

前期

，

算法模型还不能进行正确的路径规划

，

动作选择多为随

机动作

，

智能体在环境中执行较多的步数才能结束一个回合

，

结合图

6(d)

可以发现

，

此时智能体结束一个回合多因为陷入

危险区域或达到回合步数上限而结束.在训练后期

，

算法模型

逐渐收敛

，

平均回合步数和平均回报都趋于稳定

，

回报稳定在

140

上下

，

回合步数稳定在

步左右

，

这基本上可以说明智

能体可以在不碰到墙壁和危险区域的情况下到达目标位置

，

进一步说明了本文的算法是可行的.

本文除了通过上述方式验证了提出算法的可行性

，

还在

相同的环境下，

设计了与经典的

•算法

、

遗传算法以及文献

(

[11]

Improved

DQN

)

和文献

[

]

(

DDPG

)

中的深度强化学

习方法实现效果的对比实验.对比实验分别以环境中的

处

为起点测试

种算法的路径规划能力

，

这

个点分别是

(

、

(

-10,5)

和

(

-10,

-5),

图

给出了

LSTM-DDPG

与其

他

种算法的规划路径结果对比.

(c)

为了避免轨迹被危险区域遮挡,在展示轨迹时将危险区域设定为了

初始化状态

，

其中

(

和

(

中

算法产生的路径在中途停止是因

为接触危险区域而结束.

图

LSTM-DDPG

与其他算法规划路径对比

Fig.

Comparison

LSTM-DDPG

with

other

algorithms

the

results

path

planning

其中图

7(a)

表示以

(

-10,5)

为起点时

种路径规划算

法所规划的路径

，

图

7(b)

表示以

(

-10,-5)

为起点时

种路

径规划算法所规划的路径.表

所示是

LSTM-DDPG

同其他

种算法进行路径规划的相关数据.

表

LSTM-DDPG

与其他算法的路径规划对比

Table

Comparison

LSTM-DDPG

with

other

algorithms

path

planning

Origin

Arithmetic

Length

Steps

Epoch

reward

18.67

174

Genetic

Algrithm

20.37

162

(5,0)

Improved

DQN

19.

173

DDPG

20.22

163

LSTM-DDPG

19.85

171

Fail

Genetic

Algrithm

42.34

122

(

-10,5)

Improved

DQN

50.3

111

DDPG

43.25

124

LSTM-DDPG

38.72

139

Fail

Genetic

Algrithm

46.61

127

(

10,

-5)

Improved DQN

48.42

114

DDPG

46.

126

LSTM-DDPG

43.02

131

通过就表

中的数据进行横向对比，

发现本文提出的算

法在同等条件下拥有较好的表现.在以离目标点比较近的

(0,5)

点为起点时,

算法取得了最好的表现

，

可以看到

期

武

曲等:结合

LSTM

的强化学习动态环境路径规划算法

339

算法所规划的轨迹为直线,是以距离最短

，

回报值最佳•离散

References

动作的强化学习算法

Improved

DQN

的取得了次之的效果.

]

Dijkstra

note

two

problems

connexion

with

graphs

遗传算法和

DDPG

在躲避动态危险时产生了撞墙的动作

，

[J]

Numerische

Mathematik

1959,1(1)

：

269-271

LSTM-DDPG

算法所规划的路径虽然并非最短

，

但是相对较

]

Hart

Nilsson

Raphael

formal

basis

for

the

heuristic

为平滑

，

也没有产生撞墙的行为•在选择较远处的点为起点

，

determination

minimum

cost

paths

[

]

IEEE

Transactions

其中与目标之间的环境更复杂时,

算法的表现不佳

，

不能

Systems

Science

and

Cybernetics

1968,4

(

)

：

100-107.

完成路径规划任务，

这是因为

•算法在进行路径规划时只

]

Khatib

Real-time

obstacle

avoidance

for

manipulators

and

能以初始环境为参考进行规划

，

可以看出

算法缺乏处理

bile

robots

[J].

Autonomous

Robot

Vehicles

Springer,

1986,5

动态环境的能力.同样是离散动作的强化学习算法

(I)

:90-98.

Improved

]

Chen

Chiu

Optimal

robot

path

planning

system

DQN

虽然完成了路径规划

，

但是在面对危险区域时没有预测

sing

neural

network-based

approach

[

]

//International

Automat

能力

，

又因为可供选择的动作有限

，

规划出的路径不如连续动

Control

Conference

IEEE

,2015

：

85-90.

作的算法所规划的路径效果好.在连续动作的算法中,相较于

]

P,Cao

Y,He

Y,et

al.

Vision-based

robot

path

planning

with

遗传算法和

DDPG,

可以看到本文算法生成的轨迹更加平滑

，

deep

learning

[

]

//International

Conference

Computer

Vision

路径更短

，

回报更高，

这是因为遗传算法和

DDPG

虽然具有

Systems

Springer

2017

：

101-lll.

处理动态环境的能力

，

但是也只是被动的应对变化的环境

，

规

]

J,Ji

J,Miao

Z,et

al.

Neural

network-based

region

reaching

for

划的路径中增加了对某些区域的探索•而本文的算法具有预

mation

control

for

multi-robot

systems

obstacle

environment

测环境变化的能力

，

该特性在图

7(b)

有较为明显的体现

，

可

[J]

Neurocomputing,2019,333(

10)

：

11-21.

以看到其他算法会向右下方的通道进行探索,本文算法则预

]

Mnih

Kavukcuoglu

Silver

D,et

al.

Playing

atari

with

deep

测到了右下方的通道将会被封堵

，

直接选择从右上方通过到

inforcement

leaming[

arXiv

preprint

arXiv

：

1312.

5602,2013.

达目标地点

减少了探索过程的路径长度

使规划的总路径最

]

Mirowski

Pascanu

Viola

al.

Learning

navigate

complex

environments

[

]

arXiv

preprint

arXiv

：

1611

03673

短•综上

，

本文的算法在动态路径规划任务中能够取得较好的

2016.

表现.

]

Panov

I,Yakovlev

Suvorov

Grid

path

planning

with

deep

总结

reinforcement

learning

preliminary

results

[J]

Procedia

Computer

Science,2018,123(l)

:347-353.

本文针对传统的路径规划算法多基于静态环境;缺乏对

[10]

Lei

Zhang

Z,Dong

Dynamic

path

planning

unknown

envi

动态环境的处理能力的问题，

提出了一种结合

LSTM

的强化

ronment

based

deep

reinforcement

learning

[J]

Journal

Ro-

学习路径规划算法.本文的方法以环境图像作为输入

，

首先构

botics,

2018,2018(9)

：

l-10.

造了能够压缩图像特征的编码器

，

在尽可能完整地保留环境

[11

]

Zhang

Ding

D,et

al.

Path

planning

via

improved

DQN-

图像原始信息的前提下，

降低图像的特征维度,进而从整体上

based

learning

policy[

IEEE

Access,

2019,7(5)

：

67319-67330.

[12]

Konda

R,Tsitsiklis

Actor-critic

algorithms[

]

Advances

降低了路径规划任务的复杂程度•本文基于在连续动作空间

Neural

Information

Processing

Systems,2000

：

1008-1014.

上具有良好表现的

DDPG

算法

，

在

DDPG

算法中结合了

[13]

Sutton

MeAllester

A,Singh

P,et

al.

Policy

gradient

meth

LSTM

结构

，

利用

LSTM

能够处理时序数据的特性

，

使其在生

ods

for

reinforcement

learning

with

function

approximation

[

]

成动作时能够有选择的参考之前时刻的信息,做出基于对环

Advances

Neural

Information

Processing

Systems

2000

1057-

境预测的动作输出，

预先规避环境中可能发生的危险•最后通

1063.

过实验与经典路径规划算法和其他强化学习算法进行性能对

[14]

Lillicrap

Hunt

Pritzel

al.

Continuous

control

with

比,证明了本文算法对动态环境的预测能力以及路径规划的

deep

reinforcement

learning

[

arXiv

preprint

arXiv

：

1509.

高效性.

02971,2015.

本文标签：环境路径规划进行算法

版权声明：本文标题：结合LSTM的强化学习动态环境路径规划算法内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/p/1712937692a613355.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

结合LSTM的强化学习动态环境路径规划算法

更多相关文章

在win10系统中安装多个不同版本的python环境

import和require在浏览器和node环境下的实现差异

深度剖析：如何在Android上发挥设备图形处理能力

Flash技术迷必备：深入解读与优化Adobe Flash Player！

从入门到精通：解锁Windows 11 LTSC应用生态的微软商店全攻略

Python实战：如何制作出具有Adobe Flash Player功能的桌面小应用

揭秘后端处理神器：如何用Python结合迅雷批量操作SWF文件

Qt项目中的动态链接库困境与高效解决策略分享

Mac 用户，是时候卸载腾讯会议了：操作详解

掌握SWF艺术：打造引人入胜的扫雷游戏体验

用Termux和Linux在安卓手机上搭建《梦幻西游H5》服务器，让你随时随地都能游戏！

解锁GTAV新技能：深度学习辅助驾驶的安装与配置秘技

解锁ZIP压缩包的加密技术：让隐私安全有保障

WSL网速变慢了？这几个步骤帮你搞定！

Mac深度探索：Application Support文件夹的隐藏与恢复，玩转你的系统

告别安装烦恼，十分钟内解决Flash中心的Teniodl_teniodl.exe问题！

无任何网络提供程序接受指定的网络路径_无任何网络提供指定的网络路径

<img>标签显示不出图片——图片路径问题_<img src="图片地址">图片不显示

QQ表情包存储位置解析_qq表情包路径

Windows系统维护新纪元：Dism命令的高效应用实践

发表评论

推荐文章

VS2010与Framework2.0并肩作战，你的Flash项目从此与众不同！

信息安全学习----破解windows 开机密码_win7系统密码文件存储位置

Mcafee官方卸载工具汇总

Linux镜像文件制作

Linux用户必知的USB设备查看技巧

热门文章

SpringBoot助力：构建个性化、实时的热点资讯推送系统

轻松上手：H3C路由器路由配置实战攻略

U盘秘密档案：System Volume Information的隐藏删除技巧

从零开始：Vue项目中无缝集成Vue-devtools与Flash中心，实现高效开发。

lib与dll区别_qt lib dll includepath区别

C盘空间不足怎么办，如何让C盘获得更多空间

U盘插入电脑不显示解决办法_u盘插入电脑显示本地磁盘但不显示内容

Word页眉横线删除终极指南：6种方法详解与原理剖析_页眉横线删不掉怎么回事

掌握技术小贴士：192.168.0.1网络设置秘籍

USB共享网络技术，电脑接手机却失灵？解决秘籍！

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑