您当前所在位置: 首页 > 首发论文
动态公开评议须知

1. 评议人本着自愿的原则,秉持科学严谨的态度,从论文的科学性、创新性、表述性等方面给予客观公正的学术评价,亦可对研究提出改进方案或下一步发展的建议。

2. 论文若有勘误表、修改稿等更新的版本,建议评议人针对最新版本的论文进行同行评议。

3. 每位评议人对每篇论文有且仅有一次评议机会,评议结果将完全公示于网站上,一旦发布,不可更改、不可撤回,因此,在给予评议时请慎重考虑,认真对待,准确表述。

4. 同行评议仅限于学术范围内的合理讨论,评议人需承诺此次评议不存在利益往来、同行竞争、学术偏见等行为,不可进行任何人身攻击或恶意评价,一旦发现有不当评议的行为,评议结果将被撤销,并收回评审人的权限,此外,本站将保留追究责任的权利。

5. 论文所展示的星级为综合评定结果,是根据多位评议人的同行评议结果进行综合计算而得出的。

勘误表

上传勘误表说明

  • 1. 请按本站示例的“勘误表格式”要求,在文本框中编写勘误表;
  • 2. 本站只保留一版勘误表,每重新上传一次,即会覆盖之前的版本;
  • 3. 本站只针对原稿进行勘误,修改稿发布后,不可对原稿及修改稿再作勘误。

示例:

勘误表

上传勘误表说明

  • 1. 请按本站示例的“勘误表格式”要求,在文本框中编写勘误表;
  • 2. 本站只保留一版勘误表,每重新上传一次,即会覆盖之前的版本;
  • 3. 本站只针对原稿进行勘误,修改稿发布后,不可对原稿及修改稿再作勘误。

示例:

上传后印本

( 请提交PDF文档 )

* 后印本是指作者提交给期刊的预印本,经过同行评议和期刊的编辑后发表在正式期刊上的论文版本。作者自愿上传,上传前请查询出版商所允许的延缓公示的政策,若因此产生纠纷,本站概不负责。

发邮件给 王小芳 *

收件人:

收件人邮箱:

发件人邮箱:

发送内容:

0/300

论文收录信息

论文编号 202103-88
论文题目 基于演员-评论家强化学习框架的多无人机辅助通信轨迹规划方法
文献类型
收录
期刊

上传封面

期刊名称(中文)

期刊名称(英文)

年, 卷(

上传封面

书名(中文)

书名(英文)

出版地

出版社

出版年

上传封面

书名(中文)

书名(英文)

出版地

出版社

出版年

上传封面

编者.论文集名称(中文) [c].

出版地 出版社 出版年-

编者.论文集名称(英文) [c].

出版地出版社 出版年-

上传封面

期刊名称(中文)

期刊名称(英文)

日期--

在线地址http://

上传封面

文题(中文)

文题(英文)

出版地

出版社,出版日期--

上传封面

文题(中文)

文题(英文)

出版地

出版社,出版日期--

英文作者写法:

中外文作者均姓前名后,姓大写,名的第一个字母大写,姓全称写出,名可只写第一个字母,其后不加实心圆点“.”,

作者之间用逗号“,”分隔,最后为实心圆点“.”,

示例1:原姓名写法:Albert Einstein,编入参考文献时写法:Einstein A.

示例2:原姓名写法:李时珍;编入参考文献时写法:LI S Z.

示例3:YELLAND R L,JONES S C,EASTON K S,et al.

上传修改稿说明:

1.修改稿的作者顺序及单位须与原文一致;

2.修改稿上传成功后,请勿上传相同内容的论文;

3.修改稿中必须要有相应的修改标记,如高亮修改内容,添加文字说明等,否则将作退稿处理。

4.请选择DOC或Latex中的一种文件格式上传。

上传doc论文   请上传模板编辑的DOC文件

上传latex论文

* 上传模板导出的pdf论文文件(须含页眉)

* 上传模板编辑的tex文件

回复成功!


  • 0

Trajectory Design for Multi-UAV Aided Communication with Actor-critic-based Reinforcement Learning

首发时间:2021-03-08

CHEN Ze-Chao 1   

Chen Zechao(1996-),female,major research direction:UAV communication.

GUO Yi-Jun 1   

Guo Yijun(1989-),female,associate professor,doctoral supervisor,major research direction: UAV communication and artiflcial intelligence.E-mail:guoyijun@bupt.edu.cn

  • 1、School of Information and Communication Engineering, Beijing University of Posts and Telecommunications, Beijing 100876

Abstract:In this paper, the trajectory design problem is investigated in wireless communications aided by multiple unmanned aerial vehicles (UAVs), and a multi-UAV trajectory design method called multi-agent twin delayed deep deterministic policy gradient (MA-TD3) is proposed which is able to design continuous trajectories without pre-knowledge of global information such as user locations and channel conditions, through integrating the multi-agent deep deterministic policy gradient (MADDPG) algorithm and twin delayed deep deterministic policy gradient (TD3) algorithm based on actor-critic reinforcement learning (RL) framework. In particular, the multi-UAV trajectory design problem is firstly formulated as a stochastic game (SG) to maximize the completion rate of the transmission tasks. Then, the MA-TD3 method is proposed which is based on the actor-critic RL framework and the learned trajectory is obtained successively. Numerical results show that compared to traditional single agent RL methods, the proposed MA-TD3 method achieves higher completion rate of the transmission tasks by enabling cooperation between multiple UAVs through centralized training and distributed execution.

keywords: Communication and Information System trajectory design multi-UAV aided communication multi-agent reinforcement learning

点击查看论文中文信息

基于演员-评论家强化学习框架的多无人机辅助通信轨迹规划方法

陈泽超 1   

Chen Zechao(1996-),female,major research direction:UAV communication.

郭一珺 1   

Guo Yijun(1989-),female,associate professor,doctoral supervisor,major research direction: UAV communication and artiflcial intelligence.E-mail:guoyijun@bupt.edu.cn

  • 1、北京邮电大学信息与通信工程学院,北京 100876

摘要:本文研究了多无人机辅助无线通信中的轨迹设计问题,提出了一种基于强化学习(Reinforcement Learning, RL)的多无人机轨迹设计方法,该方法能够在不预先了解用户位置和信道条件等全局信息的情况下为多无人机辅助通信设计连续动作空间的轨迹。结合了多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient, MADDPG)和双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic Policy Gradient, TD3),提出基于演员-评论家(Actor-critic)强化学习框架的多无人机轨迹规划算法——多智能体双延迟深度确定性策略梯度(Multi-agent Twin Delayed Deep Deterministic Policy Gradient, MA-TD3)算法。本文首先将多无人机轨迹设计问题规划为一个多智能体随机博弈(SG)过程,以在无法获取位置信息、用户发射功率和信道参数等信息的情况下,最大化传输任务的完成率。在此基础上提出了基于演员-评论家强化学习框架的MA-TD3方法来学习得到轨迹。仿真结果表明,与传统的单智能体强化学习方法相比,所提出的MA-TD3方法通过集中训练和分布式执行,实现了多架无人机之间的协作,实现了更高的传输任务完成率。

关键词: 通信与信息系统 轨迹规划 多无人机辅助通信 多智能体强化学习

点击收起

基金:

论文图表:

引用

导出参考文献

.txt .ris .doc
CHEN Ze-Chao,GUO Yi-Jun. Trajectory Design for Multi-UAV Aided Communication with Actor-critic-based Reinforcement Learning[EB/OL]. Beijing:Sciencepaper Online[2021-03-08]. https://www.paper.edu.cn/releasepaper/content/202103-88.

No.****

动态公开评议

共计0人参与

动态评论进行中

评论

全部评论

0/1000

勘误表

基于演员-评论家强化学习框架的多无人机辅助通信轨迹规划方法