您当前所在位置: 首页 > 首发论文
筛选条件

时间

领域

全部

电子、通信与自动控制技术(5)

计算机科学技术(1)

中医学与中药学(0) 显示更多>>

临床医学(0) 交通运输工程(0) 体育科学(0) 信息科学与系统科学(0) 农学(0) 冶金工程技术(0) 力学(0) 动力与电气工程(0) 化学(0) 化学工程(0) 图书馆、情报与文献学(0) 土木建筑工程(0) 地球科学(0) 基础医学(0) 天文学(0) 安全科学技术(0) 工程与技术科学基础学科(0) 心理学(0) 教育学(0) 数学(0) 机械工程(0) 材料科学(0) 林学(0) 核科学技术(0) 水产学(0) 水利工程(0) 测绘科学技术(0) 物理学(0) 环境科学技术(0) 生物学(0) 畜牧科学、动物医学(0) 矿山工程技术(0) 管理学(0) 纺织科学技术(0) 经济学(0) 能源科学技术(0) 航空航天科学技术(0) 药学(0) 预防医学与卫生学(0) 食品科学技术(0)

学术评议

实时热搜榜

SiC55390

人工智能46683

基因42088

数据挖掘22860

数值模拟21044

我的筛选 >
2003-2022 全部
为您找到包含“Actor-critic”的内容共6

冯涣婷,程玉虎,王雪松

2009-09-07

尽管策略梯度强化学习算法具有较好的收敛性,但是在梯度估计过程中方差过大,影响了算法的性能。为了提高策略梯度算法的收敛速度和梯度估计的精度,结合资格迹和折扣回报模型,对现有的全增量式自然梯度AC算法进行了扩展,提出了改进的全增量式自然梯度AC算法。10×10格子世界问题的仿真结果验证了本文所提算法的有效性和可行性。

中国矿业大学信息与电气工程学院,中国矿业大学信息与电气工程学院,中国矿业大学信息与电气工程学院

#电子、通信与自动控制技术#

冯涣婷,程玉虎,王雪松

2009-09-07

尽管策略梯度强化学习算法具有较好的收敛性,但是在梯度估计过程中方差过大,影响了算法的性能。为了提高策略梯度算法的收敛速度和梯度估计的精度,本文综合利用AC框架、函数逼近器、资格迹和iLSTD算法的不同特性,提出了一种新的策略梯度算法-基于iLSTD(λ)的AC算法。10×10格子世界问题的仿真结果验证了所提算法的有效性和可行性。

高等学校博士学科点专项科研基金(20070290537,200802901506

中国矿业大学信息与电气工程学院,中国矿业大学信息与电气工程学院,中国矿业大学信息与电气工程学院

#电子、通信与自动控制技术#

刘靖伟,蒋挺,周正

2012-01-13

1609.4中控制信道和服务信道切换机制,提出了诸如使用开发节点、包细化分割等方式解决其存在的资源浪费问题。本文在1609.4协议的基础上,提出了一种基于Actor-Critic学习的信道时隙分布调整策略,该

国家科技重大专项资助项目(2010ZX03006-006,2009ZX03006-009

国家自然科学基金资助项目(61171176

北京邮电大学 无线网络实验室,北京 100876,北京邮电大学 无线网络实验室,北京 100876,北京邮电大学 无线网络实验室,北京 100876

#电子、通信与自动控制技术#

0评论(0 分享(0)

周灵叶

2021-04-26

路径规划方法进行分析,最后针对深度强化学习方法的动作粗粒度问题,引入了行动者-批评家(Actor-Critic,AC)框架,将离散动作空间转化为连续动作空间,细化动作粒度,增大动作空间使得解空间增大,更

School of Computer Science, Beijing University of Posts and Telecommunications, Beijing 100876

#计算机科学技术#

0评论(0 分享(0)

CHEN Ze-Chao,GUO Yi-Jun

deterministic policy gradient (TD3) algorithm based on actor-critic reinforcement learning (RL) framework. In

2021-03-08

School of Information and Communication Engineering, Beijing University of Posts and Telecommunications, Beijing 100876,School of Information and Communication Engineering, Beijing University of Posts and Telecommunications, Beijing 100876

#Electrics, Communication and Autocontrol Technology#

0评论(0 分享(0)