1117
浏览基于深度强化学习的无线通信抗干扰和通信资源分配技术
摘要:深度强化学习(Deep Reinforcement Learning,DRL)是一种将传统强化学习与深度神经网络相结合的新兴技术,基于该技术智能体可以通过获取实时奖励快速找到最优策略。大量研究证明通过将DRL算法应用于无线通信系统,通讯设备可以在较短的时间内找到最优的通信策略。本文提出的基于DRL的无线通信抗干扰和资源分配技术具体包括:(1)基于DRL的无线通信抗干扰技术;(2)基于DRL和脉冲神经网络的终端直通(Device-to-Device,D2D)资源分配技术。为了应对无线通信中的干扰攻击者,本文提出一种智能抗干扰通信模型,并在该模型中应用不同的 DRL 算法,如 Deep Q-Learning(DQN)、Double Deep Q-Learning(DDQN)、Prioritized Deep Q-Learning(PDQN)来为发送者选择最优的频段以及传输功率。其次,该技术首次提出(τ,ε)-贪婪算法,该算法通过直接保留高价值动作来避免大量网络计算,可以有效加速算法收敛、提升系统效用并且节省大量计算资源。通过对不同数目的攻击者与通信频段的系统进行仿真,发现基于(τ,ε)-贪婪的强化学习算法较原先算法在收敛速度和平均奖励方面都有较大提升。在通信资源分配技术中,终端直通网络中每个节点的能量有限,单一的深度强化学习算法无法满足较大规模网络的无线传输需求。基于脉冲神经网络的节能与高容错特性,该技术首次提出将脉冲神经网络与DRL结合用于通信资源分配。同时,该技术还首次应用平均场强化学习算法来提升通信网络在大量D2D设备同时决策时的通信效率。仿真结果表明,该技术相比于传统无线通信算法可以取得更高的平均奖励。
关键词:深度强化学习;抗干扰无线通信;
文章目录
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 论文的主要工作及创新点
1.4 本论文的结构安排
第二章 深度强化学习算法
2.1 强化学习算法
2.2 强化学习求解方案
2.3 深度强化学习
第三章 基于深度强化学习的抗干扰无线通信技术
3.1 抗干扰无线通信系统模型
3.2 (τ,ε)-贪婪强化学习算法
3.3 抗干扰实验仿真结果与分析
3.4 本章小结
第四章 基于深度强化学习的终端直通资源分配技术
4.1 系统模型与优化目标
4.2 脉冲强化学习D2D资源分配算法
4.3 基于D2D网络的平均场算法
4.4 网络仿真实验结果
4.5 本章小结
第五章 总结与展望
参考文献
[1]一种基于深度强化学习的Spark Streaming参数优化方法[J]. 刘露,申国伟,郭春,崔允贺,蒋朝惠,伍大勇. 计算机与现代化. 2021(10)
[2]基于强化学习的中小型无人机动态航线规划算法研究[J]. 杨雅宁. 宁夏师范学院学报. 2021(10)
[3]基于机器学习算法的医疗设备运维状态自主感知及主动预警模型研究[J]. 马玉春,秦航,殷小进. 中国医疗器械杂志. 2021(05)
[4]基于强化学习与自注意力机制的朝鲜语重要句子结构识别[J]. 杨飞扬,崔荣一,赵亚慧,金晶,李飞雨. 中文信息学报. 2021(09)
[5]基于强化学习的车辆路径规划问题研究[J]. 刘虹庆,王世民. 计算机应用与软件. 2021(08)
[6]多智能体博弈强化学习研究综述[J]. 王军,曹雷,陈希亮,赖俊,章乐贵. 计算机工程与应用. 2021(21)
[7]基于强化学习的机场服务机器人动态路径规划[J]. 李志龙,张建伟. 现代计算机. 2021(08)
[8]基于深度强化学习的双足机器人斜坡步态控制方法[J]. 吴晓光,刘绍维,杨磊,邓文强,贾哲恒. 自动化学报. 2021(08)
[9]基于强化学习的自动泊车运动规划[J]. 张继仁,陈慧,宋绍禹,胡峰伟. 同济大学学报(自然科学版). 2019(S1)
[10]基于随机森林强化学习的干扰智能决策方法研究[J]. 裴绪芳,陈学强,吕丽刚,张双义,刘松仪,汪西明. 通信技术. 2019(09)