5068
浏览基于强化学习的无线通信网络资源分配算法研究
摘要:随着通信技术和智能终端的飞快发展,各种业务需求急速增长,使得蜂窝系统承载的数据流量呈爆炸式增长,传统网络的架构已经无法满足不断增加的业务需求,并且,终端设备的电池储能及计算能力很难满足大量业务的处理需求。近几年提出的移动边缘计算(Mobile Edge Computing,MEC)技术将计算任务转移到网络边缘,能够延长电池寿命并提供可靠的数据处理及存储能力;除此之外,设备到设备通信(Device-to-Device,D2D)技术可以实现终端之间直接通信,从而降低了蜂窝系统的承载压力,另外,中继协作D2D技术能够有效地解决D2D设备之间距离远的问题,扩展D2D的通信半径及提高D2D通信的传输速率。针对这两方面存在的问题,主要的研究内容包括以下两个部分:1)研究多种设备、单个MEC服务器的网络场景下,用户计算任务的动态卸载决策及通信资源分配问题。在移动设备的计算任务队列稳定与时延限制、及最大发射功率约束等条件下,以系统长期平均能耗最小化为优化目标,建立任务卸载决策、计算资源分配、无线信道及发射功率分配的优化模型。针对终端设备的电池储能、计算能力有限,MEC网络环境的动态性,优化参数多且相互关联特性,将模型简化为信道和功率分配的联合优化问题,提出简化参数降低计算复杂度的优化方案。然后,利用深度Q网络(Deep Q Network,DQN)方法,实现功率与时延约束下计算任务队列长期稳定的资源分配算法。仿真结果表明,所提出的算法能够有效地提高系统的能效和数据处理率。2)针对D2D设备间距离远、信道条件差等导致通信质量下降无法满足业务需求,且D2D用户与蜂窝用户之间存在同频干扰,研究中继协作D2D通信的蜂窝网络中的多种资源配置问题。提出了一种较低计算复杂度的协作D2D通信网络中模式选择、中继选择、信道分配的资源分配优化方案。基于已有的功率分配方案,首先,将中继协作D2D通信的联合信道分配、通信模式选择和中继选择优化问题建模为一个有限维马尔可夫决策过程(Markov Decision Process,MDP),建立深度蒙特卡洛树搜索模型,该模型由深度残差网络(Deep Residual Network,DRN)和蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)相结合,MCTS使用深度残差网络生成动作的先验概率和动作值评估执行动作的选择,而深度残差网络将MCTS搜索过程中获得的最优值作为标签进行训练并更新深度残差网络参数,最终获得在QoS约束下智能的资源分配策略。经过仿真表明,在相同条件下,所提出的算法明显高于线性规划算法获得的传输速率。
中文摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 研究现状
1.2.1 移动边缘计算中任务卸载和资源分配研究
1.2.2 蜂窝通信与D2D通信共存网络中的资源分配算法研究
1.3 论文结构
第二章 相关技术介绍
2.1 移动边缘计算技术
2.1.1 移动边缘计算体系架构
2.1.2 移动边缘计算的关键技术
2.2 D2D通信技术介绍
2.2.1 D2D通信模式介绍
2.2.2 D2D通信关键技术
2.3 强化学习相关理论介绍
2.3.1 强化学习简介
2.3.2 深度学习介绍
2.3.3 深度强化学习介绍
2.4 本章小结
第三章 MEC网络中基于DQN的能效性计算卸载方法研究
3.1 研究背景及研究思路
3.2 系统模型和问题构建
3.2.1 系统模型
3.2.2 系统能耗优化问题构建
3.3 基于DQN算法的无线资源优化
3.4 仿真分析
3.4.1 仿真参数设置
3.4.2 性能分析
3.5 本章小结
第四章 基于强化学习的蜂窝网络D2D协作通信资源分配研究
4.1 研究背景及研究思路
4.2 系统模型和问题构建
4.2.1 系统模型
4.2.2 系统优化问题构建
4.3 资源分配算法
4.3.1 解决D2D模式选择、信道分配和中继选择问题的深度MCTS方法
4.3.2 功率分配
4.4 仿真分析
4.4.1 仿真参数设置
4.4.2 性能分析
4.5 本章小结
第五章 结论与展望
5.1 工作总结
5.2 未来展望
参考文献