一、Q-学习算法在CGF系统中的应用(论文文献综述)
喻泽晨[1](2021)在《基于强化学习的多用户功率智能分配》文中研究指明随着无线通信的发展,频谱资源利用率低这一现象已经引发了广泛关注。为了使不可再生的频谱资源得到更充分地利用,多项技术被用来实现频谱共享,然而,这也带来了一些不可避免的问题,所以降低用户间的干扰,实现资源的合理有效分配变得越来越重要。对于单个用户来说,与其使用同一频谱资源的其他用户的发射功率都被看作是干扰信号,过大的发射功率会对用户的通信产生威胁,因此,通过合适的算法实现功率智能分配意义重大,优化算法往往具有较高的复杂性,难以满足环境动态变化下的实时性要求,本文将基于强化学习算法对多用户的功率分配方案进行研究。针对非协作功率控制的场景设定,用户之间不进行任何信息交互,智能体无法感知环境的全局状态,于是本文提出了无状态假设,并据此推导出多智能体Q学习理论框架。由于传统的多智能体Q学习算法要求智能体知道其他智能体的策略信息,而这在非协作场景下无法实现,因此,本文提出了一个基于历史经验估计奖励回报的多智能体Q学习算法,通过取对应动作所获奖励的历史平均值,在用户信息零交互的情况下完成功率智能分配。经过实验验证,算法能够收敛至纳什均衡,且收敛速度更快。另外,与传统优化算法进行比较,优化算法可以在给定场景下求得最多有多少用户同时满足它们的Qo S要求,而本文算法在相同场景下能够达到这个最优解。强化学习算法收敛的纳什均衡并不一定能够保证系统中所有用户都满足Qo S要求,而在认知无线电场景中,主用户的通信质量应当被优先保证,本文考虑一个主用户和多个次用户共享相同的频谱资源的场景,设计了一种新的奖励函数,使用户在进行功率调整时,优先满足主用户的Qo S要求,然后尽可能提升自己的信干噪比,实验证明,本文的功率分配方案比其他方法能允许更多的用户同时使用同一频谱资源,保证资源分配的公平性。
武强[2](2020)在《多智能体强化学习在城市交通信号控制中的研究与应用》文中进行了进一步梳理城市交通拥堵已经对全球经济、环境造成了严重的影响。提升城市交通信号控制效率,是缓解城市交通拥堵相对“高效、低成本”方法之一。因为城市交通环境具有复杂性、不确定性,其内部运行的机理无法精确地进行数学分析建模,所以城市交通信号控制适合采用“数据驱动、自学习、无模型”的强化学习方法(Reinforcement Learning,RL)进行计算和控制。研究人员利用强化学习模型和深度强化学习模型(Deep Reinforcement Learning,DRL)进行了大量的城市交通信号控制研究工作。近些年,随着城市交通信号控制的研究从单个路口的局部优化发展到多个路口的全局优化,基于多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)的方法成为主要的方法模型之一,并在现有城市交通仿真环境中取得了较好的结果。但是,现有的研究仍然存在以下不足:(1)现有的交通仿真环境无法模拟更加接近真实的交通环境,不能完全体现真实城市交通的运行状况,导致城市交通信号仿真控制效果和实际路测效果具有一定差距;(2)针对城市多路口交通信号控制优化MARL算法模型本身的控制效果并不是非常理想,博弈论、通信理论和MARL的组合研究不够深入,算法本身仍具备提升空间;(3)对于城市交信号控制MARL算法在城市多个路口的工业级部署研究还不足。针对以上问题,本文开展了细致的研究并取得如下成果:(1)建立城市多交叉路口交通流量时间序列文本数据集(Multi-Road Traffic Dataset,MTD),构建城市仿真环境(Urban Simulation Environment,USE),实现接近真实路况的多个交叉路口运行情况仿真。(2)促进MARL理论、算法和智能交通应用的深度结合,拓展MARL的应用范围,通过结合纳什均衡理论和通信理论优化城市交通信号控制MARL算法,提出基于纳什均衡的优势行动者评论家算法(Nash-Advantage Actor-Critic,Nash-A2C)、异步优势行动者评论家算法((Nash-Asynchronous Advantage Actor-Critic,Nash-A3C)和多智能体自动通信强化学习算法(Multi-Agent Auto Communication,MAAC)算法;(3)针对MARL算法在城市多个路口的工业级部署研究不足,通过预估交通信号控制智能体的网络传输时延,提出基于云计算、雾计算、边缘计算的混合计算架构的Mixed-MARL算法;(4)综合城市仿真环境、混合计算架构、MARL城市交通信号控制算法,提出城市交通信号控制的综合应用计算框架(General City Traffic Computing System,GCTCS),并组合纳什均衡、多智能体通信、混合计算架构优势,提出组合算法General-MARL。本文构建的城市仿真环境USE使用动态车流量预测的方式,实现了比传统仿真环境更加接近真实情况的效果;提出MARL优化算法(Nash-A2C、NashA3C、MAAC、Mixed-MARL、General-MARL)在仿真环境USE中的实验结果均优于传统基线算法。其中,组合纳什均衡、多智能体通信、混合计算架构的General-MARL算法,在缓解多路口拥堵程度和降低网络时延上,取得了一定程度的成果(超过基线方法23.2%,通信时延降低11.7%)。
杨子豪[3](2020)在《基于强化学习的批处理机随机调度问题研究》文中进行了进一步梳理批处理机是一类在满足约束的前提下可以同时处理多个工件的设备,目前已广泛应用于制造业中,例如金属加工、半导体生产、纺织品染整作业等相关领域。近年来,随着研究的深入,随机批调度问题也引起了众多学者的关注,本文主要研究差异工件随机到达情况下的单批处理机调度问题。首先依据系统物理模型和工作机制,建立了问题的数学模型,根据加工时间固定和随机两种情况将问题分别建模为半马尔科夫决策过程和连续时间马尔科夫决策过程。并利用基于数学模型的策略迭代算法求得最优调度策略,使系统的生产代价最小化。其次考虑到实际生产系统可能存在建模难和策略迭代算法求解时间过长的原因,引入了强化学习中的Q学习算法对问题进行求解。针对求解过程中Q学习出现的行动空间过大问题,提出了一种行动集删减策略,实验结果表明改进后的Q学习算法要比原始算法求解效果更好。然后针对规模较大的问题,提出了一种基于规则学习的调度方法,该方法在底层使用启发式规则调度工件,在上层使用Q学习为系统的每个状态选择合适的启发式规则。为此,根据系统特性设计了两类共九种启发式规则组成系统的规则库供Q学习搜索。仿真实验表明该方法相比于传统Q学习在优化能力和计算效率上有更好的性能,并且问题规模越大效果越明显。最后引入深度强化学习中的DQN算法对问题求解,探索采用神经网络代替人工对系统进行分析的可行性,以解决实际生产中规则学习调度方法可能存在启发式规则设计欠佳的情况。实验结果表明DQN算法能有效的进行自主学习,取得良好的求解效果。
赵光月[4](2020)在《基于数据驱动Q学习的跟踪控制研究》文中认为最优跟踪控制问题一直是控制领域的研究热点,致力于优化由跟踪误差和控制输入所构成的性能指标函数,使得目标输出能够以较优的性能成本实现跟踪。传统的求解方法需要预先知道系统动力学的部分信息甚至是全部信息,对系统动力学信息的依赖性限制了传统方法的应用范围。自适应动态规划(adaptive dynamic programming,ADP)是一种具有自学习能力和优化能力的智能控制算法,已成为有效求解未知动态系统最优控制问题的一类新方法。在实际工程应用中,系统的状态信息一般是难以测量获得的,这限制了基于状态反馈框架的ADP学习算法的应用范围。同时,由于探测噪声的存在,基于值函数逼近方法的ADP方案存在最优控制参数学习值的偏差。因此,本文构建含有评价结构和执行结构的Q学习方案,用于求解离散时间未知线性系统的二次型跟踪(linear quadratic tracking,LQT)控制问题。本文的工作可概述如下:1.针对离散时间未知线性系统,求解最优LQT控制问题。首先,将原被控系统与参考轨迹构建为增广系统。其次,利用系统的输入数据序列、输出数据序列以及参考轨迹数据序列对增广系统的状态进行重构;基于重构后的状态,推导出对应的Q函数Bellman方程。最后,基于系统的输入/输出数据,应用在线迭代算法,实时的对评价-执行结构中的参数估计值迭代更新,避开探测噪声的影响,从而获得求解LQT控制问题的输出反馈学习控制器。2.针对输出反馈Q学习算法,本文从on-policy数据驱动Q学习PI策略、off-policy数据驱动Q学习PI策略、on-policy数据驱动Q学习VI策略详细展开,并基于MATLAB仿真软件,验证算法的有效性。3.针对学习算法中初始数据不能获得的问题,本文结合内模原理特性,设计出动态输出反馈控制器,为输出反馈Q学习算法提供不可获得的初始数据,从而经过参数的自我学习与优化,获得最终的最优输出反馈学习控制器。
江昌旭[5](2020)在《基于分层协作强化学习的配电网负荷建模研究》文中指出配电网承担着电力系统分配电能的作用,是电力系统重要的组成部分。大量的随机分布式电源和各种新型负荷接入配电网,导致配电网负荷特性变得更加复杂,造成配电网负荷建模愈发困难。如何在时变和随机环境下对配电网中的负荷进行快速而准确地建模已成为当前电力系统领域亟需解决的问题。配电网中的分布式可再生能源以及负荷具有较强的随机性、时变性和复杂性,本文首先在不确定环境下对配电网中某一特定负荷元件建模;其次过渡到对一类计及时变电压静特性负荷的建模;最后对考虑可再生能源接入配电网的综合负荷进行动态等值建模。本文的研究对象由静态到动态、由单负荷模型到多负荷模型。为了处理各种不确定环境下的负荷建模遇到的准确性和实时性问题,本文在经典Q学习方法基础上提出了多种分层协作强化学习算法。所提出的算法由简单到复杂、由处理离散变量到连续变量,从解决低维简单问题到高维复杂问题,与研究对象一一对应,紧密结合。具体地,本文在研究对象和研究方法上,由浅入深做了以下三个方面的研究:首先,针对新型配电网中快速发展的电动汽车这一特定负荷元件,提出一种基于多智能体协作的多步Q(λ)学习算法对电动汽车充电负荷进行建模。本文采用多代理技术构建不同类型的代理,研究主体与环境的交互以及主体与主体的相互影响。为了能够准确地描述新型配电网中不同电动汽车行为和充电负荷的不确定性,本文通过引入资格迹和通信学习机制提出一种基于多智能体协作的多步Q(λ)强化学习算法,该算法能够为电动汽车提供最优的行为决策,并获得具有时空分布的电动汽车充电负荷。本文算例采用某市实际的规划地图数据和10 k V配电网数据,仿真结果证明了本文所提算法对电动汽车时空充电负荷建模的可行性。在此基础上,研究了不同电价机制和交接班制度对电动汽车充电负荷的时空分布影响以及对新型配电网电压幅值和网损的影响。其次,针对计及时变电压静特性的负荷类型,提出一种基于分层架构的区域电网负荷模型,该模型可以准确反映内外网的相互影响;进而提出一种基于多智能体协作的自适应强化学习算法,对等值模型进行在线参数辨识。该分层架构中的上层问题是建立区域电网的负荷等值模型。在该等值模型中,根据模型预测控制理论构建了一种考虑潮流交互误差的区域负荷模型。另外,提出一种随时间衰减的权重策略来区分滑动时间窗口中不同时刻采样点对负荷建模的贡献,使得到的等值模型参数更能反映当前时刻的负荷特性并获得更加准确的最优潮流。分层架构的下层问题是一个考虑外网时变负荷的安全约束最优潮流问题,以考虑内外网的相互影响。本文建立的区域电网等值模型是一个复杂的非线性优化、具有多个局部最优解的问题,其决策变量属于多维连续型变量。为准确求解该模型,本文基于自适应边界搜索和变学习因子策略提出了一种新型自适应强化学习算法,该算法采用多智能体协作方式对区域负荷等值模型进行在线参数辨识。仿真结果表明,本文提出的等值模型与现有的模型相比具有更高的精度,所提出的新型自适应强化学习算法与现有强化学习算法和最小二乘法相比,在计算精度上和对时变参数跟踪能力上有显着提升。最后,针对可再生能源接入配电网的综合负荷类型,提出一种分层深度Q网络算法对配电网进行动态等值负荷建模。该配电网包含了多种不同特性的源荷,如具有电压静特性的ZIP负荷、具有动态特性的感应电机和恒速恒频风机。为了解决等值模型时变性和准确性问题,采用多个负荷模型对主动配电网进行动态等值建模。然后,提出一种分层深度Q网络强化学习算法实现等值模型方案的选择及模型权重确定,以此得到配电网动态等值负荷模型的功率输出。该问题的状态是由连续型变量组成的多维离散时间序列,本文采用长短期记忆网络对该时序信号进行特征提取。在求解算法方面,采用优先经验回放和Huber损失函数等策略对深度Q网络进行改进,以提高算法的效率和算法获取最优策略的能力。仿真结果表明,分层深度Q网络强化学习算法能够有效地对主动配电网进行动态等值建模,并且其在有功负荷上的精度是传统深度Q网络算法的3倍。
唐建林[6](2020)在《迁移多搜索器Q学习算法及其在电力系统中的优化应用》文中提出随着电力系统的不断壮大,电网的节点越来越多,电力系统中最优化问题的应用越来越频繁。常用的解决方法有经典数学方法和人工智能算法。传统的数值计算能够解决一部分电力系统的优化问题,但通常往往会碰到建模困难等问题。有时候需要花费很长的时间去优化某个模型,甚至有时候问题是无法得到解决的。智能算法对具体的数学模型要求程度低,应用更简便,但是对于高维、复杂、非线性问题的优化计算,其优化结果和优化时间往往很难直接应用于实际电力系统的运行当中。目前来看,风能和太阳能等可再生能源发电系统在电网中的渗透率逐渐增加。但由此带来的负载不确定性以及随后的电力生产波动也会给电力系统的运行和分配带来了新的挑战。因此文章建立起含风力发电机组和光伏发电机组的协同优化调度模型进行研究。随着低碳电力概念的提出,电网公司在电力传输的过程中也需要承担起一部分碳排放的责任,并在此支付一部分经济成本。利用碳排放流分析方法将发电侧的碳足迹转移到电网侧和用户侧,并以碳流的形式对发电侧、电网侧、用户侧进行碳排放责任分摊,从而制定出更有效的节能减排策略。因此,为了实现电力系统的低碳、节能和经济运行,本文把碳-能复合流放进了无功优化的目标函数中。为了快速求解上述两种模型,本文设计了多搜索器优化算法,并进一步结合了强化学习、深度学习和迁移学习,提出了迁移多搜索器Q学习算法。多搜索器优化算法在初始化的过程中采用了混沌理论,并且含有全局搜索器和局部搜索器两种不同类型的搜索器,可以极大提高对问题的搜索效率。迁移多搜索器Q学习算法利用二进制等技术对连续的变量和离散的变量做了初始化处理,有效地对动作-状态空间进行维度的降低,避免了“维度灾难”。在进行信息矩阵迁移的过程中,采用了长短期记忆神经网络技术对信息矩阵进行了预学习,充分利用历史优化信息进行新任务的优化,减少优化时间。最后通过标准算例及实际工程算例证明所提算法的有效性,具有一定的理论价值和工程意义。
武凯凯[7](2020)在《基于强化学习算法的AUV路径规划研究》文中研究指明自主水下航行器(Autonomous Underwater Vehicle,简称AUV)作为重要的水下探索工具,是世界各国重点研究的方向之一。由于水下环境的特殊性和复杂性,AUV的自主性是体现其智能性的关键。要实现AUV的自主航行和自主作业,路径规划技术在其中发挥着重要的作用。路径规划水平的高低在一定程度上决定着AUV自主能力的高低,因此,探索一种适应复杂环境的路径规划方法具有重要的实际意义。强化学习是目前最具发展潜力的人工智能方法之一,由于其能够通过与环境的不断交互来实现系统性能的优化,因此,强化学习对环境具有较强的自适应能力。本文主要是根据强化学习的特点,将其应用到AUV的路径规划中,以提高AUV对水下环境的自适应能力。在实际作业中,AUV的运动过程可以分成两个过程:下潜过程和定深作业时的水平运动过程。因此,本论文的主要研究内容如下:首先,对强化学习原理进行了详细的分析,包括强化学习的模型、要素以及算法,以AUV路径规划为应用背景,分析了强化学习在实际应用中需要注意的问题。其次,将强化学习中的Q学习应用到AUV定深作业时的局部路径规划中。根据AUV前视声呐的特性设计了模拟传感器,并在其基础上搭建了AUV环境训练场,为下一步路径规划的设计提供了有效的验证平台。针对Q学习收敛速度慢的问题,使用资格迹技术进行了加速。接着,设计了基于改进Q学习的路径规划方法,最后,对所设计的AUV路径规划方法进行了仿真验证。再次,针对Q学习在面对连续空间时存在的不足,提出了将深度Q学习应用到AUV的局部路径规划中。分析了神经网络的实现过程,在此基础上对深度Q学习进行了网络结构设计,使用了优先级经验回放缓冲区以提高算法学习的效率。设计了基于深度Q学习的AUV路径规划方法,最后,对所设计的方法进行了仿真验证。最后,使用改进的快速扩展随机树(Rapidly-exploring Random Tree,简称RRT)算法对AUV进行三维路径规划,使AUV能够下潜到指定的深度进行作业。针对RRT算法的不足,提出了改进的RRT算法,将强化学习的自学习能力引入到RRT算法中来近似搜索最近邻节点,并在算法中加入了目标偏置策略,提高了RRT算法的收敛速度。此外,还提出了一种“倒序平滑法”的平滑策略以解决路径的冗余节点问题。最后,对所设计的方法进行了仿真验证。
王松[8](2019)在《动态数据驱动的交通系统状态估计与控制研究》文中指出随着城镇化进程的持续推进以及人们生活水平的提高,城市人口和交通出行需求快速增长,失衡的交通供需关系引发了交通拥堵、交通事故、能源浪费等诸多问题。在缓解交通拥堵方面,单纯限制交通出行需求或新建交通基础设施的方法面临日益增大的压力,潜力越来越小。智能交通系统立足科技的进步平衡交通供需,在提升交通系统运行效率,保障交通安全,减少尾气排放等方面发挥着不可替代的作用,是城市交通未来发展的方向。对道路交通系统运行状态的实时、准确监测是发展智能交通系统,实现智能交通管理与控制的基础。交通状态估计是指用观测到的、部分的且有噪声的交通数据来推理路段的交通状态变量值的过程,是交通管理与控制中必不可少的环节。道路交叉口是交通拥堵和通行延误的主要来源,交通信号灯控制是交通控制最普遍的方式,提高交通信号灯的控制效率,最大化交叉口的通行能力是改善整体交通系统运行性能的关键。本文基于当前交通管理与控制实践中可得的交通数据,采用动态数据驱动方法,利用数据同化和强化学习技术,分别对城市道路交通状态估计和交通信号灯控制进行研究,具有重要的理论意义与应用价值。本文的主要研究内容和贡献有:(1)提出了一个用于城市道路车辆密度估计的中观数据同化框架。针对城市道路交通流特点和车辆密度估计实时性要求,提出了一个适用于较大城市交通网络的中观数据同化框架。该框架采用基于车队的中观交通模型(Platoon Based Model,PBM)来描述城市道路交通演化,很好地平衡了城市交通描述细节与模型计算效率。将单个车辆通过时刻作为测量数据,保证了数据信息量,并用漏检(Missing Detection)和误检(False Detection)误差模型反映真实测量误差。由于该中观交通模型是非线性的,且车辆通过时刻数据包含非高斯噪声,采用粒子滤波算法进行数据同化,实现对车辆密度的估计。(2)针对当前真实交通环境中可获取的两类交通数据,分别提出事件数据直接驱动和路段密度数据驱动的强化学习交通信号灯控制系统。其中,针对已有强化学习交通信号灯控制研究中直接测量数据信息利用不充分的问题,提出了采用高分辨率事件数据定义交通状态并用深度神经网络自动提取交通特征的系统设计方案。为了利用事件数据定义交通状态,提出了一个离散时间交通状态编码方法,将数量不确定的事件数据编码为维数固定的交通状态向量,实现了一个完全采用直接数据驱动的高效的深度强化学习交通信号灯控制系统。在采用估计数据驱动方面,则利用车辆密度估计结果进行状态定义,得到了路段密度数据驱动的强化学习交通信号灯控制系统。(3)对强化学习交通信号灯控制系统设计中交通状态组织方式、相位延长时间等要素的影响进行了定量研究。本文分别在事件数据直接驱动与路段密度数据驱动的强化学习交通信号灯控制系统设计中,研究了基于车道和基于信号灯相位的状态组织方式的差异,可变相序下最大绿灯时间约束对控制器性能的影响,以及不同相位延长时间的选择问题。在路段密度数据驱动的信号灯控制系统中还对基于线性函数近似的Q学习(Q-learning)与基于深度卷积神经网络的3DQN(Double Dueling Deep Q Network)深度强化学习算法进行了对比研究。得到了对基于强化学习的交通信号灯控制系统设计有指导借鉴意义的研究结论。(4)系统地分析了数据质量对基于数据同化的车辆密度估计算法和基于深度强化学习的交通信号灯控制方法的影响。在基于数据同化的车辆密度估计中,分别分析了车辆通过时刻数据的检测成功率和误检参数对算法估计效果的影响,证实了所提框架的鲁棒性。在交通信号灯控制算法中,分别在事件数据直接驱动和路段密度数据驱动的交通信号灯控制算法中,对状态数据质量与回报数据质量的影响进行了实验研究,实验结果表明提出的两个控制算法都具有良好的抗干扰能力。
杜奕航[9](2019)在《基于强化学习的认知无线网络跨层设计及优化研究》文中研究说明随着信息技术的飞速发展,新型无线通信设备呈现爆发式增长,用户对通信质量和服务体验的要求也不断提高。为同时支持更多用户并实现更高的数据传输速率,通信业务对带宽和频谱占用的需求越来越高,由此造成频谱资源匮乏的问题日益严重。认知无线电采用动态频谱接入技术,能够通过时域、空域和频域的多维复用极大地提升频谱利用率,从根本上解决频谱资源的稀缺与不足。为增强系统的鲁棒性与灵活性,认知无线网络一般采用分布式架构,网络层的路由选择与媒体接入控制层的频谱分配联系紧密,为设计高效的动态路由与资源管理方案带来了新的挑战。为克服先验信息缺乏以及无线环境和网络拓扑结构动态变化等问题,本文采用强化学习方法对认知无线网络跨层设计进行了研究,主要包括源节点与中继节点异质、网络中所有节点同构、系统中存在成熟策略节点以及网络中存在恶意干扰节点等不同场景下路由选择与资源管理的联合优化策略。主要研究工作如下:(1)针对网络先验信息缺乏以及传统学习算法在系统状态空间较大时性能不佳等问题,在源节点与中继节点异质的网络场景中将单智能体深度强化学习应用于大规模认知无线网络的跨层路由设计中,提出一种基于内存优化型深度Q学习的联合路由设计与资源管理策略。首先引入路径责任等级的概念,将庞大的动作空间转化为大规模状态空间,并实现端到端延迟与系统能量效率之间的平衡。随后,提出基于内存优化的深度Q网络(PM-DQN),通过周期性擦除记忆库中TD-error值较低的经验元组,在降低平均内存占用的同时实现优先经验回放。最后,针对网络中节点异质的特点设计了一种基于单智能体框架的跨层路由协议,将PM-DQN应用于联合路由设计与资源管理中。仿真结果表明,该方案在不需要先验信息的前提下有效解决了大规模认知无线网络的跨层路由设计,并在降低内存占用的同时取得了较小的路径延迟和较高的能量效率。(2)针对网络中所有节点同构的场景,将多智能体学习策略应用到路由选择与资源管理联合设计中,提出两种基于多智能体强化学习方法的跨层路由协议。首先设计了一种基于策略推测型多智能体Q学习的平面路由协议,通过引入单跳责任等级的概念大幅压缩跨层优化问题的动作空间,并取得单跳延迟与节点能量消耗之间的折衷。随后,将跨层设计问题建模为一个半合作式随机博弈,并提出一种基于等奖励时隙的策略推测型多智能体Q学习算法(ERT-CMAQL)求解该博弈的纳什均衡,算法采用经验回放机制更新推测置信量,打破了更新过程中数据间的强相关性并提高了数据利用效率。仿真结果表明,该方案在学习速率、传输实时性和系统鲁棒性等方面均优于传统学习策略。当网络中节点密度较大时,提出一种基于能耗权重分簇算法的层次路由协议。首先,引入能耗权重的概念,提出基于能耗权重的贪婪式分簇算法以实现簇内通信能量消耗的最小化。随后,应用Double Q学习框架改进了ERT-CMAQL算法,并对簇间通信的路由选择和资源分配进行联合优化。仿真结果显示,该方案的数据包传输延迟和能量消耗远低于平面路由协议。(3)针对时延和能耗敏感型应用,在网络中存在成熟策略节点的场景下,将学徒学习策略应用到跨层路由设计中,提出两种基于学徒学习的路由选择和资源管理联合优化方案。在源节点和中继节点异质的场景中,针对网络中新生成数据源的情况,提出一种基于内存优化型学徒学习的联合路由设计与资源管理方案。首先引入强化型路径责任等级的概念,通过多级跃迁机制提高功率分配效率。随后提出基于专家演示数据的内存优化型深度Q学习(PM-DQf D)算法,周期性擦除经验库中低质量的自主生成数据和过时的专家演示数据,释放内存空间并优化数据结构。最后,构建了一种基于单智能体框架的跨层路由协议,将PM-DQf D算法应用到路由选择与资源管理联合优化中。仿真结果显示,该方法在学习速率、数据传输质量和网络可靠性等方面都优于传统强化学习方案。在网络中所有节点同构的场景下,针对新节点加入网络的情况,提出一种基于多专家演示型学徒学习算法的跨层路由协议。首先,通过引入强化型单跳责任等级提升功率自适应分配效率。随后提出半径自适应型Bregman球模型,保证地理位置偏远的认知用户能够找到合适的专家节点。最后,为避免单一专家经验缺陷造成的策略偏置,设计了一种基于多专家演示数据的深度Q学习算法。仿真结果表明,较传统多智能体强化学习策略,该方案的训练周期、路径延迟和系统能量消耗率都较小。(4)针对认知无线网络协议架构复杂、易受恶意用户攻击的问题,在网络中存在恶意干扰节点的场景下,从网络的整体性能出发提出一种基于端到端性能的多跳认知无线网络抗干扰决策算法。首先,抗干扰策略将路由选择考虑在内,充分发挥分布式网络鲁棒性的优势。随后,将双门限判决机制引入强化型路径责任等级,提升功率分配过程中的稳定性。最后,结合多跳网络中节点受干扰特点,将基于竞争架构的深度Q网络应用到抗干扰决策中。仿真结果表明,该方案无论在常规干扰模式还是智能干扰模式下的端到端性能均优于传统抗干扰算法,且带来网络鲁棒性与可靠性的大幅提升。
杨帅[10](2019)在《环境背向反射通信系统中无线设备运行模式选择最优化研究》文中研究表明随着物联网行业的蓬勃发展,目前无线传感器网络的应用场景也越来越多,但大量的物联网设备依赖其外接的电池作为与网络节点通信的能源,这不仅带来很高的网络维护成本,而且限制了物联网设备的工作环境。环境背向反射作为一种新兴的通信技术,它通过反射环境中已有的射频信号作为载波实现通信,并且可以通过收集环境中的射频能量来补充电能,通过这种特殊的通信设计,可以有效地解决目前小型传感器网络节点的能源消耗问题。然而,在环境背向反射通信过程中,使用同一根偶极子天线进行工作的反射设备以反射信息模式运行时,将无法采集能量,而不可控的环境信号通常是不稳定的,因此,如何针对不断变化的环境信号条件去选择合适的运行模式是影响整体系统性能的关键问题。本文将针对变化的环境信号,研究背向反射通信过程中标签运行模式选择的最优化问题。本文根据环境信道分布是否已知分为两种情况构建问题模型,并分别进行研究。在已知环境信道分布的情况下,本文基于环境信道概率分布构建了背向反射模式选择问题,并将问题转换成0-1背包问题。本文提出一种基于动态规划的算法获得问题的最优解,并根据背向反射的通信特性提出一种基于性价比函数的贪心算法来得到最优结果的近似解,本文提出的贪心算法在显着降低算法复杂度的同时,可以得到令人满意的近似最优结果。此外,在信道分布未知的情况下,本文使用强化学习方法来研究环境背向反射通信中操作模式的选择问题,通过使用强化学习算法中的免模型Q学习方法来构建策略学习算法,并针对在环境背向反射模式选择中存在状态空间过多和需要保证平均获能等问题,引入一种量化后的平均获能状态,对状态空间进行优化,并构建出背向反射通信模式自适应选择算法。最后,通过仿真分析验证了所提出的算法的优势,并展示了算法在不同环境下的有效性和稳定性。在不同仿真条件下,使用本文提出的优化方法均可以使背向反射设备在满足一定的平均获能约束下,提升平均通信速率。
二、Q-学习算法在CGF系统中的应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、Q-学习算法在CGF系统中的应用(论文提纲范文)
(1)基于强化学习的多用户功率智能分配(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 主要研究内容 |
1.4 论文结构安排 |
第二章 相关理论及基础知识 |
2.1 引言 |
2.2 认知无线电 |
2.3 功率控制 |
2.3.1 功率控制技术 |
2.3.2 认知无线电中的功率分配 |
2.4 强化学习 |
2.4.1 强化学习模型及基本要素 |
2.4.2 强化学习算法 |
2.4.3 认知无线电中的多智能体强化学习 |
2.5 本章小结 |
第三章 基于估计奖励回报的非协作多用户功率分配 |
3.1 引言 |
3.2 系统模型 |
3.3 纳什均衡 |
3.4 基于非协作Q学习的功率控制算法 |
3.4.1 问题分析 |
3.4.2 算法设计 |
3.4.3 等价性证明 |
3.5 仿真结果及分析 |
3.5.1 信道模型及基本参数设置 |
3.5.2 收敛性仿真 |
3.5.3 与传统优化算法的比较 |
3.6 本章小结 |
第四章 授权用户优先的多用户功率分配 |
4.1 引言 |
4.2 问题分析 |
4.3 多智能体强化学习技术 |
4.3.1 集中式多智能体Q学习算法 |
4.3.2 分布式多智能体Q学习算法 |
4.4 授权用户优先的功率控制算法 |
4.4.1 算法设计 |
4.5 仿真结果及分析 |
4.5.1 保护授权用户通信的效果 |
4.5.2 算法性能比较 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 全文总结 |
5.2 工作展望 |
致谢 |
参考文献 |
(2)多智能体强化学习在城市交通信号控制中的研究与应用(论文提纲范文)
中文摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景和研究意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 城市交通信号控制理论及其发展现状 |
1.2.1 城市交通信号控制基本概念 |
1.2.2 城市交通信号控制方法 |
1.2.3 强化学习在城市交通信号控制上的研究和应用 |
1.2.4 多智能体强化学习在城市交通信号控制上的研究和应用 |
1.3 国内外研究现状 |
1.3.1 国外研究 |
1.3.2 国内研究 |
1.3.3 现有研究的不足 |
1.4 本文主要研究内容、创新点、组织结构 |
1.4.1 主要研究内容 |
1.4.2 创新点 |
1.4.3 组织结构 |
第二章 多智能体强化学习理论和算法 |
2.1 人工智能概述 |
2.1.1 机器学习 |
2.1.2 深度学习 |
2.2 单智能体强化学习理论和算法 |
2.2.1 单智能体强化学习理论 |
2.2.2 单智能体强化学习主要算法 |
2.2.3 深度强化学习理论 |
2.2.4 深度强化学习主要算法 |
2.3 多智能体深度强化学习理论和算法 |
2.3.1 多智能体强化学习理论 |
2.3.2 多智能体强化学习典型算法 |
2.4 本章小结 |
第三章 基于真实数据的城市多交叉路口仿真平台优化 |
3.1 构建城市交通流量数据集 |
3.1.1 数据预处理 |
3.1.2 目标检测算法介绍 |
3.1.3 基于迁移学习的车辆目标检测算法 |
3.1.4 生成城市多交叉路文本数据集 |
3.2 基于图卷积网络和生成对抗网络的城市交通流量预测 |
3.2.1 基础理论 |
3.2.2 交通流量预测问题 |
3.2.3 GCN-GAN模型结构和算法 |
3.2.4 实验过程和结果 |
3.2.5 实验小结 |
3.3 构建基于真实交通流量的城市多交叉路口仿真实验平台 |
3.3.1 城市交通仿真系统简介 |
3.3.2 构建基于真实交通流量的城市多交叉路口仿真平台 |
3.4 本章小结 |
第四章 基于纳什均衡的多智能体强化学习交通信号控制 |
4.1 纳什均衡理论基本概念 |
4.1.1 博弈论概述 |
4.1.2 纳什均衡理论 |
4.1.3 纳什算子 |
4.2 多交叉路口交通信号控制问题 |
4.2.1 从博弈论到多智能体强化学习 |
4.2.2 多交叉路口交通信号控制问题定义 |
4.3 基于纳什均衡的优势行动者评论家算法 |
4.3.1 算法背景 |
4.3.2 算法目标 |
4.3.3 Nash-A2C算法 |
4.3.4 Nash-A3C算法 |
4.4 仿真实验和结果 |
4.4.1 仿真环境设置 |
4.4.2 网络参数设置 |
4.4.3 实验过程 |
4.4.4 实验结果 |
4.4.5 实验小结 |
4.5 本章小结 |
第五章 基于自学习通信协议的多交叉路口交通信号控制 |
5.1 多智能体通信简介 |
5.1.1 背景介绍 |
5.1.2 基本概念 |
5.1.3 多智能体通信模型 |
5.2 多智能体通信问题 |
5.2.1 MARL中多智能体通信的问题 |
5.2.2 多智能通信与交通信号控制问题 |
5.3 MAAC算法模型 |
5.3.1 智能体通信模块 |
5.3.2 MAAC通信过程 |
5.3.3 MAAC算法步骤 |
5.4 仿真实验和结果 |
5.4.1 仿真环境设置 |
5.4.2 网络参数设置 |
5.4.3 实验过程 |
5.4.4 实验结果 |
5.4.5 实验小结 |
5.5 本章小结 |
第六章 基于混合计算架构的多智能体强化学习算法 |
6.1 背景介绍 |
6.1.1 物联网 |
6.1.2 云计算 |
6.1.3 边缘计算 |
6.1.4 雾计算 |
6.2 问题定义 |
6.2.1 多智能体交通信号控制问题 |
6.2.2 网络带宽和通信时延问题 |
6.3 基于边缘计算、雾计算、云计算的混合计算架构 |
6.4 基于混合计算架构的多智能体强化学习算法 |
6.4.1 边缘计算节点 |
6.4.2 雾计算节点 |
6.4.3 云计算中心 |
6.4.4 Mixed-MARL信息处理流 |
6.4.5 Mixed-MARL算法 |
6.5 仿真实验和结果 |
6.5.1 仿真环境设置 |
6.5.2 Mixed-MARL网络参数设置 |
6.5.3 实验过程 |
6.5.4 实验结果 |
6.5.5 综合分析 |
6.5.6 实验小结 |
6.6 本章小结 |
第七章 多智能体城市交通计算综合应用 |
7.1 背景介绍 |
7.2 城市交通信号控制的综合应用计算框架 |
7.2.1 构建混合计算框架 |
7.2.2 构建城市交通真实环境 |
7.2.3 构建城市交通仿真环境 |
7.3 城市多交叉路口交通信号控制组合算法 |
7.3.1 算法背景 |
7.3.2 算法过程 |
7.4 仿真实验和结果 |
7.4.1 GCTCS环境设置 |
7.4.2 General-MARL网络参数设置 |
7.4.3 实验过程 |
7.4.4 实验结果 |
7.4.5 综合分析 |
7.4.6 实验小结 |
7.5 本章小结 |
第八章 总结和展望 |
8.1 本文总结 |
8.2 后续展望 |
参考文献 |
在学期间的研究成果 |
致谢 |
(3)基于强化学习的批处理机随机调度问题研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 批调度问题 |
1.2.2 考虑不确定情况的调度问题 |
1.2.3 强化学习在生产调度中的应用 |
1.3 论文的主要内容及章节安排 |
第二章 具有工件尺寸差异的单批处理机随机调度问题 |
2.1 物理模型与工作机制 |
2.1.1 物理模型 |
2.1.2 系统工作机制 |
2.2 系统数学模型的建立 |
2.2.1 问题描述 |
2.2.2 状态转移过程 |
2.2.3 系统矩阵 |
2.3 基于策略迭代算法的求解 |
2.3.1 算法简介 |
2.3.2 算法步骤 |
2.4 仿真实验与结果分析 |
2.4.1 系统缓冲库容量设计 |
2.4.2 策略迭代算法优化结果 |
2.5 本章小结 |
第三章 随机批调度问题的Q学习方法研究 |
3.1 Q学习优化算法 |
3.1.1 算法简介 |
3.1.2 算法步骤 |
3.2 行动集删减策略 |
3.2.1 指标定义 |
3.2.2 算法步骤 |
3.3 仿真实验与结果分析 |
3.3.1 系统优化效果 |
3.3.2 不同系统参数设置下算法性能分析 |
3.3.3 不同工件参数设置下算法性能分析 |
3.3.4 ASR方法性能分析 |
3.4 本章小结 |
第四章 基于规则学习的随机批调度策略 |
4.1 问题分析 |
4.2 基于Q学习的启发式选择调度算法 |
4.2.1 算法概述 |
4.2.2 启发式规则设计 |
4.2.3 算法流程 |
4.3 仿真实验及结果分析 |
4.3.1 系统优化效果分析 |
4.3.2 不同工件参数设置下算法性能分析 |
4.3.3 启发式规则与HQ比较实验 |
4.4 本章小结 |
第五章 基于深度Q学习的随机批调度策略 |
5.1 深度Q学习算法 |
5.1.1 算法简介 |
5.1.2 算法步骤 |
5.2 仿真实验与结果分析 |
5.2.1 系统优化效果分析 |
5.2.2 不同算例下算法性能分析 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间的学术活动及成果情况 |
(4)基于数据驱动Q学习的跟踪控制研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题背景 |
1.2 ADP的发展及研究现状 |
1.2.1 ADP的结构 |
1.2.2 基于ADP的最优调节问题和最优跟踪问题 |
1.2.3 PI和VI策略 |
1.2.4 On-policy与 Off-policy方法 |
1.2.5 Q学习的应用 |
1.2.6 基于输入/输出数据的ADP控制 |
1.3 论文研究内容与结构安排 |
1.4 本章小结 |
第二章 预备知识与理论介绍 |
2.1 引言 |
2.2 ADP算法的基本原理 |
2.3 LQT问题 |
2.3.1 增广系统 |
2.3.2 离线PI算法 |
2.4 状态重构 |
2.5 基于内模原理的动态输出反馈控制器设计 |
2.6 单相电压源UPS逆变器 |
2.6.1 离散时间系统模型 |
2.6.2 系统仿真 |
2.7 本章小结 |
第三章 基于PI策略的on-policy数据驱动Q学习 |
3.1 引言 |
3.2 On-policy状态反馈Q学习 |
3.3 On-policy输出反馈Q学习 |
3.4 仿真结果 |
3.5 本章小结 |
第四章 基于PI策略的off-policy数据驱动Q学习 |
4.1 引言 |
4.2 Off-policy状态反馈Q学习 |
4.3 Off-policy输出反馈Q学习 |
4.4 仿真结果 |
4.5 本章小结 |
第五章 基于VI策略的on-policy数据驱动Q学习 |
5.1 引言 |
5.2 On-policy状态反馈Q学习 |
5.3 On-policy输出反馈Q学习 |
5.4 仿真结果 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(5)基于分层协作强化学习的配电网负荷建模研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 选题背景与研究意义 |
1.2 国内外研究现状 |
1.2.1 负荷建模研究现状 |
1.2.2 负荷模型参数辨识研究现状 |
1.2.3 强化学习算法研究现状 |
1.2.4 存在问题 |
1.3 本文的研究框架以及章节内容 |
1.3.1 研究思路及框架 |
1.3.2 章节内容 |
第二章 分层协作强化学习算法理论基础及其算法介绍 |
2.1 引言 |
2.2 分层协作强化学习思想 |
2.3 分层协作强化学习算法 |
2.3.1 基于多智能体协作的多步Q(λ)学习算法 |
2.3.2 基于多智能体协作的自适应强化学习算法 |
2.3.3 分层深度强化学习算法 |
2.4 算法比较分析 |
2.5 本章小结 |
第三章 基于多智能体协作多步Q(λ)学习的新型配电网中电动汽车充电负荷建模方法 |
3.1 引言 |
3.2 基于多代理技术的电动汽车仿真框架 |
3.2.1 地图代理 |
3.2.2 充电站代理 |
3.2.3 电动汽车代理 |
3.2.4 电网代理 |
3.3 基于强化学习算法的电动汽车行为决策建模 |
3.3.1 状态和行为决策空间 |
3.3.2 奖惩函数设计 |
3.4 算例与分析 |
3.4.1 多步Q(λ)学习算法性能分析 |
3.4.2 电动汽车充电负荷在时间-空间上的分布 |
3.4.3 电动汽车充电对配电网电压和网损的影响 |
3.4.4 考虑交接班制度和电价机制对充电负荷和配电网的影响 |
3.5 本章小结 |
第四章 基于多智能体协作自适应强化学习的分层架构区域电网负荷建模方法 |
4.1 引言 |
4.2 基于分层架构的区域电网负荷建模 |
4.2.1 负荷建模总体思路 |
4.2.2 区域电网负荷建模 |
4.2.3 安全约束最优潮流 |
4.3 基于MACSARL算法的区域电网负荷建模 |
4.3.1 区域电网负荷建模求解流程 |
4.3.2 基于MACSARL算法的在线参数辨识 |
4.4 算例分析 |
4.4.1 不同算法下的结果比较和分析 |
4.4.2 不同权重方案下的结果比较和分析 |
4.4.3 不同等值模型下的结果比较和分析 |
4.4.4 非基态场景下模型准确度验证 |
4.5 本章小结 |
第五章 基于分层深度强化学习的主动配电网动态等值建模方法 |
5.1 引言 |
5.2 综合负荷模型及等值建模 |
5.3 基于分层深度Q网络算法的配电网动态等值 |
5.3.1 基于分层深度Q网络算法的配电网动态等值总体框架 |
5.3.2 分层深度Q网络算法设计 |
5.3.3 深度神经网络设计 |
5.3.4 算法流程图 |
5.4 算例分析 |
5.4.1 算例设置 |
5.4.2 分层深度强化学习算法性能分析 |
5.4.3 有功和无功负荷比较 |
5.5 本章小结 |
第六章 结论与展望 |
6.1 结论 |
6.2 不足与展望 |
参考文献 |
攻读博士学位期间取得的研究成果 |
致谢 |
(6)迁移多搜索器Q学习算法及其在电力系统中的优化应用(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 低碳电力系统的研究现状 |
1.2.2 优化方法在电力系统中的研究现状 |
1.2.3 强化学习技术的研究现状 |
1.2.4 迁移学习技术的研究现状 |
1.3 主要研究内容 |
第二章 迁移多搜索器Q学习算法 |
2.1 引言 |
2.2 多搜索器优化算法 |
2.2.1 混沌理论 |
2.2.2 双层搜索器 |
2.2.3 随机游走规则 |
2.3 Q学习算法 |
2.4 迁移多搜索器Q学习算法 |
2.4.1 信息矩阵 |
2.4.2 状态-动作空间降维 |
2.4.3 动作选择策略 |
2.4.4 信息迁移 |
2.5 对比算法介绍 |
2.6 本章小结 |
第三章 基于多搜索器优化算法的含可再生能源协同优化调度 |
3.1 引言 |
3.2 含可再生能源协同优化调度模型 |
3.2.1 可再生能源模型 |
3.2.2 成本函数 |
3.2.3 约束条件 |
3.2.4 算法流程 |
3.3 标准函数测试与对比 |
3.4 仿真算例分析 |
3.4.1 系统模型 |
3.4.2 算例分析 |
3.5 本章小结 |
第四章 基于迁移多搜索器Q学习算法的碳能复合流无功优化 |
4.1 引言 |
4.2 碳能复合流无功优化模型 |
4.2.1 碳能复合流模型基础 |
4.2.2 考虑碳能复合流的无功优化模型 |
4.3 基于TMSQ的碳能复合流无功优化求解设计 |
4.3.1 算法状态与动作的设计 |
4.3.2 奖励函数的设计 |
4.3.3 迁移学习优化 |
4.3.4 参数设置 |
4.3.5 算法流程 |
4.4 仿真算例分析 |
4.4.1 仿真模型 |
4.4.2 预学习研究 |
4.4.3 在线迁移学习研究 |
4.5 本章小结 |
第五章 结论与展望 |
5.1 结论 |
5.2 展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(7)基于强化学习算法的AUV路径规划研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 课题研究的背景和意义 |
1.2 AUV研究现状 |
1.2.1 国外AUV研究现状 |
1.2.2 国内AUV研究现状 |
1.3 AUV路径规划技术概述 |
1.3.1 路径规划的定义和方法 |
1.3.2 AUV路径规划研究现状 |
1.4 强化学习的研究现状 |
1.5 论文研究的主要内容 |
第2章 强化学习理论 |
2.1 强化学习模型 |
2.1.1 马尔可夫决策过程 |
2.1.2 强化学习的基本原理 |
2.2 强化学习要素 |
2.3 强化学习算法 |
2.3.1 强化学习算法的分类 |
2.3.2 基本的强化学习算法 |
2.4 强化学习应用中的关键问题 |
2.4.1 泛化方法 |
2.4.2 探索与利用的平衡 |
2.5 本章小结 |
第3章 基于Q学习的AUV路径规划 |
3.1 环境信息的获取 |
3.1.1 传感器配置及障碍物的检测 |
3.1.2 AUV在某一时刻的状态描述 |
3.2 基于资格迹的Q学习算法 |
3.3 基于Q学习的AUV路径规划设计 |
3.3.1 环境状态的表示 |
3.3.2 行为动作的划分 |
3.3.3 报酬函数的定义 |
3.3.4 动作选择策略 |
3.4 基于Q学习的AUV路径规划仿真 |
3.4.1 AUV仿真平台简介 |
3.4.2 AUV路径规划流程 |
3.4.3 仿真验证及分析 |
3.5 本章小结 |
第4章 基于深度Q学习的AUV路径规划 |
4.1 深度Q学习的网络结构设计 |
4.1.1 BP神经网络的基本原理 |
4.1.2 深度Q学习的网络结构 |
4.2 基于深度Q学习的AUV路径规划设计 |
4.2.1 AUV深度Q学习系统结构 |
4.2.2 环境状态的表示 |
4.2.3 报酬函数的确定 |
4.3 基于深度Q学习的AUV路径规划仿真 |
4.3.1 AUV路径规划流程 |
4.3.2 仿真验证及分析 |
4.4 本章小节 |
第5章 基于RRT和强化学习的AUV路径规划 |
5.1 RRT算法概述 |
5.1.1 RRT算法的基本原理 |
5.1.2 RRT算法的优点与不足 |
5.2 基于强化学习的改进RRT算法 |
5.2.1 最近邻节点搜索近似 |
5.2.2 RRT算法的MDP模型 |
5.2.3 SRRT算法的描述 |
5.3 路径的平滑处理 |
5.4 仿真验证及分析 |
5.4.1 SRRT算法性能验证 |
5.4.2 基于SRRT算法的AUV三维路径规划 |
5.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文和取得的科研成果 |
致谢 |
(8)动态数据驱动的交通系统状态估计与控制研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 基于数据同化的车辆密度估计 |
1.2.2 基于强化学习的交通信号灯控制 |
1.2.3 研究现状总结与分析 |
1.3 论文的研究内容与贡献 |
1.4 论文的组织结构 |
第二章 动态数据驱动的交通系统状态估计与控制框架 |
2.1 基于动态数据的交通系统状态估计与控制框架 |
2.2 高分辨率事件数据 |
2.3 交通建模与交通模型 |
2.4 数据同化与数据同化技术 |
2.5 交通信号灯控制 |
2.5.1 基本概念 |
2.5.2 自适应交通信号灯控制 |
2.5.3 基于强化学习的交通信号灯控制 |
2.5.4 面向真实系统的强化学习交通信号灯控制系统开发需求 |
2.5.5 面向真实系统的强化学习交通信号灯控制研究框架 |
2.6 本章小结 |
第三章 基于粒子滤波的中观车辆密度估计数据同化框架 |
3.1 建模与仿真基础 |
3.1.1 动态系统建模 |
3.1.2 系统规范形式化 |
3.1.3 离散事件建模与DEVS形式化方法 |
3.2 基于DEVS描述的中观城市道路交通模型 |
3.2.1 城市道路交通系统的DEVS耦合模型 |
3.2.2 城市道路交通系统的关键原子模型 |
3.3 基于粒子滤波的车辆密度估计数据同化框架 |
3.3.1 交通状态演化模型 |
3.3.2 测量模型 |
3.3.3 基于粒子滤波的车辆密度估计算法 |
3.4 实验验证 |
3.4.1 实验设计 |
3.4.2 评估指标 |
3.4.3 实验结果 |
3.5 本章小结 |
第四章 数据驱动的强化学习交通信号灯控制研究 |
4.1 基于Q学习与3DQN强化学习算法的交通信号灯控制 |
4.1.1 基于值函数近似的Q学习算法 |
4.1.2 3DQN算法 |
4.1.3 基于Q学习与3DQN算法的交通信号灯控制 |
4.2 事件数据直接驱动的强化学习交通信号灯控制系统设计 |
4.2.1 道路数据检测系统配置 |
4.2.2 回报函数定义 |
4.2.3 基于高分辨率事件数据的离散时间编码方法 |
4.2.4 交通状态组织形式 |
4.2.5 控制动作定义及相位延长时间选择 |
4.3 估计数据驱动的强化学习交通信号灯控制系统设计 |
4.3.1 估计的路段密度数据 |
4.3.2 交通状态组织形式 |
4.4 实验设计 |
4.4.1 强化学习参数设置与卷积神经网络设计 |
4.4.2 对照控制方法 |
4.4.3 实验设置 |
4.5 实验结果与分析 |
4.5.1 交通状态组织形式的影响 |
4.5.2 强化学习方法的影响 |
4.5.3 控制动作定义的影响 |
4.5.4 相位延长时间的影响 |
4.5.5 关于影响分析的小结 |
4.5.6 与对照控制方法的比较结果 |
4.6 本章小结 |
第五章 数据质量对车辆密度估计与信号灯控制的影响分析 |
5.1 数据质量对车辆密度估计的影响 |
5.2 数据质量对交通信号灯控制的影响 |
5.2.1 数据误差模型 |
5.2.2 分析实验设置 |
5.2.3 数据质量对路段密度数据驱动的强化学习控制方法的影响 |
5.2.4 数据质量对事件数据驱动强化学习控制方法的影响 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 论文工作总结 |
6.2 未来工作展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(9)基于强化学习的认知无线网络跨层设计及优化研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究的背景及意义 |
1.2 认知无线电的概念与潜在应用 |
1.2.1 认知无线电的概念 |
1.2.2 认知无线电的潜在应用 |
1.2.2.1 在民用领域的应用 |
1.2.2.2 在军事领域的应用 |
1.3 基于强化学习的认知无线网络跨层优化研究现状 |
1.3.1 基于单智能体架构的学习方法 |
1.3.2 基于松耦合多智能体系统的学习方法 |
1.3.3 基于博弈论的多智能体学习方法 |
1.4 论文主要工作及创新点 |
1.4.1 论文主要工作 |
1.4.2 论文创新点 |
1.5 论文结构安排 |
第二章 强化学习与跨层设计 |
2.1 引言 |
2.2 强化学习理论 |
2.2.1 强化学习问题定义 |
2.2.2 强化学习基本框架 |
2.2.2.1 动态规划 |
2.2.2.2 基于模型的强化学习 |
2.2.2.3 免模型强化学习 |
2.2.3 强化学习中的重要算法 |
2.2.3.1 深度Q网络 |
2.2.3.2 多智能体Q学习算法 |
2.3 跨层设计及优化 |
2.3.1 跨层设计的概念及意义 |
2.3.2 跨层设计的架构及应用 |
2.3.2.1 跨层设计实施架构 |
2.3.2.2 跨层设计在认知无线网络中的应用 |
2.3.3 跨层设计面临的挑战 |
2.4 本章小结 |
第三章 基于单智能体学习框架的跨层优化研究 |
3.1 引言 |
3.2 源节点与中继节点异质场景下的系统模型 |
3.2.1 网络模型 |
3.2.2 帧结构模型 |
3.3 跨层优化问题建模 |
3.3.1 路径责任等级 |
3.3.2 问题模型 |
3.3.2.1 马尔科夫决策过程 |
3.3.2.2 路径责任等级的收敛性分析 |
3.4 基于PM-DQN算法的路由协议与资源管理联合设计方案 |
3.4.1 基于内存优化的深度Q网络 |
3.4.2 基于PM-DQN算法的联合路由设计与资源管理方案 |
3.5 仿真实验与结果分析 |
3.5.1 仿真环境设置 |
3.5.2 跨层设计方案整体性能 |
3.5.3 算法有效性评估 |
3.5.4 算法鲁棒性评估 |
3.5.5 学习率和Q值的作用效果 |
3.5.6 算法复杂度分析 |
3.6 本章小结 |
第四章 基于多智能体学习策略的跨层路由设计 |
4.1 引言 |
4.2 基于半合作式多智能体Q学习的平面路由协议 |
4.2.1 同构网络场景下平面路由的系统模型 |
4.2.2 跨层优化问题建模 |
4.2.2.1 综合效用函数 |
4.2.2.2 单跳责任等级 |
4.2.2.3 问题建模 |
4.2.3 基于策略推测型多智能体Q学习算法的跨层路由设计 |
4.2.3.1 基于等奖励时隙的策略推测式多智能体Q学习算法 |
4.2.3.2 算法收敛性分析 |
4.2.4 仿真实验及结果分析 |
4.3 基于能耗权重分簇的层次路由协议 |
4.3.1 同构网络中层次路由的系统模型 |
4.3.2 基于能耗权重的分簇算法 |
4.3.2.1 能耗权重 |
4.3.2.2 基于能耗权重的启发式分簇算法 |
4.3.3 簇间通信跨层路由协议设计 |
4.3.3.1 簇间通信问题建模 |
4.3.3.2 基于ERT-CMADQL算法的簇间跨层路由协议 |
4.3.4 仿真实验及结果分析 |
4.4 本章小结 |
第五章 基于学徒学习的路由协议和资源管理研究 |
5.1 引言 |
5.2 基于专家演示数据的深度Q学习算法 |
5.3 基于PM-DQf D算法的联合路由设计与资源管理方案 |
5.3.1 单智能体学徒学习方案的系统模型 |
5.3.2 学习框架构建 |
5.3.2.1 强化型路径责任等级 |
5.3.2.2 问题建模 |
5.3.3 基于PM-DQf D算法的联合路由设计与资源管理方案 |
5.3.3.1 基于专家演示数据的内存优化型深度Q学习算法 |
5.3.3.2 基于PM-DQf D算法的联合路由设计与资源管理方案 |
5.3.4 仿真实验及结果分析 |
5.3.4.1 仿真环境设置 |
5.3.4.2 仿真结果 |
5.3.4.3 算法时间复杂度分析 |
5.3.4.4 应用场景讨论 |
5.4 基于多专家演示型学徒学习算法的跨层路由协议 |
5.4.1 多智能体学徒学习方案的系统模型 |
5.4.2 联合优化问题建模 |
5.4.2.1 强化型单跳责任等级 |
5.4.2.2 问题建模 |
5.4.3 半径自适应型 Bregman球模型 |
5.4.4 基于多专家演示型深度Q学习算法的跨层路由协议 |
5.4.5 仿真实验及结果分析 |
5.4.5.1 仿真环境设置 |
5.4.5.2 仿真结果分析 |
5.5 本章小结 |
第六章 基于端到端性能的抗干扰决策算法 |
6.1 引言 |
6.2 多跳网络抗干扰模型 |
6.2.1 系统模型 |
6.2.2 双门限路径责任等级 |
6.3 基于端到端性能的认知无线网络抗干扰决策算法 |
6.3.1 基于竞争架构的深度Q网络 |
6.3.2 基于端到端性能的抗干扰决策算法 |
6.4 仿真结果分析 |
6.4.1 仿真环境设置 |
6.4.2 仿真结果分析 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 论文工作总结 |
7.2 研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(10)环境背向反射通信系统中无线设备运行模式选择最优化研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 背景及意义 |
1.2 发展历史和国内外研究现状 |
1.3 论文的主要内容与章节安排 |
1.3.1 论文主要内容和贡献 |
1.3.2 章节安排 |
第2章 环境背向反射模式最优化选择模型分析 |
2.1 基于时变环境信号的系统模型 |
2.1.1 信道模型 |
2.1.2 获能模型 |
2.2 误码率和速率分析 |
2.2.1 误码率分析 |
2.2.2 速率模型 |
2.3 基于时变环境信号下的环境背向通信模式选择 |
2.3.1 信道分布已知的问题模型 |
2.3.2 信道分布未知的问题模型 |
2.4 本章小结 |
第3章 已知信道下的模式选择最优化算法研究 |
3.1 引言 |
3.2 动态规划 |
3.2.1 构造动态规划的重要特征 |
3.2.2 动态规划的具体实现方法 |
3.2.3 构建动态规划进行最优化问题求解 |
3.3 贪心算法 |
3.3.1 贪心算法特点和工作原理 |
3.3.2 贪心算法实现方法与步骤 |
3.3.3 应用贪心算法构造问题近似算法 |
3.4 本章小结 |
第4章 基于强化学习的模式选择优化算法研究 |
4.1 引言 |
4.2 强化学习基本原理 |
4.2.1 强化学习概述 |
4.2.2 马尔科夫决策过程 |
4.3 基于强化学习的算法模型 |
4.3.1 有模型学习 |
4.3.2 免模型学习 |
4.4 基于强化学习的背向反射模式选择算法 |
4.4.1 基于Q学习的模式选择算法 |
4.4.2 针对环境背向反射的优化及改进算法 |
4.5 本章小结 |
第5章 实验仿真与结果分析 |
5.1 实验方案基本介绍 |
5.2 已知信道分布下的算法仿真 |
5.2.1 系统仿真参数 |
5.2.2 最优化模式选择算法的仿真结果与分析 |
5.2.3 基于稳定信号环境下的仿真与分析 |
5.2.4 对偶实验的仿真与分析 |
5.3 未知信道分布下的Q学习算法仿真 |
5.3.1 Q学习算法仿真参数 |
5.3.2 Q学习算法仿真结果与分析 |
5.4 仿真实验结果总结和分析 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 工作总结 |
6.2 未来展望 |
参考文献 |
致谢 |
攻读硕士学位期间的研究成果 |
四、Q-学习算法在CGF系统中的应用(论文参考文献)
- [1]基于强化学习的多用户功率智能分配[D]. 喻泽晨. 电子科技大学, 2021(01)
- [2]多智能体强化学习在城市交通信号控制中的研究与应用[D]. 武强. 兰州大学, 2020(04)
- [3]基于强化学习的批处理机随机调度问题研究[D]. 杨子豪. 合肥工业大学, 2020(02)
- [4]基于数据驱动Q学习的跟踪控制研究[D]. 赵光月. 华南理工大学, 2020(02)
- [5]基于分层协作强化学习的配电网负荷建模研究[D]. 江昌旭. 华南理工大学, 2020
- [6]迁移多搜索器Q学习算法及其在电力系统中的优化应用[D]. 唐建林. 华南理工大学, 2020(02)
- [7]基于强化学习算法的AUV路径规划研究[D]. 武凯凯. 哈尔滨工程大学, 2020(05)
- [8]动态数据驱动的交通系统状态估计与控制研究[D]. 王松. 国防科技大学, 2019(01)
- [9]基于强化学习的认知无线网络跨层设计及优化研究[D]. 杜奕航. 国防科技大学, 2019(01)
- [10]环境背向反射通信系统中无线设备运行模式选择最优化研究[D]. 杨帅. 深圳大学, 2019(10)