(介绍强化学习在核聚变领域的应用)
(指出强化学习对环境训练的需求,提出可以使用DSSim模型来简化研究人员工作,因此对DSSIm进行一系列升级)
(指出现在DSSim不能满足强化学习的需求,需要进行改造。包括对性能进行大幅提升,以及为了方便强化学习的通信,要实现小周期更新可调。为了消除一些不必要的代数环,实现动态识别直接馈通功能。)
(性能提升目标按照任务书的,rzip模型的仿真时间减少一半,离散系统提升30%,连续系统提升50%。在此介绍rzip模型)
(分为三部分:服务器多用户适配、仿真引擎小周期更新、动态识别直接馈通)
(使用scalene和py-spy对rzip的性能分析,指出仿真的耗时部分)
(性能优化按照之前结题报告的几部分进行说明。优化结果对rzip进行测试,以及创建纯离散模型和纯连续模型对两类系统进行测试,与之前的性能提升目标对应)
(Linux多用户的适配)
(用户可以自行设置某个系统是否在小周期进行更新,方便之后强化学习接口等通信模块进行信息传递)
(针对delay系统的优化,对于一些代数环进行拆分,使DSSim可以应用更多模型)
(接口的总体目标是实现对DSSim模型的改造,使其可以作为强化学习中的环境,因此面向强化学习训练的需求分析,得到改造方案)
(主要是实现定制的仿真引擎和定制的强化学习系统,实现了两个系统分别实现动作信号与状态信息的交流)
(对Jtext的水平位移控制系统进行修改,使用强化学习控制器替代原有的PI控制器,说明强化学习接口的可用性)
(本文主要介绍了面向强化学习的等离子体控制系统仿真验证平台原型研发,面对强化学习的需求,需要对DSSIm进行一系列的优化升级。主要包括性能提升,仿真框架功能强化以及强化学习接口开发。完成升级之后使用强化学习对Jtext的水平位移控制系统进行了改造试验,使用强化学习控制器替代了PI控制器,取得了不错的效果。)
本文章使用limfx的vscode插件快速发布