树人论文网一个专业的学术咨询网站!!!
树人论文网

基于强化学习的重介质选煤过程优化控制

来源: 树人论文网发表时间:2021-12-30
简要:摘 要: 决定重介质选煤产品质量的主要影响因素是重介质悬浮液密度。 但是由于过程复杂, 设备众多, 呈强非线性特性, 导致对实现重介质悬浮液密度的优化控制存在难点。 为此, 针对重介质选

  摘 要: 决定重介质选煤产品质量的主要影响因素是重介质悬浮液密度。 但是由于过程复杂, 设备众多, 呈强非线性特性, 导致对实现重介质悬浮液密度的优化控制存在难点。 为此, 针对重介质选煤过程及其特性, 提出了一种基于强化学习的优化控制方法, 用于在线更新密度设定值。 所提方法将策略提升和策略评价两步迭代采用不同的神经网络实现, 建立了无模型的控制器。 最后, 在 MATLAB 仿真平台上, 将该方法与传统 PI 控制方法相比较, 验证了所提方法的有效性。

  关键词: 重介质选煤; 悬浮液密度; 强化学习; 优化控制

基于强化学习的重介质选煤过程优化控制

  胡金良; 李彤昀; 王光辉 煤炭工程 2021-12-30

  在我国的能源消耗中, 煤炭资源占据着很大的比例。 虽然新兴能源的发展在一定程度上缓解了煤炭供给压力, 但我国以煤炭资源为主的能源结构仍未改变。 煤炭洗选是煤炭生产利用过程中的重要一环, 提升煤炭洗选效率具有意义深远[1,2] 。重介质浅槽分选是我国常用的选煤工艺, 具有分选精度高、 效率好的特点。 重介质选煤过程受设备的各种工艺参数影响[3] , 但是在实际的选煤工艺中, 对精煤质量起决定性作用的是重介质悬浮液密度。 此外灰分是衡量重介质选煤精煤质量的关键指标。 因此, 通过调节重介质悬浮液密度, 实现对精煤灰分的控制是重介质选煤过程优化控制的主要方法。 因此, 诸多学者针对调节重介质旋流器悬浮液密度, 实现成品煤灰分控制问题开展了研究, 取得丰硕的成果。

  文献[4] 针对可建模的重介质选煤过程, 提出了一种基于模型预测控制的重介质悬浮液密度在线优化方法, 并通过仿真实验验证了对灰分控制的有效性。 文献[5] 在模型预测控制算法中引入前馈控制环节, 增强控制系统的鲁棒性。 但是重介质选煤过程动态时变, 呈强非线性[6,7] , 采用上述基于模型的控制方法较难实现实时控制。 因而已有采用数据驱动的方法进行优化控制[8] 。 文献[9] 通过离线采集的历史数据, 利用时间序列的最小二乘支持向量机, 建立了密度给定模型。 文献[10]利用历史数据训练神经网络模型, 提出一种宽域运行优化控制方法。 但是上述方法仅考虑对已出现工况进行控制设计, 缺乏对未知工况自学习能力。 因此, 为了提升精煤灰分产量控制精度和系统响应速率, 提高控制系统自学习能力, 本文采用基于强化学习的神经网络方法对重介质选煤过程优化控制。

  1 重介质选煤过程及其优化控制问题分析 1. 1 重介质选煤过程

  本文针对重介质选煤工艺中的重介质浅槽分选工艺进行研究, 其主要包括混料桶、 分选槽、 排矸刮板和各种仪器仪表。 其工艺流程如图 1 所示。

  在实际生产过程中, 原煤与重介质悬浮液混合后, 泵送入分选槽。 在排矸刮板扰动的过程中, 高密度物(尾矿) 下降并通过排放口排出, 轻密度物(精矿)上升并从溢流堰溢出, 剩余的重介质悬浮液将与高浓度的介质水混合, 形成密度相对稳定的合格介质, 并再次与新的原料混合, 重复上述过程[11,12] 。不同仪器的型号和运行模式, 运行状态的各种工艺参数均或多或少影响最终的分选效果。 如排矸刮板的涡流方向, 当其与矸石沉降方向相同时, 对分选效果是有益的; 当其与矸石沉降方向相反时, 会阻碍分选[3] 。

  1. 2 重介质选煤过程控制难点

  1) 强非线性。 煤炭重介质选效果主要取决于重介质悬浮液密度的高低, 但其与净煤灰分并不是简单的线性关系。 又因为混合矿浆的流速与原煤的进料速度也呈现非线性特性, 因此难以采用基于模型的优化控制方法。

  2) 动态时变性。 原煤的成分并不是一成不变的, 所含有的杂质、 粒度均持续波动。 当重介质悬浮液状态时变时, 其压力密度也会受其影响, 排矸刮板等设备运行参数需相应调整, 否则会使得系统处于非经济最优状态。

  重介质选煤过程的强非线性与动态时变性导致无法建立有效的机理模型, 现有基于模型的优化控制方法难以进行实时过程优化。 基于强化学习的过程优化控制方法, 能够根据重介质选煤运行的历史数据求解最优控制, 从而有效解决上述问题[13,14] 。

  2 重介质选煤过程优化控制 2. 1 过程优化控制问题

  本文在重介质悬浮液密度回路控制基础上, 通过建立运行优化层实现对重介质悬浮液密度设定值优化, 从而稳定控制精煤灰分, 保证选煤产品的质量。 实际工业运行优化层动态特性复杂, 以连续时间非线性系统模型进行描述: r · (t) = f(r(t)) + g(t)w(t) (1) 其中, r 为实际运行时的系统指标值; w 为系统的输入; f(t)和 g(t)表示运行优化层的动态特性。对系统方程进行离散化处理, 可得: r(k + 1) = f(r(k)) + g(r(k))w(k) (2) 为使运行优化层实际系统指标能够快速跟踪期望设定值, 通过建立性能评价指标函数, 调节输入参数 w, 最终实现实际运行指标在理想值附近稳定运行。 考虑跟踪误差尽可能为 0 且限制控制输入的变化浮动不大, 从而避免设定值过大, 导致系统不稳定, 其评价函数定义: min w(k) J(k) = ∑ ∞ i = k γ i-k ((r ∗ i - ri) TQ(r ∗ i - ri) + w T i Rwi) (3) 式中, γ 为实际运行过程中的历史数据对当前运行指标评价影响的衰减程度, 0<γ<1; Q 和 R 分别为半正定和正定矩阵, 从而保证系统在期望值附近稳定时, 评价指标将接近于定值。

  2. 2 基于强化学习的设定值优化控制策略

  为便于求解, 定义广义被控对象为 ζ(m+1) = r(m+1) r ∗ (m+1) é ë ê ê ù û ú ú , 将其代入式 ( 3) 可以表示为值函数形式: V(ζk) = ∑ ∞ i = k γ i-k (ζi TQ1 ζi + w T i Rwi) = def ∑ ∞ i = k γ i-kUi (4) 其中, Q1 = [I -I] TQ[I -I]。 根据式(4), 从而将求解评价函数最小值的问题, 转为解非线性过程的 Bellman 方程, 其方程: V(ζk) = Uk + ∑ ∞ i = k+1 γ i-kUi = Uk + γV(ζk+1 ) (5) 从而求解 LQR 问题的 Hamilton 函数: H(ζk, wk) = Uk + γV(ζk+1 ) - V(ζk) (6) 根据 Bellman 原理, 最优值函数满足离散时间 HJB(Hamilton-Jacobi-Bellman, HJB)方程: V ∗ (ζk) =min w(k) (Uk + γV ∗ (ζk+1 )) (7) 可得求解最优控制率需满足[15] :