引 言
随着我国电力工业的迅速发展, 电力变压器作为输变电的关键设备, 正朝着超高压、 大容量的方向发展, 一旦发生故障, 将导致巨大的经济损失。 在变压器中, 变压器油起着散热、 冷却、 灭弧、 改善电位梯度和保护导体等作用。 变压器内部材料受到电场、 热场、 机械力、 湿度和环境应力等因素的长期共同作用, 油品会逐渐发生老化, 导致功能逐渐丧失, 致使变压器内部环境发生改变, 内部其余绝缘材料性能降低。 材料性能降低到一定程度, 变压器的寿命只能宣告结束。 油品质量的优劣直接影响到变压器的电气性能和运行寿命, 因此对变压器油的老化研究和剩余寿命评估具有重要的意义[1]。
国内外有很多标准对于新油和运行油各项性能的使用限值进行了明确规定, 以保障变压器运行的安全可靠。 现行标准GB/T 14542中对变压器油质量管控的项点包含水分、 酸值和界面张力等化学特征量或电气强度、 体积电阻率和介质损耗因数等电特征量, 测试项点普遍操作繁琐, 设备成本高昂, 部分项点分散性很大, 准确性较差, 因此有必要探讨更为简捷、 准确的解决方法。 现阶段, 变压器油油品老化程度识别所面对的困难、 挑战和解决办法, 如图1所示, 其中红外光谱技术和ML相结合是一种不错的选择。
红外光谱[2]相比传统气相、 液相色谱等检测方法, 具有快速、 无污染、 低成本等特点和优势, 已广泛应用于各个领域的检测和识别中。 机器学习(ML)与光谱技术相结合作为近年来研究领域的热点[3], 在各研究领域大放异彩。 陈露等[4-5]采集了不同砂岩样本的中红外光谱(MIR), 构建了针对不同含水量砂岩的MIR预测模型, 实现了砂岩含水量的无损、 快速分析。 杨承恩等[6]将MIR技术与ML相结合实现了简单、 快速、 低成本对不同产地平菇的鉴别。 有研究采用集成增强神经网络建立了油纸绝缘老化光谱诊断模型, 为油纸绝缘老化准确诊断奠定了基础。 朱亚昆等[7]自主搭建了烟气MIR检测平台, 并通过对烟气MIR特征峰分析, 发现不同牌号卷烟主流烟气中化学基团大致相似, 但在特定特征峰处峰值强度有着较大不同, 实现了不同牌号卷烟的简便快速分析。
目前新型电网系统对变压系统的稳定和安全性能提出了更高的要求, 红外光谱技术能够无接触、 环保、 快速地检测变压器油品, ML方法能够快速处理红外光谱数据、 建立稳定高效的定性定量分析模型。 随着深度学习的兴起, 越来越多的科研工作者开始关注用更大、 更深、 复杂度更高的神经网络来处理海量数据。 神经网络缺乏解释性、 昂贵且红外光谱实时检测系统所产生数据量较小, 并不是神经网络能解决一切问题, 可迁移性高、 泛化能力强的模型是未来研究的重点和难点, 尚未见研究对多种光谱数据预处理有着详尽的对比和分析。 本文工作变压器油为研究对象, 以不同老化程度的变压器油MIR为研究基础, 结合ML、 MIR技术等手段, 采用标准正态变换(SNV)、 多元散射校正(MSC)等光谱数据预处理方法, 由去噪效果、 特征保留程度等特征, 详尽对比分析了其对光谱数据处理的效果, 以特征峰面积之和为特征, 构建了小而精的基于ML和红外光谱的变压器油老化程度定量分析模型, 综合评估了预处理方法对谱图处理以及在最终模型预测中的优缺点。
1 实验部分
1.1 油品样本配置
选取两种基础的环烷基油(7号, 广州市亨源石油化工有限公司)和非环烷基油(10号, 广州市亨源石油化工有限公司), 加入抗氧化添加剂T501, 将其配置成0.32%的实验油样; 选用成品环烷基油(25号, 润城保公司)作为样品, 将上述三种油样进行编号。 在实验室进行热劣化[8-9](120 ℃, 油品劣化至1 008 h油样色度已超标, 不符合投运标准停止劣化), 分别得到不同劣化程度(0~1 008 h, 168 h为间隔, 每种油样7个样本)的共21个实验样本。
1.2 样本光谱采集与分析
使用傅里叶变换中红外光谱仪(Tensor 27型, 德国Bruker)测定不同劣化程度的油样, 以空气环境为背景, 分辨率为4 cm-1, 扫描次数为32的红外光谱, 每个实验样本采集多组红外光谱, 并选取最优原始光谱数据, 共21组实验数据, 如图2(a, b, c)所示。 参照ASTME 1421-99(2015)e1标准, 变压器油老化起决定性作用的波段主要在1 600~1 800和3 000~3 500 cm-1。 通过波段筛选后的波段点更具有解释性, 能够更加直观地说明样本之间的差异。 原始光谱数据可能包含一些无关的噪声和干扰信号, 会干扰建模和分析过程。 通过筛选波段, 可以排除对结果无贡献的波长点, 提高数据的质量和准确性。 使用所有的波长点进行建模可能会导致过拟合, 而通过波段筛选则可以避免, 提高模型的泛化能力, 得到更稳健的预测结果。 为排除其他因素的干扰, 本研究选取主要波段在1 000~2 800和3 000~4 000 cm-1, 如图3(a, b, c)所示。
1.3 油品老化程度定量分析与光谱预处理
1.3.1 光谱预处理
光谱仪工作状态和变压器油测量状态的改变都可能导致随机噪声、 基线漂移和多元散射等。 为降低这些效应对模型鲁棒性的影响, 提高模型的预测精度, 需要对光谱数据进行预处理。
导数法是光谱预处理中常见的一种方法, 由于导数法容易受到噪声的影响, 严重影响预处理的效果和模型预测的鲁棒性, 故导数法通常都结合SG滤波平滑使用。 本研究采用了标准正态变换(SNV)[10]、 多元散射校正(MSC)[11]、 均值中心化(CT)[12]、 趋势校正(DT)[13]、 移动平均平滑(MA)[14]、 归一化(MMS)、 Savitzky-Golay平滑滤波(SG)、 一阶导数+SG滤波(SG+D1)和二阶导数+SG滤波(SG+D2)等方法对变压器油红外谱图进行预处理。
1.3.2 偏最小二乘回归(PLSR)
偏最小二乘回归(PLSR)是一种统计建模方法, 用于处理多变量间的回归问题[15-17], 用于解决化学分析领域中样本数量少、 多个响应变量和高度相关的解释变量之间的回归建模问题。 PLSR在许多领域都有广泛的应用, 特别是在化学[18]、 生物科学[19]、 环境科学[20]、 药物研究[21]、 食品科学[22]、 过程工程等领域。 在处理高维度、 共线性和样本较少的数据时表现出色, 有助于解决复杂的多变量回归问题, 并提供有效的预测和解释能力。
1.3.3 支持向量机回归(SVR)
支持向量机回归(SVR)是非线性回归方法, 适用于处理非线性关系的数据。 SVR[23]在处理小样本、 高维度和非线性问题时表现出色, 在回归问题中具有很强的泛化能力, 避免了普通回归方法容易出现的过拟合问题。 SVR在机器学习中得到了广泛的应用, 特别是金融建模[24]、 天气预测[25-26]、 医学[27-28]和生物信息学[29]等领域。
1.3.4 模型建立与评估标准
由于原始光谱数据通常包含大量的波长点, 其中只有一部分对目标属性的预测具有实际意义[30], 为降低数据间的强相关性、 排除无关噪声和干扰信号, 加快分析速度, 提高模型的可解释性, 本工作提出一种以特征峰面积之和为特征变量的油品老化程度预测模型, 其流程如图4所示。
主要流程:
(1) 选取目标油品的红外光谱数据, 划分目标波段;
(2) 算法设计实现谱图自动寻峰, 并对所需特征峰位置进行定位和标点;
(3) 梯形积分法计算特征峰面积并加和;
(4) 采用PLSR和SVR学习油品特征峰面积之和与油品老化程度之间的映射关系, 建立油品老化程度预测模型, 输出预测结果;
通过算法设计实现变压器油红外光谱进行自动寻峰、 标点、 计算面积求和等功能, 建立变压器油特征峰面积之和与老化程度的对应关系。 采用Python3.7平台下的随机采样方法, 按照4∶1的比例划分训练集和测试集, 并采用支持向量回归(SVR)、 偏最小二乘回归(PLSR)来建立变压器油红外光谱老化程度识别模型。 在建立模型之前, 对每种方法均采用前面所述的9种预处理方法对光谱数据进行处理, 比较不同的预处理方法对2种机器学习建模方法性能的影响。 最终比较2种机器学习建模方法的性能差异。 模型的评价指标选用拟合优度(goodness of fit,R2)、 平均绝对误差(mean absolute error, MAE)、 预测均方根误差(root mean square error of prediction, RMSE)3个指标评价模型性能。R2越接近1, MAE、 RMSE越低, 模型性能越好。
2 结果与讨论
2.1 光谱特征分析
在红外光谱中, 分析特征峰是判断光谱差异的主要方式。 为方便分析预处理方法对谱图处理的效果, 将7#、 10#、 25#三类油的0和1 008 h绘于图中。 图5(a, b)分别显示7#、 10#、 25#三类油在未老化和老化1 008 h的原始光谱和MMS处理的光谱。
分析图5(b)光谱可发现, MMS法通过寻找数据中的最大值和最小值将原始数据映射到了[0, 1]区间内, 较好地保留了样本光谱曲线的特征性, 使得每个样本光谱曲线之间的差异性大大缩小。 图6(a, b, c)为对原始光谱进行平滑处理后的红外谱图, 通过分析图6(a)和(b)两种光谱可以发现移动平均平滑后的光谱曲线与原始光谱曲线近似一致, 说明MA的去噪效果并不好。 经过SG平滑后的光谱曲线相比于原始光谱曲线和MA平滑光谱曲线, SG光谱变得更加平滑, SG平滑后的光谱在特征表现上与原始光谱也保持一致, 说明SG平滑后的光谱不仅有效达到了去噪的效果, 同时也尽可能保留了样本FTIR光谱中大部分原始信息。 趋势校正的目的是对光谱数据进行平滑处理, 使数据中的趋势成分被减去, 从而突出数据中的结构和特征。 图6(c)表明, DT预处理可消除因不同样品、 不同采样批次等客观因素造成的数据误差, 去除无关因素的影响, 并保留特征波长, 但也容易受到噪音的影响。
图7(a, b, c)分别展示了原始光谱经过CT、 MSC和SNV后的光谱曲线, 其中图7(a)为CT法属于光散射校正法的一种, 通过将光谱数据的整体纵向位移调整为零, 来消除光谱中的基线漂移, 提高样本光谱曲线间的差异性。 由图7(b)和(c)中发现MSC和SNV处理后的光谱曲线整体趋势大致相同且曲线变得较为平滑, 且经过光散射校正处理后的谱图曲线近似重叠且SNV曲线重叠程度高于MSC。 说明SNV、 MSC等光散射校正法虽保留了样本光谱曲线的特征性, 较好的去除样本中部分噪音, 但MSC和SNV校正后的光谱却减弱了每个样本光谱特征数据之间的差异性, 同时SNV使得波峰、 波谷之间的变化更为明显。
图8(a, b)分别为原始光谱先经过SG平滑, 再经过一阶导数和二阶导数后的光谱曲线。 在两种谱图中发现经过导数法处理后的光谱在一定程度上放大了光谱数据的斜率信息, 使得光谱中的波峰、 波谷更加明显。 一阶导数在波峰和波谷处产生极值, 而二阶导数在波峰和波谷处产生零值。 这些导数信息可以用于增强光谱数据的特征, 并使峰值和波谷更加尖锐, 起到了提高信噪比的作用。 同时可以发现经过导数法处理后的光谱, 在放大真实光谱数据的同时, 也将1 600~1 800和3 500~3 600 cm-1处的噪声进行了放大, 导致峰值和波谷之间出现更多的尖峰或毛刺, 其中二阶导数法尤为明显。
2.2 最优模型结果对比
为得到不同光谱预处理方法对红外光谱变压器油老化鉴别模型的影响, 对原始光谱分别进行不同光谱预处理后, 采用训练集样本光谱数据分别建立了SVR和PLSR两种老化程度定量分析模型, 最后通过模型对测试集样本识别拟合优度和误差大小作为模型好坏的评价标准。
2.2.1 SVR模型
SVR是一种非线性回归方法, 在训练模型时需要确定最佳惩罚系数(c), 最佳核函数系数(gamma), 最佳控制松弛变量(epsilon)。 在模型中, c越大表示模型对误差的惩罚越强, 对应训练集中的误差小, gamma越大, 支持向量越少。 调整epsilon值可以调整模型的容错性, 较大的epsilon允许更大的误差, 而较小的epsilon则会使模型更加严格, 可能会导致更复杂的模型。 采用粒子群优化算法(particle swarm optimization, PSO)进行SVR自动寻参。 粒子种群[26]迭代次数设置为20, 种群大小设置为200, 种群更新弹性系数设置为0.4, 学习因子c1初始值设置为2, 增强PSO参数局部搜索能力, 学习因子c2初始值设置为2, 增强PSO参数全局搜索能力, 使用径向基核函数作为最优核函数。
表2为不同预处理条件下SVR回归预测结果。 由表2中可以看出, 模型的泛化能力较强, 在测试集上预测效果偏好。 SG取得了最好的预测结果,R2达到了0.981 4, MAE为0.312 4, RMSE仅有0.097 7。 同为平滑法的MA,R2为0.929 2, MAE和RMSE分别为0.624 2和0.389 7, DT处理后的模型的R2为0.934 2, RMSE和MAE为0.36和0.60, 预测效果均差于SG, 由此可见SG在油品光谱上的去噪和保留原始信息的效果均强于MA和DT。
其次是标准正态变换(SNV),R2为0.969 3, 模型的RMSE和MAE分别为0.160 5、 0.400 6, 而MSC的R2为0.941 9, RMSE和MAE分别为0.305 2和0.552 4, CT的R2为0.894 4, RMSE和MAE分别为0.550 9和0.742 2。 SNV的预测效果好于MSC和CT, 说明MSC虽保留的光谱特征性比SNV多, 但SNV将光谱数据经过放缩, 使得纵轴方向上的变化更为明显, 波峰和波谷更能反应出油品的老化程度。 MMS的R2为0.911 3, RMSE和MAE为0.493 8和0.702 7。 SG+D1的R2为0.804 1, RMSE和MAE分别为1.136 5和1.066 0, SG+D2的R2为0.272 6, RMSE和MAE分别为4.00 4和2.001。 导数法虽能起到提高信噪比的作用, 但会放大噪声, 降低模型的鲁棒性。 依据表2中数据, 不同预处理方法对SVR的油品老化程度识别模型预测效果优劣顺序依次为SG、 SNV、 MSC、 DT、 MA、 原始光谱、 MMS、 CT、 SG+D1、 SG+D2。
2.2.2 PLSR模型
PLSR多用于处理高维特征和多重共线性的问题, 通过找到最能解释输入特征和目标变量之间协方差的线性组合来构建潜在变量(latent variables), 通过建立潜在变量之间的线性关系对数据进行降维和回归。 由于本工作已将所有输入特征进行了线性组合, 得到了单个的潜在变量, 用于对目标变量进行回归预测, 因此此时模型潜变量个数为1。
由表3可知SG取得了最好的预测效果,R2为0.991 3, RMSE和MAE分别为0.379 0和0.288 0, 而DT的R2为0.965 3, RMSE和MAE分别为0.423 9和0.438 8, MA的R2为0.490 4和0.356 0, SG在PLSR模型上的预测效果依旧要好于DT和MA。 SNV的R2为0.910 8, RMSE和MAE分别为0.440 9和0.220 1, MSC的R2为0.902 2, RMSE和MAE分别为0.453 2和0.250 1, CT的R2达到了0.972 4, RMSE和MAE达到了0.370 8和0.268 6, 在PLSR上CT的效果强于SNV和MSC。 最后发现MMS的R2为0.789 8, RMSE和MAE分别为0.530 5和0.521 1, SG+D1的R2为0.692 1, RMSE和MAE为0.897 7和0.785 5, SG+D2的R2为0.628 9, RMSE和MAE为1.012 3和1.139 5, 分析认为MMS更适用于多模态数据融合或消除数据量纲相差较大时, 而导数法虽能提高信噪比, 但由于也放大了噪音, 不太适用于本研究所提出的油品老化鉴别模型。 依据表3, 不同预处理方法对PLSR的油品老化程度识别模型预测效果优劣顺序依次为SG、 CT、 DT、 SNV、 MSC、 MA、 原始光谱、 MMS、 SG+D1、 SG+D2。
2.3 建模方法对比分析与模型验证测试
由图9可以看出, 在SVR和PLSR两种模型上平滑法对数据的处理性能均优于光散射校正法, 其中SG卷积滤波平滑的去噪、 保留样本特征效果最强。 导数法和最大最小归一化法不太适用于此类应用场景, 导数法虽能用于消除基线漂移、 增强光谱特征、 提高光谱信噪比, 而所提出的油品老化程度识别模型是利用光谱特征峰面积作为特征进行油品老化程度识别, 导数法增强光谱特征的同时也放大了光谱中的噪声, 降低了模型的鲁棒性, 而且由于此类油品数据量纲一致, 对数据按[0-1]区间进行放缩大大降低了不同样本之间的差异性, 影响了模型的拟合预测。
为进一步验证所提出的基于红外光谱老化特征峰面积之和的油品老化行为定量分析方法和特征工程的有效性, 对未知的不同老化程度的基础环烷基油(25号, 润城保公司)红外光谱数据进行了建模分析, 以PSO-SVR模型为例, 如图10所示。 发现基于所提出的定量分析方法和特征工程所构建的SVR模型预测能力和泛化能力较强, 能准确预测未知油品的老化程度, 其中平滑法最适用于油品光谱数据预处理, 导数法的处理能力较差。
3 结 论
利用FT-MIR光谱仪采集了不同老化时间的油品的红外光谱, 将红外光谱分析技术与机器学习方法相结合, 提出了采用红外光谱特征峰之和为特征来判断油品老化程度的建模方法。 使用PLSR和SVR建立了两种变压器油红外光谱老化程度定量分析模型, 分析了9种光谱数据预处理方法对红外光谱降噪、 基线校正等效果的影响, 研究了9种光谱数据预处理方法对两种机器学习建模方法分类效果的影响。 结果表明, 该方法在不同机器学习模型上表现效果良好。 其中, 油品光谱处理效果最好的是平滑法, 其次是光散射校正法, 最后是归一化法和导数法。 该方法极大程度降低了数据的复杂程度与不同特征之间的耦合关系, 使简单的机器学习模型也能快速、 准确地预测油品老化, 为后来研究者研究油品老化提供了方法借鉴。 同时基于小样本的油品老化鉴别可提升企业经济效益, 延长油品使用寿命, 减少资源浪费, 对于油品的可持续管理和资源利用效率具有十分重要的意义。