近邻成分分析和<i>k</i>近邻学习融合的变压器不平衡样本故障诊断

引用本文

李雅欣, 侯慧娟, 张立静, 等. 近邻成分分析和k近邻学习融合的变压器不平衡样本故障诊断[J]. 高电压技术, 2021, 47(2): 472-479.

LI Yaxin, HOU Huijuan, ZHANG Lijing, et al. Transformer Fault Diagnosis with Unbalanced Samples Based on Neighborhood Component Analysis and k-Nearest Neighbors[J]. High Voltage Engineering, 2021, 47(2): 472-479.

DOI: 10.13336/j.1003-6520.hve.20200373

近邻成分分析和k近邻学习融合的变压器不平衡样本故障诊断

李雅欣¹, 侯慧娟¹, 张立静¹, 胥明凯², 盛戈皞¹, 江秀臣¹

1. 上海交通大学电气工程系, 上海 200240;
2. 国网山东省电力公司, 济南 250002

收稿日期：2020-04-02；修回日期：2020-05-27

基金项目：国家自然科学基金(51477100)；上海交通大学新进青年教师启动计划基金(基于人工智能的电力设备故障诊断)

作者简介:

李雅欣，1995—，女，硕士生，主要从事输变电设备状态评估的研究工作，E-mail: liyaxin@sjtu.edu.cn

通信作者：

侯慧娟(通信作者)，1984—，女，博士，助理研究员，研究方向为电力设备绝缘在线监测及故障诊断，E-mail: houhuijuan@sjtu.edu.cn.

摘要：在基于机器学习的电力变压器故障诊断方法中，各故障类别间案例数量不平衡会导致诊断准确率降低。为了提升电力变压器故障诊断模型的准确率及运行效率，构建了融合引入修正因子的近邻成分分析和k近邻学习的故障诊断模型。首先，通过对近邻成分分析算法(neighborhood component analysis, NCA)目标函数引入修正因子减少样本不均衡对模型训练的影响，结合油色谱故障数据通过关联规则得到样本参量相关性量化矩阵，作为NCA算法训练度量矩阵的初值；然后，利用训练得到的度量矩阵对k近邻(k-nearest neighbors, kNN)分类器的输入数据结果进行映射变换，使同类型样本间的距离减小，进而使kNN分类性能提高；最后，用贝叶斯优化算法对模型进行超参数调优，获得能使测试集准确率最高的模型参数集。以变压器故障案例库为对象的算例分析结果表明，提出的模型与传统的机器学习诊断模型相比，用时节省了近一半，且所提模型对少数样本类的诊断准确率相比于其它模型提升了至少15%。论文研究可为电力变压器的故障诊断提供参考。

关键词：故障诊断近邻成分分析度量学习 k近邻贝叶斯优化变压器

Transformer Fault Diagnosis with Unbalanced Samples Based on Neighborhood Component Analysis and k-Nearest Neighbors

LI Yaxin¹, HOU Huijuan¹, ZHANG Lijing¹, XU Mingkai², SHENG Gehao¹, JIANG Xiuchen¹

1. Department of Electrical Engineering, Shanghai Jiaotong University, Shanghai 200240, China;
2. Shandong Power Supply Company of State Grid, Jinan 250002, China

Project supported by National Natural Science Foundation of China (51477100), Startup Program of Young Faculties of SJTU (Fault Diagnosis of Power Equipment Based on Artificial Intelligence)

Abstract: In transformer fault diagnosis models based on machine learning, the imbalance of class distribution among fault categories will lead to low diagnosis accuracy. In order to improve the accuracy and the efficiency of the models, a fault diagnosis model based on k-nearest neighbors and neighborhood component analysis with correction factors was proposed. Firstly a correction factor to NCA algorithm's objective function, was introduced to reduce the impact of sample imbalance on model training. Also, association rules to obtain a parameter correlation quantization matrix according to the fault data, was used as the initial value of NCA algorithm's training metric matrix. Secondly, the result matrix of NCA was used to map the input data of kNN classifier, which could reduce the distance between samples of the same class and improve the classification performance of the classifier. Finally, the Bayesian optimization algorithm was applied to tune the hyper-parameters of the model to obtain the model parameter set that maximizes the accuracy of test set. The practical value of our model was verified through the data from dataset. The experimental results show that, compared with the traditional machine learning diagnosis models, the proposed method can save nearly half of time, and the diagnostic accuracy of minority classes is improved by at least 15%. The research can provide references for the fault diagnosis of power transformers.

Key words: fault diagnosis neighborhood component analysis metric learning k-nearest neighbors bayesian optimization algorithm transformer

0 引言

变压器是电力系统中最为重要的设备之一，是保证电力系统安全、可靠、经济、优质运行的关键^[1]。绝缘自然老化、环境条件恶劣和运行负荷过高等因素都可诱发电力变压器的故障，造成严重的社会经济损失。基于已有变压器故障案例的特征参量进行故障诊断的研究，有助于利用不同故障类型在指标属性上的差异化表现，准确识别故障类型，进而对于投运中变压器的维护、制定合适的检修策略等具有重要的指导意义。

在实践过程中，基于油色谱的变压器状态分析方法，具有支持带电检测，不受电、磁信号场影响以及操作方式简单等优点，在生产实践中得到了广泛应用^[2]，是油浸式变压器健康状态评估和故障诊断的最有效、最可靠的手段之一，至今仍是研究热点。研究者在初期建立了IEC三比值、Rogers比值^[3]、大卫三角形^[4]等流程简单的基础方法体系，但受到编码缺失、阈值绝对等限制，这些方法现只用作变压器故障诊断的辅助手段。随着机器学习理论和深度学习框架硬件的发展，基于人工智能的变压器故障诊断方法以其较高的分类准确率，成为了学界热门的研究课题，如支持向量机(support vector machine, SVM)^[5]、神经网络、贝叶斯网络^[6]、决策树^[7]、深度信念网络等^[8]。不过，上述方法也有其固有的缺点：第一，每一轮有监督的训练模型都需消耗较多的时间^[9]；第二，需要花费大量的时间调节超参数以训练出一个优秀的模型；第三，在最大化全体分类准确率的目标过程中，易偏向多数类样本的参数更新而忽略少数类样本的正确分类^[10]。

Cover和Hart于1968年提出的k近邻(k-Nearest Neighbors, kNN)模型^[11]是一个懒惰学习模型，没有训练过程，它根据临近点类型判断样本点的类别，无需花费大量时间进行模型的训练。kNN原理简单，易于理解和实现，分类性能稳定，但该算法在样本不平衡和样本维数过多时分类效果和运行效率表现不佳。对此，不少研究者对其算法或者数据进行了改进。文献[12]将K-means与遗传算法相结合，提出了基于GAK-kNN的新权重分配系统模型，在一定程度上克服了数据分布不均衡的缺陷，但存在聚类数目难以确定，且数据预处理时间大大增加的问题；文献[13]利用Bagging算法从训练集中抽取多个子分类集，再对各个子分类集用kNN算法进行分类，用投票方式获得最后分类结果，这在一定程度提高了kNN的运行效率，但没有考虑不平衡数据的分布情况，分类精度提升较少；文献[14]提出基于密度的kNN分类器训练样本裁剪方法，将待测样本附近的多数类训练样本进行裁剪，保留少数类训练样本，这种方法加快了kNN的计算速度并减小了样本的不平衡性，但对分类精度产生了影响。总的来看，这些方法对kNN算法的优化主要侧重于单个方面，缺少对算法的运行效率、性能优化和不平衡数据集训练问题的综合分析，评价方式比较单一。

为解决上述问题，本文采用近邻成分分析(neighborhood component analysis, NCA)算法^[15]和贝叶斯超参数优化算法^[16]对基于kNN的变压器故障诊断模型改进和优化。首先，引入修正因子对NCA算法的目标函数进行修正，减少样本不均衡对模型训练的影响；根据关联规则中的支持度量化评价参量，构建油色谱样本各参量的相关关系，并将量化结果作为距离度量矩阵训练初值；使用改进的NCA算法对kNN的距离度量方式进行学习及对样本降维，以提升分类模型的计算性能和对少数类样本的泛化性。然后采用贝叶斯优化算法对分类模型进行超参数调优，以提升分类模型的预测准确率并进行算例对比分析。所提算法在保证运行效率的基础上提高了分类准确率。研究结果可为电力变压器故障诊断提供参考。

1 近邻成分分析算法及其改进 1.1 近邻成分分析算法

对于数据集$\{ {x_1},{x_2}, \cdots ,{x_m}\} $共m个样本，2个样本点x_i和x_j的马氏距离平方的表达式为

$\begin{gathered} {\rm{dis}}t_{{\rm{mah}}}^2({x_i},{x_j}) = {({x_i} - {x_j})^{\rm{T}}}{{\mathit{\boldsymbol{M}}}}({x_i} - {x_j}) = \\ {\rm{ }}||{x_i} - {x_j}||_{{\mathit{\boldsymbol{M}}}}^2 \\ \end{gathered} $

(1)

式中：$i,j = 1,2, \cdots ,m$；M称为“度量矩阵”，为了保持距离非负且对称，M是(半)正定对称矩阵，可分解为M=AA^T。

不同的距离度量方式对应不同的度量矩阵，近邻成分分析算法则是对变换矩阵A进行学习，是一种度量学习算法^[15]。

NCA算法搜索变换矩阵A，以留一法正确率最大化为目标，也等同于最小化类间距离

$f(A) = \sum\limits_{i = 1}^m {{p_i} = } \sum\limits_{i = 1}^m {\sum\limits_{j \in {\Omega _i}} {{p_{ij}}} } $

(2)

式中：p_i表示样本x_i的留一法正确率，即其被自身之外的所有样本正确分类的概率；Ω_i表示与x_i属于相同类别的样本的下标集合；p_ij则为对于任意样本x_j，其对x_i分类结果影响的概率。

近邻分类器判别时通常采用多数投票法，领域中的每个样本投1票，领域外的样本投0票，这里将其替换为概率投票法，即

${p_{ij}} = \frac{{\exp ( - ||{x_i} - {x_j}||_{{\mathit{\boldsymbol{M}}}}^2)}}{{\sum\limits_l {\exp ( - ||{x_i} - {x_l}||_{{\mathit{\boldsymbol{M}}}}^2)} }}$

(3)

式中l指除样本x_i以外的样本集合。

可以看出，x_j对x_i的影响随着他们之间距离的增大而减小。

这个无约束优化问题可以通过共轭梯度法或随机梯度法来对变换矩阵A进行更新。对A求微分

$\frac{{\partial f({{\mathit{\boldsymbol{A}}}})}}{{\partial {{\mathit{\boldsymbol{A}}}}}} = - 2{{\mathit{\boldsymbol{A}}}}\sum\limits_i^m {\sum\limits_{j \in {\Omega _i}} {{p_{ij}}({x_{ij}}{x_{ij}}^T - \sum\limits_k {{p_{ik}}} {x_{ik}}{x_{ik}}^T)} } $

(4)

式中：$k = 1,2, \cdots ,m$；x_ij=x_i−x_j。

当M是一低秩矩阵，则通过对M进行特征值分解，总能找到一组正交基，其正交基数目为矩阵的秩rank(M)，小于原属性数d，于是可衍生出一个变换矩阵$A \in {R^{d \times {\rm{rank}}({{\mathit{\boldsymbol{M}}}})}}$，能用于将样本降到rank(M)维空间^[17]。

1.2 存在的问题及其改进

NCA的目标函数可以由式(2)改写为

$\begin{aligned} f(\boldsymbol{A}) &=\sum_{i}^{m} \sum_{j \in \Omega_{i}} p_{i j}=\sum_{i \in Y_{1}} \sum_{j \in Y_{1} \atop j \neq i} p_{i j}+\cdots+\sum_{j \neq i} \sum_{j \in Y_{N}} p_{i j} \\ &=\sum_{n=0}^{N}\left(\sum_{i \in Y_{n}} \sum_{j \in Y_{n} \atop j \neq i} p_{i j}\right)=\sum_{n=0}^{N} P_{n} \end{aligned} $

(5)

式中：Y_n表示第n类样本集合，共N类；P_n表示第n类样本留一法正确率的和。

为方便后续讨论，将P_n定义为类间影响因数，一般来说该值越大，类间距离就越小，该类测试样本在kNN被正确分类的可能性就越大。通常情况下，在NCA训练过程中每类样本的类间影响因数均会随着目标函数f(A)增大而逐渐增大，但若待分类样本为不平衡数据，比如多数类样本是少数类的十几倍甚至上百倍，则NCA在训练过程中就可能会忽略少数类，即存在目标函数优化偏向大类别数据的问题，导致小样本数据的分类精度较差。

为了减少样本不均衡对NCA模型训练的影响，本文引入修正因子c，对样本数较多的故障类别赋予一个较低的权值来对其重要性进行抑制，对于样本数较少的类别则赋予一个较高的权重。基于这样的思想，本文对NCA算法的目标函数进行了修正。

定义ψ为计算各类样本数量的函数，则修正因子可以归纳为

${c_n} = \frac{{\max {{(\psi )}^2}}}{{\psi {{(n)}^2}}},{\rm{ }}n = 1, \cdots ,N$

(6)

NCA的目标函数被修正为

$f({{\mathit{\boldsymbol{A}}}}) = \sum\limits_{i = 1}^m {\sum\limits_{j \in {\Omega _i}} {{c_{{\Omega _i}}}{p_{ij}}} } $

(7)

这样可减轻样本数不均衡时NCA在训练过程中目标函数优化偏向大类别数据的问题。

2 k近邻分类及超参数调优 2.1 k近邻分类

k近邻学习是一种常用的监督学习方法，利用kNN进行故障分类的工作机制非常简单：给定测试故障样本，基于特定的距离度量找到与其距离最近的k个训练故障样本，然后基于这k个“邻居”的故障类型信息来进行预测。

图 1给出了一个k近邻分类器的示意图，虚线显示出等距线。一方面，k取不同值时，分类结果会有显著不同；另一方面，若采用不同的距离度量方式，找出的“近邻”也会有差别，从而导致分类结果有显著不同^[15]。本文分别从以上两方面着手对kNN分类模型进行优化，提高其准确性和预测能力，手段主要是采用引入修正后的近邻成分分析算法和贝叶斯超参数调优。

图 1 k近邻分类器示意图 Fig. 1 Diagram of k-nearest neighbors classifier

2.2 超参数调优

识别能提供包括近邻数k在内的最佳模型参数集的过程称为超参数调优，2个常用的参数调优方法是网格搜索和贝叶斯优化。虽然网格搜索能彻底遍历参数值组合的有限集评估目标函数值，找到最佳模型，但耗时太长且易遇到维度灾难。贝叶斯优化算法(Bayesian optimization algorithm, BOA)以贝叶斯定理为理论基础^[16]，基本思路是使用之前评估中所有可用的信息学习目标函数的形态，实现通过较少的评估找到复杂非凸函数的最小值。分为2个步骤：

1）利用概率模型代理原始待评估模型的未知目标函数，通过迭代不断增加信息量、修正先验。本文的概率模型将采用高斯过程，具有高度灵活、高可扩展性的特点^[18]。

若X表示训练集{x₁, x₂, …, x_t}，t为样本个数，f表示未知函数的函数值集合{f(x₁), f(x₂), …, f(x_t)}，θ表示超参数，当存在观测噪声且假设噪声ε满足独立同分布的高斯分布p(ε)=(0, σ²)，σ为先验模型的预测方差函数，可以得到边际似然分布为

$p(y|X,\theta ) = \int {p(y|f)p(y|X,\theta ){\rm{d}}f} $

(8)

式中：y表示观测值集合{y₁, y₂, …, y_t}，通过极大似然估计对边际似然分布最大化得到θ_best，即目前为止基于观测值的最优解。

2）选择一个采集函数，从后验模型构造一个效用函数，确定下一个采样点。本文使用常用的期望提升函数，通过寻找在当前最好情况下期望增量最大值来完成

$\alpha (\theta |\mu ,\sigma ) = E(\max (0,f(\theta ) - f({\theta _{{\rm{best}}}})))$

(9)

式中μ为先验模型的预测均值函数。

贝叶斯超参数调优算法在每一次迭代中，首先根据最大化采集函数选择下一个最有潜力的评估点x_t，然后根据选择的评估点，评估目标函数值f(x_t)，最后将新得到的观测值添加到历史观测集，并更新概率代理模型，为下一次迭代做准备。

3 基于NCA和kNN的变压器故障诊断 3.1 诊断流程

基于kNN的变压器故障诊断流程如图 2所示。

图 2 基于kNN的变压器故障诊断流程 Fig. 2 Flowchart of the fault diagnosis based on kNN

其中，NCA变换是指利用NCA模型的输出结果(度量矩阵)对变压器故障样本进行映射。NCA的训练流程见图 3，过程中采用了本文提出的改进NCA算法。

图 3 NCA训练流程 Fig. 3 Flowchart of the NCA training

另外，模型的性能高度依赖于超参数(NCA训练次数及kNN近邻参数k)的选择，本文将利用BOA^[16]对其进行优化，以增强模型的诊断性能。由于BOA的目标是找到复杂非凸函数的最小值，本文将其目标函数设为测试集故障分类准确率的负值。

3.2 度量矩阵初值的选取

NCA算法中度量矩阵M的初始化通常通过随机赋值，为了减少NCA训练次数，提高NCA训练效率，本文通过关联规则^[19]的支持度计算方法将变压器故障样本的各参量相关性量化为一个多维数组，从而在整体上构成NCA的初始度量矩阵M₀。

关联规则是寻找同一个事件中出现的不同项之间的相关性。设I={i₁, i₂, i₃, …, i_B}是B个待研究项组成的有限项集，另外给定事务数据库T={T₁, T₂, T₃, …, T_D}，D表示事务的总数，如果对于I的子集P，存在某一事务T_{d$ \supset $}P，d=1, 2, …, D，则称该事务包含P。设Q为I的另一子集，关联规则即为形如$P \to Q$的蕴涵表达式，表示IF P THEN Q，其中项集P和Q满足$P \subseteq I$，$ Q\subseteq I且P\cap Q=\varnothing $。衡量关联规则有支持度和置信度两个基本度量，由于度量矩阵具有对称性，本文选择利用支持度来衡量参量间的相关性。

支持度定义为P和Q同时出现在一次事务中的可能性，由P项和Q项在样本数据集I中同时出现的事务数占总事务数的比例估计

$S(P \to Q) = S(Q \to P) = \frac{{|T(P \vee Q)|}}{{|T|}}$

(10)

式中：$S( \cdot )$表示关联规则的支持度；T(P˅Q)表示同时包含P和Q的事务数；|T|表示总事务数。

在本文中，总事务T为所有的油色谱样本数据库，项集i_b={第b个气体参量值大于数据库中该参量均值}，以此分别计算出油色谱各气体参量的支持度，最终得到初始度量矩阵M₀。

4 案例分析 4.1 油色谱数据

以某电网公司的故障案例库以及相关领域已发表文献中的油色谱数据，组成总样本数为662组的数据集为例对本文所提方法进行探讨。库中每个样本含H₂、CH₄、C₂H₂、C₂H₄、C₂H₆、CO、CO₂和总烃含量8个特征参量。故障类型分为低能放电LD、高能放电HD、低能放电兼过热LDT、局部放电PD、中温过热MT(300~700 ℃)、低温过热LT(低于300 ℃)、高能放电兼过热HDT和高温过热HT(高于700 ℃)等8种。取其中的468组数据为训练集，194组数据为测试集，用于模型的参数训练和泛化性测试，数据集样本的数量分布见表 1。

表 1 训练集和测试集样本数据分布 Table 1 Sample distribution in training and testing dataset

4.2 数据预处理

在实际的油色谱故障样本中，部分特征气体的数值呈指数形增长，使同类故障样本距离较大，对基于度量距离进行分类的kNN算法有较大的影响。同时为了减小各特征气体浓度在不同案例中绝对数值波动的影响，本文采用式(11)的归一化方法进行目标区间为(0, 1]的数值缩放

$x' = {\log _{(\max x + 1)}}(1 + x)$

(11)

式中：x为原数值；x′为缩放后的数值。

对数变换可拉伸落在较低幅度范围内的数据分布，同时压缩较高幅度范围内的数据分布，使故障数据的分布尽可能均匀，一定程度上减小极端数值对分类结果的影响。将归一化后的样本数据逐行叠加，分别生成467×8的训练集矩阵和195×8的测试集矩阵。

4.3 度量矩阵初值

本算例度量矩阵初值M₀是选用根据某网公司历年的1 104例故障样本的油色谱数据，并利用本文所提方法，分别计算油色谱各气体参量的支持度而得到。以H₂和CH₄为例，两参量的值同时大于对应均值的样本有37例，根据式(10)计算得S(CH₄→H₂)=S(CH₄←H₂)=37/1 104=0.033 514 5。同理，对各参量进行计算，最终得到一个8维数据，见表 2。

表 2 油色谱样本参量相关性量化初始矩阵 Table 2 Quantitative correlation matrix of oil chromatography sample parameters

4.4 样本不均衡优化

从表 1数据量分布可以看出，训练样本的不均衡程度十分严重，其中样本数最多的高能放电和最少的高能放电兼过热的样本比例为19.6:1。图 4为在传统NCA模型训练过程中，各故障类型的类间影响因数随训练次数变化的情况。为方便比较，将类间影响因数根据最大和最小值在目标区间[0,1]范围内进行了缩放。

图 4 传统NCA模型的类间影响因数变化曲线 Fig. 4 Inter-class influence factor curves of traditional NCA model

由图 4可以看出随着NCA的训练，不同故障类型的类间影响因数变化趋势不同，且变化趋势和类样本数有一定的相关关系。含有最大样本数的高能放电故障的类间影响因数增长得最快，样本数偏小的局部放电、低温过热以及高能放电兼过热故障的类间影响因数则逐渐减小，目标函数的优化偏向了大类别的数据。

利用本文所提改进的NCA模型对故障样本进行训练，各故障类型的类间影响因数随训练次数变化的情况如图 5所示。

图 5 改进NCA模型的类间影响因数变化曲线 Fig. 5 Inter-class influence factor curves of improved NCA model

可以看出，用本文所提方法，各类故障的类间影响因数随着训练均逐渐增加，图 4中存在的样本不均衡导致小样本被忽略的问题在一定程度上得到了控制。

4.5 超参数的调优

根据本文超参数调优方法得到本案例超参数调优结果如图 6所示。图 6(a)为超参数训练过程中根据历史观测集得到的目标函数随超参数取值变化的分布模型，其中稍小圆点表明已采样的观测点，稍大圆点为最佳估计可行点，即根据最新模型估计函数值最低的采集点，可以看出模型训练中并未遍历所有的超参数组合，通过较少的评估次数来寻找目标函数的最小值。图 6(b)为训练过程中目标函数历史观测集最小值随迭代次数变化的曲线图，可以看出使用优化后超参数训练的模型，其测试集故障分类准确率增加，模型诊断性能增强。

图 6 超参数调优迭代过程和结果 Fig. 6 Turning process and optimization results of hyper parameters

若采用传统的网格搜索方法，即彻底遍历参数值组合的有限集评估目标函数值，其性能比较如表 3所示。结果表明，经过贝叶斯优化算法优化的超参数训练的模型，其测试集故障分类准确率略低于网格搜索的结果，但明显高于未经优化前的准确率，说明BOA算法可以有效地优化本文模型的超参数，且效果达到预期。同时，贝叶斯优化算法的计算时间成本相较网格搜索约降低了19.32 s，效果明显。

表 3 各超参数优化方法的性能比较 Table 3 Performance comparison of hyper parameter optimization methods

4.6 故障诊断分析与对比

利用本文方法对变压器的故障进行诊断，为进行比较，本文同时采用其他传统方法对故障进行了诊断，分别是基于3层BP神经网络(BPNN)、选用径向基核函数的支持向量机(SVM)、kNN和无修正的NCA-kNN 4种方法。此外，为了公平对比，相同的贝叶斯优化算法被用于各模型超参数的优化，学习率均设为0.001，精度为1×10⁻⁵，同时SVM在训练时使用类间不平衡权值调整。

针对本数据不平衡算例的分类问题，不能仅仅将分类准确率作为分类器性能的评价指标。本文引入分类模型的精准率(p)和召回率(r)这2个指标，从查准率和查全率的角度评估分类器在少数类样本上的泛化性能。对于故障类型X，精准率和召回率的表达式分别如式(12)、式(13)所示，其值越高分类器的相关性能越好。

$ p=\frac{预测为X，实际为X\rm{ }的样本数}{预测为X的样本总数}$

(12)

$ r=\frac{预测为X，实际为X\rm{ }的样本数}{实际为X的样本总数}$

(13)

依据故障样本数量，将局部放电PD，低温过热LT以及高能放电兼过热HDT归类为少数类样本，诊断结果对比如表 4所示。

表 4 各模型测试集诊断结果对比 Table 4 Diagnostic results comparison of each model on testing dataset

分析表中数据，从整体诊断准确率方面看，传统的NCA-kNN具有5种方法中最好的表现，达到了92.8%，本文改进的NCA-kNN模型次之，准确率为91.3%。

从各个模型的运行时间看，2种NCA-kNN模型仅用约1/2至1/3的时间便能达到优于BPNN及SVM算法的性能。

从少数类样本泛化性看，本文提出的引入修正因子的NCA-kNN模型具有最好的少数类样本准确率，达到了78.9%，同时其精准率及召回率在8种状态类型上的分布区间较为稳定，均不低于60%，在各故障类型的查准和查全两方面相比其他几种模型有较为稳定的表现。而BPNN模型由于没有采用任何针对不平衡数据训练的方法，少数类样本准确率仅为47.4%，尤其是在高能放电兼过热状态这一类型上，精准率和召回率仅为25%和50%，在全体模型中表现最差。SVM虽然采取了类间不平衡的权值调整，稍稍缩小了少数类样本和多数类样本间的表现差异性，但其效果仍不够理想。

可以看出，本文提出的引入修正因子的改进NCA-kNN模型，在总准确率仅低于全体模型最佳值1.5%的情况下，其少数类样本的准确率相比于其他模型提升了15%至31%。表明该模型在保证整体分类性能及运行效率的同时，对少数类样本亦具有良好的识别诊断能力。

5 结论

1）通过对NCA算法的目标函数引入修正因子进行修正，样本不平衡导致的小样本在目标函数优化时被忽略的问题在一定程度上得到了控制。

2）利用关联规则发掘油色谱样本各参量的相关关系，并将量化结果作为NCA算法训练的初始值，相比于随机初始化减少了NCA的训练次数，提高了NCA的训练效率；样本经过NCA训练后维数下降，缩短了kNN分类网络的距离计算时间。

3）利用贝叶斯优化算法对本文提出的诊断模型进行超参数调优，诊断准确率较未经优化的模型提高了11%，且相比于常用的网格搜索时间成本降低了19.32 s，运行效率优化效果明显。

4）通过与其他机器学习诊断方法比较，本文提出的变压器诊断模型能提高少数类样本的准确率至少15%，且仅用约一半的处理时间就达到了优于传统机器学习算法的整体准确率。在整体分类性能、运行效率以及少数类样本的分类上均具有良好的表现。

参考文献

[1]	江秀臣, 刘亚东, 傅晓飞, 等. 输配电设备泛在电力物联网建设思路与发展趋势[J]. 高电压技术, 2019, 45(5): 1345-1351. JIANG Xiuchen, LIU Yadong, FU Xiaofei, et al. Construction ideas and development trends of transmission and distribution equipment of the ubiquitous power internet of things[J]. High Voltage Engineering, 2019, 45(5): 1345-1351. (0)
[2]	崔宇, 侯慧娟, 苏磊, 等. 考虑不平衡案例样本的电力变压器故障诊断方法[J]. 高电压技术, 2020, 46(1): 33-41. CUI Yu, HOU Huijuan, SU Lei, et al. Fault diagnosis method for power transformer considering imbalanced class distribution[J]. High Voltage Engineering, 2020, 46(1): 33-41. (0)
[3]	ROGERS R R. IEEE and IEC codes to interpret incipient faults in transformers, using gas in oil analysis[J]. IEEE Transactions on Electrical Insulation, 1978, EI-13(5): 349-354. DOI:10.1109/TEI.1978.298141 (0)
[4]	DUVAL M. Dissolved gas analysis: it can save your transformer[J]. IEEE Electrical Insulation Magazine, 1989, 5(6): 22-27. DOI:10.1109/57.44605 (0)
[5]	李春茂, 周妺末, 刘亚婕, 等. 基于邻域粗糙集与多核支持向量机的变压器多级故障诊断[J]. 高电压技术, 2018, 44(11): 3474-3482. LI Chunmao, ZHOU Momo, LIU Yajie, et al. Multi-level fault diagnosis of transformer based on neighborhood rough set and multiple kernel support vector machine[J]. High Voltage Engineering, 2018, 44(11): 3474-3482. (0)
[6]	白翠粉, 高文胜, 金雷, 等. 基于3层贝叶斯网络的变压器综合故障诊断[J]. 高电压技术, 2013, 39(2): 330-335. BAI Cuifen, GAO Wensheng, JIN Lei, et al. Integrated diagnosis of transformer faults based on three-layer Bayesian network[J]. High Voltage Engineering, 2013, 39(2): 330-335. DOI:10.3969/j.issn.1003-6520.2013.02.011 (0)
[7]	谷凯凯, 郭江. 紧致融合模糊集和故障树的变压器故障诊断[J]. 高电压技术, 2014, 40(5): 1507-1513. GU Kaikai, GUO Jiang. Transformer fault diagnosis method based on compact fusion of fuzzy set and fault tree[J]. High Voltage Engineering, 2014, 40(5): 1507-1513. (0)
[8]	代杰杰, 宋辉, 杨祎, 等. 基于油中气体分析的变压器故障诊断ReLU-DBN方法[J]. 电网技术, 2018, 42(2): 658-664. DAI Jiejie, SONG Hui, YANG Yi, et al. Dissolved gas analysis of insulating oil for power transformer fault diagnosis based on ReLU-DBN[J]. Power System Technology, 2018, 42(2): 658-664. (0)
[9]	李炜, 李全龙, 刘政怡. 基于加权的K近邻线性混合显著性目标检测[J]. 电子与信息学报, 2019, 41(10): 2442-2449. LI Wei, LI Quanlong, LIU Zhengyi. Salient object detection using weighted K-nearest neighbor linear blending[J]. Journal of Electronics & Information Technology, 2019, 41(10): 2442-2449. DOI:10.11999/JEIT190093 (0)
[10]	HE H B, GARCIA E A. Learning from imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263-1284. DOI:10.1109/TKDE.2008.239 (0)
[11]	COVER T M, HART P E. Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory, 1967, 13(1): 21-27. DOI:10.1109/TIT.1967.1053964 (0)
[12]	王超学, 潘正茂, 马春森, 等. 改进型加权KNN算法的不平衡数据集分类[J]. 计算机工程, 2012, 38(20): 160-163, 168. WANG Chaoxue, PAN Zhengmao, MA Chunsen, et al. Classification for imbalanced dataset of improved weighted KNN algorithm[J]. Computer Engineering, 2012, 38(20): 160-163, 168. (0)
[13]	张翔, 周明全, 耿国华. Bagging中文文本分类器的改进方法研究[J]. 小型微型计算机系统, 2010, 31(2): 281-284. ZHANG Xiang, ZHOU Mingquan, GENG Guohua. Research on improvement of Bagging Chinese text categorization classifier[J]. Journal of Chinese Computer Systems, 2010, 31(2): 281-284. (0)
[14]	李荣陆, 胡运发. 基于密度的kNN文本分类器训练样本裁剪方法[J]. 计算机研究与发展, 2004, 41(4): 539-545. LI Ronglu, HU Yunfa. A density-based method for reducing the amount of training data in kNN text classification[J]. Journal of Computer Research and Development, 2004, 41(4): 539-545. (0)
[15]	GOLDBERGER J, ROWEIS S, HINTON G, et al. Neighbourhood components analysis[C]∥Processings of Advances in Neural Information Processing Systems. Cambridge, USA: MIT Press, 2004, 17: 513-520. (0)
[16]	邓帅. 基于改进贝叶斯优化算法的CNN超参数优化方法[J]. 计算机应用研究, 2019, 36(7): 1984-1987. DENG Shuai. Hyper-parameter optimization of CNN based on improved Bayesian optimization algorithm[J]. Application Research of Computers, 2019, 36(7): 1984-1987. (0)
[17]	周海韬, 陈进, 董广明. 基于近邻元分析的滚动轴承故障诊断方法[J]. 振动与冲击, 2015, 34(2): 138-142. ZHOU Haitao, CHEN Jin, DONG Guangming. Fault diagnosis method for rolling bearing based on neighborhood component analysis[J]. Journal of Vibration and Shock, 2015, 34(2): 138-142. (0)
[18]	崔佳旭, 杨博. 贝叶斯优化方法和应用综述[J]. 软件学报, 2018, 29(10): 3068-3090. CUI Jiaxu, YANG Bo. Survey on Bayesian optimization methodology and applications[J]. Journal of Software, 2018, 29(10): 3068-3090. (0)
[19]	李黎, 张登, 谢龙君, 等. 采用关联规则综合分析和变权重系数的电力变压器状态评估方法[J]. 中国电机工程学报, 2013, 33(24): 152-159. LI Li, ZHANG Deng, XIE Longjun, et al. A condition assessment method of power transformers based on association rules and variable weight coefficients[J]. Proceedings of the CSEE, 2013, 33(24): 152-159. (0)