混合聚类分析算法在发电设备故障模式识别中的应用

Application of Hybrid Cluster Analysis Algorithm in Fault Pattern Recognition of Power Generating Equipment

王娜1, 李号彩1, 张德利2

1.湖南大唐先一科技有限公司,北京 100097

2.国网冀北电力有限公司 电力科学研究院,北京 100045

WANG Na1, LI Hao-cai1, ZHANG De-li2

1. Datang Xianyi Technology Co., Ltd., Beijing 100097, China
2. Electric Power Research Institute, State Grid Jibei Electric Power Company, Beijing 100045, China

文章编号: 2095-641X(2017)12-00-04 中图分类号: TP391.4

摘要

为全面诊断火电厂发电设备的故障,提高发电设备的可靠性,减少由于非计划停机所带来的经济损失,提出了一种基于K-means与GMM结合的聚类分析算法,将故障模式识别问题转化为实现数据聚类问题,挖掘设备运行数据间的深层关系,完成故障诊断。实践结果证明了该算法在故障诊断中应用的可行性,为火电厂发电设备故障预警及检修规划提供了一种新的途径。

关键词 : K-means算法; GMM; 聚类分析; 特征提取; 模式识别;

DOI:10.16543/j.2095-641x.electric.power.ict.2017.12.006

ABSTRACT

Aim

ing at improving the reliability of the power generating equipment, reducing the economic loss due to the unplanned downtime of the power plant which caused by generating equipments failure, this paper presents a clustering algorithm based on K-means and GMM. By transforming the fault pattern recognition problem into data clustering problem, the algorithm excavates the deep relationship between the equipment operation data. The test result verifies the feasibility of data mining technology in fault diagnosis. This paper provides a performance degradation prediction method for thermal power generation equipment failure warning and maintenance plan.

KEY WORDS : K-means algorithm; GMM; clustering analysis; feature extraction; pattern recognition;

0 引言

大型火电厂主、辅机数量较多,结构复杂,其作用是完成从热能到机械能再到电能的转换过程。设备与设备之间的耦合性、系统的复杂性等因素决定了火电厂是一个高故障率和故障危害性很大的生产场所,这些故障都将造成重大的经济损失和社会后果,因此应用设备故障预警及状态监测技术,掌握关键设备的正常运行状态,及时发现易损部件的工况恶化趋势,及时进行维护和检修,对提高设备的可靠性和安全性十分必要[1-5]

目前,发电设备预警和预知维修的关键技术主要有状态监测技术、故障诊断与预测技术和维修分析与决策,而故障模式识别是这些技术的基础。本文采用K-means算法与基于EM(期望最大)的高斯混合模型(Gaussian Mixture Model,GMM)算法相结合的聚类分析算法进行故障模式识别,实践结果证明该算法能够很好地用于发电设备智能诊断预测。

1 算法介绍

1.1 K-means算法

K-means算法,也被称为K-平均或K-均值算法,是一种得到广泛应用的聚类分析方法[6]。该算法的主要思想是:将各个聚类子集内所有数据样本的均值作为该聚类的代表点,通过迭代的方法逐次更新各聚类中心的值,把数据集划分为不同的类别,最终目标是使评价聚类性能准则的函数达到最优,使生成的每个聚类(簇)内紧凑,类间独立[7-10]

假设要把样本集X={x1, x2, x3,…, xn}分为K个类别,算法的过程描述如下:

算法:K-means算法,划分并计算基于簇中对象的平均值;

输入:簇的数目K和包含n个对象的数据库;

输出:K个簇,使平方误差总和最小。

算法步骤:

1)为每个聚类确定一个初始聚类中心,形成K个初始聚类中心;

2)将样本集中的样本按照最小距离原则分配到最邻近的聚类;

3)利用每个聚类中的样本均值作为新的聚类中心;

4)重复步骤2和步骤3,直到聚类不再变化;

5)迭代结束,得到K个聚类。

K-means算法的优点是算法快速、简单,对大数据集有较高的效率并且是可伸缩的。缺点是需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。在K-means 算法中,多维空间相似性度量基于欧氏距离进行计算,并不能准确反映多维空间点中的相似情况。

1.2 高斯混合模型(GMM)
1.2.1 多维空间单高斯模型(SGM)

假设有一组在多维空间(假设维度为D)的点Xi,i=1,2,…,n,若这些点的分布近似椭球状,则可以用高斯密度函数g(X,μ,Σ)来描述产生这些点的密度函数:

式中,μ为密度函数期望,也可认为是模型中心点;Σ为均方差,在多维空间中为一个D×D的对称矩阵。

因此,对于SGM问题的求解即为:通过有限个样本点来求解μ和Σ这两个高斯参数。假设样本点Xii=1,2,…,n)之间为互相独立事件,则发生X={x1,x2,…, xn}的概率为:

由于xi为己知点,可通过p(X;μ,Σ)来求解μ和Σ。这类问题通常以极大似然估计的方法来进行求解,即在p(X;μ,Σ)为最大值条件下(样本点xi已经发生,故可认为p(X;μ,Σ)样本xi发生的概率最大),求得μ和Σ。根据极值理论,可以通过对μ和Σ分别求导的方式求解。

1.2.2 高斯混合模型(GMM)

SGM样本点的分布为椭球状。而实际中,大部分样本点分布不可能是或近似椭球状,因此引用了高斯混合模型(GMM)。GMM是一种常用的描述混合密度函数分布的模型,可视为多个高斯分布以一定比例混合而成[11-14],GMM模型可描述为:

每个GMM由K个Gaussian 分布组成,每个Guassian为一个在概率统计中的组成要素,任意形状的概率分布都可以用多个高斯分布函数来近似。GMM待求解的参数除μ和Σ外,还有各个模型在样本点所占的权值α,即某个高斯模型对样本点的影响力。其参数求解方法一般使用极大似然估计法求解,但使用极大似然估计法往往不能获得完整数据(比如样本已知,但样本类别未知),于是出现了EM(期望最大)求解方法[15-16]

EM算法是一种从不完整数据中求解模型参数的极大似然估计的迭代算法。计算机基于EM算法不断求解和迭代可以得到GMM的各个模型参数μ和Σ。GMM算法的优点是适用性广,多维空间中聚类效果好,同时引入了概率分布,算法简单、迭代方法有效且稳定。缺点是计算速度慢,模型初始化困难,由于迭代算法是局部最优求解算法,因此虽然能保证收敛后达到局部最大点,但并不能保证收敛到全局最大点,聚类结果受初始值影响较大。

2 基于K-means与GMM结合的聚类分析算法

2.1 模型算法详解

结合K-means与GMM两种算法优缺点,可先采用K-means算法得到结果,转换为GMM的初始值。采用K-means算法对EM算法进行初始化,可以显著提高EM算法的收敛速度,提高最终分类结果的准确率。

具体转化流程如下:

1)将利用K-means算法得到的中心点作为高斯模型的初始期望Mu0;

2)通过同组工况点协方差得到高斯模型初始均方差Σ0;

3)同组包括的样本点占总样本的比例为高斯模型的初始权值A0

其中A0表示各个模型对单个样本点的影响度(即初始权值),Mu0表示高斯模型的初始期望,Σ0表示高斯模型的初始均方差。

计算机求解程序框图如图1所示。

图1 求解程序框图 Fig.1 Solution program

基于K-means与GMM结合的聚类分析算法描述如下:

1)引用初始K个高斯混合模型,其初始参数为A0、Mu0、Σ0;

2)在第1次迭代中,通过最大期望算法得到A1、Mu1、Σ1;

3)将更新后的高斯模型进行第2次迭代,得到A2、Mu2、Σ2;

4)进行多次迭代后,值变化达到残差设定值,则迭代结束,得到最终A、Mu以及Σn

2.2 模型相似度算法详解

在得到高斯混合模型的数学求解结果后,计算机基于EM算法不断求解和迭代可以得到GMM各个模型的参数μ和Σ。在现场得到的实时数据将与GMM中的模型期望值进行相似度比较,相似度最高的期望值将作为实时数据的期望值。

对于2个D维数据对象X={x1, x2,…, xd}和Y={y1, y2,…, yd},相似度计算方法如下:

该相似度算法在设备预警系统中起到了很好的作用,能准确反映数据间的相似情况。

3 实例分析

在设备诊断过程中,可以对正常工况下的设备各参数运行数据进行聚类分析(称之为训练),通过聚类分析可以得到K个组以及组中心(称之为K个工况类别和某个工况的期望值)。在设备智能诊断过程中,设备运行的新数据将会与训练得到的组中心进行相似度检验,通过相似度的高低来决定设备处于何种工况类别,并给出该工况正常运行的期望值。为了使设备诊断准确可靠,则需要较为准确的聚类分析算法使组内相似性最大、组间异化度最大。

以某一前置泵电机连续稳定运行8 000条历史数据作为训练样本,共得到11维、8 000个样本点,以前置泵电机模型最新产生的1 000个样本点做为实时测试数据。

整个计算通过MATLAB实现,设定聚类分类个数为100个,则初始高斯模型为100个。计算结果如图2-4所示。

图2 前置泵电机温度训练样本与期望值趋势图 Fig.2 Training sample and expected trend of front pump motor temperature

图3 前置泵电机温度实时数据与期望值趋势图 Fig.3 Real - time data and expectation trend of front pump motor temperature

图4 前置泵电机温度相似度趋势图 Fig.4 Similarity trend of front pump motor temperature

从实例可以得出,采用K-means(K均值)与基于EM的GMM算法相结合的聚类分析算法能够对发电设备故障模式进行提取,并以此作为故障模式识别的依据,对于1 000个样本的验证结果,经检验后发现其与实际情况基本吻合。

4 结语

本文针对火力发电机组发电设备故障预警的难题,研究了K-means与GMM结合的聚类分析算法,应用 K-means初始化构建混合高斯模型,使用 EM 算法进行参数估测,并建立了完整的分类模型,验证了该数据挖掘技术在故障诊断中应用的可行性,为发电设备的预警和预知维修奠定了基础。

(编辑:邹海彬)

参考文献

[1] 陈冬霞, 石辉. 基于GC-FD分析及GM(1, N)模型预测的变压器故障监测与保护[J]. 广东电力, 2011, 24(9): 36-40. CHEN Dong-xia, SHI Hui.Monitoring and protection against transformer failures based on GC-FD analysis and GM(1, N) model forecast[J]. Guangdong Electric Power, 2011, 24(9): 36-40.

[2] 陈昆亮. 汽轮发电机组状态检测与故障预警系统研究[D]. 北京: 华北电力大学, 2012.

[3] 陈启卷, 何昌炎, 周元贵, . 基于云计算的光伏电站故障诊断系统研究[J]. 广东电力, 2015, 28(10): 1-5. CHEN Qi-juan, HE Chang-yan ZHOU Yuan-gui, et al. Research on fault diagnosis system of photovoltaic power plant based on cloud calculation[J]. Guangdong Electric Power, 2015, 28(10): 1-5.

[4] 李存斌, 李小鹏, 高坡. 基于变权模糊物元模型的变压器状态实时评估[J]. 广东电力, 2015, 28(11): 66-73. LI Cun-bin, LI Xiao-peng, GAO Po.Real-time evaluation on transformer state based on variable weight fuzzy matter-element model[J]. Guangdong Electric Power, 2015, 28(11): 66-73.

[5] 李谦, 杨劲松. 500kV香山变电站接地网安全性状态评估及整改[J]. 广东电力, 2013, 26(5): 87-92. LI Qian, YANG Jinsong.Safety evaluation and rectification for 500 kV Xiangshan substation grounding grid[J]. Guangdong Electric Power, 2013, 26(5): 87-92.

[6] CAO J, WU Z, WU J, et al.Towards information-theoretic K-means clustering for image indexing[J]. Signal Processing, 2013, 93(7): 2026-2037.

[7] 胡炜. 基于SIFT算法的体育类图像应用[J]. 电子设计工程, 2017, 25(18): 79-81. HU Wei.Sports images based on SIFT algorithm application[J]. Electronic Design Engineering, 2017, 25(18): 79-81.

[8] 刘飞, 贲树俊, 周嘉, . 面向配网台区的综合评价模型研究与可视化应用[J]. 电网与清洁能源, 2017, 33(5): 63-68. LIU Fei, BEN Shu-jun, ZHOU Jia, et al.Research and visualization application of comprehensive evaluation model for distribution network substation area[J]. Power System and Clean Energy, 2017, 33(5): 63-68.

[9] 施晓筛, 徐森, 曹瑞. 文本谱聚类算法研究[J]. 电子设计工程, 2012, 20(22): 7-9. SHI Xiao-shai, XU Sen, CAO Rui.Research of document spectral clustering algorithm[J]. Electronic Design Engineering, 2012, 20(22): 7-9.

[10] HARTIGAN J A, WONG M A.A K-means clustering algorithm[J]. Applied Statistics, 2013, 28(1): 100-108.

[11] 潘章明, 曲政. 基于差分进化算法的高斯混合模型参数估计[J]. 现代计算机: 专业版, 2009(5): 29-31.

[12] 熊彪, 江万寿, 李乐林. 基于高斯混合模型的遥感影像半监督分类[J]. 武汉大学学报(信息科学版), 2011, 36(1): 108-112. XIONG Biao, JIANG Wan-shou, LI Le-lin.Gauss mixture model based semi-supervised classification for remote sensing image[J]. Geomatics and Information Science of Wuhan University, 2011, 36(1): 108-112.

[13] 乔少杰, 金琨, 韩楠, . 一种基于高斯混合模型的轨迹预测算法[J]. 软件学报, 2015, 26(5): 1048-1063. QIAO Shao-Jie, JIN Kun, HAN Nan, et al.Trajectory prediction algorithm based on Gaussian mixture mode[J]. Journal of Software, 2015, 26(5): 1048-1063.

[14] 李艳玲, 王加俊. 基于高斯混合模型的纹理图像的分割[J]. 微电子学与计算机, 2004, 21(4): 63-65.

[15] DEMPSTER A P, LAIRED N M, RUBI D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society, 1977, B(39): 1-38.

[16] 陈宇, 王爱斐, 江露, . 基于K-means-GMM模型的地板块纹理分类算法[J]. 哈尔滨理工大学学报, 2013, 18(4): 69-73. CHEN Yu, WANG Ai-fei, JIANG Lu, et al.Plate texture classification algorithm based on K-means-GMM model[J]. Journal of Harbin University of Science and Technology, 2013, 18(4): 69-73.

  • 王娜 (1981–) , 女, 河北保定人, 工程师, 从 事电力生产信息化总体规划、 系统设计、 产品 研发、 项目实施等工作;

  • 李号彩(1974-),男,湖南长沙人,高级工程师,从事电力信息化咨询、规划、分析设计、管理等相关工作;

  • 张德利(1981-),男,山西曲沃人,高级工程师,从事汽轮机节能、优化分析等工作。

  • 目录

    图1