分享赚钱赏收藏举报版权申诉 / 16

立即下载加入VIP,免费下载

当前位置：首页 > 学术论文 > 综合论文 > 多项正则化约束的伪标签传播优化脑电信号聚类.pdf

多项正则化约束的伪标签传播优化脑电信号聚类.pdf

上传人：爱文献爱资料

文档编号：21751535

上传时间：2024-04-21

格式：PDF

页数：16

大小：2.03MB

《多项正则化约束的伪标签传播优化脑电信号聚类.pdf》由会员分享，可在线阅读，更多相关《多项正则化约束的伪标签传播优化脑电信号聚类.pdf（16页珍藏版）》请在文库网上搜索。

1、多项正则化约束的伪标签传播优化脑电信号聚类代成龙1李光辉1李栋1申佳华1皮德常21（江南大学人工智能与计算机学院江苏无锡214122）2（南京航空航天大学计算机科学与技术学院南京211106）（）Electroencephalogram Clustering with Multiple Regularization Constrained PseudoLabel Propagation OptimizationDai Chenglong1,Li Guanghui1,Li Dong1,Shen Jiahua1,and Pi Dechang21 （School of Artificial Int

2、elligence and Computer Science,Jiangnan University,Wuxi,Jiangsu 214122）2 （College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 211106）AbstractAs the non-invasive analyzing media,electroencephalogram(EEG)signals are widely applied in brain-computer int

3、erfaces,dysfunctional disorder diagnosis and rehabilitation.However,the techniques used in suchapplications are supervised and completely require EEG labels,like classification.Meanwhile,with the ever-increasing of unlabeled EEG emerged in these applications,traditional supervised techniques are bec

4、ominginapplicable,which probably degrades the development of this new-type unlabeled EEG in the emerging potentialfields.To deal with the issue of unsupervised analysis for unlabeled EEG signals,we propose a multiple regularizationconstrained pseudo label propagation optimization model,which integra

5、tes the pseudo label propagation learning,EEG similarity adjacency matrix approximation,and label classifier learning.Subsequently,to pursuit the goal ofEEG clustering with the proposed model,we transform the model to a multi-objective optimization function andpropose a gradient descent-based algori

6、thm named EEGapc (electroencephalogram clustering with pseudo labelpropagation)to solve it.EEGapc not only can make best use of messages passing through pairwise EEG signals inEEG-constructed graph,but can also quickly converge to its local optima.Experimental results by comparing EEGapcwith 8 diffe

7、rent types of state-of-the-art clustering algorithms on 14 real-world EEG data sets clearly demonstrate thesuperiority of EEGapc,and its performances with respect to average NMI(normalized mutual information),ARI(adjusted rand index),F-score and kappa are at least improved by 86.88%,58.01%,6.29%,61.

8、17%,respectively.Key words electroencephalogram clustering；pseudo label propagation；adjacency matrix optimization；pseudo labelclassifier；multi-objective optimization摘要作为一种非侵入式分析载体,脑电信号目前被广泛应用于脑-机接口、医疗辅助诊断及康复领域,但这些应用通常依赖需要完整标签的有监督分析技术,如分类.随着无标签脑电信号的与日俱增,现有的有监督方法不能有效解决无标签脑电信号分析问题,也在一定程度上限制了无标签脑电信号这类新型

9、数据的应用拓展.为了解决无标签脑电信号的无监督分析问题,提出了一种基于多项正则化约束的伪标签传播优化聚类模型.该模型通过同时优化学习伪标签传播矩阵、脑电信号相似度邻接矩阵、标签分类器的方式实现聚类.将提出的脑电信号聚类模型转化为一个多目标优化问题,并提出了一种基于梯度下降策略的聚类算法 EEGapc(electroencephalogram clustering with pseudo label propagation).该算法不仅充分考虑了收稿日期：2022-04-12；修回日期：2023-01-16基金项目：国家自然科学基金项目(62106087)；江苏省自然科学基金项目(BK2021

10、0455)；中央高校基本科研业务费专项资金(JUSRP122033)This work was supported by the National Natural Science Foundation of China(62106087),the Natural Science Foundation of Jiangsu Province(BK20210455),and the Fundamental Research Funds for the Central Universities(JUSRP122033).计算机研究与发展DOI：10.7544/issn1000-1239

11、.202220295Journal of Computer Research and Development61（1）：156171，2024脑电信号之间的相关性及脑电信号间的信息传递,还能快速收敛到局部最优.在 14 个真实脑电信号数据集上的实验结果表明,提出的 EEGapc 脑电信号聚类算法比现有的 8 种聚类算法性能更好,且在平均 NMI(normalized mutual information),ARI(adjusted rand index),F-score,kappa 这 4 个指标上,EEGapc 与现有的 8 种聚类算法相比,分别至少提升了 86.88%,58.01%,6.2

12、9%,61.17%.关键词脑电信号聚类；伪标签传播；邻接矩阵优化；伪标签分类器；多目标优化中图法分类号TP391人类进化进程中形成的最复杂、信息处理最完善的器官就是大脑,它有效控制着人的情绪、思想和行动,是人类从外界获取信息、处理信息的重要“工具”.大脑的认知机制、工作机制以及与相关疾病的关联等都逐渐成为研究学者们所关注的焦点,也形成了脑科学研究的热潮.国家中长期科学和技术发展规划纲要（20062020 年）针对脑科学进行了研究规划,其中涉及脑重大疾病的产生机理、脑信息的表达与处理以及人脑与计算机交互等内容.近年来,国家则侧重以发展类脑人工智能的计算技术与器件以及研发脑重大疾病的诊断干预方法作

13、为应用导向.2013 年“973”重点资助研究领域的研究内容包括了脑-机一体化以及生机电融合的智能型医疗设备、康复装备的研究.国家自然基金委重大研究计划“视听觉信息的认知计算”（20082017 年）包括了视听觉认知相关的脑-机接口（brain-computer interface,BCI）技术.2016 年,脑科学与类脑研究被“十三五”规划纲要确定为重大科技创新项目和工程之一.目前,“脑科学与类脑科学”作为“科技创新 2030 重大项目”已经启动指南意见征求稿.另外,近几年的军委装备发展部的支持项目中也涉及基于脑电信号的脑控系统、人机交互接口的研究内容.可见,基于脑电信号分析的脑科学技术在未

14、来研究与应用拓展中具有重大意义.作为一种能有效反映大脑工作状态的媒介,脑电信号（electroencephalogram，EEG）成为了脑重大疾病辅助诊断、人机交互、康复等领域的重要纽带.脑电信号是由脑细胞受到刺激产生的生理信号,即生物电信号.它不仅能有效反映出当前大脑功能状态,也能反馈人的身体机能状况1,因此被广泛应用于神经系统疾病分析2-5与康复6、脑-机接口7-8.其中,基于脑-机接口的应用尤为突出,该应用包含潜在的军事应用9-10.随着脑电信号数据的日益增加,无标签脑电数据的比重也随之增大,这给目前普遍的有监督分析方法带来了巨大挑战.因为有监督的分析方法,如分类,十分依赖数据的标签信息

15、5,8,11.同时,人工标记脑电信号既费时又费力,这也在很大程度上限制了无标签脑电信号这类新型数据在脑-机接口、疾病辅助诊断、康复等领域的应用.在当前脑电信号的研究环境下,现有的研究主要存在 3 个问题或挑战:1）现有的有监督分析方法,如分类,需要给定数据标签进行学习训练,因此无法有效迁移到无标签脑电信号的分析任务中.而且,人工标记与日俱增的无标签脑电信号成本高、费时费力.2）针对无标签脑电信号的研究相对较少,可借鉴的分析方法有限,需要提出新的方案、方法来解决该具有挑战性的任务.3）与传统的时间序列数据不同,脑电信号是一种具有高震荡、高非线性、低信噪比等特点的弱生物信号,现有的大部分传统时间序

16、列聚类方法可能对无标签脑电信号这类新型数据的处理效果不佳.为此,本文提出了一种基于多项正则化约束的伪标签传播优化聚类方法,旨在充分利用无标签脑电信号自身特征及相关性,自主学习、优化得到相对最优的脑电信号聚类结果.具体而言,本文的主要贡献及工作包括 3 个方面:1）针对无标签脑电信号的分析问题,提出了一种基于多项正则化约束的伪标签信息传播优化聚类模型.该模型充分利用脑电信号之间的相关性与信息传播,并通过同时学习伪标签传播矩阵、脑电信号相似度邻接矩阵、标签分类器的方式实现无标签脑电信号聚类.2）为了解决由脑电信号聚类转化的多目标优化问题,提出了一种基于梯度下降策略的多目标优化算法EEGapc（el

17、ectroencephalogram clustering with pseudo label propagation）.该算法能在一个很小的学习率条件下很快收敛到局部最优,不仅确保了多目标函数的可解性,也有利于脑电信号的快速聚类.3）通过在 14 个真实脑电信号数据集、4 个评价指标上的实验分析,展示了本文提出的 EEGapc 算法的性能优越性.与现有的多种聚类算法相比,本文提出的 EEGapc 算法能得到更优的聚类结果.代成龙等：多项正则化约束的伪标签传播优化脑电信号聚类157 1相关工作随着脑电信号规模在脑-机接口应用、疾病诊断、康复等领域的不断增大，无标签或误标记脑电信号的数量也随之增

18、加，特别是针对患有脑部疾病的被试所采集的脑电信号,其标签缺失、误标尤为突出12.同时，人工标记脑电信号是一件费时费力的事情，在一定程度上制约了脑电信号的应用.因此，针对无标签脑电信号这类新型数据进行研究，既能拓展其应用范围，也能为其提供鲁棒性更高、性能更好的分析策略与方法.作为一种有效的无监督分析方法,聚类可以用来处理无标签脑电信号.目前专门针对脑电信号的聚类研究相对较少,主要是基于相似度衡量和中心搜寻相结合的脑电信号聚类方法,如 MTEEGC（multi-trialelectroencephalogram clustering）13,FCM（fuzzy C-means）14，以及基于图的脑电

19、信号聚类方法,如 mwc-EEGc（maximum weight clique electroencephalogramclustering）15.具体而言，MTEEGC 采用一种互相关相似度衡量方法评估脑电信号之间的相关性，并利用优化目标函数搜寻聚类中心，最后根据脑电信号与聚类中心的相似度实现脑电信号聚类；FCM 脑电信号聚类方法与 k-means 相似,通过判断脑电信号与聚类中心的相对距离实现脑电信号的聚类.这类脑电信号聚类方法的性能在很大程度上受聚类中心初始化与中心更新策略的影响.mwcEEGc 同样先利用相似度衡量方法评估脑电信号之间的相关性权重,并将脑电信号及其相关性权重映射为一个无

20、向加权图,最后结合相似度阈值搜寻图中最大加权团的方式实现脑电信号聚类.该脑电信号聚类方法虽然具有较高的性能,但多次的最大加权团搜寻过程会消耗大量的时间,对于实时性要求较高的应用而言,如脑-机接口等,mwcEEGc 的应用会受到一定限制.由于面向无监督分析的脑电信号研究方法有限,在一定程度上影响了日益增长的无标签脑电信号的分析和应用拓展.幸运的是,作为一种具有时间序列特性的生物电信号,丰富的时间序列聚类方法可以为脑电信号聚类提供方法指导.目前,涉及到脑电信号聚类的研究方法也通常是基于时间序列的聚类策略13-14,如 MTEEGC,FCM.一般而言，基于时间序列的聚类方法主要通过自身的学习、优化策

21、略,例如数据之间的相关性、数据特征之间的相关性等进行自动划分,最终实现数据的聚类12,15.目前为止,基于时间序列的聚类方法可以大致分为 6 类:1）经典的 k-means 型聚类算法16.这类算法继承了经典 k-means 的聚类策略,即根据数据与初始化聚类中心之间的距离,迭代更新聚类中心并根据预先设定好的聚类个数将数据划分到与其最近的聚簇中,达到聚类的目的,如 k-means+17,k-variates+18,KMM（K-multiple-means）19等.不难看出,这类 k-means 型聚类方法的性能依赖于一个合适的初始化策略或一个中心（重心）搜寻更新方法.换言之,这类聚类方法的最终

22、效果对聚类中心（重心）的初始化要求较高,虽然效率高,但聚类精度通常相对较差.2）基于相似度的聚类.该类方法主要利用相似度（或距离）衡量方法评估数据之间的相关性,并结合设定的相似度阈值将满足条件的数据划分到同一聚簇中,如 DBA（dynamic time warping barycenteraveraging）20,K-SC（K-spectral centroid）21等.这类聚类算法主要依赖于相似度（或距离）衡量方法,并在聚类过程中也涉及到聚类中心的搜寻,因此这类算法在计算数据相似度且根据相似度衡量方法不断更新聚类中心时会消耗大量的时间,所以它们的时间复杂度相对较高.3）基于密度的聚类.这

23、类方法主要利用预先设定的密度评估参数衡量数据之间构成的稠密区域是否满足最低密度阈值,从而实现数据的聚类划分.基于密度的方法有DBSCAN（density-based spatial clusteringof applications with noise）22,OPTICS（ordering points toidentify the clustering structure）23,SNN（shared nearestneighbor）24,DP（density peak clustering）25-27等.这类方法的效率较高,但聚类性能也受到密度评估参数的影响.而且,基于密度的方法通常情况下

24、对“点”型数据聚类效果相对较好,而对于时间序列数据而言相对较差.4）基于特征选择的聚类.这类方法主要从数据降维的角度,通过特征识别与选择方法将原始数据映射到低维的特征空间,然后利用数据与特征之间的相关性进行聚类操作,如 NDFS（nonnegative discrimi-native feature selection）28,RUFS（robust unsupervisedfeature selection）29,RSFS（robust spectral learningframework for unsupervised feature selection）30,CGSSL（clusteri

25、ng-guided sparse structural learning）31等.虽然这类方法将降低原始数据的维度,但其聚类性能同样也受到特征识别与选择方法以及特征个数设定的影响.而对于特征复杂的脑电信号而言,特征提取的时间消耗也比较大.5）基于数据形态的聚类.这类方法与基于特征158计算机研究与发展2024，61（1）选择的聚类方法策略相似,通过学习将原始数据用较短的数据段,即数据形态,降低原始数据的维度,然后利用学习到的多个数据形态与原始数据之间的相互关系进行聚类操作,如 u-shapelet（clustering usingunsupervised shapelets）32,USSL（u

26、nsupervised salientsubsequence learning）33,kShape（k-shape clustering）34等.同理,这类方法的聚类性能同样受到数据形态学习方法的影响.而且,想要学习到差异性较高、代表性较强的形态数据段也需要一个良好的学习目标函数和大量的学习时间.6）谱聚类.这类方法是基于图的聚类策略,通过将数据映射为图中节点,数据之间的相关性映射为图边上的权重,然后进行图分割实现聚类,例如 BSGP（bipartite spectral graph partition）35,USPEC（ultra-scalable spectral clustering）3

27、6等.谱聚类需要数据构成的相似度矩阵,然后根据拉普拉斯矩阵进行相似度变换,最后进行图分割.这类方法对数据结构无需过多的假设要求,也不需要对数据的概率分布做假设.同时,通过构造稀疏相似度图,可以降低聚类的时间消耗.但是,谱聚类方法对图相似度比较敏感.本文针对无标签脑电信号进行聚类分析,提出了一种基于图的伪标签传播优化聚类方法.在多项正则化的约束下,建立多目标优化模型,即将伪标签传播学习与脑电信号相似度邻接矩阵正则化约束和标签分类器正则化约束相结合,从而学习到与真实标签接近的伪标签,实现无标签脑电信号的聚类任务.2准备工作聚类最本质的目的是将相似度高的数据划分到同一聚簇中,并使得聚簇之间的差异最大

28、化.本文采用的基于图的聚类方式的主要目的也是将相似度较高的脑电信号通过图中的边权重将脑电信号划分到对应的子图中,这个过程类似于谱聚类.为了让文章更好地被理解,在详细介绍本文方法之前,先对方法涉及到的相关知识,如拉普拉斯矩阵等进行简要介绍.V=e1,e2,en假设 G=（V,E）为脑电信号构成的无向加权图,其中,为 n 条脑电信号构成的图节点,E 为图中节点之间的边.对于边（ei,ej）上的权重 sij，sij为邻接矩阵 S 的元素,本文采用皮尔逊相关系数的变形方式来衡量,即给定 2 条长度为 m 的脑电信号ex与 ey,它们之间的皮尔逊相关性 rxy37定义为rxy=mi=1(exiex)(e

29、yiey)mi=1(exiex)2mi=1(eyiey)2,（1）exey其中,分别为脑电信号 ex与 ey数据点的平均值,且 rxy1,1.因此,为了获得非负的脑电信号相似度,本文将皮尔逊相关性衡量进行变形来衡量脑电信号 ex与 ey之间的相似度 sxy：sxy=11rxy2.（2）sxyS=(sxy)最终由构成脑电信号相似度邻接矩阵 S,sxy0,1.LS基于脑电信号相似度邻接矩阵 S,脑电信号构成的图结构中拉普拉斯矩阵定义为LS=DS,（3）rank(LS)=ncLS其中,c 为特征值为 0 的个数,也表示为图 G 中可划分的子图个数38-39;同时,D=(d

30、i)=(dii)为对角矩阵上的元素,定义为dii=nj=1sij.（4）对于标准的基于图的聚类,其目的是将相似度较高的数据划分到同一聚簇中,因此一个好的相似度衡量策略有利于得到更好的聚类结果.对于基于图的聚类而言,其相似度矩阵可以作为数据间的传播信息,有利于将相关性较高的数据划分到同一聚簇中,提高数据的聚类效果.换言之,无标签数据的类标也可以通过数据间的信息传播,实现标记的动态学习与优化,从而实现无标签数据的标签化,即聚类40.为了更好地基于相似度邻接矩阵对无标签脑电信号的标签进行传播学习,可以将脑电信号相似度邻接矩阵 S 重定义为一个传播矩阵41:Q=D1/2SD1/2.（5）本文中采用的伪

31、标签传播学习则可以定义为Pt=Pt1Q+(1)L,（6）0 1L RcnL=(Lij)其中为权重系数，为伪标签指示矩阵.具体定义为Lij=1,li=j.0,其他.（7）伪标签指示矩阵 L 表示:对于一个 c 聚类问题,当脑电信号 ei被划分到第 j 类聚簇中,即 li=j,则有Lij=1,否则 Lij=0.当然,该伪标签会根据优化策略不断地更新.为了能更好地让标签信息（即脑电信号的相似度代成龙等：多项正则化约束的伪标签传播优化脑电信号聚类159邻接矩阵所包含的信息）在整个图结构中平稳传播,实现未标记节点的标签化,本文将标准的标签传播模型引入正则化约束,最后形成正则化标签传播模型41：minP1

32、2ck=1ni=1nj=1sij(PikPjk)2+ck=1ni=1(PikLik)2,（8）其中 c 为聚类个数，为正则化系数且用来平衡模型中的约束权重.3本文提出的聚类算法 EEGapc为了解决无标签脑电信号聚类问题,提出了一种多项正则化约束的伪标签传播学习脑电信号聚类模型.该方法主要结合了邻接矩阵传播优化、伪标签传播学习及伪标签分类器优化等模块,充分利用脑电信号之间的相关性进行聚类.3.1邻接矩阵传播优化M RnnS Rnnrank(LS)=nc根据文献 38 提出的理论:与邻接矩阵相关的拉普拉斯矩阵中特征值为 0 的数量与图中相连子图的个数相同.可用该理论对脑电信号构建的图进行划分,实

33、现脑电信号聚类.对于原始脑电信号相似度构成的初始邻接矩阵,文献 38 中提出的聚类方法的目的是学习到一个与 M 相当接近的伪邻接矩,并使得与之相关的拉普拉斯矩阵满足以下约束条件.为了得到与真实邻接矩阵 M 最接近的伪邻接矩阵 S,定义其优化目标函数为minS|S M|2F,s.t.S1n=1n,rank(LS)=nc,（9）1n=(1,1,1)T其中.3.2伪标签传播学习结合标签传播学习函数,见式（8）,正则化约束能更好地利用脑电信号之间的相互关系,即脑电信号之间的相似度信息,为未标记脑电信号进行标签学习.不难看出,标准的标签传播学习函数可收敛到最优解,如定理 1 所述.0 1P=(1)L(I

34、Q)1定理 1.当时,标签传播函数（式（8）可收敛到最优解：.P0=L证明.为了不失一般性,首先定义,式（6）的迭代更新过程则可等价为Pt=(L)t+(1)Lt1i=0(Q)i.（10）S1n=1nQ=D1/2SD1/2=S0 sij 10 结合在邻接矩阵优化中定义的约束条件:,所以，且有.同时,因为 0证明.根据文献 42,对于函数 f,其梯度下降在尺度系数条件下满足 Lipschitz 连续,即x,y,0|f(x)f(y)|2|xy|2.（31）对 f（y）进行泰勒二项展开可得f(y)=f(x)+f(x)T(yx)+122f(x)|yx|2.（32）对式（32）进行变换可得f(x)f(y)

35、=f(x)T(xy)122f(x)|xy|2.（33）xt+1=xtf(x)结合梯度下降更新策略,可得|xt+1x|2=|xtf(x)x|2=|xtx|22f(x)T(xtx)+2|f(x)|2.（34）结合式（33）,可以得到f(xt)f(x)f(xt)T(xtx)12|f(xt)f(x)|2.（35）f(xt)f(x),0f(x)=0又因为,以及,所以不等式（35）等价为12|f(xt)|2 f(xt)T(xtx).（36）综上所述,|xt+1x|2|xtx|21|f(xt)|2.（37）0 1ux即,当学习率为时,f（x）函数可以收敛到最优解.证毕.结合引理 1,EEGapc 在足够小的

36、学习率条件下可以收敛到局部最优解,如定理 2 所述.ni=14w2ia4ini=1w2ia2i|ai(x+y)2bi|2x定理 2.当学习率满足且为的下界时，EEGapc 将收敛到局部最优解.证明.针对式（15）（16）（19）（23）（26）中的目标函数及关于各参数弱化后的表达形式,结合文献 33,我们先构建以下形式的表达式：f(x)=ni=1wi(aixbi)2,（38）wi,ai,bi R其中.根据引理 1,容易得出式（38）可以收敛到最优解,并且有f(x)f(y)=niwiai(ai(x+y)2bi)(xy).（39）同时,可以得到|f(x)f(y)|2=niw2ia2i

37、|ai(x+y)2bi|2|xy|2.（40）同理可得,f(x)f(y)=f(x)f(y)=ni=12wia2i(xy).（41）相应地,|f(x)f(y)|2=ni=14w2ia4i|xy|2.（42）2005 3778 0656722IV_2a_s1IV_2a_s2IV_2a_s3IV_2a_s4IV_2a_s5IV_2a_s6IV_2a_s7IV_2a_s8IV_2a_s9来自 9 位健康被试的复杂四分类运动想象脑电信号，包括左手、右手、双脚和舌头的运动想象28816 501224IV_2b_s1IV_2b_s2IV_2b_s3来自 3 位健康被试的简单二分类运动想象脑电信号，包括左手、

38、右手的运动想象12094032164计算机研究与发展2024，61（1）于距离（相似度）的聚类算法 K-SC21、基于密度的聚类算法 DP26、基于特征选择的聚类算法 RUFS29、基于形态的聚类算法 kShape34、谱聚类 USPEC36、基于邻接矩阵传播优化的聚类算法 AP40以及基于最大加权团的脑电信号聚类算法 mwcEEGc15.1）KMM.该算法是一种 k-means 型聚类算法,其首先设定多个聚类子中心,然后通过优化策略更新子聚类中心及子聚类结果,经过多次优化、更新及融合,将数据划分到 k 个聚类中.2）K-SC.该算法首先采用一种尺度可伸缩的相似度衡量方法迭代搜寻聚类中心,然后

39、再结合数据与聚类中心的相似度进行数据划分与聚类中心更新,直到聚类中心不再变化,且所有数据被划分到相应的聚类中.3）DP.该算法根据数据之间构成的团体密度进行聚类,即根据各数据与其周围数据的密度高低确定聚类中心,然后再根据密度阈值将数据划分到对应的高密度数据团体中,即聚类中.4）RUFS.该算法利用 l2,1范式最小化与局部正则化后的正交矩阵实现数据的特征选择与降维,然后将具有相似特征的数据划分到相应的聚类中.5）kShape.该算法利用标准化互相关衡量方法评估数据间的相关性,并利用该方法得到数据差异性较大的数据形态,最终结合学习到的形态特征将相似的数据划分到同一聚类.6）USPEC.该算法采用

40、混合特征搜寻策略和 kNN相结合构建稀疏邻接矩阵,并利用转切（transfer cut）策略实现数据的聚类任务.7）AP.该算法于 2014 年发表在 Science 上,其主要利用数据相似度邻接矩阵作为数据之间的传播信息,该传播过程为无标签数据的标签化提供有效信息,最终实现数据的聚类.8）mwcEEGc.该算法利用改进的 Frchet 距离衡量脑电信号之间的相似度,并将其映射为脑电信号无向加权图的边权重,然后结合相似度阈值,以搜寻图中最大加权团的方式实现脑电信号聚类.1,2,3,4以上 8 种对比方法的参数设定与相应文献的原文设定一致；聚类数量根据脑电信号数据原本的类别数确定；提出的 EEG

41、apc 算法的参数采用网格搜寻的方式自动寻优,即它们的取值范围设定为102,101,1,101,102；学习率设定为 0.01；算法的最大迭代次数为 50 次.本文将参数自动寻优后取得的最佳结果作为 EEGapc 的最终聚类结果.另外,EEGapc由 Matlab R2021b 实现,且在 MacOS 12.1（M1 Pro、8核处理器、16 GB 内存）上运行.对比算法均运行10 次,并取最优结果作为最终聚类结果.4.4实验及分析 4.4.1聚类结果比较为了评价 EEGapc 的脑电信号聚类性能,比较了EEGapc 与上述 8 种聚类算法在 NMI,ARI,F-score,k

42、appa 这 4 个指标下的聚类结果,分别如表 25 所示.结果表明,与 8 种不同的聚类算法相比，EEGapc 脑电信号聚类算法在 14 个真实脑电信号数据集上的聚类性能最好.表 25 中的 NMI 均值、ARI 均值、F-score均值和 kappa 均值表明了 EEGapc 在不同类型的无标签脑电信号上的聚类性能稳定性与优越性.而且，EEGapc 脑电信号聚类算法与其他 8 种聚类算法中性能最好的 mwcEEGc 相比,分别在 NMI 均值、ARI 均值、F-score 均值和 kappa 均值上分别提升了 86.88%,58.01%,6.29%,61.17%.另外,表 25 中的显著性

43、分析结果也表明，EEGapc 脑电信号聚类算法性能与 KMM,K-SC,DP,RUFS,kShape,USPEC,AP 的相比具有显著性优势.潜在原因主要是因为 EEGapc 聚类算法利用多项正则化对伪标签传播矩阵优化进行了约束,并且充分利用了以脑电信号相似度邻接矩阵为载体的传播信息,为得到相对最优的脑电信号标签提供了更符合实际情况的优化方向.另外,为了更直观地展示各聚类算法在 14 个脑电信号数据集上的整体聚类性能（也可以理解为聚类算法的通用性）,对表 25 中聚类算法的 NMI,ARI,F-score,kappa 评价指标结果进行了排序：评价指标越高,排名数值越小（即排名越靠前）；然后,计

44、算出各聚类算法的平均评价指标排名,平均排名越低,表明聚类性能越好,具体结果如图 1 所示.图 1 中的平均排名结果同样表明 EEGapc 算法的整体聚类性能最佳,且具有在不同类型脑电信号数据集上保持性能稳定的能力,这也从侧面反映出 EEGapc 聚类算法可以应用到不同规模、类型的脑电信号数据集上.4.4.2聚类效率比较本节主要比较 EEGapc 与其他聚类算法在 14 个脑电信号数据集上的聚类效率.需要说明的是,本文仅将固定正则化参数下的运行时间作为 EEGapc 的聚类时间消耗,并没有将自动参数寻优的总体时间作为 EEGapc 的最终运行时间.与不同聚类算法的比较结果如图 2 所示.该结果展

45、示了 EEGapc 聚类算法在所有的脑电信号数据集上都具有较好的运行效率,聚类的时间消耗比大部分对比算法小.正如 3.8 节的阐述,在聚类过程中,EEGapc 的聚类时间消耗与脑电代成龙等：多项正则化约束的伪标签传播优化脑电信号聚类165信号的条数有关,与脑电信号的长度无关.通常情况下,脑电信号的条数远小于长度.一旦脑电信号的相似度初始化,EEGapc 便能快速地进行迭代学习和收敛,并最终实现脑电信号聚类.与 EEGapc 相似,USPEC,DP,KMM,AP 的聚类时间消耗也主要与脑电信号的条数有关,而不是其长度,因此它们的聚类时间消耗也相对较小.USPEC,DP,KMM 的聚类时间之所以小

46、于EEGapc,是因为它们在聚类过程中采用了相对简单的聚 Table 2Performance Evaluation with NMI for Clustering Algorithms表 2 聚类算法的NMI性能指标数据集KMMK-SCDPRUFSkShapeUSPECAPmwcEEGcEEGapc（本文）II_Ia0.045 60.021 90.081 30.023 30.021 4 0.000 10.042 50.101 80.147 5II_Ib0.010 20.001 20.016 90.008 72.8872E-40.000 10.001 20.020 40.038 6IV_2a_

47、s10.028 20.02 0.014 20.009 40.017 3 0.017 60.003 20.031 10.039 6IV_2a_s20.054 60.015 80.016 90.013 0.014 7 0.008 50.000 50.275 10.642 5IV_2a_s30.038 10.031 10.034 10.017 70.016 3 0.023 10.010 30.290 50.475 6IV_2a_s40.049 90.019 0.037 10.012 0.017 1 0.022 10.010 20.253 60.586 3IV_2a_s50.045 20.021 10

48、.014 30.006 40.008 5 0.027 30.001 40.052 30.106 IV_2a_s60.037 70.039 30.021 0.015 60.023 1 0.016 30.006 50.201 40.365 2IV_2a_s70.032 60.007 30.022 70.017 50.019 7 0.018 10.014 90.033 80.036 4IV_2a_s80.024 30.010 20.017 90.011 30.020 2 0.006 20.001 30.025 20.028 3IV_2a_s90.026 90.017 0.014 40.005 30.

49、020 5 0.009 50.005 60.028 10.031 3IV_2b_s10.018 20.013 0.020 90.002 20.020 4 0.005 40.010 20.026 80.045 6IV_2b_s20.062 0.007 40.015 60.01 0.009 9 0.000 20.009 60.065 80.109 9IV_2b_s30.031 80.005 60.021 30.000 30.005 0.031 80.003 30.034 10.039 9NMI 均值0.036 10.016 40.024 90.010 90.015 3 0.013 30.008 6

50、0.102 90.192 3显著性p 0.05（*）p 0.01（*）p 0.01（*）p 0.01（*）p 0.01（*）p 0.01（*）p 0.01（*）p=0.19（）注:*表示显著,*表示十分显著,表示不可比较；黑体数值表示最优值.Table 3Performance Evaluation with ARI for Clustering Algorithms表 3 聚类算法的ARI性能指标数据集KMMK-SCDPRUFSkShapeUSPECAPmwcEEGcEEGapc（本文）II_Ia0.001 1 0.000 8 0.068 70.028 40.025 80.003 5 0.0