多项正则化约束的伪标签传播优化脑电信号聚类.pdf
《多项正则化约束的伪标签传播优化脑电信号聚类.pdf》由会员分享,可在线阅读,更多相关《多项正则化约束的伪标签传播优化脑电信号聚类.pdf(16页珍藏版)》请在文库网上搜索。
1、 多项正则化约束的伪标签传播优化脑电信号聚类代成龙1李光辉1李栋1申佳华1皮德常21(江南大学人工智能与计算机学院江苏无锡214122)2(南京航空航天大学计算机科学与技术学院南京211106)()Electroencephalogram Clustering with Multiple Regularization Constrained PseudoLabel Propagation OptimizationDai Chenglong1,Li Guanghui1,Li Dong1,Shen Jiahua1,and Pi Dechang21 (School of Artificial Int
2、elligence and Computer Science,Jiangnan University,Wuxi,Jiangsu 214122)2 (College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 211106)AbstractAs the non-invasive analyzing media,electroencephalogram(EEG)signals are widely applied in brain-computer int
3、erfaces,dysfunctional disorder diagnosis and rehabilitation.However,the techniques used in suchapplications are supervised and completely require EEG labels,like classification.Meanwhile,with the ever-increasing of unlabeled EEG emerged in these applications,traditional supervised techniques are bec
4、ominginapplicable,which probably degrades the development of this new-type unlabeled EEG in the emerging potentialfields.To deal with the issue of unsupervised analysis for unlabeled EEG signals,we propose a multiple regularizationconstrained pseudo label propagation optimization model,which integra
5、tes the pseudo label propagation learning,EEG similarity adjacency matrix approximation,and label classifier learning.Subsequently,to pursuit the goal ofEEG clustering with the proposed model,we transform the model to a multi-objective optimization function andpropose a gradient descent-based algori
6、thm named EEGapc (electroencephalogram clustering with pseudo labelpropagation)to solve it.EEGapc not only can make best use of messages passing through pairwise EEG signals inEEG-constructed graph,but can also quickly converge to its local optima.Experimental results by comparing EEGapcwith 8 diffe
7、rent types of state-of-the-art clustering algorithms on 14 real-world EEG data sets clearly demonstrate thesuperiority of EEGapc,and its performances with respect to average NMI(normalized mutual information),ARI(adjusted rand index),F-score and kappa are at least improved by 86.88%,58.01%,6.29%,61.
8、17%,respectively.Key words electroencephalogram clustering;pseudo label propagation;adjacency matrix optimization;pseudo labelclassifier;multi-objective optimization摘要作为一种非侵入式分析载体,脑电信号目前被广泛应用于脑-机接口、医疗辅助诊断及康复领域,但这些应用通常依赖需要完整标签的有监督分析技术,如分类.随着无标签脑电信号的与日俱增,现有的有监督方法不能有效解决无标签脑电信号分析问题,也在一定程度上限制了无标签脑电信号这类新型
9、数据的应用拓展.为了解决无标签脑电信号的无监督分析问题,提出了一种基于多项正则化约束的伪标签传播优化聚类模型.该模型通过同时优化学习伪标签传播矩阵、脑电信号相似度邻接矩阵、标签分类器的方式实现聚类.将提出的脑电信号聚类模型转化为一个多目标优化问题,并提出了一种基于梯度下降策略的聚类算法 EEGapc(electroencephalogram clustering with pseudo label propagation).该算法不仅充分考虑了 收稿日期:2022-04-12;修回日期:2023-01-16基金项目:国家自然科学基金项目(62106087);江苏省自然科学基金项目(BK2021
10、0455);中央高校基本科研业务费专项资金(JUSRP122033)This work was supported by the National Natural Science Foundation of China(62106087),the Natural Science Foundation of Jiangsu Province(BK20210455),and the Fundamental Research Funds for the Central Universities(JUSRP122033).计 算 机 研 究 与 发 展DOI:10.7544/issn1000-1239
11、.202220295Journal of Computer Research and Development61(1):156171,2024脑电信号之间的相关性及脑电信号间的信息传递,还能快速收敛到局部最优.在 14 个真实脑电信号数据集上的实验结果表明,提出的 EEGapc 脑电信号聚类算法比现有的 8 种聚类算法性能更好,且在平均 NMI(normalized mutual information),ARI(adjusted rand index),F-score,kappa 这 4 个指标上,EEGapc 与现有的 8 种聚类算法相比,分别至少提升了 86.88%,58.01%,6.2
12、9%,61.17%.关键词脑电信号聚类;伪标签传播;邻接矩阵优化;伪标签分类器;多目标优化中图法分类号TP391人类进化进程中形成的最复杂、信息处理最完善的器官就是大脑,它有效控制着人的情绪、思想和行动,是人类从外界获取信息、处理信息的重要“工具”.大脑的认知机制、工作机制以及与相关疾病的关联等都逐渐成为研究学者们所关注的焦点,也形成了脑科学研究的热潮.国家中长期科学和技术发展规划纲要(20062020 年)针对脑科学进行了研究规划,其中涉及脑重大疾病的产生机理、脑信息的表达与处理以及人脑与计算机交互等内容.近年来,国家则侧重以发展类脑人工智能的计算技术与器件以及研发脑重大疾病的诊断干预方法作
13、为应用导向.2013 年“973”重点资助研究领域的研究内容包括了脑-机一体化以及生机电融合的智能型医疗设备、康复装备的研究.国家自然基金委重大研究计划“视听觉信息的认知计算”(20082017 年)包括了视听觉认知相关的脑-机接口(brain-computer interface,BCI)技术.2016 年,脑科学与类脑研究被“十三五”规划纲要确定为重大科技创新项目和工程之一.目前,“脑科学与类脑科学”作为“科技创新 2030 重大项目”已经启动指南意见征求稿.另外,近几年的军委装备发展部的支持项目中也涉及基于脑电信号的脑控系统、人机交互接口的研究内容.可见,基于脑电信号分析的脑科学技术在未
14、来研究与应用拓展中具有重大意义.作为一种能有效反映大脑工作状态的媒介,脑电信号(electroencephalogram,EEG)成为了脑重大疾病辅助诊断、人机交互、康复等领域的重要纽带.脑电信号是由脑细胞受到刺激产生的生理信号,即生物电信号.它不仅能有效反映出当前大脑功能状态,也能反馈人的身体机能状况1,因此被广泛应用于神经系统疾病分析2-5与康复6、脑-机接口7-8.其中,基于脑-机接口的应用尤为突出,该应用包含潜在的军事应用9-10.随着脑电信号数据的日益增加,无标签脑电数据的比重也随之增大,这给目前普遍的有监督分析方法带来了巨大挑战.因为有监督的分析方法,如分类,十分依赖数据的标签信息
15、5,8,11.同时,人工标记脑电信号既费时又费力,这也在很大程度上限制了无标签脑电信号这类新型数据在脑-机接口、疾病辅助诊断、康复等领域的应用.在当前脑电信号的研究环境下,现有的研究主要存在 3 个问题或挑战:1)现有的有监督分析方法,如分类,需要给定数据标签进行学习训练,因此无法有效迁移到无标签脑电信号的分析任务中.而且,人工标记与日俱增的无标签脑电信号成本高、费时费力.2)针对无标签脑电信号的研究相对较少,可借鉴的分析方法有限,需要提出新的方案、方法来解决该具有挑战性的任务.3)与传统的时间序列数据不同,脑电信号是一种具有高震荡、高非线性、低信噪比等特点的弱生物信号,现有的大部分传统时间序
16、列聚类方法可能对无标签脑电信号这类新型数据的处理效果不佳.为此,本文提出了一种基于多项正则化约束的伪标签传播优化聚类方法,旨在充分利用无标签脑电信号自身特征及相关性,自主学习、优化得到相对最优的脑电信号聚类结果.具体而言,本文的主要贡献及工作包括 3 个方面:1)针对无标签脑电信号的分析问题,提出了一种基于多项正则化约束的伪标签信息传播优化聚类模型.该模型充分利用脑电信号之间的相关性与信息传播,并通过同时学习伪标签传播矩阵、脑电信号相似度邻接矩阵、标签分类器的方式实现无标签脑电信号聚类.2)为了解决由脑电信号聚类转化的多目标优化问题,提出了一种基于梯度下降策略的多目标优化算法EEGapc(el
17、ectroencephalogram clustering with pseudo label propagation).该算法能在一个很小的学习率条件下很快收敛到局部最优,不仅确保了多目标函数的可解性,也有利于脑电信号的快速聚类.3)通过在 14 个真实脑电信号数据集、4 个评价指标上的实验分析,展示了本文提出的 EEGapc 算法的性能优越性.与现有的多种聚类算法相比,本文提出的 EEGapc 算法能得到更优的聚类结果.代成龙等:多项正则化约束的伪标签传播优化脑电信号聚类157 1相关工作随着脑电信号规模在脑-机接口应用、疾病诊断、康复等领域的不断增大,无标签或误标记脑电信号的数量也随之增
18、加,特别是针对患有脑部疾病的被试所采集的脑电信号,其标签缺失、误标尤为突出12.同时,人工标记脑电信号是一件费时费力的事情,在一定程度上制约了脑电信号的应用.因此,针对无标签脑电信号这类新型数据进行研究,既能拓展其应用范围,也能为其提供鲁棒性更高、性能更好的分析策略与方法.作为一种有效的无监督分析方法,聚类可以用来处理无标签脑电信号.目前专门针对脑电信号的聚类研究相对较少,主要是基于相似度衡量和中心搜寻相结合的脑电信号聚类方法,如 MTEEGC(multi-trialelectroencephalogram clustering)13,FCM(fuzzy C-means)14,以及基于图的脑电
19、信号聚类方法,如 mwc-EEGc(maximum weight clique electroencephalogramclustering)15.具体而言,MTEEGC 采用一种互相关相似度衡量方法评估脑电信号之间的相关性,并利用优化目标函数搜寻聚类中心,最后根据脑电信号与聚类中心的相似度实现脑电信号聚类;FCM 脑电信号聚类方法与 k-means 相似,通过判断脑电信号与聚类中心的相对距离实现脑电信号的聚类.这类脑电信号聚类方法的性能在很大程度上受聚类中心初始化与中心更新策略的影响.mwcEEGc 同样先利用相似度衡量方法评估脑电信号之间的相关性权重,并将脑电信号及其相关性权重映射为一个无
20、向加权图,最后结合相似度阈值搜寻图中最大加权团的方式实现脑电信号聚类.该脑电信号聚类方法虽然具有较高的性能,但多次的最大加权团搜寻过程会消耗大量的时间,对于实时性要求较高的应用而言,如脑-机接口等,mwcEEGc 的应用会受到一定限制.由于面向无监督分析的脑电信号研究方法有限,在一定程度上影响了日益增长的无标签脑电信号的分析和应用拓展.幸运的是,作为一种具有时间序列特性的生物电信号,丰富的时间序列聚类方法可以为脑电信号聚类提供方法指导.目前,涉及到脑电信号聚类的研究方法也通常是基于时间序列的聚类策略13-14,如 MTEEGC,FCM.一般而言,基于时间序列的聚类方法主要通过自身的学习、优化策
21、略,例如数据之间的相关性、数据特征之间的相关性等进行自动划分,最终实现数据的聚类12,15.目前为止,基于时间序列的聚类方法可以大致分为 6 类:1)经典的 k-means 型聚类算法16.这类算法继承了经典 k-means 的聚类策略,即根据数据与初始化聚类中心之间的距离,迭代更新聚类中心并根据预先设定好的聚类个数将数据划分到与其最近的聚簇中,达到聚类的目的,如 k-means+17,k-variates+18,KMM(K-multiple-means)19等.不难看出,这类 k-means 型聚类方法的性能依赖于一个合适的初始化策略或一个中心(重心)搜寻更新方法.换言之,这类聚类方法的最终
22、效果对聚类中心(重心)的初始化要求较高,虽然效率高,但聚类精度通常相对较差.2)基于相似度的聚类.该类方法主要利用相似度(或距离)衡量方法评估数据之间的相关性,并结合设定的相似度阈值将满足条件的数据划分到同一聚 簇 中,如 DBA(dynamic time warping barycenteraveraging)20,K-SC(K-spectral centroid)21等.这类聚类算法主要依赖于相似度(或距离)衡量方法,并在聚类过程中也涉及到聚类中心的搜寻,因此这类算法在计算数据相似度且根据相似度衡量方法不断更新聚类中心时会消耗大量的时间,所以它们的时间复杂度相对较高.3)基于密度的聚类.这
23、类方法主要利用预先设定的密度评估参数衡量数据之间构成的稠密区域是否满足最低密度阈值,从而实现数据的聚类划分.基于密度的方法有DBSCAN(density-based spatial clusteringof applications with noise)22,OPTICS(ordering points toidentify the clustering structure)23,SNN(shared nearestneighbor)24,DP(density peak clustering)25-27等.这类方法的效率较高,但聚类性能也受到密度评估参数的影响.而且,基于密度的方法通常情况下
24、对“点”型数据聚类效果相对较好,而对于时间序列数据而言相对较差.4)基于特征选择的聚类.这类方法主要从数据降维的角度,通过特征识别与选择方法将原始数据映射到低维的特征空间,然后利用数据与特征之间的相关性进行聚类操作,如 NDFS(nonnegative discrimi-native feature selection)28,RUFS(robust unsupervisedfeature selection)29,RSFS(robust spectral learningframework for unsupervised feature selection)30,CGSSL(clusteri
25、ng-guided sparse structural learning)31等.虽然这类方法将降低原始数据的维度,但其聚类性能同样也受到特征识别与选择方法以及特征个数设定的影响.而对于特征复杂的脑电信号而言,特征提取的时间消耗也比较大.5)基于数据形态的聚类.这类方法与基于特征158计算机研究与发展2024,61(1)选择的聚类方法策略相似,通过学习将原始数据用较短的数据段,即数据形态,降低原始数据的维度,然后利用学习到的多个数据形态与原始数据之间的相互关系进行聚类操作,如 u-shapelet(clustering usingunsupervised shapelets)32,USSL(u
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多项 正则 约束 标签 传播 优化 电信号