改进二进制沙丘猫群优化特征选择算法.pdf
《改进二进制沙丘猫群优化特征选择算法.pdf》由会员分享,可在线阅读,更多相关《改进二进制沙丘猫群优化特征选择算法.pdf(15页珍藏版)》请在文库网上搜索。
1、Computer Science and Application 计算机科学与应用计算机科学与应用,2023,13(10),1855-1869 Published Online October 2023 in Hans.https:/www.hanspub.org/journal/csa https:/doi.org/10.12677/csa.2023.1310184 文章引用文章引用:周子航,王丽娜.改进二进制沙丘猫群优化特征选择算法J.计算机科学与应用,2023,13(10):1855-1869.DOI:10.12677/csa.2023.1310184 改进二进制沙丘猫群优化特征选择算法
2、改进二进制沙丘猫群优化特征选择算法 周子航周子航*,王丽娜,王丽娜 河北地质大学信息工程学院,河北 石家庄 收稿日期:2023年9月11日;录用日期:2023年10月10日;发布日期:2023年10月18日 摘摘 要要 特征选择在机器学习的分类任务中被广泛应用,选择出的特征子集会直接影响后续学习算法的性能。特征选择在机器学习的分类任务中被广泛应用,选择出的特征子集会直接影响后续学习算法的性能。针针对沙丘猫群优化算法对沙丘猫群优化算法(SCSO)全局搜索能力弱、收敛速度慢问题,本文提出一种改进的二进制沙丘猫群优全局搜索能力弱、收敛速度慢问题,本文提出一种改进的二进制沙丘猫群优化特征选择算法。首先
3、改进控制沙丘猫在搜索阶段和攻击阶段化特征选择算法。首先改进控制沙丘猫在搜索阶段和攻击阶段转换参数的调整方法转换参数的调整方法,使用两阶段的改进,使用两阶段的改进收敛因子策略代替线收敛因子策略代替线性递减策略,性递减策略,以以提升算法的全局搜索能力。其次受提升算法的全局搜索能力。其次受PSO算法位置更新公式的启发,算法位置更新公式的启发,引入社会学习因子和认知学习因子策略引入社会学习因子和认知学习因子策略,提高算法的收敛速度。为了验证,提高算法的收敛速度。为了验证新提出新提出算法算法在求在求解特征选择问解特征选择问题题上上的性能,的性能,本文选择了本文选择了4种经典算法在种经典算法在8个个UCI
4、数据集上进行了对比测试数据集上进行了对比测试,实验结果表明,实验结果表明新新提出算法的提出算法的性能性能优于对比算法优于对比算法。关键词关键词 沙丘猫群优化算法,收敛因子,沙丘猫群优化算法,收敛因子,学习学习因子,特征选择因子,特征选择 Improved Binary Sand Cat Swarm Optimization Feature Selection Algorithm Zihang Zhou*,Lina Wang School of Information and Engineering,Hebei GEO University,Shijiazhuang Hebei Received
5、:Sep.11th,2023;accepted:Oct.10th,2023;published:Oct.18th,2023 Abstract Feature selection is widely used in classification tasks of machine learning,and the selected fea-ture sets directly affect the performance of subsequent learning algorithms.Aiming at the issues of weak global search ability and
6、slow convergence speed of Sand Cat Swarm Optimization(SCSO),an improved binary sand cat swarm optimization feature selection algorithm is proposed in this *第一作者。周子航,王丽娜 DOI:10.12677/csa.2023.1310184 1856 计算机科学与应用 paper.Firstly,the adjustment method of controlling the transition parameters of sand ca
7、t in the search phase and attack phase is improved.This method employs a two-stage improved conver-gence factor strategy,replacingthe linear decrement strategy,aiming to enhance the algorithms global search capability.Secondly,inspired by the position update formula of the PSO algorithm,social learn
8、ing factor and cognitive learning factor strategies are introduced to improve the con-vergence speed of the algorithm.In order to verify the performance of the newly proposed algo-rithm in solving the feature selection problem,this study conducted comparative tests on eight UCI datasets using four c
9、lassical algorithms.The experimental results demonstrate that the per-formance of the newly proposed algorithm outperforms the compared algorithms.Keywords Sand Cat Swarm Optimization Algorithm,Convergence Factor,Learning Factor,Feature Selection Copyright 2023 by author(s)and Hans Publishers Inc.Th
10、is work is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.引言引言 特征选择是一种数据的预处理方式,用于从初始的特征空间中选择出与研究问题相关、有代表性的特征,剔除那些和研究问题无关、冗余的特征1。选择出来的特征子集具有更低的维度,能够提高分类算法的性能。依据特征子集的搜索策略是否和后续的学习器相结合,可以将特征选择的方法分为过滤式特征选择、包装式特征选择和嵌入式特征选择2。过滤式特
11、征选择首先对已知的数据集进行特征选择,然后将选好之后的特征子集用于模型训练,这两个过程是相互独立的3。过滤式特征选择的核心是选用某种准则对特征子集进行度量,如 Zheng K 等人4提出了一种结合最大信息熵(MIE)和最大信息系数(MIC)的过滤式特征子集选择方法。包装式特征选择中特征子集的选择标准会依赖于后续的学习器,所以首先需要确定后续的学习器,如 K 近邻(K-Nearest Neighbor,KNN)、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest)等5。Wei J 等人6提出了一种新的变异增强 BPSO-SVM 算法,增加粒子
12、的变异概率,从而使算法跳出局部最优,获得高质量的特征。徐明等人7对正余弦算法进行改进,首先设计出一种新的非线性递减函数替代原有线性递减函数,其次引入个体最优位置引领个体位置的更新,最后引入翻筋斗觅食机制以增加群体多样性,在解决高维特征选择问题上取得较好的效果。嵌入式特征选择就是将前面的特征选择算法嵌入后续的学习器中,即在学习器训练的过程中,同时完成特征选择。由于包装式特征选择算法具有可直接对算法本身进行优化、易于实现、精度与其它两种算法相比较高等优点,所以本文采用的是包装式的特征选择方法。特征子集的搜索策略包括穷举法、分支定界法、前向搜索法、后向搜索法、随机搜索法等8。穷举法随着特征数量的增加
13、,特征子集的数量会呈现指数级的增长趋势,算法的复杂度很高,只适用于维数低的情况。分支定界法较穷举法复杂度相对较低,但是随着特征数量的增大,复杂度也会呈现出指数级的增长趋势。前向搜索法:每次选择一个表现最好的特征加入到已选好的特征子集中。后向搜索法:每次从已选好的特征子集中剔除一个表现最差的特征。随机搜索法:使用一定的随机优化算法如遗传算法9(Genetic Algorithm,GA)、蚁狮算法10(Ant Lion Optimizer,ALO)、粒子群优化算法11(Particle Swarm Optimization,PSO)、灰狼算法(Grey Wolf Optimizer,GWO)等生成
14、特征子集,再利用特定的评价函数去评Open AccessOpen Access周子航,王丽娜 DOI:10.12677/csa.2023.1310184 1857 计算机科学与应用 定所选出的特征子集的优劣,通过不断地迭代使得选出来的特征子集的变化趋于稳定,最终得到最优特征子集。徐明等人12对灰狼算法进行改进并将其用于求解特征选择问题中,设计一种基于正弦函数的非线性过渡参数策略代替原来的线性递减策略,且在最优灰狼个体的选取上,引入小孔成像学习策略产生新的候选个体。改进算法能有效地提高分类精度,选择最优特征。随机搜索可以防止算法陷入局部最优,找到近似最优解。随机搜索算法被广泛的用于求解优化问题,
15、路雪刚等人13对鲸鱼优化算法进行改进,并将其用于求解畜禽废弃物运输路径优化问题。MPanda 等人14将灰狼算法用于求解路径规划问题。和其它的搜索方法相比,随机搜索的搜索效率远高于其它搜索方法。受沙丘猫搜索和捕食猎物行为的启发,Amir Seyyedabbasi 等人15于 2022 年提出了沙丘猫群优化算法(Sand Cat Swarm Optimization,SCSO)。该算法通过一种自适应机制,控制算法在搜索阶段和攻击阶段之间的过渡,具有较好的全局寻优能力,在求解高维和多目标问题中表现良好,可以将其用于求解特征选择问题。YIMING LI 等人16提出了一种基于随机变异和精英协作的沙丘
16、猫群优化算法,该算法首先引入了一种非线性周期调整机制,以平衡算法的全局探索能力和局部开发能力,加快算法的收敛速度。其次引入随机变异的精英协作策略,使算法能够跳出局部极值,进一步提高了算法的寻优精度和收敛速度。并与文献中其它群智能优化方法进行了对比实验,验证了改进策略的有效性。Dijana Jovanovic 等人17提出了一种基于改进的沙丘猫群优化算法的入侵检测特征选择,在 SCSO 算法的基础上嵌入了著名的人工蜂群算法(Artificial Bee Colony,ABC)的搜索机制。通过在两个著名数据集(UNSW-NB15 和CICIDS-2017)上验证所提出的方法,并将结果与处理相同问题
17、并在类似配置下工作的其他前沿算法的报告结果进行比较,证明了性能改进。综合来说,SCSO 算法具有较强的优化问题求解能力,但是其解存在精度低、容易陷入局部最优、迭代后期收敛速度慢等缺点,算法性能具有较大的提升空间。2.基本的沙丘猫群优化算法基本的沙丘猫群优化算法 沙丘猫群优化算法是受沙丘猫的觅食行为启发而提出的一种新的随机优化算法。沙丘猫利用它们奇妙的听觉特性,可以探测到地下活动的猎物。沙丘猫的觅食行为分为搜索猎物和攻击猎物两个阶段,并通过一种机制去控制两种行为之间的平衡。算法的数学模型如式(1)所示:()()()()()()()cos,if1;10,1,otherwise.tRttrandt+
18、=brndbccPosr PosPosrPosPos?(1)其中()1t+Pos?表示第t+1次迭代后沙丘猫的位置,其中()tbPos?为第t代时种群的最优解的位置,()tcPos?表示第 t 代时个体当前位置,()tbcPos?表示第 t 代时种群一个候选解的位置,rndPos?为当前位置和最优位置之间的一个随机位置,计算公式如式(6)所示,r?表示每只猫的灵敏度范围,计算公式如式(4)所示,为通过轮盘赌算法选择出的随机角度。参数 R 用来控制沙丘猫在搜索阶段和攻击阶段之间的过渡。R 的计算公式如式(2)所示:()20,1rand=GGRrr?(2)其中Gr?为沙丘猫的常规的灵敏度范围,Gr
19、?的计算公式如式(3)所示:McMmaxSiterSiter=Gr?(3)Gr?随着迭代次数的增加线性下降。其中 iterc为当前迭代次数,itermax为最大迭代次数,SM是由沙丘猫的听觉特征激发的,初始时设置其值为 2。r?表示每只猫的灵敏度范围,计算公式如式(4)所示:()0,1rand=Grr?(4)周子航,王丽娜 DOI:10.12677/csa.2023.1310184 1858 计算机科学与应用 当参数 R 的绝对值小于等于 1 的时候,处于攻击阶段,使用式(5)进行位置更新。()()()1costt+=brndPosPosr Pos?(5)其中()tbPos?为第 t 代时种群
20、的最优解的位置,为利用轮盘选择算法为每只沙丘猫选择出的一个随机角度,rndPos?为当前位置和最优位置之间的一个随机位置,以确保沙丘猫可以靠近猎物,计算公式如式(6)所示:()()()0,1randtt=rndbcPosPosPos?(6)当参数 R 的绝对值大于 1 的时候,处于搜索阶段,使用公式(7)进行位置更新。()()()()()10,1ttrandt+=bccPosrPosPos?(7)其中()tbcPos?表示第 t 代时种群一个候选解的位置,()tcPos?表示第 t 代时个体当前位置。综上所述,沙丘猫的位置更新分为搜索和攻击两个阶段。在攻击阶段时,使用轮盘赌算法可以避免算法陷入
21、局部最优陷阱,引入随机位置可以保证沙丘猫在不断地向猎物位置靠近。在搜索阶段时,选择一个随机候选解来引导沙丘猫的位置更新,沙丘猫能够找到其它的可能的猎物位置,防止算法陷入局部最优。3.改进的二进制沙丘猫群优化算法改进的二进制沙丘猫群优化算法 本文通过引入两阶段的改进收敛因子策略和改进学习因子策略,提高了算法的全局搜索能力,加快了算法的收敛速度,并在特征子集的评价函数中加入了特征和类别之间的关联性作为评价函数的一部分。从标准 UCI 数据集值选取 8 个样本数和特征数量均不同的数据集来测试算法的性能,实验结果表明,改进后的算法具有更好的分类效果。3.1.基本二进制沙丘猫群优化特征选择算法基本二进制
22、沙丘猫群优化特征选择算法 3.1.1.基本二进制沙丘猫群优化算法基本二进制沙丘猫群优化算法 基本的沙丘猫群优化算法只能用于处理连续的问题,为了将沙丘猫群优化算法用于求解离散型问题,需要将沙丘猫的位置离散化。在初始化及位置更新时,将每只沙丘猫的位置离散化,经过离散化处理后可得到二进制沙丘猫群优化算法(Binary Sand Cat Swarm Optimization,BSCSO),算法的具体实现如下所示。在种群初始化时,随机生成每只沙丘猫的初始位置,每只沙丘猫每一维的位置都为 0 或 1。初始时的位置生成公式如式(8)所示:()0,1ijPrandint=(8)其中ijP表示第 i 个个体在第
23、 j 维中的取值。()0,1randint表示 0 或 1。在位置更新时,根据公式(1)计算出每只沙丘猫的位置,然后通过文献 18 中 8 种不同的 Sigmoid 函数(如式(9)(16)所示)将每只沙丘猫的位置离散化18。具体的计算公式如式(17)所示。()121:1exSS x=+(9)()21:1exSS x=+(10)()321:1exSS x=+(11)周子航,王丽娜 DOI:10.12677/csa.2023.1310184 1859 计算机科学与应用 ()431:1exSS x=+(12)()()2/210:ed2xtV V xt=(13)()()2:tanhVV xx=(14
24、)()23:1VV xxx=+(15)()42:arctan2VV xx=(16)()()0,if0,1;1,otherwise.tijtijSig PrandPN=(17)其中tijP代表离散化前沙丘猫群第 i 个个体在第 j 维的取值,Sig 表示不同的激活函数,tijPN代表离散化后沙丘猫群第 i 个个体在第 j 维的取值,()0,1rand表示 0 到 1 之间的随机数。3.1.2.基本二进制沙丘猫群优化算法求解特征选择问题基本二进制沙丘猫群优化算法求解特征选择问题 基本二进制沙丘猫群优化算法求解特征选择问题的伪代码如下所示:算法 1:BSCSO 伪代码 1:初始化参数。最大迭代次数
25、itermax、每只猫的灵敏度范围r?、沙丘猫的常规的灵敏度范围Gr?。2:利用式(9)(17)对种群进行初始化,使用 2.3 节中的特征子集的评价函数计算初始时每个个体的适应度值。3:while t 1 时,算法的搜索范围广,算法具有较好的全局搜索能力,当|R|=(18)其中 SM值设为 2,k 的值设为 3,t 表示当前迭代次数,itermax表示算法的最大迭代次数。(2)引入社会学习因子和认知学习因子策略 由公式(7)可知,在搜索阶段,通过一个随机候选解引领沙丘猫个体位置的更新,这样虽然可以保证算法的随机性较强,不易陷入局部最优,但同时会使得算法的收敛速度较慢。为了解决这一问题,我们引入
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 改进 二进制 沙丘 优化 特征 选择 算法