基于机器学习的风化硅酸盐玻璃原成分预测及亚分类方法_王祉皓.pdf
《基于机器学习的风化硅酸盐玻璃原成分预测及亚分类方法_王祉皓.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的风化硅酸盐玻璃原成分预测及亚分类方法_王祉皓.pdf(11页珍藏版)》请在文库网上搜索。
1、第 51 卷第 2 期 2023 年 2 月 硅 酸 盐 学 报 Vol.51,No.2 February,2023 JOURNAL OF THE CHINESE CERAMIC SOCIETY http:/ DOI:10.14062/j.issn.0454-5648.20220985 基于机器学习的风化硅酸盐玻璃原成分预测及亚分类方法 王祉皓1,赵芗溦1,李智群1,郭 明1,肖琬玥1,刘志坚2(1.大连海事大学船舶电气工程学院,辽宁 大连 116026;2.大连海事大学轮机工程学院,辽宁 大连 116026)摘 要:玻璃在中国史料中早有记载,但是由于长期存在名称和质地的混淆,且近现代有关中国
2、古代玻璃的研究起步较晚,关于古代硅酸盐玻璃的风化和成分研究比较缺乏。以往研究古代玻璃器的著作,多是从王朝更替的角度,对文化交流、化学分析等方面研究玻璃的文化艺术形态及其自身的运行发展的规律,较少有学者系统建立数学模型并使用智能算法定性定量开展风化硅酸盐玻璃原成分预测及亚分类方法研究。本工作以多组风化和未风化硅酸盐玻璃为研究对象,提取其化学成分含量、纹饰和颜色等数据,利用 Spearman 系数分析了纹饰、颜色和玻璃大类之间的相关性并研究影响表面风化的因素;利用决策树进行大致分类,然后用神经网络预测玻璃风化前主要化学成分的含量,并总结硅酸盐玻璃的分类依据。此后通过 K-means聚类建立分类模型
3、:确定最佳类别数,进行亚类划分,寻找铅钡玻璃和高钾玻璃的最优分类数量。研究结果表明,只有玻璃类型对表面风化具有显著影响;风化过程中参与度较高的化学成分为二氧化硅、氧化铝、氧化铅、氧化钡、氧化铅和五氧化二磷;风化后,铅钡玻璃二氧化硅含量明显下降,氧化铅含量明显上升,而高钾玻璃二氧化硅含量明显上升,氧化钾氧化钙和氧化铝含量明显下降;高钾玻璃分为 3 个亚类,铅钡玻璃分为 4 个亚类。为后续利用机器学习研究古代硅酸盐玻璃的风化和成分提供了参考。关键词:硅酸盐玻璃;决策树;神经网络;K-means 聚类;Spearman 相关性 中图分类号:O756 文献标志码:A 文章编号:04545648(202
4、3)02041611 网络出版时间:20230117 Prediction of Original Ingredients of Portland Glass and Research into Subclassification Methods Based on Machine Learning WANG Zhihao1,ZHAO Xingwei1,LI Zhiqun1,GUO Ming1,XIAO Wanyue1,LIU Zhijan2(1.Marine Electrical Engineering College,Dalian Maritime University,Dalian 116
5、026,Liaoning,China;2.Marine Engineering College,Dalian Maritime University,Dalian 116026,Liaoning,China)Abstract:Glass as a material has existed in China for a long time,but the related studies on ancient glass in China started relatively late due to the long-term confusion of name and texture,leadi
6、ng to a lack of research on the weathering and composition of ancient silicate glass.Some previous studies on ancient glass mainly discussed the artistic character and development laws of glass with respect to cultural exchange and chemical analysis from the perspective of dynastic succession.A few
7、work established the related mathematical model and used the intelligent algorithm for qualitative quantification of weathering silicate glass original composition prediction and subclassification method.This paper was to use multiple groups of weathered and unweathered silicate glasses and collect/
8、extract the data on their chemical composition content,ornamentation and color.The relations among the patterns,color,types of glass and surface weathering were analyzed by the Spearman coefficient.The decision tree for a rough classification and neural network to predict the main chemical compositi
9、on of glass before its weathering was given,and the classification basis of silicate glass was summarized.Besides,the subcategorization at the optimal quantity of categories to conduct subclass classification was established,and a reasonable amount of barium glass and high potassium glass was select
10、ed.The results show that the type of glass has an influence on the surface weathering,and there are silicon dioxide,aluminum oxide,lead oxide,barium oxide and phosphorus pentoxide involved in the weathering process.Moreover,the amount of silicon dioxide decreases and lead oxide increases sharply in
11、lead barium glass,while vice versa in high potassium glass after weathering.Keywords:Portland glass;decision tree;neural network;K-means clustering;Spearman coefficient 收稿日期:20221115。修订日期:20221213。基金项目:国家自然科学基金(51909019)。第一作者:王祉皓(2001),男,本科生。通信作者:刘志坚(1986),男,硕士,副教授。Received date:20221115.Revised dat
12、e:20221213.First author:WANG Zhihao(2001),male,Undergraduate.E-mail: Correspondent author:LIU Zhijian(1986),male,Master,Associate Professor.E-mail: 第 51 卷第 2 期 王祉皓 等:基于机器学习的风化硅酸盐玻璃原成分预测及亚分类方法 417 玻璃,几千年来从稀有走向普通,再到现如今在各行各业中发挥重要的作用。这其中,又以硅酸盐玻璃数量众多,应用广泛。本工作希望通过研究古代硅酸盐玻璃的风化与亚分类问题,为当代硅酸盐玻璃预防风化、应用和数字化研究做一
13、些先行性研究。首先是风化,古代玻璃极易受埋藏环境的影响而风化。周良知1应用近代研究方法,研究影响硅酸盐玻璃风化的主要因素。王承遇等2对风化作用的机理所进行的深入研究,对于成分预测工作有一定的借鉴意义。其次是分类。虽有赵凤燕等3通过pXRF 对玻璃器的化学成分进行无损分析来进行分类,但是现有的化学研究手段还不能准确按照玻璃的成分进行较为精准合理的分类。因此,考虑引入机器学习来通过使用分类预测模型和智能算法来将实际的化学问题抽象为数理模型来解决,以免去分析时实体样本和高精度分析仪器的束缚。虽然智能算法近年来广泛应用于材料领域的科学研究,如冯百龄4研究的中国出土古代玻璃珠数据库建设与应用,张丽艳等5
14、使用 7 种玻璃成分性质模拟方法总结了各模拟方法的主要理论依据、模拟过程及应用现状和李建刚6基于深度学习做的玻璃缺陷检测,但是国内外在使用机器学习研究古代硅酸盐玻璃的风化与亚分类问题方面尚且空白。机器学习可以辅助科学家从不同尺度、维度深入认识材料的机理特征,理解问题的本质7。本研究过程中主要使用的算法是神经网络、决策树和K-means 聚类。其中神经网络主要用来解决风化前后化学成分含量变化问题,决策树主要用来解决玻璃的大致分类问题8;K-means 聚类作为一种基于划分的聚类算法9,是从无标记数据集中获取信息和知识的重要手段。由于其具有适用范围广泛和算法伸缩性强的优点,K-means 聚类算法
15、被广泛的应用到聚类分析领域,因为其良好的分类划分效果,可以满足大多数分类要求10。1 机器学习 1.1 机器学习概述 机器学习,涉及概率论、统计学、逼近论、凸分析、算法复杂度等多门学科,是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的一门多领域交叉学科11。目前,机器学习在基于知识的系统中、自然语言理解、非单调推理、机器视觉、模式识别等许多领域都得到了广泛应用,计算化学也是飞速发展12。模型目前已被广泛应用于建立机器学习模型的输入量有多种表述方法,如变量、特征、描述符等,不同领域的表述方法也不尽相同。根据学习方式的不同,机器学习
16、可分为有监督学习13、无监督学习14、自监督学习15、半监督学习、主动学习和强化学习等。各类机器学习方法近年来广泛应用于材料研究领域,具体应用可简要概括如图 1 所示。图 1 各类机器学习方法在材料领域科学研究应用 Fig.1 Application of various machine learning methods in scientific research in the field of materials 418 硅酸盐学报 J Chin Ceram Soc,2023,51(2):416426 2023 年 上图各算法中,决策树和神经网络算法属于有监督学习,K-means 聚类算法
17、属于无监督学习。本研究将利用这 2 种算法建立模型。1.2 决策树样本集 决策树算法具有算法原理层面的随机性和集成学习的优势,在较高维度的问题特征处理方面具有良好的稳定性与敏感性。因此本工作将基于决策树算法构建粗分类模型。构成该部分模型的关键是样本集的建立以及抽样,形成相应的子决策树,最终的输出结果由各个子决策树输出结果用相对多数投票法决定10。子决策树的数量m对于整个算法的计算效率有着极大的影响16,随着子决策树的数量增大,分类精度会更好,m 值的过大会导致算法的运行效率下降,但是如果 m 值过小,则分类精度将可能下降。1.3 决策树分类的实现 根据 GiNi 系数对决策树的数据进行处理,形
18、成训练集。然后根据训练集中的元素建立集合表示为c1,c2,cN,为方便讨论,这里将 hi在样本 x 的预测输出表示为一个 N 维向量12(),(),iih x hx ()NTihx,其中 hi(x)表示 hi在类别 cj上的输出,建立投票表达式如下:111,()0.5()()Reject,TNTjkjiiikichxhxH x=|=|其他 (1)其中:H(x)为分类的结果输出,即若某个标记得票数过半数,则应判断为该类别,否则拒绝判断。1.4 神经网络预测的实现 神经网络算法具有自学习功能和高速寻找优化解的能力。因此将基于神经网络算法构建风化预测模型。在样本集抽样出合理的数据集之后,应将多组数据
19、集进行随机对应,形成训练集,作为神经网络的输入数据集的特征变量,同时将特征变量作为输入信号代入式(2),进行加权平均计算:1122nnyW XW XW X=+(2)其中:Xi为第 i 个变量的输入信号;Wi为输入信号Xi权值;y为加权后的决策变量。为方便进行后续数据处理,引入激活函数 来归一化处理数据,()11yye=+(3)此式引入激活函数做归一化处理,对自变量进行修改,因此该式中各变量仅有数值含义。对加权平均结果进行非线性变换,选用如式(2)所示的Sigmoid函数做激活函数,将原取值范围(,+)转换到(0,1)。上述为单层神经网络,适用于数据量较小的样本集,若样本集数据量较大,可采用多层
20、神经网络。1.5 肘部原则 K-means在进行分类计算时,具有极佳的计算简易性,并且降低了计算的复杂度,但是在进行K-means聚类计算之前,最为重要的便是分类数K值的选取17。肘部法则对于K-means算法的K值确定起到指导作用18,该法则的计算原理是成本函数,成本函数是类别畸变程度之和,每个类的畸变程度等于每个变量点到其类别中心的位置距离平方和,若内部的成员彼此间越紧凑,则类的畸变程度越小;反之,若该类内部的成员彼此间越分散,则类的畸变程度越大。随着值的增大,平均畸变程度会减小;每个类包含的样本数会减少,于是样本会更靠近其中心。但是,随着值继续增大,平均畸变程度的改善效果会不断减低。值增
21、大过程中,畸变程度的改善效果下降幅度最大的位置对应的值就是肘部,即下降程度突然变缓时即认为最佳的K值18。1.6 K 聚类算法概述 K-means聚类算法属于一种无监督的机器学习算法,是将归类相似的对象归到同一个簇中,簇内对象越相似,聚类的效果越好。首先,确定K个初始点作为质心。在此基础上,按照式(4)为每个点找到距其最近的质心,并将其分配给质心所对应的簇。0iiDSS=(4)其中:Si代表第i个随机点;S0为质心点;Di为第 i个随机点与质心的距离。在完成上述步骤后,将每个簇的质心更新为该簇内所有点的平均值。按照上述方式反复进行迭代,直到所有的数据点的簇分配结果不再改变为止。K-means中
22、输入的点一般为多个特征变量组成的多维点坐标,输出分类结果。1.7 轮廓系数 轮廓系数是聚类效果好坏的一种评价方式17,它结合内聚度和分离度2种因素,可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。轮廓系数S(i)公式如下:()()()max(),()b ia iS ia i b i=(5)其中:a(i)为样本点的内聚度,也即类内距离;b(i)为类间距离。第 51 卷第 2 期 王祉皓 等:基于机器学习的风化硅酸盐玻璃原成分预测及亚分类方法 419 a(i)计算公式如下:1()(,)1nj ia idis i jn=(6)其中:j为样本i在同一个类内的
23、其他样本点;d为i与j的距离。所以a(i)越小说明该聚类越紧密。b(i)的计算方式与a(i)类似。需要注意的是,遍历其他类得到多个值b1(i),b2(i),b3(i),bm(i)从中选择最小的值作为最终的结果。所以原轮廓系数S(i)可化简为式(7):()1()()()()()()()1()()()a ia ib ib iS i0a ib ib ia ib ia i|(7)根据式(7)可发现:当a(i)b(i)时,类内距离大于类间距离,说明聚类结果很松散,S的值会趋近1,越趋近于1则聚类的效果越差,需要考虑重新进行分类。2 模型建立 2.1 数据获取与预处理 通过查阅资料19整理出古代风化前后硅
24、酸盐玻璃的相关数据。由于存在数据缺失,即在该玻璃样品中该化学成分未检测到,考虑使用0值进行补全。此外,由于检测手段等原因可能导致其成分比例的累加和非100%的情况20,本研究将成分比例累加和介于85%105%的数据视为有效数据,其余的视为无效数据,予以剔除。另外需要注意的是,该数据集检测到二氧化硫的采样点过少,因此在后续分析中对该化学成分不予考虑。进行数据基础预处理后,运用方差滤波进行降维,认为方差小于预设值的变量对分类及成分含量结果关联度较小,因此予以剔除,从而实现特征变量的降维。2.2 风化预测模型 首先研究硅酸盐玻璃表面风化与其玻璃类型、纹饰和颜色的关系。对于样本容量为n的样本,n个原始
25、数据被转换成等级数据,Spearman相关系数的计算式21为:()()()()22=iiiiiiixxyyxxyy(8)其中:xi与yi分别为硅酸盐玻璃表面风化、玻璃类型、纹饰和颜色4个变量的任意2个变量的数据集,x,y为两者数据集的平均值。由于Spearman相关系数表明独立变量和依赖变量的相关方向,所以为负意味着当独立变量增加时,依赖变量趋向于减少;为正则相反;在绝对值上增加则意味着独立变量和依赖变量越来越接近完全的单调相关2122。根据前述分析,只对参与风化作用多的化学物质进行预测,分别对高钾玻璃和铅钡玻璃进行预测。以铅钡玻璃为例,将其分为已风化和未风化2个数据集作为输入信号(在数据量偏
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 风化 硅酸盐 玻璃 成分 预测 分类 方法 王祉皓