多源数据融合的论文影响力评价指标构建.pdf
《多源数据融合的论文影响力评价指标构建.pdf》由会员分享,可在线阅读,更多相关《多源数据融合的论文影响力评价指标构建.pdf(10页珍藏版)》请在文库网上搜索。
1、第36卷第3期2023年9月Vol.36 No.3Sep.2023闽南师范大学学报(自然科学版)Journal of Minnan Normal University(Natural Science)多源数据融合的论文影响力评价指标构建廖文通,陈添源(闽南师范大学图书馆,福建 漳州 363000)摘要:从多源数据融合的视角出发构建论文影响力评价指标,可以丰富评价指标的维度和内容,提升指标的科学性和可信度.综合论文的引证文献学术生命力、期刊质量和数量、二级引证文献数量、基金数量和机构学术声誉等多维信息,根据期刊质量对引证文献的权重系数进行差异化处理,并建立数学模型计算引证文献的学术生命力;结合论
2、文的期刊质量、二级引证文献数量、基金数量,论文创新性等因素计算论文的影响力.实证分析结果表明,该指标对引证文献的学术生命力、期刊质量等因素敏感,适合用于论文影响力的计算.关键词:多数据源;初始影响力;直接影响力;间接影响力;MMI指标中图分类号:G353.1 文献标志码:A 文章编号:2095-7122(2023)03-0116-10Constructing of evaluating index for papers influence with multi-source data fusionLIAO Wentong,CHEN Tianyuan(The Library of Minnan
3、Normal University,Zhangzhou,Fujian 363000,China)Abstract:Based on the idea of multi-source data,an index is proposed to evaluate the papers influence,which can enrich the indexs structure of dimension and contents,and thus the scientificity and credibility of indicator are promoted.To establish the
4、index,many information of the paper is considered,such as the academic vitality,the quality and the quantity of citations,the quantity of secondary citations,the number of funds and the institutes academic reputation.According to the journals quality of the citations,the weight coefficient of the ci
5、ting paper is differentiated,and a mathematical model is designed to calculate academic vitality of citing papers,combining with the journals quality of the paper,the quantity of secondary citations,the number of funds,and innovation of papers.The results of empirical analysis show that the index is
6、 sensitive to the academic vitality of citations and applicable to the evaluation of the papers influence.Key words:multi-source data;initial influence;direct influence;indirect influence;MMI index学术论文影响力是评价学者或研究机构科研绩效的重要依据,对于科研工作成果的认定、科研人员学术水平的评估、人才选拔、科研基金申请等工作有着非常重要的意义.目前,关于单篇论文学术影响力的评价方法,许多学者从不同的
7、角度进行探索,并取得了较多的成果.基于被引频次的影响力评价方法是最为典型的评价方法之一,最早是由Garfield1于1955年提出.目前广泛应用的H指数也是一种基于被引频次的评价方法2,由其衍生的有G指数、Q指数、RA指数等,业已被拓展到更加广阔的领域,如期刊评价、学者学术评价和论文影响力评价等3-7.基于被引频次的评价方法,将被引频次等同于论文影响力,这类评价方法侧重于等同看待引证文献的数量(即被引频次),忽视了引证文献的质量差异.有鉴于此,一些学者把引证文献的质量因素纳入评价收稿日期:2022-11-29基金项目:福建省高校图工委基金一般项目(FJTGW202244)作者简介:廖文通(19
8、74),男,汉族,四川乐山人,硕士,讲师.廖文通,等:多源数据融合的论文影响力评价指标构建第3期方法.如:邱均平等8把论文的期刊质量纳入论文质量评价指标;龙莎等9构造出一个包含论文出版期刊水平、论文被引用情况和论文获奖情况等多项指标的论文学术评价体系;吴勤10提出的引证强度则引入了期刊质量因素;何春建11则从二级引证文献的角度探索了引证文献的质量评价.上述评价指标尽管取得了较好的结果,然而单维的数据来源易造成评价指标的单一性.事实上,被引频次仅是论文影响力的外化表现,若融合基于论文内容角度的评价指标,更能挖掘论文潜在的影响力;同时,单一化的评价指标过于笼统,不够精准,已不满足当前科学研究评价的
9、各类应用场景和需要.例如,没有考虑引证文献衰老、新发表论文和零被引论文的影响力评价等因素.关于单篇论文的学术影响力,许多学者从不同的角度进行探索,除了典型的被引频次评价方法外,还有专家评议、引文内容评价和引文网络评价等.1)专家评议,即论文的质量和影响力由相关领域的专家评判,其评价结果更具权威性.目前应用较为广泛的F1000因子,可视为在线专家评价系统12-13,通过专家对论文进行评级和评分,为科研人员提供快速发现、评价等功能.2)基于引文内容的评价方法则通过分析引用动机、引用功能及引用情感关系等,将引证行为分为多种类型,如正面引用,负面引用和中性引用等,从而评判被引论文对引证文献的贡献与价值
10、14-18;此外,还有学者通过论文在引文中出现的位置、次数,及引用内容的篇幅等因素,确定论文的重要性和同引文的相关性等19-20.3)基于引文网络的评价方法:根据论文在引文网络中的层级及网络节点的权重计算论文的影响力21-22,基于PageRank的评价方法、ScholarRank及PrestigeRank等评价方法均为引文网络分析方法23-25.除了上述方法,近年来出现的补充评价指标Altmetrics,从社交网络及社会影响力的角度探索论文影响力的评价26-27,为评价论文影响力提供了新思路.上述评价方法存在一定的局限性,专家评议的缺陷是主观性强,易受专家自身知识背景及其他因素的影响;同一篇
11、论文,存在专家评审意见不一致的情况;基于引文内容的评价方法则需要用到人工智能、自然语言处理技术、文本处理技术和文本挖掘技术等对引用动机、引用情感等进行分析,导致工作量较大、效率不高;基于引文网络的评价方法则是评价结论具有一定的随机性,在不同的文档集中,由于引文网络节点的数量变化、网络拓扑结构的变化等原因,导致同一篇论文在不同文档集中的评价结果不一致.有鉴于此,本文从融合多源数据的研究视角出发,在被引频次基础上融入论文社会关注度、基金资助情况、作者合作情况、论文主题热度和论文学术质量等评价内容,建立数学模型挖掘论文潜在的影响力和引证文献的学术生命力,结合引证文献的期刊质量和二级引证文献数量等因素
12、,对学术论文影响力进行多维度评价.1 评价指标构建1.1 指标构建思想目前,多源数据融合被广泛应用于科学计量的众多场景28-30,它能较为全面地解释和描述论文影响力.故此,根据评价数据信息来源的不同,将论文影响力分为两类:一类是显性影响力,这类影响力可以通过数据直观体现,指标包括引证文献数量、二级引证文献数量和下载量等显性变量;另一类为隐性影响力,指标包括期刊质量、作者合作度、机构学术声誉、论文主题热度和论文创新性、基金数量和社会关注度等隐性变量,这些维度需要建立数学模型进行转换量化,故称为隐性影响力.显性影响力由初始影响力、直接影响力和间接影响力构成.刚出版的论文不宜用被引频次、下载次数等指
13、标评价,而是依托论文所在的期刊质量进行评判;通常采用该期刊的平均被引频次来代替;这种源于论文期刊质量的影响力称为初始影响力.尽管这种影响力属于隐性影响力,但其计算主要依据期刊的平均被引频次,故将其归为显性影响力.由引证文献产生的影响力称为直接影响力;直接影响力的计算需要1172023年闽南师范大学学报(自然科学版)考虑引证文献的老化现象及引证期刊的质量.事实上,ESI数据库通过将引文数据限定为近十年以确保引证文献的学术生命力,引证刊物限制为WOS核心合集以确保引证刊物的质量,只是这种处理方式略显简单.此外,二级引证文献的数量一定程度反映了引证文献的质量,故直接影响力主要由引证文献的学术生命力、
14、期刊质量、二级引证文献数量等因素决定.二级引证文献通过对引证文献(即直接引证文献)贡献影响力,从而对源论文间接贡献一定程度的影响力,这类影响力称为间接影响力.隐性影响力则从三个维度进行评价,作者合作度和机构学术声誉、论文主题热度和创新性、基金数量和社会关注度.作者合作度高,机构学术声誉越盛,关注的学者群体越大,其潜在的影响力越大.论文主题热度和创新性则从论文内容维度评价影响力,主题热度和创新性越高,其学术价值也越高,越能吸引更多学者投入后续研究,从而增强论文影响力的扩散能力.基金数量则体现了政府和相关科研管理部门的意志和态度,社会关注度则是指论文主题词在各类媒介中出现的频率,一定程度反映了社会
15、需求和社会关注,这也是隐性影响力的重要构成因子.图1为评价指标的结构示意图.1.2 新指标的数学模型如图1所示,论文评价指标由显性影响力和隐性影响力两部分组成.其中,显性影响力的构成要素包括期刊等级、引证文献数量和质量、二级引证文献数量等内容;隐性影响力的构成要素则包括机构学术声誉、论文内容(包括主题热度、主题创新性等)、基金数量和社会关注度等.本节主要内容是对这些影响因素构建数学模型并进行科学量化,并在此基础上建立论文的影响力评价指标.1.2.1 显性影响力的数学模型初始影响力的大小定义为该期刊近几年篇均被引频次.随着时间的逐步推移,论文自身学术质量成为决定影响力的重要指标;与此同时,初始影
16、响力的作用则会逐渐减弱.假设初始影响力随时间以同等比例衰减,若论文A在t0年出版,则论文A在t年的初始影响力的计算公式为e0=-Cs(t0)t-t0.(1)其中:-Cs(t0)为论文出版时该期刊s年的篇均被引频次;为初始影响力的衰减比例.直接影响力的计算融入引证文献的学术生命周期因素,即文献老化现象;现有的评价方法已不适用,论文影响力评价指标显性影响力隐性影响力期刊等级引证文献数量与质量二级引证文献数量机构学术声誉作者合作度论文内容基金数量社会关注度 图1 论文影响力评价指标体系Fig.1 Evaluating index system of paper influence118廖文通,等:多
17、源数据融合的论文影响力评价指标构建第3期例如负指数方程,B_K方程等31-32.为此,建立数学模型计算引证文献的学术生命周期,设c(t0t)为某学科t0年出版的论文中在t年仍具有学术生命力的论文数量,c(t0)为该学科t0年被引用的论文总数,a(t0)、a(t)分别为该学科在t0和t年出版的论文总数,可得文献学术生命力的数学模型,即c(t0t)=c(t0)a(t0)a(t)e-(t-t0)+b.(2)其中:b为参数,可自行设置.根据学科特点选择合适的参数,公式(2)能较好地拟合真实数据,应用公式(2)对“图书情报与数字图书馆”学科的数据进行模拟计算,结果如图2所示:若某论文在t0年有p(t0)
18、篇引证文献,从平均值的意义,这p(t0)篇引证文献中在t(tt0)年时仍有学术生命力的论文数量,理论上应为e(t0t)=p(t0)a(t0)c(t0t).(3)直接影响力的计算还要考虑引证文献的质量,可从两个维度评价:一是引证文献出版刊物的质量;二是二级引证文献的数量.因引证文献的出版刊物可分为期刊、图书及报纸等文献载体,而引证文献的类型又分为期刊论文、学位论文(硕士和博士)及会议论文等文献类型.故此,把期刊分为一级期刊、核心期刊和普通期刊三类,把图书和博士论文视为核心类,硕士学位论文、会议论文和报纸等视为普通期刊类,同时赋予不同权重系数.具体计算公式为q=1h(1)+2h(2)+3h(3)c
19、.(4)其中:h(k)为第k类引证文献的数量;k为相应的权重系数;c为当前被引频次.二级引证文献的数量体现了论文学术内容的扩散速度和强度,从另一个角度反映了引证文献的学术质量,也应予以考虑.令I=c1c1t-t0+1c1为二级引证文献数量,则I为二级引证文献的平均扩散速度.设二级引证文献对直接影响力的贡献率为4结合公式(4),可得引证文献学术质量的计算公式为q=q(1+4I).(5)注:图中实线为真实值(*表示),虚线为模拟值(o表示).图2 图书情报与数字图书馆学科的被引论文数与自然年的关系Fig.2 The relationship between the number of cited
20、articles and the natural year of Library&Information and Digital Library1192023年闽南师范大学学报(自然科学版)结合公式(3)至公式(5),可得直接影响力计算公式为e1=q(1+4I)r=t0tp(r)a(r)c(rt).(6)间接影响力是二级引证文献通过直接引证文献产生的影响力,目前已有学者关注二级引证文献对被引论文影响力的贡献11.计算间接影响力时,关键是确定被引论文对二级引证文献的相关性,而相关性由引证文献的参考文献数量决定,参考文献越多,相关性越小,反之亦然.设该学科主题论文的平均参考文献数为N,二级引证文献
21、的数量为h(n),则间接影响力的计算公式为e2=h(n)N(t-t0+1).(7)综上所述,令间接影响力对显性影响力的贡献率为,其值可根据经验或具体学科情况自行设置(如,设=1),则显性影响力的计算公式为e=e0+e1+e2.(8)1.2.2 隐性影响力的数学模型隐性影响力的计算需要对论文内容及学术质量等进行量化,采用LDA模型提取论文的主题词,设某论文的主题词集合为w1w2ws,作者机构集合为u1u2ur,该学科主题论文总数为M,对于作者合作度和机构学术声誉贡献的隐性影响力,计算公式为e3=(1-1R+k)1+i(1+g(ui)M)/r,(9)其中:R为作者数量;g(ui)为机构ui在该学科
22、主题发表的论文数;i为机构ui的学术声誉等级系数;(1-1R+k)项表示作者合作度,k为参数,一般取值范围在25,论文作者数量越大,论文合作程度越高,潜在影响力越大;1+i(1+g(ui)M)/r项体现了机构声誉及机构在该主题领域的科研成果数量,实际应用中,可将机构学术声誉分为若干等级,现分为3级,分别为1=12=0.73=0.5.论文主题热度和创新性所贡献隐性影响力的计算公式为e4=(1+p(wi)M)(1+e-(t-T(wi)S),(10)其中:S为关键词数量;函数p(wi)表示该学科至少包含一个主题词wi的论文数量,其值越大则说明论文科研热度值越大,受到学者关注度越高;T(wi)为主题词
23、wi在该学科首次出现的时间节点;e-(t-T(wi)S为论文的各主题词在该学科中新颖性的平均值,可以反映论文的创新性,其值越大,论文创新性越高,贡献的隐性影响力也越大;参数为关键词新颖性的衰减比例系数(假设与公式(2)中的论文学术生命力的衰减比例一致).基金数量和社会关注度则从政府、科研管理部门和社会影响等维度贡献影响力,其计算公式为e5=1+S(j(wi)1+S(|i|(i).(11)其中:j(wi)为论文出版后主题词在第j类媒体中出现的频次,媒体种类包括报纸、网站和电视台等.由于这些数据可能偏大,故采用Sigmoid函数处理.i为论文第i个基金的金额,|i|为基金的等级,如国家机基金、省部
24、级基金、校级基金和企业基金等,设基金最高等级为1,由于基金数额一般较大,为保持量纲一120廖文通,等:多源数据融合的论文影响力评价指标构建第3期致需要加入压缩系数(基金一般以万为单位,故通常取为万分之一),也采用Sigmoid函数处理.实际应用中,媒体数据采集难度较大,故本文只采用几个主流报纸的数据.综上,论文隐性影响力的计算公式为e=e3+e4+e5.(12)1.2.3 论文影响力的计算根据前述显性影响力和隐性影响力的计算方法和公式,考虑到两类影响力所占比例易受取值范围、变化幅度和变化速率等影响,采用乘积方式处理.构建的影响力指标包含多层级,如初始影响力,直接影响力和间接影响力,同时又包含基
25、金数量、机构学术声誉等多个维度,故命名为MMI指标(即多层级、多维度指标,multi-layers&multi-dimensions index).MMI指标的计算公式如下MMI=(1+e)e,(13)其中:为隐性影响力的权重系数(设=0.5),用来调节隐性影响力在论文影响力中的比重,实证中可根据实际情况自行调节.2 实证分析2.1 数据采集及预处理对于任意一篇论文,统计其年度被引频次、总被引频次、引证文献的出版期刊、二级引证文献数量、作者数量、基金数量等,及该学科的年度出版文献总数和年度被引文献总数,以上数据可从CNKI数据库检索获取.而基金金额、媒体数据等则需要通过其他渠道采集数据.按照前
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 融合 论文 影响力 评价 指标 构建