对比学习与图神经网络技术支持下信息抽取技术应用研究.pdf
《对比学习与图神经网络技术支持下信息抽取技术应用研究.pdf》由会员分享,可在线阅读,更多相关《对比学习与图神经网络技术支持下信息抽取技术应用研究.pdf(3页珍藏版)》请在文库网上搜索。
1、SOFTWARE2023软 件第 44 卷 第 9期2023 年Vol.44,No.9作者简介:马翊铭(2002),男,天津人,本科,研究方向:计算机科学与技术。对比学习与图神经网络技术支持下信息抽取技术应用研究马翊铭(武汉东湖学院,湖北武汉 430212)摘要:信息抽取技术是大数据时代精准获得信息的关键技术。在网络时代背景下,信息抽取的实时性、准确性和实名性极为重要,因此,在信息抽取时,实现对多元信息的筛选分析非常关键。通过文献研究与实践分析可知,对比学习和图神经网络技术的应用,有利于在信息抽取环节准确识别单词多义和单词缩写的信息,在实践中需分别构建模型,以便进一步实现信息抽取功能。关键词:
2、对比学习;图神经网络;关系抽取模型中图分类号:TP391 文献标识码:A DOI:10.3969/j.issn.1003-6970.2023.09.036本文著录格式:马翊铭.对比学习与图神经网络技术支持下信息抽取技术应用研究J.软件,2023,44(09):139-141Research on the Application of Information Extraction Technology Supported by Comparative Learning and Graph Neural Network TechnologyMA Yiming(Wuhan Donghu Univer
3、sity,Wuhan Hubei 430212)【Abstract】:Information extraction technology is a key technology for accurately obtaining information in the era of big data.In the context of the internet era,the real-time,accuracy,and real name of information extraction are extremely important.Therefore,achieving the scree
4、ning and analysis of multivariate information is crucial in information extraction.Through literature research and practical analysis,it can be concluded that the application of contrastive learning and graph neural network technology is beneficial for accurately identifying polysemy and abbreviatio
5、n information in the information extraction process.In practice,it is necessary to construct models separately in order to further achieve information extraction functionality.【Key words】:comparative learning;graph neural network;relationship extraction model设计研究与应用在大数据技术的支持下,互联网平台上的信息交互流通总量呈现出逐步加大的
6、趋势。根据 IDC 发布的数据时代 2025统计结果显示,全球数据的增长速度呈现出逐步加快的趋势,增速迅猛。据报告数据统计,截至 2025 年,全世界每人每天的互联网互动次数可达到 4909 次,较之 2020 年上升 300%,平均单次互动率达到每 18 秒 1 次。为更好地满足用户对数据抽取数据应用的需求,需要基于网络平台和对比学习图神经网络技术实现对批量数据的精准分析,有效抽取,以便利用信息,为用户提供更加科学、更加便捷的服务。1 关系抽取方法的对比分析关系抽取的过程需应用专业方法。现阶段关系抽取时常用的方法包括基于既定规则抽取、基于传统机器学习抽取、基于深度学习抽取。抽取过程要经历学习
7、和预测两个阶段1。其中,学习过程主要强调通过适当的训练方法训练出与当前语料库关系相符合的抽取模型,预测环节则主要是将已经训练好的关系抽取模型面向测试文本完成预测过程。关于深度学习方法的应用,主要依靠多样化的深度神经网络、卷积神经网络以及远程监督技术做支持。不同类型的关系抽取方法在应用时各有优劣,需要技术人员结合实践应用需求对不同类型的抽取方式进行对比分析,以便进一步合理选择关系抽取方法,进行应用如表 1 所示的三种典型关系抽取方法的优劣要点信息统计表。140软 件第 44 卷 第 9 期SOFTWARE表 1 常见关系抽取方法优劣信息对比表Tab.1 Comparison of advanta
8、ges and disadvantages of common relationship extraction methods基本方法典型方法优点缺点规则法LIEP 系统在特定的领域和语料库中预测精准度高人工成本高,不易移植机器学习法支持向量机可利用经验知识提高预测精准度训练样本需求量高深度学习法图卷积神经网络不易受人工干预,具有通用性参数总量大,训练时间成本高2 利用对比学习法构建命名实体识别模型2.1 模型形式化命名实体识别的主要目标在于从文本中直接抽取人名、地名或机构名等专有名词的信息。从本质上来说,模型形式化的过程是从文本语料库中抽取某个句子中的所有单词和词组,并且正确进行实体标签的分
9、配,例如人名单词或词组,一般会对应划分到人名实体类型中。2.2 模型结构分析在本文研究中,模型结构主要以 WCL-BBCD 模型为主。其基本结构呈现出网络层级组织的特征。主要包括三个基本组件:(1)WCL 模型;(2)BBC 模型;(3)DB Pedia 知识图谱。其中,WCL 模型在应用时,主要选择语义具有近似性的句子分别输入模型中得到不同句子中的对应单词词嵌入向量。随后,应用损失函数衡量其在向量表示空间内的相似程度。训练过程中,应用反向传播模式,按照梯度下降算法对模型参数进行优化,调整输出经过调整后的模型。而 BBC 模型的输入内容为语料库中的文本2。输入时,句子中的每个单词所属的实体类型
10、是其输入的主要内容。在模型中,包括了词嵌入层、BiLSTM 层和 CRF 层三个基本结构。在具体应用时,初步输入模块信息后,还需要通过科学方法对模块信息和实体类型进行优化修改。2.3 模型组件分析模型组件结构的合理性对于模型作用的发挥有重要影响。在本次研究中,模型组件主要是WCL-BBCD模型。本文重点对 BERT 这一核心模型的组建架构进行分析,此模型的性质为双向模型,模型结构中包括输入向量、隐藏层向量两部分向量信息。不同类型的向量信息通过模型结构的构件形成向量传递,部分向量还需要通过求和得到有效的数据信息。在模型组件分析中,需首先对模型架构进行充分明确,随后,再进一步对细节组件的功能发挥效
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 对比 学习 神经网络 技术支持 信息 抽取 技术 应用 研究