《自然语言处理》课件新模板 第六章 信息抽取.pptx
《《自然语言处理》课件新模板 第六章 信息抽取.pptx》由会员分享,可在线阅读,更多相关《《自然语言处理》课件新模板 第六章 信息抽取.pptx(88页珍藏版)》请在文库网上搜索。
1、自然语言处理自然语言处理N a t u r a l L a n g u a g e P r o c e s s i n g第 六 章第 六 章 信 息 抽 取信 息 抽 取目录背景介绍Contents1章节概述2小节介绍3本章总结4背景介绍B A C K G R O U N DONE背景介绍我们在享受大数据时代带来的便捷的同时,互联网中过度丰富的信息导致了有效信息的淹没,这导致我们很难在短时间内从成堆的信息中检索出真正感兴趣的信息。因此,如果存在一种工具能够方便我们从大量信息中快速发现有效信息,并将这些信息自动地进行分类、提取和重构,那么我们将能更加高效便捷地使用互联网。在这种背景下,信息抽取
2、技术应运而生。背景介绍我们习惯阅读的自然语言文本是非结构化信息非结构化信息,例如小说中的文本,非结构化信息经过分析后,可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,这种经过分析后得到的数据形式称为结构化数据结构化数据,通常使用数据库对其进行管理,这种结构化的形式便于用户的查询和进一步分析。从广义上讲,信息抽取处理的对象可以是文本、图像、语音和视频等多种媒体,但随着文本信息抽取研究的快速发展,信息抽取往往被用来专指文本信息抽取(text information extraction)。文本信文本信息抽取息抽取指的是这样一类文本处理技术,它从自然语言文本中自动抽取实体、关系、事件等
3、事实信息,并形成结构化数据输出,其目标是从大量数据中准确、快速地获取目标信息,提高信息的利用率。章节概述C H A P T E R O V E R V I E WTWO章节概述本章将带领读者走进信息抽取的世界,首先在第1节介绍信息抽取的任务定义,并对其子任务做简要介绍;其次在2至5节分别对命名实体识别、实体链指、关系抽取、事件抽取这四个信息抽取的子任务及相关技术方法进行阐述;最后在第6节介绍信息抽取的前沿技术,并对其未来发展趋势进行展望。读完本章,读者将了解信息抽取在自然语言抽取领域中的重要地位,并对信息抽取的发展历程和技术路线有个大致的认识。小节介绍S E C T I O N I N T R
4、 O D U C T I O NTHREE6.1 信息抽取任务定义文本信息抽取广义上主要包括三个阶段:1)自动处理非结构化的自然语言文本;2)选择性抽取文本中指定的信息;3)就抽取的信息形成结构化数据表示。具体技术路线上,信息抽取包含了这四个关键子任务四个关键子任务:1)命名实体识别(Named Entity Recognition);2)实体链指(Entity Linking);3)关系抽取(Relation Extraction);4)事件抽取(Event Extraction)1)命命名实体识名实体识别别它是信息抽取的基础性工作,其任务是从自然语言文本中识别出诸如人名、组织名、日期、时间
5、、地点、特定的数字形式等内容,并为之添加相应的标注信息,为信息抽取后续工作提供便利6.1 信息抽取任务定义2)实体链指)实体链指自然语言文本经过命名实体识别之后,需要通过实体链指技术简化、统一实体的表述方式,这对提高信息抽取结果的准确度有很大的促进作用3)关系抽关系抽取取当获取了文本中的实体,接下来通过关系抽取技术识别实体之间存在的语义上的联系4)事件抽取)事件抽取从含有事件信息的文本中抽取出用户感兴趣的事件信息,将非结构化的自然语言文本以结构化的形式呈现出来。6.2 命名实体识别命名实体识别基本概念6.2.1命名实体识别演化过程6.2.26.2.3命名实体识别案例分析6.2.1 命名实体识别
6、基本概念命名实体命名实体一般被认为是专有名词,它可以是文本中的人名、地名、组织机构名、日期等实体类型。命命名实体识别任务名实体识别任务于1991年被首次提出,随后从1996年开始,命名实体识别任务被加入信息抽取领域,该任务的目的是识别出文本中表示命名识别出文本中表示命名实体的成分,并对其进行分类实体的成分,并对其进行分类。因此有时也称为命名实体识别和分类(Named Entity Recognition and Classification,NERC),例如“当地时间14日下午,叙利亚一架军用直升机在阿勒坡西部乡村被一枚恶意飞弹击中。”这句话中包含的实体有:日期实体“14日下午”、组织机构实体
7、“叙利亚”、地名实体“阿勒坡西部乡村”、装备实体“军用直升机”和“飞弹”。由此可见,命名实体识别是文本意义理解的基础,对实体的正确标识和划分可以实现对文本更加准确深入的理解,因此我们需要特别关注文本中的命名实体部分和这些命名实体的类别。6.2.2 命名实体识别命名实体识别基本概念6.2.1命名实体识别演化过程6.2.26.2.3命名实体识别案例分析6.2.2 命名实体识别演化过程1)基于规则)基于规则早期的命名实体识别主要是基于规则的方法,由语言学家依据数据集特征人工构建特定规则模板。通过观察实体名称自身的特征和短语的常见搭配,人为制定一些规则来构建规则集合。其中,制定规则采用的特征包括统计信
8、息、标点符号、关键字、位置词、中心词等。制定好规则后,通常将文本与规则匹配以实现命名实体识别。局限性非常明显,不仅要观察和分析实体名称的特征,还要有相关领域专业研究者的参与,这将消耗巨大的时间和人力成本。此外,规则一般只在某一特定的领域内有效,要想应用到其它的领域中则必须修改规则集合。由于人工进行规则迁移的代价比较高,此方法在不同的领域之间缺乏很好的可移植性,且不容易在其他实体类型或数据集上扩展,无法适应数据的变化。6.2.2 命名实体识别演化过程2)基于统计学习)基于统计学习自20世纪90年代后期以来,尤其是进入21世纪之后,基于大规模语料库的统计学习方法逐渐成为自然语言处理的主流,一大批统
9、计学习方法被成功应用于自然语言处理的各个方面。命名实体识别的研究也逐渐由基于规则的方法转向了基于统计学习的方法,其大多采用有监督有监督的统计学习模型的统计学习模型。有监督学习使用已标注样本类别的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出样本类别进行判断,从而实现预测和分类的目的。基于有监督统计学习的命名实体识别首先根据标注好的数据,应用领域知识和工程技巧设计复杂的特征来表征每个训练样本。然后,通过对训练语料所包含的语义信息进行统计和分析,从训练语料中不断发现有效特征。有效特征可以分为停用词特征、上下文特征、词典及词性特征、单词特征、核心词特征以及语义特征
10、等。最后,应用统计学习算法,训练模型对数据的模式进行学习。6.2.2 命名实体识别演化过程序列标注是目前最为有效,也是最普遍的命名实体识别方法。当使用序列标注处理时,文本中每个词有若干个候选的类别标签,此时命名实体识别的任务就是对文本中的每个词进行序列化的自动标注。一些经典模型如隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵(Maximum Entropy,ME)、最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)、支持向量机(Support Vector Machine,SVM)、条件随机场(Conditional Random
11、 Fields,CRF)等都被成功地用来进行命名实体的序列化标注,且获得了较好的效果。基于有监督统计学习的命名实体识别方法对特征选取的依赖较高,需要从文本中分析选择对于此项任务影响较大的特征,并将这些特征加入到特征模板中,特征选取的优劣将直接影响最终模型的效果。同时,特征需要通过复杂的特征工程获取,因此该方法成本较高。6.2.2 命名实体识别演化过程6.2.2 命名实体识别演化过程3)基于深度学习)基于深度学习随着深度学习的不断发展,命名实体识别的研究重点已转向基于深度学习的研究方法。该技术几乎不需要基于统计学习方法中必需的特征工程和领域知识。基于深度学习的命名实体识别通常包括三个部分:输入分
12、布式表示、上下文编码和标签解码。首先,对输入的样本进行分布式表示;其次,利用输入分布式表示学习上下文编码,获取文本上下文编码的过程可以让模型学习文本的深层次信息,常见的上下文编码结构有卷积神经网络(Convolutional Neural Network)、循环神经网络(Recurrent Neural Network)、递归神经网络(Recursive Neural Network)、神经语言模型(Neural Language Model)等;标签解码是命名实体模型中的最后一个阶段,在得到了文本的上下文编码之后,标签解码模块以其作为输入并预测相应文本对应的标签序列,主流的标签解码结构有条件
13、随机场(Conditional Random Fields)、循环神经网络等。6.2.2 命名实体识别演化过程基于深度学习的命名实体识别方法无需人工设计复杂的特征,能够自动地从海量数据中提取文本的特征,可以有效减少特征对领域的依赖,拥有很好的泛化性能。另一方面,命名实体识别可以利用深度学习非线性的特点,从输入到输出建立非线性的映射,相比于线性模型,深度学习模型可以利用大量数据学习得到更加有效的特征。因此,基于深度学习的命名实体识别方法已成为当下命名实体识别的主流方法。6.2 命名实体识别命名实体识别基本概念6.2.1实体链指演化过程6.2.26.2.3实体链指案例分析6.2.3 命名实体识别案
14、例分析 案案例一例一 下图是命名实体识别领域中的一个经典模型,它使用了基于深度学习的方法。首先,将每个单词拆分为字符嵌入形式输入CNN,经过卷积和最大池化,得到单词的字符表示。6.2.3 命名实体识别案例分析其次,如右图所示,把单词的字符表示和词嵌入拼接起来,得到单词的最终表示。然后,将句中每个单词的最终表示输入BiLSTM(原理详见第三章),对词与词之间的联系进行建模,得到每个位置的单词融合上下文语义的向量表示。最后,将每个单词的向量表示输入条件随机场,输出得到最终预测结果。知识点总结命名实体一般被认为是专有名词,它可以是文本中的人名、地名、组织机构名、日期等实体类型命名实体的概念命名实体识
15、别任务于1991年被首次提出,随后自1996年开始,命名实体识别任务被加入信息抽取领域命名实体识别的发展史命名实体识别的目的是识别出文本中表示命名实体的成分,并对其进行分类命名实体识别的概念早期的命名实体识别主要是基于规则的方法,之后逐渐转向了基于统计学习的方法,其大多采用有监督的统计学习模型,随着深度学习的不断发展,命名实体识别的研究重点已转向基于深度学习的研究方法命名实体识别技术方法的演化过程:命名实体识别总结6.3 实体链指实体链指基本概念6.3.1实体链指演化过程6.3.26.3.3实体链指案例分析6.3.1 实体链指基本概念2009年NIST在其主办的TAC(Text Analysi
16、s Conference)会议上提出了实体链指评测任务,该任务旨在确定文中实体所代指的具体对象确定文中实体所代指的具体对象。实实体链指体链指是在给定文本中,将实体指称与目标知识库中若干候选实体关将实体指称与目标知识库中若干候选实体关联起来的过程联起来的过程,也被称为命名实体链接、实体消歧、实体共指消解等,用于将出现在文章中的名称链接到其所指代的实体上去。目前大部分实体链指方法都可以分为候选实体生成候选实体生成和实体消歧实体消歧两个步骤。生成候选实体是指根据在文本中识别出的实体指称,从知识库中选出一组实体作为实体链指的候选实体,将不可能是目标实体的其他实体排除在外。给定实体指称,实体链指任务将根
17、据知识、规则等信息尽可能地找到实体指称的所有候选实体。实体歧义是指同一个实体指称在不同上下文中或在特定知识库中对应着多个不同实体。6.3.1 实体链指基本概念实体链指任务与命名实体识别任务的研究对象都是实体,那么二者之间的区别是什么呢?虽然两者的研究对象都是实体,但其主要区别则在于,命名实体识别只需区分实体的类别(如人名,地名和机构名等),而实体链指则需要找到所指代的具体对象。例如,“他去年搬到了华盛顿。”这句话,在命名实体识别任务中只需要知道“华盛顿”指代的是一个地点即可,而在实体链指任务中则需知道“华盛顿”具体指的是华盛顿州、还是华盛顿特区或者是其他什么地方,可见,实体链指的主要侧重点和难
18、点在于如实体链指的主要侧重点和难点在于如何消解字面的歧义何消解字面的歧义。6.3.1 实体链指基本概念实体链指任务所使用的数据包括知识库知识库和标注语料标注语料两部分。知识库:实体链指中最常用的知识库是Wikipedia,它是一个由互联网用户自愿编辑的在线百科全书,其内容涵盖了政治、经济、历史、文化、科技、教育等众多领域,并且大多数著名人物、机构、地区、事件在维基百科中都已著有相应条目。维基百科的开放协作式编辑机制和文章编辑规范则保证了其内容质量,同时也使得其规模仍在不断增长中。截止2014年,英文版维基百科的文章数已经超过了450万篇,中文维基百科的文章数也超过了74万篇。标注语料:Wiki
19、pedia的文章包含了大量人工标注过的链接文本,这些文本即可用作实体链指的训练和评测语料。此外,除了从Wikipedia中收集标注语料,还可以使用研究者公布的数据,包括MSNBC、AQUAINT、ACE、IITB和AI-DA等。6.3.1 实体链指基本概念实体链指应用场景应用场景该任务对许多自然语言处理和信息检索任务都能产生积极的助力作用。例如,实体链指将有助于机器翻译的最佳实现。我们可以发现,在一门语言里同名的两个实体,在另一门语言中却可能具有不同的翻译。比如“Rice”指农作物时应该翻译成“大米”,指人名时,则应该翻译成“赖斯”。应用实体链指技术找到这个词在当前上下文中的指代对象,就可以直
20、接根据知识库中的跨语言链接而真正获得目标语言的准确翻译。此外,实体链指还可以应用到自动问答当中。在问答当中,所涉及的实体表述很有可能会具有歧义。例如,问“美洲豹的奔跑速度最快能达到多少?”,问答系统搜集的文本可能包含了“美洲豹牌汽车”的最高时速信息,返回这样的信息答案自然是不正确的。而应用实体链指技术,即可清楚识别在此文本中出现的“美洲豹”指的是问题所关心的那个哺乳动物实体“美洲豹”,从而避免类似的错误发生。6.3 实体链指实体链指基本概念6.3.1实体链指演化过程6.3.26.3.3实体链指案例分析6.3.2 实体链指演化过程实体链指研究的主要任务是计算实体指称与知识库中实体的相似度,确定一
21、批候选实体,并对候选实体进行排序和选择,如上图所示,分为候候选实体生成选实体生成和实体消歧实体消歧两个步骤6.3.2 实体链指演化过程1)生成候选实)生成候选实体体生成候选实体的方法包括:基于字典的方法、基于字面形式扩展的方法、基于搜索引擎的方法等。基基于字典于字典的方法通过在外部词典等数据源中,以字面匹配的方式进行实体识别,从而获取候选实体集,字典中往往包括实体的多种表达方式,如变体、缩写、混淆名称等。基基于字面形式扩展于字面形式扩展的方法旨在识别相关文档中实体指称的其他可能的扩展形式,并利用这些扩展形式来生成候选实体集。基基于搜索引擎于搜索引擎的方法是指将实体指称在搜索引擎中检索出一定数量
22、的相关页面,并这些页面加入候选实体集。候选实体生成不是实体链指的核心问题,因此我们这里不展开介绍。6.3.2 实体链指演化过程2)实实体体消消歧歧实体消歧过程对于实体链指十分重要,我们将围绕实体消歧的两种研究方法:基于统计学习的方法和基于深度学习的方法展开介绍。基基于统计学于统计学习习它是实体消歧研究工作中常用的传统方法。该类方法往往利用一些统计学特征,例如,实体相关的统计信息、实体分布信息、实体相似度、文本主题信息等,对实体指称和候选实体进行向量表示,并通过计算实体指称向量和候选实体向量之间的相似度进行实体排序和选择。主流的实体排序方法将候选实体排序问题视为二分类问题,使用二元分类器判断给定
23、的一对实体指称和候选实体是否存在指向关系。典型的二元分类器包括支持向量机、向量空间模型和K近邻分类器等。虽然基于统计学习的实体消歧方法在早期研究阶段取得了一定成果,但该方法缺乏对实体语义层面的考量。6.3.2 实体链指演化过程基于基于深度深度学习学习通过神经网络学习实体、实体指称、上下文及其相互之间关联关系的向量表示,从而为不同实体及实体之间的语义关系构建统一的表示,并映射在相同的特征空间,最终通过计算语义向量相似度,经排序得到目标实体主流的实体排序方法将候选实体排序问题视为二分类问题,使用二元分类器判断给定的一对实体指称和候选实体是否存在指向关系。典型的二元分类器包括支持向量机、向量空间模型
24、和K近邻分类器等。基于深度学习的方法的主要优势在于无需人为构造特征,该方法将实体以及实体间的语义特征进行表示,能够取得更优的实体消歧效果;同时,相较于基于统计学习的实体消歧方法,基于深度学习的方法可以对实体从语义层面进行更深层次的挖掘6.3 实体链指实体链指基本概念6.3.1实体链指演化过程6.3.26.3.3实体链指案例分析6.3.3 实体链指案例分析案案例二例二 本案例是实体链指领域中具有代表性的使用深度学习的方法。实体链指的一个最大挑战是解决实体歧义问题,为了解决这个问题,该模型对实体指称及其上下文信息与其候选实体进行语义相似度建模,同时利用文本主题信息衡量实体指称与候选实体在表征同一主
25、题的能力以及它们之间的相似度。如下所示,首先,我们将源文本中的实体、上下文和整个文本使用CNN进行向量表示(图中左部虚线框);其次,对候选实体和该候选实体在目标知识库中的文本(代表文本主题信息)使用CNN进行向量表示(图中右部虚线框);最后,将这些信息进行余弦相似度计算(图中中部虚线框),综合计算结果,即可选出最为匹配的候选实体6.3.3 实体链指案例分析为什么我们需要使用除了实体以外的文本信息呢?这是因为这些实体的上下文信息有助于我们更准确地进行匹配。例如上图中,我们正在考虑Pink Floyd是否会链指到知识库Wikipedia上的候选实体Gavin Floyd。如果我们看一下源文档,我们
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言处理 自然语言处理课件新模板 第六章 信息抽取 自然语言 处理 课件 模板 第六 信息 抽取