《自然语言处理》课件新模板 第七章 知识图谱.pptx
《《自然语言处理》课件新模板 第七章 知识图谱.pptx》由会员分享,可在线阅读,更多相关《《自然语言处理》课件新模板 第七章 知识图谱.pptx(60页珍藏版)》请在文库网上搜索。
1、自然语言处理自然语言处理N a t u r a l L a n g u a g e P r o c e s s i n g第 七 章第 七 章 自 然 语 言 处 理自 然 语 言 处 理 任 务任 务 之 一之 一 知 识 图 谱知 识 图 谱目录背景介绍Contents1章节概述2小节介绍3本章总结4背景介绍B A C K G R O U N DONE背景介绍 1998年,Tim Berners-Lee提出了Semantic Web(语义网)的概念。Semantic Web仍然基于图和链接的组织方式,只是图中的节点代表的不只是网页,而是客观世界中的实体,而超链接也被增加了语义描述,具体标明
2、实体之间的关系。在Semantic Web被提出之后,出现了一大批新兴的语义知识库。如作为谷歌知识图谱后端的Freebase,作为IBM Waston后端的DBpedia和Yago,作为Amazon Alexa后端的True Knowledge,作为苹果Siri后端的Wolfram Alpha,以及开放的Semantic Web SchemaSchema.ORG。2010年谷歌收购了早期语义网公司MetaWeb,并以其开发的Freebase作为数据基础之一,于2012年正式推出了称为知识图谱的搜索引擎服务,而知识图谱这一概念也由Google公司于2012年提出。随后,知识图谱逐步在语义搜索、智
3、能问答、辅助语言理解、辅助大数据分析等多个领域发挥出越来越重要的作用。章节概述C H A P T E R O V E R V I E WTWO章节概述小节介绍S E C T I O N I N T R O D U C T I O NTHREE7、知识图谱定义、发展历程基本介绍7.1 知识图谱的类型、应用场景7.27.3 知识图谱的生命周期和关键性技术7.4 知识图谱的发展趋势和挑战7.1.1 定义定义 知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,这个ID被称为它们的标识符。“属性-值”对用来刻画实体的内在特征,而关系用来连接两个实体,刻画
4、他们之间的关联。王昊奋王昊奋 从本质上来看,可以将知识图谱理解成一张由不同实体相互连接形成的语义网络。任何一种网络都是由节点和边构成的,因此,知识图谱也是由节点节点和边边构成的。7.1.1 定义节点节点分为以下两种:实体:指现实世界中存在的事物,如一个人、一座城市、一种商品等,某个时刻、某个地点、某个数值也可以作为实体。实体是一个知识图谱中最基本的元素。语义类/概念:语义类指具有某种共同属性的实体的集合,如国家、民族、性别等;而概念则反映一组实体的种类或对象类型,如人物、气候、地理等。7.1.1 定义边边分为以下两种:属性:指某个实体可能具有的特征、特性、特点以及参数,是从某个实体指向它的属性
5、值的“边”,不同的属性对应不同的边,而属性值是实体在某一个特定属性下的值,属性值可作为一个节点。关系:是连接不同实体的“边”,可以是因果关系、相近关系、推论关系、组成关系等。在知识图谱中,将关系形式化为一个函数。这个函数把若干个节点映射到布尔值,其取值反映实体间是否具有某种关系。7.1.2 发展历程 1968年,奎 林(J.R.Quillian)提 出 了 语 义 网 络(Semantic Network)的概念。语义网络的本质是一种用图表示知识的结构化方式,可以看成一种用于存储知识的图的数据结构。1977年,美国斯坦福大学的计算机科学家费根鲍姆教授在第五届国际人工智能大会上提出了知识工程(K
6、nowledge Engineering)的概念。知识工程是通过存储现有的专家知识对用户的提问进行求解的系统。随后,作为知识工程的一个重要组成部分,知识库(Knowledge Base)应运而生,并成为知识图谱技术发展史上的重要阶段。进入21世纪,语义网(Semantic Web)和链接数据(Linked Data)的出现开启了语义网络应用的新场景。语义网和链接数据是万维网之父Tim Berners Lee分别在 1998年和2006年提出的。相对于语义网络,语义网和链接数据倾向于描述万维网中资源、数据之间的关系。语义网希望将数据相互链接,组成一个庞大的信息网络,正如互联网中相互链接的网页,只
7、不过基本单位变为粒度更小的数据。2012年11月,Google公司率先提出知识图谱的概念,表示将在其搜索结果中加入知识图谱的功能。7、知识图谱定义、发展历程基本介绍7.1知识图谱的类型和应用场景7.27.3 知识图谱的生命周期和关键性技术7.4 知识图谱的发展趋势和挑战7.2.1 类型通用型知识图谱 通用知识图谱不面向特定领域,可将其类比为“结构化的百科知识”。这类知识图谱包含了大量常识性知识,强调知识的广度。具有代表性的大规模通用知识图谱有:WikiData、DBPedia、YAGO、Concept Graph等;中文通用知识图谱:OpenKG、Zhishi.me、CN-Probase、XL
8、ore、PKU-PIE、Belief-Engine等。7.2.1 类型垂直领域知识图谱 垂直领域知识图谱则面向特定领域,基于行业数据构建,强调知识的深度。垂直领域知识图谱可以看做基于语义技术的行业知识库,其潜在使用者是行业的专业人员。垂直领域知识图谱有中医药知识图谱、海洋知识图谱和企业知识图谱等。在医疗领域,目前我国已有中国医学科学院医学研究所创建并维护的医药卫生知识服务系统,目前已涵盖乳腺癌、子宫颈癌、哮喘、脑卒中、肺炎、流感心律失常、心肌炎、慢性支气管炎等病症的知识图谱。SciKG是一个以科研为中心的大规模知识图谱,目前包含计算机科学领域,由概念、专家和论文组成。SciKG可用于更好地了解
9、计算机科学领域的动态和演化,并帮助用户进行计算机领域中专家和论文的搜索与推荐。7.2.2 应用场景知识图谱的应用场景语义搜索智能问答推荐系统辅助决策风险评估和反欺诈风险预测临床医学预测7、知识图谱定义、发展历程基本介绍7.1知识图谱的类型和应用场景7.27.3知识图谱的生命周期和关键性技术7.4 知识图谱的发展趋势和挑战7.3.1 生命周期 知识图谱生命周期包括知识表示、知识抽取、知识存储、知识融合、知识推理和知识应用多个方面。一般流程为:首先确定知识表示模型,然后根据数据来源选择不同的知识抽取手段抽取知识,并进行知识存储,接着综合利用知识融合、知识推理等技术对构建的知识图谱进行质量提升,最后
10、根据场景需求设计不同的应用方法,如语义搜索、智能问答等,而在实际应用中积累的知识又可以重新利用起来。7.3.2 知识表示知识表示的原则具备足够的表示能力 针对特定的应用领域,能正确有效地涵盖该领域的各种知识,而且能够处理知识中的模糊性和不确定性。适合计算机处理 知识表示的最终目的是通过计算机进行知识的分析、处理,因此适合机器推理的表达方式才能挖掘数据的价值。清晰自然的模块结构 知识库通常要不断地扩充和完善,具有模块性结构的表示模式有利于新知识的扩充及新旧知识的融合。7.3.2 知识表示知识表示的形式7.3.2 知识表示知识表示的形式产生式表示产生式表示 产生式表示,又称规则表示,有的时候被称为
11、IF-THEN 表示,它表示一种条件-结果形式,是一种比较简单表示知识的方法。IF 后面部分描述了规则的先决条件,而THEN 后面部分描述了规则的结论。规则表示方法主要用于描述知识和陈述各种过程知识之间的控制,及其相互作用的机制。举例如下:r1:IF 动物有犬齿 AND 有爪 AND 眼盯前方 THEN 该动物是食肉动物 其中,r1是该产生式的编号;“动物有犬齿 AND 有爪 AND 眼盯前方”是产生式的前提P;“该动物是食肉动物”是产生式的结论Q。7.3.2 知识表示知识表示的形式框架表示框架(Frame)是把某一特殊事件或对象的所有知识储存在一起的一种复杂的数据结构。其主体是固定的,表示某
12、个固定的概念、对象或事件,其下层由一些槽(Slot)组成,表示主体每个方面的属性。在槽中填入具体值,就可以得到一个描述具体对象的框架,每一个槽都可以从不同的侧面(Facet)表示,每个侧面可以有一个或多个值。例如“教师”框架,其中姓名、年龄、职称、电话都是槽名,而办公电话、家庭电话是槽电话的侧面,如表所示:框架名:姓名:名字年龄:数字职称:教授、讲师等部门:单位住址:地址电话:办公电话:号码 家庭电话:号码7.3.2 知识表示知识表示的形式语义网络 语义网络是知识表示中最重要的方法之一,是一种表达能力强而且灵活的知识表示方法。它是通过实体及其语义关系来表达知识的一种网络图。从图论的观点看,它是
13、一个“带标识的有向图”。语义网络利用节点和带标记的边构成的有向图描述实体、概念、属性及它们之间的关系,如图所示:7.3.2 知识表示知识表示的形式基于本体的知识表示基于本体的知识表示 本体是对特定领域内实体存在本质的抽象,以苹果举例,中文的“苹果”、英文的“apple”以及苹果的图片都可以表示苹果这个东西,而苹果这个东西就是本体,“苹果”、“apple”、图片都是描述苹果这个本体的符号。因此通过上面这个例子我们就可以体会到,“本体”这个概念在哲学层面上是形而上的,是只可意会不可言传的,因为所有的描述都成为了“本体”的外在符号,我们世界上的所有图像、语言、我们看到的、听到的、感受到的,都可以成为
14、符号到本体的某种映射。基于本体的知识表示则是将本体抽象化,一般本体表示一个领域,如“大学”这个本体,本体里有老师、学生、职工等多个实体,而基于本体的知识表示强调实体间的关联,并通过多种知识表示元素将这些关联表达和反映出来,这些知识表示元素也被称为元本体,主要包括:概念、属性、关系、函数、公理、实例。7.3.2 知识表示知识表示的形式基于基于语义网语义网的知识表示的知识表示框架框架RDF 资源描述框架(Resource Description Framework)是一种数据模型,所有以RDF表示法来描述的东西都叫做资源。在RDF中,资源是以统一资源标识(URI)来命名。RDF用来描述资源的特性,
15、及资源与资源之间的关系。RDF使用属性来描述资源的特定特征或关系,每一个属性都有特定的意义,用来定义它的属性值和它所描述的资源形态,以及和其它属性的关系。特定的资源以一个被命名的属性与相应的属性值来描述,称为一个RDF陈述,其中资源是主语(Subject),属性是谓语(Predicate),属性值则是宾语(Object),因此一个RDF陈述也叫做一个SPO三元组,陈述的宾语除了可能是一个数值,也可能是一个资源或其他的资料形态,而属性也可以描述两个资源的关系。一个RDF数据集由一组相关的SPO三元组组成。由于这个三元组集合可以抽象为一张图谱,因此也被称为RDF图谱,并通过边将不同的资源链接起来,
16、形成语义网。7.3.2 知识表示知识表示的形式 RDF是一种数据模式,即RDF是从概念层面描述资源,而不是序列化的格式,其具体的存储表现形式有以下几种:XML:顾名思义,就是利用XML的格式来描述RDF数据,以罗纳尔多知识图为例,该知识图描述了罗纳尔多的姓名、生日、身高、体重等信息,如图所示:7.3.2 知识表示知识表示的形式 N-Triples:即用多个三元组来表示RDF数据集,是最直观的表示方法。在文件中,每一行表示一个三元组,方便机器解析和处理。开放领域知识图谱DBpedia通常是用这种格式来发布数据的,如图所示:7.3.2 知识表示知识表示的形式 Turtle:使用得最多的一种RDF序
17、列化方式。它比RDF/XML紧凑,且可读性比N-Triples好,示例如图所示:7.3.2 知识表示知识表示的形式基于基于语义网语义网的知识表示的知识表示框架框架RDFS 资源描述框架模式(RDF Schema)是对RDF 的一种扩展,是用来描述RDF数据的,即一般所说的数据的模式层(Schema)。为了不显得那么抽象,我们用关系数据库中的概念作比较,我们可以认为数据库中的每一张表都是一个类,表中的每一行都是该类的一个实例或者对象,表中的每一列就是这个类所包含的属性。如果我们是在数据库中来表示人和地点这两个类别,那么为他们分别建一张表就行了;再用另外一张表来表示人和地点之间的关系。因此RDFS
18、就在RDF的基础上提供了“建表”的能力,其实RDFS本质上是一些预定义词汇构成的集合,利用这些词汇对RDF数据定义类和类中的属性。7.3.2 知识表示知识表示的形式基于基于语义网语义网的知识表示的知识表示框架框架RDFS 同样以罗纳尔多知识图为例,我们在概念、抽象层面对RDF数据进行定义,如图所示:7.3.2 知识表示知识表示的形式基于基于语义网语义网的知识表示的知识表示框架框架OWL 前面提到,RDFS本质上是一些预定义词汇构成的集合,是对RDF词汇的一个扩展。但后来人们发现RDFS的表达能力还是相当有限,因此提出了OWL(Ontology Web Language)。我们可以把OWL当做是
19、RDFS的一个扩展,其添加了额外的预定义词汇。网络本体语言(Ontology Web Language)是对RDFS的一种扩展,弥补了RDFS在表达能力的一些缺陷,是W3C 组织于2002年7月31日发布的本体语言。OWL也是遵循RDF规范的,比RDF更加严谨,丰富了属性以及属性约束,定义域、值域的约束等等。7.3.2 知识表示知识表示的形式基于基于语义网语义网的知识表示的知识表示框架框架OWL 同样以罗纳尔多知识图为例,利用OWL进行数据建模,示例如图所示:7.3.3 知识抽取与知识挖掘知识抽取 知识图谱的典型数据类型可分为三大类,分别是结构化数据、半结构数据和非结构化数据,各类数据的知识抽
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言处理 自然语言处理课件新模板 第七章 知识图谱 自然语言 处理 课件 模板 第七 知识 图谱