多模态知识图谱增强葡萄种植问答对的答案选择模型.pdf
《多模态知识图谱增强葡萄种植问答对的答案选择模型.pdf》由会员分享,可在线阅读,更多相关《多模态知识图谱增强葡萄种植问答对的答案选择模型.pdf(8页珍藏版)》请在文库网上搜索。
1、多模态知识图谱增强葡萄种植问答对的答案选择模型杨硕,李书琴(西北农林科技大学信息工程学院,杨凌712100)摘要:针对传统答案选择模型仅依靠问答对自身信息进行匹配的问题,该研究提出了一种使用多模态知识图谱来增强问答对的答案选择模型。该模型通过设计基于 ComplEx(complexembedding)图谱嵌入的方法学习多模态知识图谱嵌入,引入上下文注意力机制并使用 CNN 网络获取多模态知识图谱的特征表示,使用知识感知注意力方法,将多模态知识图谱提供的背景知识与问答对的文本语义信息融合。以葡萄种植为例,通过搭建葡萄种植多模态知识图谱和构造葡萄种植问答数据集开展试验,试验结果表明:使用多模态知识
2、图谱有助于模型获取更多信息从而达到更好的效果,在葡萄问答数据集中正确答案的平均倒数排名和平均准确率分别达到了 85.02%、84.21%,与其他模型相比,平均倒数排名提高2.57 个百分点,平均准确率提高了 3.96 个百分点。该答案选择模型利用多模态知识图谱的知识提高答案选择效果,可为搜索、问答等下游任务提供技术基础。关键词:农业;知识图谱;葡萄种植;答案选择;多模态;图谱表示;自然语言处理doi:10.11975/j.issn.1002-6819.202304240中图分类号:TP391;S24文献标志码:A文章编号:1002-6819(2023)-14-0207-08杨硕,李书琴.多模态
3、知识图谱增强葡萄种植问答对的答案选择模型J.农业工程学报,2023,39(14):207-214.doi:10.11975/j.issn.1002-6819.202304240http:/www.tcsae.orgYANG Shuo,LI Shuqin.Enhancing answer selection model of grape planting using multimodal knowledge graphJ.TransactionsoftheChineseSocietyofAgriculturalEngineering(TransactionsoftheCSAE),2023,39(
4、14):207-214.(inChinesewithEnglishabstract)doi:10.11975/j.issn.1002-6819.202304240http:/www.tcsae.org0引言答案选择是自然语言处理中的一个重要任务,它的主要目标是从一个候选答案池中选择与给定问题最相关的答案,通常被视为一个相关度排序任务1。答案选择技术可以被广泛应用于问答系统、搜索排序等多种下游应用,从而为用户提供高效、便捷的知识获取途径。早期的答案选择很大程度上依赖于设计各种特征,来对答案进行排序2。然而,特征工程的设计所带来的时间耗费和系统复杂度限制了模型的性能。随着深度学习在自然语言处理领域
5、取得的成功,基于卷积神经网络(convolutionalneuralnetwork,CNN)3或循环神经网络(recurrentneuralnetwork,RNN)4的模型被用于答案选择任务上5。但是受限于问答文本对所包含信息有限,此类方法的深层语义匹配能力有所欠缺,导致答案选择效果受之影响。最近一些研究开始使用知识图谱作为背景知识,以此来提高答案选择模型对语义的深层理解6-9。DENG等10利用知识图谱中的知识增强答案选择模型的方法,使用卷积网络学习知识表示并与文本信息进行交互从而获得最终的问答表示,最终通过试验验证了引入知识图谱的优越性。BOROUJENI 等11则聚焦于社区问答论坛中的答
6、案选择,使用知识图谱来捕获问题和答案中实体及关系的深度语义信息,同时通过输入问题类别标签增强其效果。这些使用知识图谱增强答案选择模型的方法,也更符合专家回答用户问题时以自身知识储备进行解答的认知。与仅依靠问答对文本训练的答案选择模型相比,知识图谱的引入使得答案选择模型对问题的理解能力得到了提高,并且答案的选择也有据可依。因此,将知识图谱应用于问答系统具有很大潜力。尽管上述研究是有效的,但它们只考虑单模态信息,对于视觉等非结构化的多模态数据关注度较低。而现实世界中知识的存在是多模态的,相同实体的不同模态数据在高层语义上是一致的,引入视觉数据可以丰富实体的表示。以葡萄种植领域的真实问答场景为例,用
7、户在进行提问的时候通常会附上图片,以使问题描述的更为精确,而专家在回答问题时也会从图片中获取相关信息。图像的存在不仅能强化文本中问题的主体,还可以补充文本中难以描述的信息。基于以上问题和研究,为了充分利用多模态信息的优势,本文设计了一种多模态知识图谱(multimodalknowledgegraph,MKG)增强的答案选择模型。使用基于 ComplEx 的方法将视觉模态融入到知识图谱的嵌入表示中,通过注意力机制将知识图谱提供的背景知识融入问答对文本的交互中从而丰富语义的表示。并以葡萄种植为例,通过试验验证多模态知识图谱增强的答案选择模型有效性。收稿日期:2023-04-28修订日期:2023-
8、06-14基金项目:中央高校基本科研业务专项资金(2452019064)作者简介:杨 硕,研 究 方 向 为 知 识 图 谱 在 农 业 中 的 应 用。Email:通信作者:李书琴,教授,博士生导师,研究方向为农业信息化与智能信息系统。Email:lsq_第39卷第14期农 业 工 程 学 报 Vol.39No.142023年7月TransactionsoftheChineseSocietyofAgriculturalEngineeringJuly20232071模型结构多模态知识图谱增强的答案选择模型主要由嵌入层、表示学习层、知识图谱增强层、输出层 4 个部分组成,如图 1 所示。嵌入层分
9、别获取问答对文本的词嵌入以及多模态知识图谱的实体嵌入。表示层使用 Bi-LSTM(Bi-directionallongshort-termmemory)进行问答对文本的表示学习;使用上下文引导的注意力机制,得到上下文引导的多模态知识图谱问题、答案向量表示。知识图谱增强层通过知识感知模块(knowledg-awaremodule)得到多模态知识图谱增强后的问题、答案的特征表示。输出层将多模态知识图谱增强后的问题、答案的特征表示与额外语义特征串联,利用 softmax 函数预测给定问题的答案标签概率分布。问句文本Questiontext多模态知识图谱多模态知识图谱答案文本Answertext答案A
10、nswer问题Question词嵌入Wordembedding多头注意力Multi-headself-attention多头注意力Multi-headself-attention输出层Qutput layer知识图谱增强层KG enhancement layer表示学习层Representation layer嵌入层Embedding layerBi-LSTMKGmoduleBi-LSTMAtextAkgQkgSqsimXfeatSaQtext词嵌入Wordembedding实体嵌入Entityembedding知识感知模块Knowledge-aware module实体嵌入Entityemb
11、eddingXfeat注:Qtext和 Atext分别是问题文本和答案文本的向量表示;Qkg和 Akg分别为多模态知识图谱关于问题和答案的向量表示;Sq和 Sa分别问题和答案知识图谱增强后的向量表示;为词重叠特征;sim 为相似性得分。XfeatNote:QtextandAtextarethevectorrepresentationsofthequestiontextandtheanswertext,respectively;QkgandAkgarethevectorrepresentationsofmultimodalknowledgegraphaboutquestionsandanswer
12、s,respectively;SqandSatheenhancedvectorrepresentationsofthequestionandanswerknowledgegraphs,respectively;isthewordoverlapfeaturesim;simisthesimilarityscore.图 1多模态知识图谱增强的答案选择模型Fig.1Answerselectionmodelenhancedbymultimodalknowledgegraph1.1嵌入层1.1.1问答对文本词嵌入q=(wq1,wq2,wqn)a=(wa1,wa2,wan)wanwqn对于给定的问答对文本,
13、模型使用预选练 Glove 词嵌入将每个词转换成嵌入表示。具体来说,问题文本可表示为和答案文本表示为,或为预训练词嵌入矩阵中的词嵌入表示。1.1.2多模态知识图谱实体嵌入嵌入层为所包含的实体进行编码并表示成向量。为了将问答对文本中的实体提及(entity-mention)链接到知识图谱中对应的实体上12。本文借鉴文献 13 的方法,首先预先构造知识图谱中实体名称 n-gram 的倒排索引。然后在实体链接时,对于问答对文本中提到的实体,使用 n-gram 匹配算法从知识图谱中获取其 Top-k 候选实体。ei多模态知识图谱还需要考虑其中的图像实体信息,VisionTransformer(VIT)
14、14用 Transformer 结构替代卷积结构在超大规模数据集上取得了超越CNN 的效果15-16。同时,VIT 模型在农业领域,由于其可以长距离建模的特性,也取得了很好的效果17。因此,本文使用预训练的 VIT 模型获得图像实体的特征表示。ComplEx18嵌入模型其内积形式的损失函数便于将多模态信息进行统一,且其对非对称关系的处理效果优秀。因此本文基于 ComplEx18模型学习多模态知识图谱的实体嵌入,如图 2 所示。VITComplEx多模态知识图谱MKG多模态知识图谱实体嵌入Entity embeddingof MKGeseifmfiLkges、eifmfiLkg注:分别为结构信息
15、、图像信息向量表示;和 分别代表多模态信息和视觉信息能量函数;为总体损失函数;ComplEx 为图谱嵌入方法;VIT 为 VisionTransformer 模型。es、eifmfiLkgNote:arethevectorrepresentationofstructureinformationandimageinformationrespectively;and representmulti-modalinformationandvisualinformation energy functions,respectively;is the overall lossfunction;ComplEx
16、 is the graph embedding method;VIT is the VisionTransformermodel.图 2多模态知识图谱实体嵌入Fig.2Multimodalknowledgegraphentityembedding208农业工程学报(http:/www.tcsae.org)2023年针对本文图谱多模态数据的特性,首先将结构特征与图像特征融合。本文采用了最为普遍的融合方式,将结构特征表示与图像特征表示进行拼接,如式(1)所示:e=(es,ei)=es:Wei(1)ees、ei式中 为融合后向量表示,分别为结构信息、图像信息向量表示,是融合门,:代表向量拼接操作,W
17、为投影矩阵。接着分别定义融合多模态信息的能量函数和视觉信息的能量函数,如式(2)和式(3)所示:fm(h,r,t)=nk=1(hs,hi)krk(ts,ti)k(2)fi(h,r,t)=SUM(hiri,ti)(3)hiri式中 hs、ts、hi、ti分别代表着头、尾实体的结构、视觉信息向量表示,表示进行 Hadamard 积运算。最后整合两个能量函数,得到总体损失函数如下式所示:fo=fm+fi(4)Lkg=(h,r,t)C(h,r,t)C+fo(h,r,t)fo(h,r,t)+(5)C式中 fo为整合后能量函数,Lkg为总体损失函数,是超参数,是一种松弛变量,表示随机替换实体生成的负采样三
18、元组。EtEtq=eq1,eq2,.,eqkEat=ea1,ea2,.,eakeqit经基于 ComplEx 的方法训练多模态知识图谱后,对于问答对语句中的每一个实体,可以得到它们的实体嵌入表示和,为问句中第 个实体的第 i 个候选实体嵌入表示。1.2表示学习层1.2.1问答对文本表示学习LSTM 能够有效保存长序列的历史信息,同时规避梯度消失和梯度爆炸等问题19。由于农业文本的复杂性,需要获取更深层次的特征表示20。本文使用 Bi-LSTM 网络模型,通过获取从正向和反向两个方向的文本表示,可以充分获取上下文信息。给定问句 q 和答案 a,经过Bi-LSTM 模型可以的到其文本特征表示。Qt
19、ext=BiLSTM(q)(6)Atext=BiLSTM(a)(7)式中 Qtext、Atext分别是问、答对的向量表示,q、a 为问、答文本。1.2.2多模态知识图谱表示学习知识图谱处理模块(KGmodule)以多模态知识图谱实体嵌入表示为输入,使用上下文引导的注意力机制得到由问答对文本引导的实体表示,最后使用 CNN 网络提取离散的实体特征,从而得到多模态知识图谱的问答对表示。其中知识图谱处理模块如图 3 所示。E(t)=e1,e2,.,ek由于图谱中存在实体歧义的问题,例如玫瑰香可能指代一个葡萄品种或者一种香气,因此本文使用上下文注意力机制引导实体的向量表示。对于提及到的实体,在图谱中有
20、候选实体集合,Htext由1.2.1 节所得,为问题、答案的初始向量表示,则上下文引导的知识向量,可表示为式(8)所示:mt=WemE(t)+WhmHtext(8)式中 mt表示经过上下文引导的知识向量,Wem、Whm表示需要学习的参数矩阵。HtextQkg(Akg)E(t)知识图谱模块KG module卷积神经网络CNN注意力机制Attention mechanismgE(t)注:Qkg和 Akg分别为多模态知识图谱关于问题和答案的向量表示;Htext为问题或答案文本的向量表示;为实体嵌入上下文向量表示。gE(t)Note:QkgandAkgarethevectorrepresentatio
21、nsofthequestiontextandtheanswertext,respectively;Htextisthevectorrepresentationofthequestionandanswertext.;istheentityembeddingcontextvectorrepresentation.图 3知识图谱处理模块Fig.3Knowledgegraphprocessingmodule根据式(8)可将第 t 步上下文引导的实体向量表示如下:t=exp(wmTmti)mtjmtexp(wmTmtj)(9)gE(t)=etiE(t)tieti(10)mtititietigE(t)t式
22、中表示第 步第 个实体的知识向量,为实体上下文引导的注意力权重,为第 步的实体嵌入上下文向量表示,Wm表示需要学习的参数矩阵。为组织离散信息以学习更高层次的表示,本文利用CNN21模型处理上述实体向量表示。Qkg=CNN(fEq)(11)Akg=CNN(fEa)(12)1.3知识图谱增强层该层将上层得到的 4 种向量输入知识感知模块,使问答对文本得以学习到图谱中的背景知识,如图 4 所示。首先,本文计算出问答对文本表示之间的权重矩阵和融合知识图谱的问答向量表示之间的权重矩阵为Mtext=tanh(QTtextUtextAtext)Mkg=tanh(QTkgUkgAkg)(13)tanh()式中
23、 Utext、Ukg分别代表需要学习的参数,为双曲正切激活函数,Mtext、Mkg为基于问答对文本、多模态知识图谱的注意力权重矩阵。第14期杨硕等:多模态知识图谱增强葡萄种植问答对的答案选择模型209AtextRow-wisemax poolingColumn-wisemax pooling列方向最大池化行方向最大池化AkgMkgSaSqMtextQkgQtext注:Mtext和 Mkg为基于问答对文本和多模态知识图谱的注意力权重矩阵;Sq和 Sa分别代表问题和答案知识图谱增强后的向量表示。Note:Mtextand Mkgare the attention weight matrices b
24、ased on the questionansweringpairtextandthemultimodalknowledgegraph;SqandSarepresenttheaugmentedvectorrepresentationsofthequestionandanswerknowledgegraphs.图 4知识感知模块Fig.4Knowledg-awaremoduleqa接着对两个权重矩阵使用 AP-BILSTM22算法进行处理,即分别对 Mtext、Mkg的列和行做 maxpooling 操作,这样就能分别得到融合问答对文本和知识图谱的问题注意力权重以及答案注意力权重。随后将问答对文
25、本的问题、答案向量表示与多模态知识图谱的问题、答案向量表示融合。最后,将得到的问题、答案权重与融合后的问题、答案向量表示做点积操作,便可以得到知识图谱增强的问题、答案表示。如下式所示:q(softmax(max1lLqMtext)+softmax(max1lLqMkg)(14)a(softmax(max1lLaMTtext)+softmax(max1lLaMTkg)(15)sq=Qtext:QkgTq(16)sa=Atext:AkgTa(17)qamax式中、分别为问题、答案知识感知注意力权重,softmax()为最大池化层,表示 softmax 函数,Sq、Sa分别代表问题、答案知识图谱增强
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多模态 知识 图谱 增强 葡萄 种植 问答 答案 选择 模型