题名基于农业知识图谱的中文自动问答技术研究
作者li liangde
答辩日期2021-05
文献子类硕士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师康孟珍
关键词智慧农业,农业知识图谱,实体识别,问答系统,模型蒸馏
学位专业控制工程
英文摘要

随着农业信息化的发展与农业从业人员的新老更替,需要快速传播农业知识 和应用,以解决农业技术人员经验不足的问题。目前,互联网上的农业知识技术 问答主要由人工专家来或者网页检索来完成。人工专家问答存在效率低、受技术 专家资源稀缺的限制的问题,而网页检索问答则存在对问题语义理解不足的问 题。为了提高农业知识获取效率,本文研究基于农业知识图谱的中文自动问答技 术。本文主要内容如下:

1. 农业知识图谱的构建:考虑到农业知识图谱要求知识足够的知识深度, 但是知识结构相对固定的特点,本文以互联网数据作为数据源,通过自顶向下的 方式构建知识图谱。本文以作物和病害作为本体,采用基于结构化和半结构化的 两种构建方式从爬取的网页中提取三元组。通过提取的三元组来构建农业知识 图谱。为了实现农业知识图谱的高效存储、查询以及可视化,本文采用 Neo4j 图 数据库对农业知识图谱进行分布式存储。

2. 农业实体识别:针对农业领域标注数据稀缺的问题,本文受远程监督思 想的启发,通过农业知识图谱来实现对农业文本的实体识别弱标注。在此基础上, 引入大规模预训练语言模型 BERT 实现农业实体识别。针对特定领域实体识别 依赖底层语义特征的特点,本文提出了基于注意力机制的 BERT 层融合模型 (BERT-ALA),通过可训练的参数融合不同层次的语义特征。基于 BERT 的农 业实体识别模型参数量大,预测耗时长,导致其难以在线上实际应用。本文提出 一种多层模型蒸馏方法,通过 BiLSTM+CRF 模型蒸馏 BERT- ALA+BiLSTM+CRF 模型,实现农业实体识别模型的轻量化。

3. 农业知识图谱问答:针对农业问答数据稀缺的问题,本文提出了利用农 业知识图谱自动生成单实体单关系的事实类型问题。在此基础上,训练关系预测 模型,关系预测模型通过将计算问句 Query 的语义表示和关系的语义表示的相 似度后排序的方式来预测问句 Query 的一跳内的查询图 Query Graph。通过查询 图 Query Graph 将问句转化为知识图谱的查询语句,将最终的查询结果作为答案

返回。本文通过 BiLSTM 提取问句语义表示。针对 BiLSTM 提取问句语义表示 能力不足的问题,本文通过关系注意力机制来实现问句自适应表示,使问句的语 义表示与预测关系相关。

综上所述,本文通过自顶向下的方法构建农业知识图谱。对于农业实体识别 任务,本文通过远程监督的方法构造农业实体识别数据集,解决了标注数据稀缺 的问题;提出了基于注意力机制的 BERT 层融合模型,提高了农业实体识别的效 果;通过多层模型蒸馏,实现了农业实体识别模型的轻量化。对于农业知识图谱 问答任务,通过农业知识图谱自动生成问答数据,解决了问答数据稀缺的问题, 构建语义匹配模型来实现查询图预测。 

语种中文
页码89
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/45052]  
专题自动化研究所_复杂系统管理与控制国家重点实验室_先进控制与自动化团队
推荐引用方式
GB/T 7714
li liangde. 基于农业知识图谱的中文自动问答技术研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace