基于农业知识图谱的中文自动问答技术研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 复杂系统管理与控制国家重点实验室 > 先进控制与自动化团队

题名	基于农业知识图谱的中文自动问答技术研究
作者	li liangde
答辩日期	2021-05
文献子类	硕士
授予单位	中国科学院自动化研究所
授予地点	中国科学院自动化研究所
导师	康孟珍
关键词	智慧农业，农业知识图谱，实体识别，问答系统，模型蒸馏
学位专业	控制工程
英文摘要	随着农业信息化的发展与农业从业人员的新老更替，需要快速传播农业知识和应用，以解决农业技术人员经验不足的问题。目前，互联网上的农业知识技术问答主要由人工专家来或者网页检索来完成。人工专家问答存在效率低、受技术专家资源稀缺的限制的问题，而网页检索问答则存在对问题语义理解不足的问题。为了提高农业知识获取效率，本文研究基于农业知识图谱的中文自动问答技术。本文主要内容如下: 1. 农业知识图谱的构建:考虑到农业知识图谱要求知识足够的知识深度，但是知识结构相对固定的特点，本文以互联网数据作为数据源，通过自顶向下的方式构建知识图谱。本文以作物和病害作为本体，采用基于结构化和半结构化的两种构建方式从爬取的网页中提取三元组。通过提取的三元组来构建农业知识图谱。为了实现农业知识图谱的高效存储、查询以及可视化，本文采用 Neo4j 图数据库对农业知识图谱进行分布式存储。 2. 农业实体识别:针对农业领域标注数据稀缺的问题，本文受远程监督思想的启发，通过农业知识图谱来实现对农业文本的实体识别弱标注。在此基础上，引入大规模预训练语言模型 BERT 实现农业实体识别。针对特定领域实体识别依赖底层语义特征的特点，本文提出了基于注意力机制的 BERT 层融合模型 (BERT-ALA)，通过可训练的参数融合不同层次的语义特征。基于 BERT 的农业实体识别模型参数量大，预测耗时长，导致其难以在线上实际应用。本文提出一种多层模型蒸馏方法，通过 BiLSTM+CRF 模型蒸馏 BERT- ALA+BiLSTM+CRF 模型，实现农业实体识别模型的轻量化。 3. 农业知识图谱问答:针对农业问答数据稀缺的问题，本文提出了利用农业知识图谱自动生成单实体单关系的事实类型问题。在此基础上，训练关系预测模型，关系预测模型通过将计算问句 Query 的语义表示和关系的语义表示的相似度后排序的方式来预测问句 Query 的一跳内的查询图 Query Graph。通过查询图 Query Graph 将问句转化为知识图谱的查询语句，将最终的查询结果作为答案返回。本文通过 BiLSTM 提取问句语义表示。针对 BiLSTM 提取问句语义表示能力不足的问题，本文通过关系注意力机制来实现问句自适应表示，使问句的语义表示与预测关系相关。综上所述，本文通过自顶向下的方法构建农业知识图谱。对于农业实体识别任务，本文通过远程监督的方法构造农业实体识别数据集，解决了标注数据稀缺的问题;提出了基于注意力机制的 BERT 层融合模型，提高了农业实体识别的效果;通过多层模型蒸馏，实现了农业实体识别模型的轻量化。对于农业知识图谱问答任务，通过农业知识图谱自动生成问答数据，解决了问答数据稀缺的问题，构建语义匹配模型来实现查询图预测。
语种	中文
页码	89
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/45052]
专题	自动化研究所_复杂系统管理与控制国家重点实验室_先进控制与自动化团队
推荐引用方式 GB/T 7714	li liangde. 基于农业知识图谱的中文自动问答技术研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们