题名 | 基于农业知识图谱的中文自动问答技术研究 |
作者 | li liangde |
答辩日期 | 2021-05 |
文献子类 | 硕士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 康孟珍 |
关键词 | 智慧农业,农业知识图谱,实体识别,问答系统,模型蒸馏 |
学位专业 | 控制工程 |
英文摘要 | 随着农业信息化的发展与农业从业人员的新老更替,需要快速传播农业知识 和应用,以解决农业技术人员经验不足的问题。目前,互联网上的农业知识技术 问答主要由人工专家来或者网页检索来完成。人工专家问答存在效率低、受技术 专家资源稀缺的限制的问题,而网页检索问答则存在对问题语义理解不足的问 题。为了提高农业知识获取效率,本文研究基于农业知识图谱的中文自动问答技 术。本文主要内容如下: 1. 农业知识图谱的构建:考虑到农业知识图谱要求知识足够的知识深度, 但是知识结构相对固定的特点,本文以互联网数据作为数据源,通过自顶向下的 方式构建知识图谱。本文以作物和病害作为本体,采用基于结构化和半结构化的 两种构建方式从爬取的网页中提取三元组。通过提取的三元组来构建农业知识 图谱。为了实现农业知识图谱的高效存储、查询以及可视化,本文采用 Neo4j 图 数据库对农业知识图谱进行分布式存储。 2. 农业实体识别:针对农业领域标注数据稀缺的问题,本文受远程监督思 想的启发,通过农业知识图谱来实现对农业文本的实体识别弱标注。在此基础上, 引入大规模预训练语言模型 BERT 实现农业实体识别。针对特定领域实体识别 依赖底层语义特征的特点,本文提出了基于注意力机制的 BERT 层融合模型 (BERT-ALA),通过可训练的参数融合不同层次的语义特征。基于 BERT 的农 业实体识别模型参数量大,预测耗时长,导致其难以在线上实际应用。本文提出 一种多层模型蒸馏方法,通过 BiLSTM+CRF 模型蒸馏 BERT- ALA+BiLSTM+CRF 模型,实现农业实体识别模型的轻量化。 3. 农业知识图谱问答:针对农业问答数据稀缺的问题,本文提出了利用农 业知识图谱自动生成单实体单关系的事实类型问题。在此基础上,训练关系预测 模型,关系预测模型通过将计算问句 Query 的语义表示和关系的语义表示的相 似度后排序的方式来预测问句 Query 的一跳内的查询图 Query Graph。通过查询 图 Query Graph 将问句转化为知识图谱的查询语句,将最终的查询结果作为答案 返回。本文通过 BiLSTM 提取问句语义表示。针对 BiLSTM 提取问句语义表示 能力不足的问题,本文通过关系注意力机制来实现问句自适应表示,使问句的语 义表示与预测关系相关。 综上所述,本文通过自顶向下的方法构建农业知识图谱。对于农业实体识别 任务,本文通过远程监督的方法构造农业实体识别数据集,解决了标注数据稀缺 的问题;提出了基于注意力机制的 BERT 层融合模型,提高了农业实体识别的效 果;通过多层模型蒸馏,实现了农业实体识别模型的轻量化。对于农业知识图谱 问答任务,通过农业知识图谱自动生成问答数据,解决了问答数据稀缺的问题, 构建语义匹配模型来实现查询图预测。 |
语种 | 中文 |
页码 | 89 |
内容类型 | 学位论文 |
源URL | [http://ir.ia.ac.cn/handle/173211/45052] |
专题 | 自动化研究所_复杂系统管理与控制国家重点实验室_先进控制与自动化团队 |
推荐引用方式 GB/T 7714 | li liangde. 基于农业知识图谱的中文自动问答技术研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论