792
浏览面向通信领域术语的命名实体识别
摘要:命名实体识别技术是自然语言处理中的一项基础技术,为其他任务提供重要的基础信息保障。本文所研究的通信领域具有知识专业性高、术语庞杂丰富、细分领域多样等特点,却缺乏必要的高质量实体列表和语料库,上述情况严重制约了该领域命名实体识别任务的开展。同时,虽然命名实体识别技术在常规领域已经取得了良好的效果,但当其应用于通信这种专业性强的领域时,往往会出现很多的适应性问题。目前,针对通信领域进行的命名实体识别研究甚少,随着通信技术的蓬勃发展,准确、高效的从通信领域专业文献中提取命名实体,是支撑自然语言技术在该领域深化应用的基础,对其他专业领域应用此项技术也具有较高价值的借鉴意义。本文围绕通信领域中文命名实体抽取任务展开,结合背景项目提供的资料,补充了中国通信标准化协会在《通信词典检索系统》中定义的术语,及从知网爬取的通信专业文献摘要的语料。本文对通信领域命名实体的特点进行了分析,提出了该领域嵌套命名实体构成的基本假设。然后基于此假设,重点研究了词典构建中的词汇领域性判别问题和特征选择中的字/词维度适配问题,提出了基于隐性迪利克雷分布(Latent Dirichlet Allocation,LDA)模型的词汇领域性判别方法,以及基于双层条件随机场(Conditional Random Field,CRF)模型的通信特征提取方法。随后,选择了若干通信领域特征,以长短期记忆网络(Long Short-Term Memory,LSTM)模型为基础,利用前置CRF层将领域知识映射进输入特征,构建了面向通信领域术语特点的命名实体识别模型。最后,对设计的特征进行了叠加测试,对识别的效果进行了对比测试,验证了所选领域性特征的有效性,以及所设计模型对通信领域的适用性。本文的成果已经应用于某企业通信知识图谱的构建工作中,为准确提取对象本体的标称量提供了重要基础技术支撑。同时,本文的成果对其他类似专业领域的命名实体识别研究也有重要的借鉴参考意义。
关键词:命名实体识别;命名实体;
文章目录
摘要
Abstract
第1章 绪论
1.1 研究背景与意义
1.2 命名实体识别技术的研究现状
1.3 本文主要研究内容
第2章 通信领域中命名实体的特点分析
2.1 中文命名实体识别的特点
2.2 通信领域命名实体和语料的获取
2.2.1 命名实体的获取
2.2.2 通信语料的获取
2.3 通信领域命名实体特点分析
2.4 对通信命名实体构成的假设
2.5 本章小结
第3章 通信基础词典的构建
3.1 命名实体识别中词典的作用
3.2 通信基础词典的内容设计
3.3 核心短实体的提取
3.4 限定词的提取
3.5 基于LDA的领域限定词提取
3.5.1 领域限定词
3.5.2 基于LDA的领域限定词提取
3.5.3 模型与结果分析
3.6 本章小结
第4章 基于BiLSTM-CRF的通信命名实体识别
4.1 通信领域命名实体识别方法
4.2 基于CRF方法的领域特征选择
4.2.1 常规CRF方法的领域适用性分析
4.2.2 双层CRF结构的通信命名实体识别
4.2.3 带有通信领域特色的特征选择与模板设计
4.2.4 双层CRF结构的可行性和不足之处
4.3 基于BiLSTM-CRF模型的通信命名实体识别
4.3.1 BiLSTM-CRF模型原理与领域适用性分析
4.3.2 面向BiLSTM-CRF的特征向量
4.3.3 CRF-BiLSTM-CRF识别模型
4.4 本章小结
第5章 特征有效性验证及识别模型效果分析
5.1 命名实体识别的评价指标
5.2 基于双层CRF的特征有效性验证试验
5.2.1 实验设置
5.2.2 实验结果
5.2.3 实验分析
5.3 CRF-BiLSTM-CRF模型识别效果验证试验
5.3.1 实验设置
5.3.2 实验结果
5.3.3 实验分析
5.4 本章小结
第6章 结论与展望
6.1 结论
6.2 展望
参考文献
[1]基于LSTM-CRF的中医医案症状术语识别[J]. 李明浩,刘忠,姚远哲. 计算机应用. 2018(S2)
[2]命名实体识别方法研究进展[J]. 黄晴雁,牟永敏. 现代计算机(专业版). 2018(35)
[3]基于条件随机场和篇章校对的有机物命名实体识别方法研究[J]. 谷威,田欣. 情报工程. 2018(05)
[4]基于罪名相关成分标注的刑事裁判文书概要信息提取[J]. 刘晨玥,李兵,吴卫星. 山东科技大学学报(自然科学版). 2018(04)
[5]基于深度学习的渔业领域命名实体识别[J]. 孙娟娟,于红,冯艳红,彭松,程名,卢晓黎,董婉婷,崔榛. 大连海洋大学学报. 2018(02)
[6]工业4.0术语体系研究[J]. 岳磊,闫晓风,牛鹏飞. 标准科学. 2018(04)
[7]命名实体识别研究综述[J]. 刘浏,王东波. 情报学报. 2018(03)
[8]潜在狄利克雷分布模型研究综述[J]. 何伟林,谢红玲,奉国和. 信息资源管理学报. 2018(01)
[9]基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 李丽双,郭元凯. 中文信息学报. 2018(01)
[10]中文分词算法及改进研究[J]. 申琳. 电脑知识与技术. 2017(31)