一种融合指代消解序列标注方法在中文人名识别上的应用(下)

京东云开发者
• 阅读 26

二、使用了BERT模型和指代消解算法:

  • 加入BERT语言预处理模型,获取到高质量动态词向量。
  • 融入指代消解算法,根据指代词找出符合要求的子串/短语。

【2】融入指代消解算法,根据指代词找出符合要求的子串/短语

一种融合指代消解序列标注方法在中文人名识别上的应用(下)

  指代消解算法如图2所示,简单来说,就是考虑文档中子串/短语以及学习子串/短语的可能指代。通过分词器将句子y分割为a~e五个字,将其作为输入传给模型中的BiLSTM模块,然后提取实体识别所需的特征,进行注意力机制任务,将得到的结果进行拼接、剪枝处理,得到可能性最大的指代的子串/短语,进而优化目标。
  这里的指代消解算法是在使用启发式Max-Margin损失函数的基础上,利用增强策略梯度算法工作的。每个行为 a=(c,m) 的概率定义如公式(1)所示, 损失函数定义如公式(2)所示。

一种融合指代消解序列标注方法在中文人名识别上的应用(下)

一种融合指代消解序列标注方法在中文人名识别上的应用(下)

  为使获得奖励值最大,采用梯度上升法进行参数更新,由于梯度值计算困难,现采用一种梯度估值,定义如公式(3)、(4),进行原文替换。
  调研发现,此处可以引入一个语义匹配层及网页语义知识,来弥补知识库不全覆盖的问题。在此基础上,本文找到一种基于小文本的BERT-NER的中文指代消解框架,它可以获得更高的准确率和更好的效果,同时实现主语补齐的功能,功能实现如图3所示。

一种融合指代消解序列标注方法在中文人名识别上的应用(下)

  由于数据中包含人名指代词的文本在海量数据中占比较少,所以本文可进行小文本的模型训练。加入指代消解算法后,将消解前后的舆情公告数据文本进行比较,测验效果见图4。

一种融合指代消解序列标注方法在中文人名识别上的应用(下)

【3】融入的指代消解算法,比加入外部语料和字符级特征更通用有效

  当下与本文类似的提高人名识别效率的研究中,多特征BiLSTM-CRF模型(后续简写为多特征模型)识别方法具有代表性,该模型改善了影评中称谓不明等问题,在电影行业上取得了显著效果。
  本文为了体现融合指代消解的序列标注方法更胜一筹,利用人民日报数据集和上市公告数据集,比较融合指代消解的序列标注的方法和加入外部人名语料和特定字符级特征的序列标注的方法,得出融入指代消解的人名识别方法要比加入外部人名语料和特定字符级特征的模型的效果更好。
  所以在一般情况下,融合指代消解的序列标注方法会比其他形式,诸如加入外部人名语料和特定字符级特征的序列标注方法更能改进人名识别的准确率。
  在公共数据集和舆情公告数据集上,融合指代消解的序列标注方法和加入外部人名语料和特定字符级特征方法的比较,前者效果更好。

总结

本文提出的融合指代消解序列标注方法,在以下四个方面有较强的创新性

  • 数据预处理阶段,根据职务变更等有效信息进行数据增强
  • 加入BERT语言预处理模型,获取到高质量动态词向量
  • 融入指代消解算法,根据指代词找出符合要求的子串/短语
  • 融入的指代消解算法,比加入外部语料和字符级特征更通用有效

该算法未来将拓展至机构名、地名以及其他所有以名称为标识的实体,能更好的服务于京东小程序客户体验中的寄收件地址的文本识别中,提高相关识别的准确率。

点赞
收藏
评论区
推荐文章
Easter79 Easter79
2年前
svn集成ReviewBoard,让post
代码评审(CodeReview)不但可以提高质量,而且还是一个知识共享和指导的极好的手段。代码评审(CodeReview)一般有两种形式:precommitreview,postcommitreview。precommitreview是指代码提交到代码库前进行代码评审;postcommitreview是指代码提交到代码库
Stella981 Stella981
2年前
C++ sha256加密(openssl库)
安全散列算法安全散列算法(英语:SecureHashAlgorithm)是一种能计算出一个数字消息所对应到的,长度固定的字符串(又称消息摘要)的算法。且若输入的消息不同,它们对应到不同字符串的概率很高;而SHA是FIPS所认证的五种安全散列算法。这些算法之所以称作“安全”是基于以下两点(根据官方标准的描述):由消息摘要反推原输入消息,从计
Stella981 Stella981
2年前
Linux下的解压缩
Linux下常见的压缩包格式有5种:ziptar.gztar.bz2tar.xztar.Z其中tar是种打包格式,gz和bz2等后缀才是指代压缩方式:gzip和bzip2filename.zip的解压:unzipfilename.zipfilename.tar.gz的解压:tarzxvffi
Stella981 Stella981
2年前
KMP算法 左神 最传统 最详细的思路 JAVA
本文只是一个学习后的总结,可能会有错误,欢迎各位指出。任意转载。题目:给定一个字符串str1和一个字符串str2,在字符串str1中找出字符串str2出现的第一个位置(从0开始)。如果不存在,则返回1。str1aaaaabcabcstr2abcabcaa前段时间偶然接触到左神的算法讲解视频,大概
Wesley13 Wesley13
2年前
60分钟视频带你掌握NLP BERT理论与实战
向AI转型的程序员都关注了这个号👇👇👇机器学习AI算法工程 公众号:datayx本课程会介绍最近NLP领域取得突破性进展的BERT模型。首先会介绍一些背景知识,包括WordEmbedding、RNN/LSTM/GRU、Seq2Seq模型和Attention机制等。然后介绍BERT的基础Transformer模
京东云开发者 京东云开发者
2星期前
一种融合指代消解序列标注方法在中文人名识别上的应用(上)
技术领域自然语言处理领域。应用场景:适用于自然语言处理领域,通过命名实体识别(NamedEntityRecognition,NER),准确识别实体。依托自然语言处理领域,基于人民日报数据及构造的舆情公告数据,提出一种融合指代消解的序列标注方法来改进人名识别
花母 花母
11个月前
小白也能看懂的ChatGPT知识介绍
ChatGPT其工作原理是通过深度学习算法和自然语言处理技术,生成与给定输入相关的文本或回答。ChatGPT的核心是一个大型语言模型,它被训练成能够理解和生成自然语言,包括词语、短语、句子和段落。这个模型使用了大量的语言数据,包括文章、书籍、新闻报道和互联
金旋 金旋
3个月前
BAT算法特训课程
//下仔のke:https://yeziit.cn/14720/BAT是指百度、阿里巴巴和腾讯三大互联网公司首字母的缩写。BAT通常指代中国互联网公司百度公司(Baidu)、阿里巴巴集团(Alibaba)、腾讯公司(Tencent)。BAT是中国互联网公司
韦康 韦康
1个月前
LLM大语言模型算法特训,带你转型AI大语言模型算法工程师(完结)
LLM大语言模型算法特训,带你转型AI大语言模型算法工程师(完结)download》quangneng.com/4927/LLM大语言模型算法特训概述语言模型是一种人工智能算法,旨在将自然语言转化为计算机可以理解和处理的形式。大语言模型(LargeLang
臧霸 臧霸
1个月前
LLM大语言模型算法特训,带你转型AI大语言模型算法工程师
LLM(大语言模型)是指大型的语言模型,如GPT(GenerativePretrainedTransformer)系列模型。以下是《LLM大语言模型算法特训,带你转型AI大语言模型算法工程师》课程可能包含的内容:1.深入理解大语言模型:课程可能会介绍大语言