一种融合指代消解序列标注方法在中文人名识别上的应用(上)

京东云开发者
• 阅读 164

技术领域

自然语言处理领域。

应用场景:

  适用于自然语言处理领域,通过命名实体识别(Named Entity Recognition,NER),准确识别实体。依托自然语言处理领域,基于人民日报数据及构造的舆情公告数据,提出一种融合指代消解的序列标注方法来改进人名识别。

解决的问题:

  实体包括人名、地名和组织名等,与其他实体相比,人名与职务、职务变更及人称代词有关。人名作为众多实体类别之一,常出现在信息资料库、图书馆借阅登记表、期刊文章等场景中。但在人名的实体识别时,人名语料的残缺及人称指代不明等问题,会严重影响识别的准确度,成为处理中的难点、痛点。

  基于人民日报数据及构造的舆情公告数据,提出一种融合指代消解的序列标注方法来改进人名识别。通过人民日报数据及构造的舆情公告数据,能有效缓解人名识别中人名语料不完善的问题;通过数据增强优化数据集,并对人称代词进行人称消解,解决人称代词指代不明、有效数据占比低等问题,提高人名提取的准确率。

系统方法说明

一种融合指代消解序列标注方法在中文人名识别上的应用(上)

一、对数据进行数据增强:

  • 利用爬虫技术爬取到舆情公告文本数据。
  • 利用分词工具从海量文本中进行文本抽取,抽取出符合要求的单句文本。
  • 针对职务变更词和职务,设置自定义词典,达到数据增强的效果。

数据预处理阶段,根据职务变更等有效信息进行数据增强

  先利用爬虫技术爬取到舆情公告文本数据,之后利用分词工具从海量文本中进行文本抽取,抽取出符合要求的单句文本;再针对职务变更词和职务,设置自定义词典,达到数据增强的效果。

  首先,对文本数据进行清洗、分类,既可以减少噪声干扰,又能保证后续数据增强的正确性。接着,对职务变更词和职务进行细粒度区分,为后续测验铺垫。不进行数据预处理,即直接在原文本上也可以进行中文人名识别,但这样性能差。首先,对文本数据进行清洗、分类,既可以减少噪声干扰,又能保证后续数据增强的正确性。接着,对职务变更词和职务进行细粒度区分,为后续测验铺垫。

  在分词阶段,使用Jieba分词。虽然有的非全名字段,如“周先生”仍可成功识别,但是少许职务会被当作人名出现。为了解决该问题,通过设置禁用词表和自定义词典,改进粗略目标文本数据,进而得到最终的精确目标文本数据。在获得精确文本数据后,按照职务变更词、职务进行提取,达到数据增强的作用。

二、使用了BERT模型和指代消解算法:

  • 加入BERT语言预处理模型,获取到高质量动态词向量。
  • 融入指代消解算法,根据指代词找出符合要求的子串/短语。

【1】加入BERT语言预处理模型,获取到高质量动态词向量

  在使用BERT模型之前,有两大模型训练方式,一个是Word2Vec模型,它训练出来的词向量属于静态词向量,无法表示一词多义;另一个方法是使用GPT单向语言模型训练的,无法获取字的上下文信息,所以将单向的LSTM模块改为双向的BiLSTM模块,对单项GPT模型进行改进,变成双向语言模型。仅仅利用双向长短时记忆网络与条件随机场结合的方式,可以建模并标出序列的关系,但是无法动态表征。

  BERT模块主要进行“表示”作用,抽取丰富的文本特征,得到batch_size*max_seq_len*emb_size的输出向量。为了更好的学习上下文特征,加入BERT语言预处理模型,以Transformer结构为核心,进行一词多义并获取词的上下文信息,获取到高质量动态词向量。

  图1整体流程可知,通过分词器已经将句子x分割为a~e五个字,将其作为输入传给模型中BERT模块做训练处理,得到的输出向量作为模型中的BiLSTM模块的输入,进行特征提取,得到输出向量,将这五个向量作为输入,进入模型中的CRF层进行解码,计算最优的标注序列,至此已经能够有效地提高人名识别的准确率了。

【2】融入指代消解算法,根据指代词找出符合要求的子串/短语

  该部分将在《一种融合指代消解序列标注方法在中文人名识别上的应用(下)》重点阐述。

【3】融入的指代消解算法,比加入外部语料和字符级特征更通用有效

  该部分将在《一种融合指代消解序列标注方法在中文人名识别上的应用(下)》重点阐述。

该算法未来将拓展至机构名、地名以及其他所有以名称为标识的实体,能更好的服务于京东小程序客户体验中的寄收件地址的文本识别中,提高相关识别的准确率。

点赞
收藏
评论区
推荐文章
不是海碗 不是海碗
1年前
ChatGPT 再出【王炸】,人工客服要失业了?
GPT3.5Turbo是一种非常强大的自然语言处理模型,可以应用于很多领域。随着技术的不断进步和应用场景的不断扩展,我们相信GPT3.5Turbo将会有越来越广泛的应用。
四儿 四儿
1年前
ChatGPT在自然语言处理中的局限性和挑战
随着人工智能技术的不断发展,自然语言处理已经成为人工智能领域中备受瞩目的重要研究方向。ChatGPT作为自然语言处理技术中的一种,已经在自然语言理解和生成方面取得了显著的成就。然而,尽管如此,ChatGPT在自然语言处理中仍然存在着一些局限性和挑战。本文将
四儿 四儿
1年前
自然语言理解数据与大语言模型的关系
自然语言理解数据在大语言模型中扮演着至关重要的角色。大语言模型是一种能够理解和生成自然语言的计算机程序,能够识别和学习语言中的规律和模式。自然语言理解数据是通过对自然语言进行标注和注释而生成的数据,其中包含了语法、语义、上下文、情感等信息。这些数据可以帮助
四儿 四儿
1年前
人脸识别技术的精度提高及其应用
人脸识别技术是一种重要的生物识别技术,广泛应用于安全防护、金融支付、门禁系统等领域。为了提高人脸识别技术的精度,研究人员采用了多种方法,如深度学习、特征提取、图像处理等。其中,深度学习的方法在人脸识别领域取得了很好的效果。通过训练大量的图像数据,深度学习模
四儿 四儿
1年前
语音标注平台:推动语音技术发展的关键支撑
语音技术作为人工智能领域的重要分支,正日益渗透到我们的生活中。而语音标注平台作为语音技术发展的关键支撑,扮演着至关重要的角色。它为语音数据的标注和处理提供高效、准确的工具,推动了语音识别、语音合成和语音分析等领域的研究和应用。语音标注平台是指专门用于语音数
四儿 四儿
11个月前
语音识别技术在安全领域的应用与挑战
一、引言随着社会对安全需求的不断增加,语音识别技术在安全领域的应用越来越广泛。本文将探讨语音识别技术在安全领域的应用以及面临的挑战。二、语音识别技术在安全领域的应用1.生物特征识别:语音识别技术可以作为一种生物特征识别方法,通过对个体语音的分析,实现身份验
四儿 四儿
9个月前
语音数据集:智能语音技术的基石与挑战
随着人工智能技术的飞速发展,语音技术已成为人机交互领域的重要突破口。语音数据集作为支撑语音技术研发的核心资源,对于提高语音识别、合成及自然语言处理等技术的性能具有至关重要的作用。本文将对语音数据集的发展历程、应用领域及面临的挑战进行探讨。一、语音数据集的发
知识图谱自动化构建的探索与挑战
知识图谱自动化构建的探索与挑战|论文分享达观数据知识图谱的自动化构建是知识图谱中具有极强挑战性且巨大应用价值的技术方向。就实体抽取技术,达观数据副总裁、上海市人工智能技术标准委员会委员王文广提到“狭义的实体抽取,即命名实体识别(NER)技术发展至今已较为成熟,能够很好地抽取出人名、地名、机构名等少数类型的实体。但在知识图谱实际应用中,则需要抽取出各式各样各不
京东云开发者 京东云开发者
5个月前
一种融合指代消解序列标注方法在中文人名识别上的应用(下)
二、使用了BERT模型和指代消解算法:加入BERT语言预处理模型,获取到高质量动态词向量。融入指代消解算法,根据指代词找出符合要求的子串/短语。【2】融入指代消解算法,根据指代词找出符合要求的子串/短语指代消解算法如图2所示,简单来说,就是考虑文档中子串/