AAAI 2020「自然语言处理(NLP)论文」影响文本简化因素分析???

Wesley13
• 阅读 512

喜欢我们,点击上方AINLPer,关注一下,极品干货即刻送达!


自我隔离的第六天,今天阳光特别好,但是不能出门,不过托别人的福,今天整了个汉堡(好久没有吃肉了),美滋滋~~

引言

    该篇文章是今年AAAI2020顶会上的一篇文章,其主要研究背景是文本简化,文本如何简化才能得到比较好的结果,是什么因素在影响着文本简化效果呢,针对这些问题,论文作者从各个方面进行了分析,例如文档的长度、标题、带有关联词的句子等。本篇文章对研究文本简化有些指导意义,在工程上面的可取的应该是RST。

正文开始

1

First Blood

TILE: Discourse Level Factors for Sentence Deletionin Text Simplification.

Contributor: 俄亥俄州立大学

Paper:  arxiv.org/abs/1911.1038

Code: None

文章摘要

文本简化需要对相关的句子予以删除,在此背景下,文档简化需求中普遍存在但仍处于研究阶段。 针对此问题,本文使用一个新的人工标注的句子对齐语料库来检查与句子删除相关的各种文档以及话语因素。在此过程中发现专业编辑人员使用不同的策略来满足中小学的可读性标准。为了预测某个句子在简化过程中是否会被删除,我们利用自动对齐的数据来训练一个分类模型。根据我们的手动注释数据进行评估,我们的最佳模型在小学和中学阶段的F1得分分别达到65.2和59.7。研究发现,话语水平因素有助于预测 简化句子的难度。

文章背景介绍

文档简化的目的是为了让更多的观众了解文本内容中真正意图,在其简化过程中其实涉及多种操作,主要包括:词法、句法转换、摘要以及难读内容的删除和解释。最近这几年关于文档简化的研究也在呈爆发式增长,但是大部分的研究模式主要还是集中在句子级别上,即如何能够让句子更加简化。然而却忽略了文档级别上简化,因为这样可以删除句子,这样可以让文档更加简化。 本文的工作旨在促进更好地理解文档级简化中的句子删除。 因为句子的删除除了句子中的内容外,还部分地由上下文,话语级信息驱动。

文章主要内容

数据准备及思路

使用936个新闻文章的Newsela文本简化语料库。每个文章集由原始文章的4或5个简化版本组成,范围从3至12级(对应于8至18岁)。我们将文章分为三个阅读级别:原始(1-2年级),初中(6-8年级)和小学(3-5年级)。我们从每个阅读级别使用一种版本的文章,并研究两种文档级别的转换:原始→中间和原始→基本。    我们进行分析,学会预测当将文本简化为所需的阅读水平时,专业编辑人员是否会丢弃一个句子。为了获得标记数据进行分析和评估,我们手动对齐了50个文章集的句子。生成的数据集是用于简化句子对齐的最大手动注释数据集之一。下图1显示了原始文章中的3句段落,与小学版本一致。

AAAI 2020「自然语言处理(NLP)论文」影响文本简化因素分析???

原始文章中不能与较低阅读水平的任何句子相匹配的句子被认为已删除。为了训练用于句子删除预测的模型,我们依靠来自语料库其余部分的自动对齐句子的嘈杂监督。

话语等级因素分析(摘要修辞结构RST)

本文提出了一系列的分析来研究在简化过程中可能影响句子删除的话语层次因素,包括文档特征、修辞结构和话语关系。

文档特征

文档的长度。 实验对比发现文档越长,句子被删除的比例就越高。

文档的主题。 主题的删除率各不相同。科学类文章的删除率在初中和小学阶段都明显较低。关于金钱和法律的文章的删除率明显高于其他文章。

摘要修辞结构理论(RST)

摘要修辞结构理论(RST)从基本的语篇单元(基本的独立子句)出发,描述了语篇树中篇章跨度之间的关系,RST被认为在相关的应用中是有用的。具体RST树的例子如下图所示:

AAAI 2020「自然语言处理(NLP)论文」影响文本简化因素分析???

其中,箭头代表核(箭头)和卫星(箭头尾)。在原始阶段,保留并重述[1],删除[2],保留第三个句子,但将其拆分为两个[3a]和[3b]作为一个句子,[3c]作为另一个句子。在这里,我们将重点放在每个句子如何位于原始文档的第一棵树中,因此我们将每个句子视为一个话语单元(不一定是基本的话语单元)。

话语树的深度。  被删除的句子在话语树中所处的位置明显低于被保留的句子。由于显著性句子更倾向于位于语篇树的根附近,这表明显著性在决定一个句子是否应该被删除时起着一定的作用。

核。 实验发现,虽然在小学阶段,附属句往往被删除,但是差异很小。

话语相关

内部句子相关性。  观察到精化关系是数据集中最频繁的关系;简化另一个句子的句子在简化过程中更可能被删除(对基本水平而言具有统计学意义)。与任何关系(根)无关的重要句子在两个级别上被删除的可能性均大大降低。此外,用作现有句子解释的句子在简化过程中被删除的可能性较小(对于中学水平而言,这一点很明显)。如下表所示。

AAAI 2020「自然语言处理(NLP)论文」影响文本简化因素分析???

话语链接词。  连接词的位置(句子的开头和结尾)是判断它们之间的关系是句内关系还是句间关系的重要指标,一般编辑都不乐于把带有连接词的句子删除掉。

实验结果

我们运行两个任务的实验,首先建立一个分类模型,以了解在简化到中级和原始级别时是否可以预测是否应删除句子。其次,我们进行特征消融,以确定在嘈杂的监督下实践文件和话语信号是否有帮助。  对于原文中的一个句子,我们(i)预测它是否会在简化到初中水平时被删除,从自动对齐训练到噪声监督;(ii)初级阶段的预测也相同。我们使用15篇手动对齐的文章作为验证集,其他35篇文章作为测试集。

实验方法:我们使用逻辑回归(LR)和前馈神经网络(FNN)作为分类器,并尝试从多个可能互补的方面进行特征测试。 为了捕获句子级语义,我们考虑GloVe词嵌入的平均值。稀疏特征(SF)包括句子在整篇文章以及其所在段落中的相对位置。此外,我们还包括以下句子的可读性评分。利用我们的语料库分析(第3节),我们结合了文档级别的功能,包括文档中句子的总数和单词数以及文档的主题。我们的话语功能包括当前句子的深度,核的指示符特征以及文档的支配关系RST树中的当前句子,是否存在我们分析的四个关系之一的显式连接词以及该连接词的位置。我们还使用句子的位置,因为文章后面出现的句子更有可能被删除。为了提高预测性能,我们采用了一种平滑分类方法,并通过应用k个高斯径向基函数将每个稀疏特征(二进制或数字的稀疏特征)投影到k维矢量表示中。

小学阶段简化句子删除预测的效果。

AAAI 2020「自然语言处理(NLP)论文」影响文本简化因素分析???

表8

中学阶段简化句子删除预测的效果。

AAAI 2020「自然语言处理(NLP)论文」影响文本简化因素分析???

表9

特征消融分析通过每次删除一个特征类别来预测句子的删除。

AAAI 2020「自然语言处理(NLP)论文」影响文本简化因素分析???

表10

结论:  1、中学级别的比较难预测;

2 、FFNN+Gaussian层的模型运行结果比较好。

2

往期回顾

学术圈

 收藏!「自然语言处理(NLP)」AINLPer 大 盘 点 !!

 收藏!「自然语言处理(NLP)」全球学术界”巨佬“信息大盘点(一)!

论文阅读

ICLR 2020必看!「自然语言处理(NLP)」金融情感分析FinBERT模型(含源码)!!

「自然语言处理(NLP)」【爱丁堡大学】基于实体模型的数据文本生成!!

长按识别下方二维码,关注我们吧(づ ̄3 ̄)❤~

AAAI 2020「自然语言处理(NLP)论文」影响文本简化因素分析???

资料整理实属不易,点个【在看】再走吧~~

AAAI 2020「自然语言处理(NLP)论文」影响文本简化因素分析???

本文分享自微信公众号 - AINLPer(gh_895a8687a10f)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Stella981 Stella981
2年前
Android So动态加载 优雅实现与原理分析
背景:漫品Android客户端集成适配转换功能(基于目标识别(So库35M)和人脸识别库(5M)),导致apk体积50M左右,为优化客户端体验,决定实现So文件动态加载.!(https://oscimg.oschina.net/oscnet/00d1ff90e4b34869664fef59e3ec3fdd20b.png)点击上方“蓝字”关注我
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
2年前
Docker 部署SpringBoot项目不香吗?
  公众号改版后文章乱序推荐,希望你可以点击上方“Java进阶架构师”,点击右上角,将我们设为★“星标”!这样才不会错过每日进阶架构文章呀。  !(http://dingyue.ws.126.net/2020/0920/b00fbfc7j00qgy5xy002kd200qo00hsg00it00cj.jpg)  2
Stella981 Stella981
2年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
3个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这