A Simple Method for Commonsense Reasoning

代码寻梦鹤
• 阅读 1547

今天终于定方向啦。 开始做常识了。我太难了,研一上摸鱼半学期,啥都整过,啥都是一知半解。不过也好,了解了很多其他领域的东西。现在定方向了,但是又只能待在家里学。。。。

这是我该方向看的第一篇paper,和我没看之前的想法,竟然有些类似。

正文:

这篇paper巧妙的利用了语言模型,极度简单且高效的解决了问题。将代词用选项替换,判断替换后的句子哪个句子的概率高,巧妙地解决了共指消歧Winograd Schema Challenge 问题。非常符合我们的常识和理解,所以也达到了非常好的效果。而且这个办法可以在无监督的语料上进行。 简单有效,好论文。

如果对语言模型不明白的可以看我之前的一篇文章,或者百度谷歌一下。

论文评估了两种可能性:
假设代词在第k个位置。wk ← c 代表第k个token用选项c替代。

• Scorefull(wk ← c) = Pθ(w1, w2, ..., wk−1, c, wk+1, ..., wn)
即考虑整个句子生成的概率

• Scorepartial(wk ← c) = Pθ(wk+1, ..., wn|w1, ..., wk−1, c)
考虑在更改代词为c后,后面句子生成的概率。

A Simple Method for Commonsense Reasoning

文章还同时考虑了w为字级别和单词级别时候的效果。

效果

1.Pronoun Disambiguation Problems
A Simple Method for Commonsense Reasoning
可以看出 word级别的token表现得更好,PDP问题中,word-lm-full模型的表现要大幅度优于word-lm-partial。
原因,我还没想明白。以后在补充

A Simple Method for Commonsense Reasoning
这里是 使用额外4个无监督数据集(LM-1-Billion, CommonCrawl, SQuAD, Gutenberg Books)训练(共五个),并且将他们的实验结果融合得到的结果。可以看出,最高可以达到70acc,比之前高了10个点,这点很容易理解,毕竟训练的数据多了,模型可以更好地学习。

2.Winograd Schema Challenge
A Simple Method for Commonsense Reasoning
在WSC问题中 partial的效果反而要由于full。 这里和以上一样只不过使用的是partial模型在四个无监督数据集上进行训练,同时融合了上面的五个模型,共十个模型。acc达到了61.5~~~~

2.1 ‘定做‘的数据集
在CommonCrawl上收集与问题相似的数据,在该数据集上进行训练。
相似是按照重合的n-gram来计算的,公式如下:
A Simple Method for Commonsense Reasoning

单数据集就超过了之前十个模型的融合,融合以后高了2.2个准确度(63.7)。

尝试 复现 但是谷歌用了特别大的语料训练,放弃。

点赞
收藏
评论区
推荐文章
海军 海军
4年前
关于前端面试的思考 【已远程 oc】
前言大家好,我叫海军,之前就职于xx国企工作,做的方向是WEB后台这个方向。早在前后就有跳槽的想法,想着金三银四时,试着找找。在年末时,恰好做了好久的项目,项目奖金下来了,老大说先下来了一部分,后一部分年后来了再发。就这样我就待下来了,房子又续了3个月,跳槽也就延迟了,也错过了跳槽的最佳时期,到最后领导说之前的
代码练习生 代码练习生
4年前
vue响应式简单实现
最近在网上搜到部很棒的vue视频,尤大亲自讲解(之前也看到过但是这次是有中文字幕版的)虽然之前也有看过别的vue源码解析对着老师的demo敲代码但是还是一知半解(还是自己太菜了/(ㄒoㄒ)/),不过这次再看遍尤大的讲解理解又更深了一点,所以突发奇想要不写篇博客吧,就这样我的第一篇博客诞生了(主要是觉得简历上贴个个人博客github地址应该会加分吧
李志宽 李志宽
3年前
乌克兰局势除了热战,一场没有硝烟的战争也一直在暗中进行
大家好,我是周杰伦。这两天,相信大家都在关注乌克兰局势,感受着21世纪现代化战争的残酷与震撼。其实除了热战,网络空间中没有硝烟的战争也一直在暗中进行着。就在前几天,盘古安全实验室发布了一个Paper:这份报告详细分析了一个跟踪近十年的来自美国国家安全局NSA的顶级后门程序。Paper本身有一定的技术门槛,缺乏网络安全知识的小伙伴儿看起来可能有些吃力。今天轩辕
Irene181 Irene181
4年前
手把手教你用Python轻松玩转SQL注入
前言大家好,我是黄伟。相信大家经常有听到过SQL注入啥的,但是并不是特别了解;小编以前就是经常听别人说,但是自己啥都不懂,直到后来看了相关教材后才明白,原来是这么个东西,那么到底是什么东西了,又或者是不是个东西了?我们接着往下看。一、浅谈SQL注入SQL注入其实就是把SQL命令插入到WEB表单中提交或者输入一些页面请求的查询字符串,比如我们输网址,就是相
Wesley13 Wesley13
3年前
java HttpClient+Jsoup打造灌水利器再也不怕起火了
不知道多久以前就有过写个自动回帖的小软件一直没有实现,最近闲下来了遂研究了下,本人小菜对于HTTP协议一知半解只能在请教google大神了,把我的想法跟google大神说了之后,google大神说这小子不错,这是为防火事业做贡献啊!特赐予小弟以下神器:1、HttpClient4.3.1(GA)(https://www.oschina.net/ac
移动开发技术总结!看我如何一步一步攻克面试官
Android开发者该如何提升自己?我有两点建议:1、横向发展:(适合有自己专精技术的人)在自己擅长领域深入钻研的同时,会Hybrid开发(Flutter,RN,H5)之外,还要会web开发、微信小程序。但是,这确实比较难,全栈容易发展成全菜,啥都知道,啥都不精。2、纵向发展:(适合大多数人)如果做应用开发,就往应用架构方向发展;如果做系统层开发,就
李志宽 李志宽
4年前
新手入门二进制安全和网络渗透,该选哪个比较好?
大家好我是周杰伦1方向选择最近,有很多粉丝都不约而同的问到了我一个问题:二进制安全和网络渗透,怎么选?今天这篇文章,就是尝试解答这个问题,希望对大家选择方向上有所帮助。首先先来理清楚,这两个方向分别是干嘛的。一般来说,二进制安全方向,主要是做逆向分析、漏洞挖掘与Exploit、内核安全、破解等工作。网络渗透主要是Web安全、内网渗透、漏洞扫描与利用、安全审
李志宽 李志宽
3年前
谁的大一不迷茫?网络安全到底该怎么入门?
大家好,我是周杰伦。最近年底了,工作上一堆事要忙,好久没跟大家聊聊天了。最近很多同学,尤其是大一的新生,都在向我询问类似的问题:网络安全要学的东西好杂,找不到方向了,迷茫了同学们都在研究xxx,我要去学吗?精力有限,我到底该学什么编程语言,好怕选错啊最近下班比较早,打算写篇文章,为大家解解惑。说实话,大家有这些疑惑,太正常不过了,谁的大一不迷茫呢?我也曾经迷
Stella981 Stella981
3年前
C++ MFC棋牌类小游戏day1
好用没用过C做一个完整一点的东西了,今天开始希望靠我这点微薄的技术来完成这个小游戏。我现在的水平应该算是菜鸟中的战斗鸡了,所以又很多东西在设计和技术方面肯定会有很大的缺陷,我做这个小游戏的目的单纯为了证明一下我到底还是不是个程序员。。。这个小游戏是我小时候玩过的一种棋盘类游戏,可能只在我们那边才会知道,不过现在小孩估计已经很少玩了,搞不好要失传了
Stella981 Stella981
3年前
JS(javascript)在自动化测试项目中的应用【软件测试开发入门教程】
有朋友反映最近我写的东西太难了,太高级了。比如说我今天分享的主题是javascript在自动化测试中的应用有些朋友说我之前讲的自动化测试的东西,需要消化很久,有一定的难度,意思就是说我动不动就讲测试框架,测试开发是不是会有这样的感觉?比如今天分享的javascript,大家做软件测试有没有用过?或者在自动化测试中应用过可能很多朋友java
近屿智能 近屿智能
3个月前
字节跳动 Seed-Coder 模型开源,AI 编程迈入新阶段,近屿智能实战课程带你精准落地应用
近日,字节跳动Seed团队正式开源了自研的编程方向大模型SeedCoder,再次引发AI技术圈广泛关注。该模型专为代码生成与逻辑推理任务而设计,参数规模达8B,覆盖Base、Instruct、Reasoning三大版本,在多个权威代码评估基准中实现领先表现