近三年CVPR引用量最高论文

贾兰
• 阅读 554

近三年CVPR引用量最高论文(截止目前2022年11月):

  • CVPR2020引用量最高的论文:MoCo
  • CVPR2021引用量最高的论文:SimSiam
  • CVPR2022引用量最高的论文:MAE

它们的共同点是:

  • 三篇论文唯一单位:Facebook(FAIR)
  • 三篇论文唯一共同作者:何恺明(KaimingHe)
  • 三篇论文均属于:自监督学习(Self-Supervised Learning)

MoCo CVPR2020

近三年CVPR引用量最高论文

MoCo为CV拉开了Self-Supervised的新篇章,与Transformer联手成为了深度学习炙手可热的研究方向。

MoCo主要设计了三个核心操作:Dictionary as a queueMomentum updateShuffling BN

Dictionary as a queue

MoCo提出了将memory bank的方法改进为dictionary as a queue,意思就是跟memory bank类似,也保存数据集中数据特征,只不过变成了queue的形式存储,这样每个epoch会enqueue进来一个batch的数据特征,然后dequeue出去dictionary中保存时间最久的一个batch的数据特征,整体上来看每个epoch,dictionary中保存的数据特征总数是不变的,并且随着epoch的进行会更新dictionary的数据特征。同时dictionary的容量不需要很大。

近三年CVPR引用量最高论文

Momentum update 动量更新

MoCo在dictionary as a queue的基础上,增加了一个momentum encoder的操作,key的encoder参数等于query的encoder参数的滑动平均,公式如下:

近三年CVPR引用量最高论文

$\theta_k$和$\theta_q$分别是key的encoder和query的encoder的参数,m是0-1之间的动量系数。因为momentum encoder的存在,导致key支路的参数避免了突变,可以将多个epoch的数据特征近似成一个静止的大batch数据特征。

MoCo伪代码如下

f_k.params = f_q.params # 初始化
for x in loader: # 输入一个图像序列x,包含N张图,没有标签
    x_q = aug(x) # 用于查询的图(数据增强得到)
    x_k = aug(x) # 模板图(数据增强得到),自监督就体现在这里,只有图x和x的数据增强才被归为一类
    q = f_q.forward(x_q) # 提取查询特征,输出NxC
    k = f_k.forward(x_k) # 提取模板特征,输出NxC
    # 不使用梯度更新f_k的参数,这是因为文章假设用于提取模板的表示应该是稳定的,不应立即更新
    k = k.detach() 
    # 这里bmm是分批矩阵乘法
    l_pos = bmm(q.view(N,1,C), k.view(N,C,1)) # 输出Nx1,也就是自己与自己的增强图的特征的匹配度
    l_neg = mm(q.view(N,C), queue.view(C,K)) # 输出Nxk,自己与上一批次所有图的匹配度(全不匹配)
    logits = cat([l_pos, l_neg], dim=1) # 输出Nx(1+k)
    labels = zeros(N)
    # NCE损失函数,就是为了保证自己与自己衍生的匹配度输出越大越好,否则越小越好
    loss = CrossEntropyLoss(logits/t, labels) 
    loss.backward()
    update(f_q.params) # f_q使用梯度立即更新
    # 由于假设模板特征的表示方法是稳定的,因此它更新得更慢,这里使用动量法更新,相当于做了个滤波。
    f_k.params = m*f_k.params+(1-m)*f_q.params 
    enqueue(queue, k) # 为了生成反例,所以引入了队列
    dequeue(queue)

SimSiam CVPR2021

近三年CVPR引用量最高论文

Siamese Network是近年来自监督/无监督任务中非常常用的网络,他是应用于两个或更多输入的一个权值共享的网络,是比较两个实体天然的工具。目前的大部分方法都是用一个图像的两种augmentation作为输入,在不同的条件下来最大化他们的相似度。但是Siamese Network会遇到的一个问题是,他的解可能会collapse至一个常量。目前常用的解决这个问题的方法有:Contrastive Learning,引入负样本,负样本会把constant 输出排除到解空间以外;Clustering;momentum encoder。

在本文中作者就指出,一个简单的Siamese 网络不需要以上方法也可以有效避免collapsing问题,并且不依赖于large-batch训练。作者将他们的方法称为“SimSiam”,并指出其中的stop-gradient操作才是在避免collapsing中非常重要的。这可能是由于有一个潜在的优化问题被解决了。作者推测实际上这里有两组变量,SimSiam实际上是在交替优化每一组变量。

SimSiam 伪代码如下:

# Algorithm1 SimSiam Pseudocode, Pytorch-like
# f: backbone + projection mlp
# h: prediction mlp
for x in loader: # load a minibatch x with n samples
 x1, x2 = aug(x), aug(x) # random augmentation
 z1, z2 = f(x1), f(x2) # projections, n-by-d
 p1, p2 = h(z1), h(z2) # predictions, n-by-d
 L = D(p1, z2)/2 + D(p2, z1)/2 # loss
 L.backward() # back-propagate
 update(f, h) # SGD update
    
def D(p, z): # negative cosine similarity
 z = z.detach() # stop gradient
 p = normalize(p, dim=1) # l2-normalize
 z = normalize(z, dim=1) # l2-normalize
return -(p*z).sum(dim=1).mean()

MAE CVPR2022

近三年CVPR引用量最高论文

Motivation

虽然预训练在NLP上正发展的如火如荼,但是在计算机视觉方向却鲜有文章,究其原因,论文中给出了三个重要的点。

  • 模型架构不同:在过去的几十年,计算机视觉被卷积神经网络所垄断着,卷积是一个基于划窗的算法,它和其它嵌入(位置嵌入等)的融合比较困难,直到Transformer的提出才解决了这个问题。
  • 信息密度不同:文本数据是经过人类高度抽象之后的一种信号,它的信息是密集的,所以仅仅预测文本中的几个被掩码掉的单词就能很好的捕捉文本的语义特征。而图像数据是一个信息密度非常小的矩阵,其中包含着大量的冗余信息,而且像素和它周围的像素仅仅在纹理上就有非常大的相似性,恢复被掩码的像素并不需要太多的语义信息。
  • 解码器的作用不同:在BERT的掩码语言模型任务中,预测被掩码掉的单词是需要解码器了解文本的语义信息的。但是在计算机视觉的掩码预测任务中,预测被掩码的像素往往对图像的语义信息依赖的并不严重。

基于这三个动机,作者设计了基于掩码自编码器(Masked AutoEncoder,MAE)的图像预训练任务。MAE的先对图像的Patch进行掩码,然后通过模型还原这些掩码,从事实现模型的预训练。MAE的核心是通过75%的高掩码率来对图像添加噪音,这样图像便很难通过周围的像素来对被掩码的像素进行重建,迫使编码器去学习图像中的语义信息。

模型介绍

MAE的网络结构如图1所示,它是一个非对称的Encoder-Decoder架构的模型,Encoder架构是采用了ViT提出的以Transformer为基础的骨干网络,它的基于Patch的输入正好可以拿来作为掩码的基本单元。MAE的Decoder是一个轻量级的结构,它在深度和宽度上都比Encoder小很多。MAE的另一个非对称的表现在Encoder仅将未被掩码的部分作为输入,而Decoder将整个图像的Patch(掩码标志和Encoder编码后的未被掩码patch的图像特征)作为输入。

近三年CVPR引用量最高论文

本文由mdnice多平台发布

点赞
收藏
评论区
推荐文章
Stella981 Stella981
3年前
28篇论文、6大主题带你一览CVPR2020研究趋势
  !(http://dingyue.ws.126.net/2020/0625/c176bdbej00qchkrg001ld200p000ang00it0080.jpg)  编译|陈大鑫  编辑|丛末  首度于线上召开的CVPR2020会议已经落下帷幕。今年,大会共有1467篇论文被接收,共举办了29个Tutorial、64
Stella981 Stella981
3年前
Raft论文《 In Search of an Understandable Consensus Algorithm (Extended Version) 》研读
Raft论文研读说明:本文为论文《InSearchofanUnderstandableConsensusAlgorithm(ExtendedVersion)》的个人理解,难免有理解不到位之处,欢迎交流与指正。论文地址:RaftPaper(https://www.oschin
Stella981 Stella981
3年前
ACL2020更新录取率,中国未进前五,机器学习提交量一骑绝尘
  !(http://dingyue.ws.126.net/2020/0607/d0197abep00qbjkdi0071c000m8009gc.png)  作者|蒋宝尚  编辑|丛末  ACL组委会真是肝!  5月19日刚刚公布了2020年被收录的论文,昨日又发博客分析了大会论文的录取领域。并且与2019年的ACL会议
Wesley13 Wesley13
3年前
IJCAI2020论文推荐丨微信提出内部
论文名称:InternalandContextualAttentionNetworkforColdstartMultichannelMatchinginRecommendation论文链接:https://www.aminer.cn/pub/5ef96b048806af6ef277212d/?confijcai2020(ht
Stella981 Stella981
3年前
Mxnet 实现图片快速风格化
前言论文链接:PerceptualLossesforRealTimeStyleTransferandSuperResolution(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Farxiv.org%2Fpdf%2F1603.08155v1.pdf)论文的
Wesley13 Wesley13
3年前
UC伯克利摘最佳论文、Hugging Face获最佳demo,EMNLP 2020奖项公布
刚刚,正在进行中的EMNLP2020大会公布了一系列奖项,其中最佳论文奖由加州大学伯克利分校的研究者获得,爱丁堡大学华人博士生YanpengZhao为一作的论文获得了最佳论文荣誉提名奖(共4篇论文获此奖项)。另外,本届大会的最佳Demo奖由大家非常熟悉的HuggingFace团队摘得。机器之心报道,编辑:魔王、杜伟、小舟
Stella981 Stella981
3年前
Ceph论文译文
Ceph论文译文Ceph:一个可扩展,高性能分布式文件系统(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fblog.csdn.net%2Fjuvxiao%2Farticle%2Fdetails%2F39495037)
Stella981 Stella981
3年前
CVPR 2019轨迹预测竞赛冠军方法总结
背景CVPR2019是机器视觉方向最重要的学术会议,本届大会共吸引了来自全世界各地共计5160篇论文,共接收1294篇论文,投稿数量和接受数量都创下了历史新高,其中与自动驾驶相关的论文、项目和展商也是扎堆亮相,成为本次会议的“新宠”。!(https://usergoldcdn.xitu.io/2019/11/1/16e24e
JYK1106 JYK1106
3年前
Slager|论文排版神器已送达,轻松为您解决格式问题
在学术论文发表过程中,相信许多人重视的都是论文本身的质量和内容,往往忽略了格式的规范性,但其实格式规范的论文可以给编辑和审稿老师留下良好的第一印象。当我们将一篇内容精良的论文投稿给期刊,却因为格式不符合期刊要求,一遍遍修改直到崩溃。对于做科研的人来说,时间就是生命,但许多人在修改格式上花的时间比写论文的时间还要长。现在就有一款论文排版神器——Slager,里
三项国际人工智能顶会大奖!拿下!
近日,国际人工智能顶会CVPR 2024举办的第6届自然场景情感行为分析挑战赛(6thWorkshopandCompetitiononAffectiveBehaviorAnalysisinthewild,简称ABAW)公布比赛结果,天翼云AI团队(CtyunAI)在情感识别任务中表现出色,斩获双赛道亚军、单个赛道季军,并受邀在CVPRABAW研讨会上作论文分享。这是继天翼云在CVPR中荣获多次佳绩后再一次斩获殊荣。
京东云开发者 京东云开发者
6个月前
请查收| 京东零售技术AI领域前沿探索-10篇顶会论文合集
作者:京东零售2024年,京东零售技术团队在AI领域发表多篇CCFA类论文,包含CVPR、SIGIR、WWW、AAAI、IJCAI等业界顶会。下面为大家简要介绍被录用的10篇论文,涵盖目标检测、多场景学习、排序模型、意图识别、创意优选、优化大模型幻觉问题等