Fast-R-CNN

浑浑噩噩
• 阅读 835

原文 https://zhuanlan.zhihu.com/p/...

算法的主要内容

  1. Conv layers。作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。
  2. Region Proposal Networks。RPN网络用于生成region proposals。该层通过softmax判断anchors属于positive或者negative,再利用bounding box regression修正anchors获得精确的proposals。
  3. Roi Pooling。该层收集输入的feature maps和proposals,综合这些信息后提取proposal feature maps,送入后续全连接层判定目标类别。
  4. Classification。利用proposal feature maps计算proposal的类别,同时再次bounding box regression获得检测框最终的精确位置。

算法流程图

算法整体流程

Fast-R-CNN

1. Conv Layers

所有的conv层都是:kernel_size=3,pad=1,stride=1
所有的pooling层都是:kernel_size=2,pad=0,stride=2
conv层的卷积不改变图像大小,只有4个pooling层改变大小。最终feature map 尺寸是原图的16分之一。

2. Region Proposal Networks(RPN)

Fast-R-CNN

假设一副MxN的矩阵送入Conv Layers,到RPN之前变为(M/16)x(N/16),然后再经过一层1x1卷积,该卷积有18个卷积核,输出矩阵大小就是WxHx18。这里设置为18的意思是,feature map上的每个点都会预测9个固定尺寸的anchors,每个anchors有postive和negative两个预测值,因此输出一共WxHx18个预测值。

softmax的前后reshape layer是历史遗留问题,作用是方便softmax进行分类。

然后下面一条线是用来预测4*9=36个 bounding box regression坐标回归参数。

其实二分类不用2个值,一个logtis就够了,pytorch版的代码:

self.cls_logits = nn.Conv2d(in_channels, num_anchors, kernel_size=1, stride=1)         
self.bbox_pred = nn.Conv2d(in_channels, num_anchors * 4, kernel_size=1, stride=1)

Fast-R-CNN

最后在proposal层进行整合,剔除,非极大值抑制(NMS),输出候选框的精确未知。

3. Rol Pooling

将不同尺寸的anchors在feature map上池化成固定大小的feature,用于后续全连接网络。

注意的点

  1. conv层的卷积不改变图像大小,只有4个pooling层改变大小。最终feature map 尺寸是原图的16分之一。
  2. 之前经典的检测框生成一般是滑动窗口+图像金字塔,非常耗时。这次是使用RPN直接生成检测框,提高了检测速度。
点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
美凌格栋栋酱 美凌格栋栋酱
6个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Stella981 Stella981
3年前
Navicat Premium 12.0.18安装与激活
转载自:https://www.jianshu.com/p/42a33b0dda9c(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fwww.jianshu.com%2Fp%2F42a33b0dda9c)
Wesley13 Wesley13
3年前
MySQL 的慢 SQL 怎么优化?
!(https://oscimg.oschina.net/oscnet/7b00ec583b5e42cc80e8c56c6556c082.jpg)Java技术栈www.javastack.cn关注阅读更多优质文章(https://www.oschina.net/action/GoToLink?urlhttp
Stella981 Stella981
3年前
2021年全球公有云终端用户支出将增长18% ;EMNLP 2020最佳论文:无声语音的数字发声
!(https://static001.geekbang.org/infoq/af/af9f6637b50b09be60b00a42f3812d5e.png)开发者社区技术周刊又和大家见面
可莉 可莉
3年前
2021年全球公有云终端用户支出将增长18% ;EMNLP 2020最佳论文:无声语音的数字发声
!(https://static001.geekbang.org/infoq/af/af9f6637b50b09be60b00a42f3812d5e.png)开发者社区技术周刊又和大家见面
Stella981 Stella981
3年前
React 17 RC 版发布:无新特性,却有新期待!
!(https://oscimg.oschina.net/oscnet/ddd064965dfa47518a68cb38945563dc.png)译者:@Jothy原文:https://zhuanlan.zhihu.com/p/183787177作者:@DanAbramov,RachelNabors原文:https://reac
Stella981 Stella981
3年前
Dubbo爆出严重漏洞!可导致网站被控制、数据泄露!附解决方案
http://dy.163.com/v2/article/detail/F5FPIFRU0511Q1AF.html  !(http://dingyue.ws.126.net/2020/0216/125ec4c4p00q5rcrs0019d200ig009qg00ig009q.png)  来源:华为云  原文地址:https://w
Stella981 Stella981
3年前
Eureka Server 开启Spring Security Basic认证
!Desktop(https://uploadimages.jianshu.io/upload_images/98242475ce94f98ae00f42f.jpg?imageMogr2/autoorient/strip%7CimageView2/2/w/1240)文章共503字,阅读大约需要2分钟!概述
Stella981 Stella981
3年前
AI 科学家带你快速 Get 人工智能最热技术
!(https://pic3.zhimg.com/80/v2af9f6637b50b09be60b00a42f3812d5e_1440w.jpg)日前,京东智联云与贪心学院联合举办的人工智能前沿技
Stella981 Stella981
3年前
Neo4j删除节点和关系、彻底删除节点标签名
<divclass"htmledit\_views"id"content\_views"<p<ahref"https://www.jianshu.com/p/59bd829de0de"rel"nofollow"datatoken"720f42e8792665773f66044d30a60222"https://www.jians