2stage目标检测(一):R-CNN

论文阅读笔记

Posted by baiyf on December 26, 2018

Rich feature hierarchies for accurate object detection and semantic segmentation

写在前面

这篇文章是RCNN系列的开山之作,也是现代深度学习应用在目标检测最早的论文,发表在CVPR-2014上。

主要思想

文章一开始就说了R-CNN:是一种将region proposals(候选区域方法)与CNN结合起来的方法,具体的流程如图所示:

RCNN

第二章作者提到,RCNN目标检测系统可以被分为3个子模块:1.按类别分别生成候选区region proposals的模块;2.大型的CNN网络用来将图片特征提取为一个向量;3.最后是一系列SVM。

  1. 预测阶段

    预测阶段可以分为三个步骤:

    • 在测试图片上使用selective search(选择性搜索),提取出大约2000个候选区域
    • 将提出的候选区域送进CNN,得到提出的特征
    • 用SVM为提出的特征逐一打分,并在最后用greedy NMS筛选出有效的区域
  2. 训练阶段

    作者总结了训练阶段的三点需要注意的点:

    • 先使用ImageNet先对CNN进行有监督的预训练,作者提到他的练模型比AlexNet公开的结果高了2.2个百分点,作者把这归结为训练阶段简化带来的
    • 之后用VOC数据进行了fine-tune,学习率设置为预训练模型的1/10
    • 作者提出了用IOU阈值来判断一个目标是否预测正确的方法。并且采用了hard negative mining(困难负样本挖掘),困难负样本挖掘被证实可以提高收敛速度。

实验结论

实验证明R-CNN的方法可以在PASCAL VOC2012数据集上相比于之前最好的结果取得30%的性能提升,mAP达到53.3%

开源代码

作者在他的github博客上将代码开源了:Ross Girshick (rbg)

参考文献

  1. Rich feature hierarchies for accurate object detection and semantic segmentation
  2. 读论文系列:Object Detection · 干货满满的RCNN