Rich feature hierarchies for accurate object detection and semantic segmentation
写在前面
这篇文章是RCNN系列的开山之作,也是现代深度学习应用在目标检测最早的论文,发表在CVPR-2014上。
主要思想
文章一开始就说了R-CNN:是一种将region proposals(候选区域方法)与CNN结合起来的方法,具体的流程如图所示:
第二章作者提到,RCNN目标检测系统可以被分为3个子模块:1.按类别分别生成候选区region proposals的模块;2.大型的CNN网络用来将图片特征提取为一个向量;3.最后是一系列SVM。
-
预测阶段
预测阶段可以分为三个步骤:
- 在测试图片上使用selective search(选择性搜索),提取出大约2000个候选区域
- 将提出的候选区域送进CNN,得到提出的特征
- 用SVM为提出的特征逐一打分,并在最后用greedy NMS筛选出有效的区域
-
训练阶段
作者总结了训练阶段的三点需要注意的点:
- 先使用ImageNet先对CNN进行有监督的预训练,作者提到他的练模型比AlexNet公开的结果高了2.2个百分点,作者把这归结为训练阶段简化带来的
- 之后用VOC数据进行了fine-tune,学习率设置为预训练模型的1/10
- 作者提出了用IOU阈值来判断一个目标是否预测正确的方法。并且采用了hard negative mining(困难负样本挖掘),困难负样本挖掘被证实可以提高收敛速度。
实验结论
实验证明R-CNN的方法可以在PASCAL VOC2012数据集上相比于之前最好的结果取得30%的性能提升,mAP达到53.3%
开源代码
作者在他的github博客上将代码开源了:Ross Girshick (rbg)
参考文献
- Rich feature hierarchies for accurate object detection and semantic segmentation
- 读论文系列:Object Detection · 干货满满的RCNN