您当前的位置: 首页 > 网络通信

论文札记《Fully Convolutional Networks for Semantic Segmentation》

发布时间：2011-07-03 06:57:23 文章来源：www.iduyao.cn 采编人员：星星草

论文笔记《Fully Convolutional Networks for Semantic Segmentation》

【论文信息】

《Fully Convolutional Networks for Semantic Segmentation》

CVPR 2015 best paper

key word: pixel level, fully supervised, CNN

【方法简介】

主要思路是把CNN改为FCN，输入一幅图像后直接在输出端得到dense prediction，也就是每个像素所属的class，从而得到一个end-to-end的方法来实现image semantic segmentation。

我们已经有一个CNN模型，首先要把CNN的全连接层看成是卷积层，卷积模板大小就是输入的特征map的大小，也就是说把全连接网络看成是对整张输入map做卷积，全连接层分别有4096个6*6的卷积核，4096个1*1的卷积核，1000个1*1的卷积核，如下图：

QQ截图20150731222513.png

接下来就要对这1000个1*1的输出，做upsampling，得到1000个原图大小（如32*32）的输出，这些输出合并后，得到上图所示的heatmap。

【细节记录】

dense prediction

这里通过upsampling得到dense prediction，作者研究过3种方案：

1，shift-and-stitch：设原图与FCN所得输出图之间的降采样因子是f，那么对于原图的每个f*f的区域（不重叠），“shift the input x pixels to the right and y pixels down for every (x,y) ,0 < x,y < f." 把这个f*f区域对应的output作为此时区域中心点像素对应的output，这样就对每个f*f的区域得到了f^2个output，也就是每个像素都能对应一个output，所以成为了dense prediction。

2，filter rarefaction：就是放大CNN网络中的subsampling层的filter的尺寸，得到新的filter：

QQ截图20150731224817.png

其中s是subsampling的滑动步长，这个新filter的滑动步长要设为1，这样的话，subsampling就没有缩小图像尺寸，最后可以得到dense prediction。

以上两种方法作者都没有采用，主要是因为这两种方法都是trad-off的，原因是：

对于第二种方法，下采样的功能被减弱，使得更细节的信息能被filter看到，但是receptive fileds会相对变小，可能会损失全局信息，且会对卷积层引入更多运算。

对于第一种方法，虽然receptive fileds没有变小，但是由于原图被划分成f*f的区域输入网络，使得filters无法感受更精细的信息。

3，这里upsampling的操作可以看成是反卷积(deconvolutional)，卷积运算的参数和CNN的参数一样是在训练FCN模型的过程中通过bp算法学习得到。

fusion prediction

以上是对CNN的结果做处理，得到了dense prediction，而作者在试验中发现，得到的分割结果比较粗糙，所以考虑加入更多前层的细节信息，也就是把倒数第几层的输出和最后的输出做一个fusion，实际上也就是加和：

QQ截图20150731230431.png

这样就得到第二行和第三行的结果，实验表明，这样的分割结果更细致更准确。在逐层fusion的过程中，做到第三行再往下，结果又会变差，所以作者做到这里就停了。可以看到如上三行的对应的结果：

QQ截图20150731230713.png

【实验设计】

1，对比3种性能较好的几种CNN：AlexNet, VGG16, GoogLeNet进行实验，选择VGG16

2，对比FCN-32s-fixed, FCN-32s, FCN-16s, FCN-8s，证明最好的dense prediction组合是8s

3，FCN-8s和state-of-the-art对比是最优的，R-CNN, SDS. FCN-16s

4，FCN-16s和现有的一些工作对比，是最优的

5，FCN-32s和FCN-16s在RGB-D和HHA的图像数据集上，优于state-of-the-art

【总结】

优点

1，训练一个end-to-end的FCN模型，利用卷积神经网络的很强的学习能力，得到较准确的结果，以前的基于CNN的方法都是要对输入或者输出做一些处理，才能得到最终结果。

2，直接使用现有的CNN网络，如AlexNet, VGG16, GoogLeNet，只需在末尾加上upsampling，参数的学习还是利用CNN本身的反向传播原理，"whole image training is effective and efficient."

3，不限制输入图片的尺寸，不要求图片集中所有图片都是同样尺寸，只需在最后upsampling时按原图被subsampling的比例缩放回来，最后都会输出一张与原图大小一致的dense prediction map。

缺陷

根据论文的conclusion部分所示的实验输出sample如下图：

QQ截图20150731231604.png

可以直观地看出，本文方法和Groud truth相比，容易丢失较小的目标，比如第一幅图片中的汽车，和第二幅图片中的观众人群，如果要改进的话，这一点上应该是有一些提升空间的。

上一篇：第10六章网络通信协议探讨
下一篇：熟读AFN③-HTTPS访问控制(AFSecurityPolicy)，Reachability(AFNetworkReachabilityManager)

友情提示：
信息收集于互联网，如果您发现错误或造成侵权，请及时通知本站更正或删除，具体联系方式见页面底部联系我们，谢谢。

其他相似内容：

如果客户端的机子突然断了电，那服务端还能收到FD_CLOSE事件么?该如何处理

如果客户端的机子突然断了电，那服务端还能收到FD_CLOSE事件么? 如题..... 已查到解决方案（心跳包）来人，结贴。。。 ------解决方案...
IOCP使用上的一点看法讨论。该如何处理

IOCP使用上的一点看法讨论。 iocp的实现，在msdn和codeproject上面的例子都是创建一个iocp，然后所有socket加入该端口监视，n个工作线...
h264 与 RTP 的区别？该如何解决

h264 与 RTP 的区别？同样都是视频应用的协议，他们的关系或者在协议簇中的位置有什么区别？ ------解决方案-------------------- H...
openmeetings异常求解决

openmeetings错误求解决将doc文件上传时出现错误错误代码： Name: error Value: 2011-6-4 12:54:14 com.artofsolving.jodconver...
为什么计算机网络中一定要有一个MAC层（MAC地址），既然MAC地址和IP地址是有一定的映射关系的，为什么不能只用其中一个地址通信就可以了，哪位高手能解答下哈

为什么计算机网络中一定要有一个MAC层（MAC地址），既然MAC地址和IP地址是有一定的映射关系的，为什么不能只用其中一个地址通信就可以了，...
P2P软件有技术门槛吗？解决思路

P2P软件有技术门槛吗？讨论一下P2P软件的技术： 1.NAT穿越 2.UDP可靠传输 3.分块调度策略 ... http://hr.baidu.com/www/job/jobDe...
以TCP为写的服务器和客户端程序无法通信解决办法

以TCP为写的服务器和客户端程序无法通信基于面向连接的TCP,写了一个服务器程序和一个客户端程序。服务器负责监听一个端口等待...
毕设啊来不及了，哪位高手做过 OFDMA动态资源分配算法的 MATLAB仿真？

毕设啊，来不及了，谁做过 OFDMA动态资源分配算法的 MATLAB仿真？？我们毕设的题目是“OFDMA动态资源分配算法的研究”，我在网上也荡了一...
关于UDP包传送的有关问题

关于UDP包传送的问题最近在佛山移动做一个项目，这个项目已经过了初验，现在需要终验。但由于一个问题迟迟没有解决，不敢跟客户提终验...
udp通信数据接收转发解决方法

udp通信数据接收转发小弟最近在写流媒体转发服务器程序，从原始服务器发送过来的媒体包，需要1对多的转发给不同的client，在主程序中...