论文题目:Spatial As Deep: Spatial CNN for Traffic Scene Understanding

开源代码:XingangPan/SCNN

一、概述

本篇论文提出了一种新的神经网络结构用于提取车道线,相比于传统网络在各个层之间直接进行卷积的方法不同的是,该网络按照一定方向(上、下、左、右)按照顺序进行卷积,作者认为这样更符合真实世界中物体结构的延伸,尤其是车道线这种持续延伸的目标。

二、算法流程

本文章核心工作是提出了一种新的网络结构,除了结构部分,在训练和测试流程上与其他方法没有大的区别,所以算法流程部分其实就是介绍网络结构的部分。

先祭出一张图,展示一下作者设计的结构内容

图中的上半部分是传统的网络结构,下半部分是作者自己的结构,可以看出,区别在于中间的那一段,传统方法中,按照二维结构直接进行卷积,一层一层传递下去,而作者在这部分先进行切片,再按照顺序进行卷积。顺序一共四种:下、上、右、左,分别对应图中的"SCNN_D", "SCNN_U", "SCNNR", "SCNNL", 所以切片分为横着切和竖着切,横竖各两次(就不瞎拽学术词了^_^,从图片上形象解释还是挺好理解的)。

需要注意的是,这里的切片模型只是网络的一部分,其他卷积层、全连接层等仍然存在,作者所采用的方法也不是直接设计一个全新的网络,而是把这四个顺序卷积的部分嵌入到一个已有的网络模型中去,作者选用的网络是LargeFOV。新的网络如下图所示

这里(a)是训练的网络,(b)是用网络进行预测的流程,需要注意的是,(b)中右侧输出了四个数值,这四个数分别对应四条车道线的概率,0.99就是有车道线,0.02就是没有车道线,所以图中就显示了三条车道线,至于为啥是四条,这就属于作者设置的一个先验信息了,如果超过四条,最终也只会输出四条。当然,他既然这么做,就说明至少这个数据集里没有超过四条的。

三、实验结果及分析

既然实验,就需要一个评价指标,此处采用的是交并比(IOU),想必各位对这个概念已经熟悉了,不做介绍。在下面这张图中,绿色的线就是ground-truth,蓝色的是预测准确的车道线,红色的是预测错误的车道线。

作者与多种方法做了对比,实验结果总结成下面这个表格

从表中可以看出,绝大部分指标是排在第一,可以说是实现了state-of-art

四、总结和思考

在车道线识别任务中,作者核心的创新在于设计了沿四个方向顺序卷积的网络结构,从原理上分析,这种结构更有利于识别出车道线这种有连续的物理延伸的结构,实验效果也显示,作者的方法性能上比同类方法完全占优

一点思考:

这种结构如果有利于识别长延伸的物体(作者在实验中也发现,对于电线杆这种识别效果也更好),是否可以在别的任务中也使用这种结构,而不止车道线,这种结构带来对狭长物体有利识别的同时,对于其他形状的物体识别,是否有减弱效果。