0. 简介

这是一片22年的ICRA 2022杰出论文《Translating Images into Maps》。来自萨里大学的研究者引入了注意力机制,将自动驾驶的 2D 图像转换为鸟瞰图,使得模型的识别准确率提升了 15%。相关的代码已经开源,下面是他们Github开源代码。这里由于作者之前并不是搞NLP的,所以也是边学边写的,如有问题请多多提出。
在这里插入图片描述

1. 文章贡献

与以往的方法不同,这项研究将 BEV 的转换视为一个「Image-to-World」的转换问题,其目标是学习图像中的垂直扫描线(vertical scan lines)和 BEV 中的极射线(polar ray)之间的对齐。在对齐模型上,研究者采用了 Transformer 这种基于注意力的序列预测结构。研究者将基于 Transformer 的对齐模型嵌入一个端到端学习公式中,该公式以单目图像及其固有矩阵为输入,然后预测静态和动态类的语义 BEV 映射。下图为该模型框架
在这里插入图片描述
作者验证得到,Transformer 非常适合图像到 BEV 的转换问题,因为它们可以推理出物体、深度和场景照明之间的相互依赖关系,以实现全局一致的表征。同时作者在第一节末尾处提到了本文的主要贡献点为:

  1. 用一组序列到序列的一维转换将一幅前视图像转换为一个 BEV 图;

  2. 根据标准的IPM数学转换公式,作者构建了一个有空间限制且高效的 Transformer 网络,虽然该Transformer是针对水平方向完成的卷积操作,但是该模块仍然具备空间感知能力。

  3. 结合第三部分的公式和语言领域单调注意力的思想表明,对于精确的映射来说,知道图像中一个点下面是什么比知道它上面是什么更重要,尽管两者都使用会导致最佳性能;

  4. 该文章展示了轴向注意力如何通过提供时间意识来提高性能,并在三个大规模数据集上展示了最新的结果。

2. 具体算法

2.1 整体框架

文中构建了的模型,有助于从对齐模型周围的单目图像预测语义 BEV 映射。如下图 1 所示,它包含三个主要组成部分:一个标准的 CNN 骨干,用于提取图像平面上的空间特征;编码器 - 解码器 Transformer 将图像平面上的特征转换为 BEV;最后一个分割网络将 BEV 特征解码为语义地图。
在这里插入图片描述
下面我们来详细讲述一下这个模型,首先(A) 部分为最主要的模型架构 。前端部分(frontend)主要用来提取多尺度空间特征,和大多数Transformer模型一样,以一个训练好的Resnet网络作为特征提取,并将多个尺度的通道传入到模型中。 编码器-解码器Transformer将空间特征从图像转换为 BEV,并利用可选的动态模块(dynamic module)将过去的空间的BEV特征来学习BEV的时空表征,BEV segmentation network(分割网络)主要用于处理 BEV 表征生成多尺度占用格。(B) 展示了文中的平面间注意机制 。在基于注意的模型中,图像的垂直扫描线被一条条地传递到transformer编码器,创建一个“内存(memory)”表征,解码为 BEV 极向射线(polar ray)。
在这里插入图片描述
在这里插入图片描述

2.2 Transformer 软注意机制

相比于上图的PON(《Predicting Semantic Map Representations from Images using Pyramid Occupancy Networks》)和LSS(《Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d》)来说,作者的注意机制是本文最大的亮点,通过学习输入扫描线和输出极向射线之间的对齐,当中包括两种方式:
(1)平面间注意,最初将特征从前视的图像列元素(Image Column)扫描线分配给 BEV 极向射线(Polar Ray)。这里由于前视图的列元素和真实的BEV的极向射线之间的对齐是“困难的”,即极向射线中的每个像素对应于图像列中的单个语义类别。为此需要解决的问题转化为每个像素的深度的问题,所以作者提出了使用软注意将基于图像列的元素与极向射线的元素完成一个凸优化的关联,并存放在一个上下文context中。下图是18年谷歌团队提出的文章其核心思想是希望通过深度模型来模拟并实现在推荐系统中广泛使用的“交叉特征”(Cross Feature)的效果。这个我们后续再讲。
在这里插入图片描述

(2)极向射线(Polar Ray)自注意,第二部分的极向射线(Polar Ray)主要关注全局推理跨射线( Ray)的位置分配。由于上文中提到在平面间注意中,极向射线(Polar Ray)的每个像素与图像列元素(Image Column)进行了关联,即上下文向量 。但是上下文向量因为是独立生成的,所以缺乏对每个上下文的全局推理。在这种情况下,沿BEV极向射线(Polar Ray)的特征空间分布不太可能与局部或全局的目标形状一致。需要沿射线做全局操作,让指定的扫描线特征推断在整个射线上下文的位置,以生成相干目标形状的方式聚合信息。整个极坐标射线的全局计算很像上面平面间注意中的公式Eq.(2) -(5)中列出的软关注,除了自我关注只应用于射线。Eq.(2)用一组新的权重矩阵重新计算,用上下文向量ci替换两个方程的输入

2.3 单调注意机制

尽管软注意对于学习任意一对源-目标序列之间的对齐已经足够了,但是我们的序列存在于物理世界中,其中对齐显示出基于它们的空间排序的物理属性。通常情况下,在城市环境中,深度会随着高度单调地增加,即当你向上移动图像时,你便会远离摄像机。我们通过无限回溯的单调注意机制来加强这一点。这限制了径向深度间隔,以观察图像列中高度单调递增的元素,但不变

单调注意(MA)最初提议用于计算同步机器翻译的对齐问题。然而,源和目标序列之间的“硬”分配意味着忽略了重要的上下文,导致具有无限回溯MA (MAIL) 的 发展,将硬单调注意与软注意相结合。作者采用 MAIL 作为约束注意机制的一种方式,忽略图像垂直扫描线的冗余上下文,潜在地防止过拟合。采用 MAIL 的主要目的是了解图像某个点下面的上下文是否比上面的更有帮助。

3. 参考链接

https://www.linkresearcher.com/theses/9dee5a71-ec98-469d-b033-249fad4ef001

https://zhuanlan.zhihu.com/p/422368907