“双目视觉研究最新动态”-海外周刊网

本篇文章7898字，读完约20分钟

视觉理论认为，2d图像的三维场景复原过程与摄像机的内外参数有关，分别描述了摄像机的光学中心位置、2d摄像平面和实际3维空的变换关系。求解参数矩阵的过程被称为摄像机标定，因为这个摄像机标定的精度会严重影响三维重建的精度。目前常用的摄像机校准方法如下

“双目视觉研究最新动态”

(1)以前流传的摄影测量的标定方法。该方法设想的摄像机图像模型在标定过程中至少需要17个参数。虽然考虑了图像形成中的各种因素，但精度高，计算非常多，非常复杂。

(2)直接线性变换法。从1971年到1972年，阿齐兹等人(三)蔡氏二段法(4)基于方程的自标定方法。这被认为是摄像机拍摄的两张图像之间有一定的数学关系，通过求解类似方程的二次约束下的方程得到摄像机的内部参数。该方法灵活，应用范围广，但鲁棒性和准确性差。。求解摄像机参数的过程可以分为两个步骤。首先，在径向均匀约束条件下，求出部分摄像机参数，然后通过非线性优化算法重复获取其他摄像机参数。该方法标定精度高，标定过程快，精度高，广泛应用于工业视觉系统。但需要昂贵的校准设备，不适合通用性。忽视了摄像机镜头畸变等影响因素，大幅度简化了计算过程，但提出结果准双目视觉研究的最新动态的确定性较低。

“双目视觉研究最新动态”

[6]

[7]

(5)张的定标法[8-9]。在这种做法中，采用了棋盘的眼睛。首先，从线性成像模型中得到摄像机参数的初始值，然后通过非线性优化方法得到摄像机参数的最优解。这种校准方法鲁棒性高、精度高、操作简单，而且不需要高精度的校准设备。因为它得到了广泛的应用。

“双目视觉研究最新动态”

特征点反映图像的特征，特征点提取对三维场景重构、运动目标测量、图像识别有重要作用。双目立体视觉采用的特征点是手动配置的特定形状的标记点，但圆形标记点由于在拍摄变换下能够维持椭圆形状，容易提取和识别，因此被广泛应用。由于传感器收集的图像新闻存在噪声，因此在提取特征点之前需要事先解决图像。一般使用中值滤波器、高斯滤波器、双边滤波器等来降低噪声。现有的特征点提取算法主要基于模板匹配、灰度变化和图像边缘检测。由于三维重建需要恢复被测物的深度新闻，因此通常采用基于灰度变化的提取算法，比较提取不同环境的思想——灰度值。

“双目视觉研究最新动态”

2.3立体匹配

双目立体视觉的关键技术是图像匹配。由于左右摄像机的空之间的位置不同，因此摄像平面具有水平和深度的视差，两个图像存在差异[10]。该差异可以通过使左右图像的相同点正确地一致来消除。

(1)序列一致性约束。摄像机转换后，左右图像中点的3维空间的位置依次不变。

(2)连续性制约。由于三维物体通常是连续的，因此图像中的视差变化通常是连续平滑的。

(3)极坐标约束。对于图像上的特征点，另一个图像上的位置必须位于相应的极线上。

(4)唯一性约束3维空之间的任意一个，由于左右图像有唯一的对应点，所以在匹配图像时只能匹配一个唯一的点。

基于上述限制，现有的立体匹配方法可以分为区域匹配、特征匹配、相位匹配三大类。 (1)区域匹配通常是指设定特定的局部窗口，通过提取窗口内的特征向量进行匹配。经典算法包括算法、固定窗口算法、自适应窗口算法、自适应权重算法等。其本质是利用局部窗口之间的灰色新闻关联度实现图像匹配。这种方法在变化缓慢、细节丰富的图像区域可以达到高精度，但有视差不连续的限制。另外，增加窗口虽然有利于匹配精度的提高，但会带来越来越多的计算量，降低匹配效率，容易发生失配。 (2)特征匹配是提取图像的灰色新闻，以测量对象的边缘、轮廓、角点等特征属性为匹配实体，通过计算匹配实体之间的相似度来实现立体匹配。目前常用的特征匹配算法有surf算法和sift算法:前者识别能力强，对图像噪声、光照变化和尺度旋转有一定的阻力能力，但计算量大、长、匹配精度不高。后者提取的特征点具有方向、尺度、位置新闻，但匹配精度低。虽然特征匹配鲁棒性强、抗干扰性强、计算量小、速度快，但是图像特征稀疏性导致匹配后视差场不完全，特征提取的准确性严重影响匹配结果的准确性。为了解决这些问题，可以充分结合特征匹配的鲁棒性和区域匹配的紧凑性，使用对高频噪声不敏感的模型提取和定位特征。 (3)相位匹配以相位新闻为匹配要素，不易受噪声影响，误匹配的概率低。三维形态测量有其独特的特征。现有的相位匹配算法有基于极线校正的亚像素相位匹配法[11]、-匹配算法[12]等。虽然相关算法的精度和效率正在提高，但相位纠缠、相位偏移、相位奇异等问题会影响匹配精度。

“双目视觉研究最新动态”

三维重建可以看作是摄像机对物体拍摄的逆过程，就像人类用双眼在三维空之间注意物体一样。三维重建的原理是基于图像采集、摄像机标定、特征提取、立体匹配等前期工作，获取摄像机的内外参数和图像特征点的对应关系。最后，利用视差原理和三角测量原理获得三维坐标，恢复被测物的深度新闻，实现三维重构。

“双目视觉研究最新动态”

3国内外双目立体视觉的快速发展趋势

国内外对双目立体视觉进行了大量研究，取得了一系列成果。国内相关研究起步较晚，但随着计算机技术的高速发展，研究水平不断提高，双目立体视觉在工业、农业和军事行业也展现出广阔的快速发展前景和巨大的应用价值。

“双目视觉研究最新动态”

jung等人[13]开发了基于双目立体视觉技术的移动机器人，感知外部物体的运动，根据接收到的环境新闻解决动态场景。

基于立体导航技术的仿生机器人是由美国博格顿电力企业设计开发的。机器人可以通过获取各种障碍物的距离新闻来识别周围的环境，从而移动和回避障碍物。

华盛顿大学与微软合作开发了广阔的基线立体视觉系统[14]，使探险家能够在火星上进行准确的位置和导航。该系统使用同一相机在“探测器”的不同位置拍摄图像对，然后使用非线性优化算法、最大似然概率法和有效的三维搜索获得子像素精度的视差，进而计算图像对中各点的三维坐标，实现火星表面形态的实时三维重构

“双目视觉研究最新动态”

自适应双目视觉伺服系统由日本大阪大学自适应机械系统研究所设计开发。参考各图像中3个相对静止的地标，实时计算目标图像的雅可比矩阵，预测目标的下一个运动方向[15]，实现对运动对象的自适应跟踪。与传统的视觉跟踪伺服系统相比，该系统无需事先了解摄像机的相关参数和目标运动模式，两个图像仍有参考标记即可，操作简单易行，大大提高了系统的工作效率。

“双目视觉研究最新动态”

[16]提出了基于双目立体视觉的三维颌骨复位技术，利用基于逐像素立体匹配算法的软件实时跟踪患者颌骨位置，指导正颌手术。平均测量误差为0.25mm0.18mm，远远低于正颌外科规定的1mm误差，可以满足临床外科的采用要求。该技术的优点是使用可见光光源，消除了传统激光光源操作中对人体的损伤。

“双目视觉研究最新动态”

新西兰奥克兰大学的saleem等人[17]研究了双目立体视觉的检测精度。他们认为交通任务可以通过基于视觉的控制机构来处理，提出了无障碍物的道路区域的概念，并在自由空之间进行了分解。本研究的新奇性是从不同的道路状况和照明条件出发，比较了双目算法和单眼算法的优缺点。结果表明，基于双目视觉的检测算法在模拟城市道路时具有较高的精度，但随着环境变量的增加(如雨)，基于双目视觉的检测算法的精度将大幅降低。另外，还提出了利用多项式曲线拟合减少视觉检测误差的创新途径。

“双目视觉研究最新动态”

rogister等人[18]提出了一种新的基于异步视觉时间的立体匹配算法。与以前流传的基于帧的相机不同，最新的人造硅视网膜输出连续的异步时间流，可以用与生物视网膜输出细胞同样的方法处理运动物体的立体匹配问题。该算法可以过滤错误的匹配，即使传感器空之间的分辨率很低，也可以准确地重构运动物体的深度新闻。

“双目视觉研究最新动态”

澳大利亚奥克兰大学的gee等人【19】为轻型无人机开发了特殊的双目立体系统，使得能够实时生成深度图。该系统由专用摄像机同步箱、基于高速搜索的校正系统、基于块匹配和动态编程的通信机、简单的误差深度转换单元四个模块组成。通过双目立体视觉计算，可以从同步移动相机实时捕获的一系列图像流中生成有深度新闻的图像。最终的输出结果可以通过互联网传输到服务器上来解决，高级传输过程可以通过安卓系统实现。该系统的创新之处在于不仅保证了图像传输的质量和实时性，而且使运行系统小型化，可以在室外许多复杂的环境中采用。

“双目视觉研究最新动态”

哈尔滨工业大学的高清基开发了异构双目视觉系统[20]，使机器人能够捕捉到多个比较有效的目标，实现足球机器人的自主导航。

中国科学院自动化研究所通过收集图像和立体匹配周围的环境，获取相关位置和距离的新闻，开发了导航自己运动的自主移动机器人。

南京航空航天大学的张凤静利用双目立体视觉测量车辆之间的安全距离[21]，根据左右摄像机拍摄的图像中车辆的坐标计算车辆与摄像机之间的距离。

浙江大学左爱秋等[22]利用双目立体视觉，只需从采集到的两张图像中获取所需特征点的三维坐标，就能准确检测出多自由度机械设备的动态姿态。该方法解决速度快，特别适用于动态情况的检测。

清华大学智能技术与系统国家要点实验室研制了拟人机器人tbipr-1[24]，具有典型的平行双目立体视觉系统，身高1.60米，体重100-210公斤。可以根据视觉、触觉、听觉独立实现步行、慢跑、越障、捡东西等人类高级运动。

双目立体视觉的快速发展前景

双目视觉作为一种新型的非接触测量技术，具有操作简单易得、解决效率高、在线实时、三维测量等优点，在工业检测、生物医学、虚拟现实等行业有很大的应用价值。但是，双目立体视觉仍存在许多特殊复杂的问题，如未经处理的立体匹配问题是双目立体视觉快速发展的瓶颈。从目前的研究趋势来看，其快速发展趋势可以概括如下

“双目视觉研究最新动态”

(1)选择合理的匹配特征，建立更有效的图像表现形式和双目立体模型，为立体匹配提供越来越多的新闻，处理精确匹配和全面视差恢复的矛盾。

(2)研究适合综合立体视觉的计算理论和匹配策略，构建类似人类视觉的通用立体视觉系统。

(3)简化和优化双目立体视觉算法，提高运行速度，提高系统的运行效率和实用性。

(4)比较不同的应用场景，建立了具有高适应性和目的性的双目立体视觉系统。

随着光学、电子工程和计算机技术的迅速发展和结合，双目立体视觉在视觉导航、人机交互、虚拟现实、工业生产自动化等方面发挥着越来越重要的作用。随着相关技术和理论的迅速发展，人们将越来越多的能量和财力投入到双目立体视觉的研究中，处理存在的问题，取得更多有价值的成果。

“双目视觉研究最新动态”

基于双目深度估计的深度学习技术研究

英文标题-

论文地址

0 .摘要

根据彩色图像估计深度是一个长期存在的不当问题，计算机视觉、图形学、机器学习行业已经研究了几十年。在目前的技术中，立体匹配与人类的双目系统密切相关，因此是最广泛采用的技术之一。在传统方法中，基于立体视觉的深度估计通过将人工提取的特征与多个图像匹配来进行处理。尽管进行了广泛的研究，但这些传统方法仍然受到许多复杂的纹理区域、较大的不可区分区域和遮挡的影响。由于成功地应对了各种2d和三维视觉问题，利用深度学习处理基于立体视觉的深度估计问题备受关注。 -2019年期间，业界发表了150多篇论文。这种新方法在性能上有了很大的飞跃，实现了自动驾驶和增强现实( ar )等的应用。本文对这个新的研究行业进行了全面的综述，总结了最常用的过程()，探讨了它们的特点和局限性。回顾了他们迄今为止的研究成果，也推测了基于深度学习和立体视觉的深度推断研究未来可能的快速发展前景。

“双目视觉研究最新动态”

1导言

根据一张或多张彩色图像推算深度是一个长期存在的不恰当的问题，应用于机器人、自动驾驶、物体识别、场景理解、三维建模与动画、增强现实、工业控制与医学诊断等多个行业。这个问题已经被广泛研究了几十年。在文献中提到的所有做法中，立体匹配一直以来是研究传播最多的。因为与人类的眼睛密切相关。

“双目视觉研究最新动态”

基于立体视觉的第一代深度估计方法通常依赖于由校准照相机拍摄的多个照片上的像素匹配。这些做法可以取得很好的效果，但在很多方面都有局限性。例如，无法解析具有遮挡、缺少特征或重复阵列的复杂纹理区域。有兴趣的是，作为人类，我们非常善于利用先验知识来处理这种不恰当的逆问题()。例如，可以容易地推测物体的大致大小、它们的相对位置、以及它们和我们眼睛的相对距离。我们之所以能做到这一点，是因为我们以前看到的所有物体和场景，都获得了先验知识，建立了关于三维世界是什么样的思考模型。第二代方法试图将问题转化为学习任务以利用这些先验知识。随着计算机视觉中深度学习技术的出现和大数据集的普及，能够恢复丢失维度(即深度维度)的第三代方法应运而生。虽然这些方法最近出现了，但在与计算机视觉和图形相关的各种任务中展示了令人兴奋的结果。

“双目视觉研究最新动态”

本副本提供了最近基于立体招聘深度学习到的全面、结构化的概述。这些方法使用的是分布在空之间的位置上的彩色照相机拍摄的2张以上的照片。我们收集了从年1月到2019年12月在计算机视觉、计算机图形学、机器学习前沿会议和期刊上发表的150多篇论文。我们的目标是帮助网民充分了解这个新行业，回顾过去几年的巨大快速发展。

“双目视觉研究最新动态”

据我们所知，这是利用深度学习研究基于立体视觉的深度估计方法的第一个拷贝。我们综合评述了150多篇论文，这些论文在过去6年中发表在各大会议和期刊上。

我们对所有最新的做法进行了全面的分类。首先介绍了一般的过程()，然后讨论了各过程中所有方法的不同。

全面回顾和深入分析了问题的全方位，包括对培训数据集、互联网结构、重构绩效、培训策略、泛化能力的影响等。

作为一种重要的方法，利用通用数据集和独特的图像对性能和性能进行了测试和详细总结。后者(即自己的图像)用于测试这些方法在新场景中的性能。

正文其余部分如下:第二节提出问题，制定分类方法。第三节总结了可用于基于双目视觉的深度重构算法训练和测试的数据集。第4节介绍使用深度学习匹配图像间像素的方法。第5部分回顾了端到端的立体匹配方法，第6部分介绍了如何将这些方法扩展到多视图立体视觉。第七节介绍了培训过程，包括损失函数的选择和监管程度。第8部分介绍了主要方法(或主要方法)的性能。最后，第9节讨论了潜在的未来研究方向，第10节总结了本文的首要贡献。

“双目视觉研究最新动态”

表1 .深度/视差估计数据集

4 .立体视觉匹配深度

图1。立体匹配过程的构成要素

图2。特征学习框架

5 .立体视觉的端到端深度

图4。基于立体视觉的端到端深度学习和视差估计的互联网结构分类

图6。多视点立体视觉方法的分类

7 .端到端的立体视觉训练方法

8 .讨论和比较

表5 .以大小的图像作为输入，计算时间和运行时的内存消耗量

注意:差的n误差被定义为估计的视差和真值之差超过n个像素的像素的比例

未来快速发展的方向

基于立体视觉的深度学习和深度估计取得了可喜的成果。但是，这个行业还处于起步阶段，需要进一步迅速发展。本部分介绍了一些问题，强调了未来的研究方向。

(1)摄像机参数。本文研究的许多基于立体视觉的方法都需要校正图像。多视图立体视觉使用-扫描体积块或反投影图像/特征。图像校正和psv都需要已知的摄像机参数，难以在自然环境下进行推测。多篇论文试图通过联合优化摄像机参数和三维场景的几何结构来处理单眼深度估计和三维形状重构问题[2]。。

“双目视觉研究最新动态”

(2)光的条件和许多复杂材料的特征。恶劣的照明条件和许多复杂材料的特点仍然是许多现行做法的挑战。对象识别、高级场景理解和低级特征学习相结合可能是处理这些问题的比较有效的方法。

(3)空之间和深度分辨率。目前，许多方法不能解决高分辨率的输入图像，一般会产生低空间分辨率和深度分辨率的深度图。深度分辨率非常有限，无法重建植被、毛发等小结构或远离相机的结构。精密的模块可以提高估计深度图的分辨率，但与输入图像的分辨率相比增加还太小。最近通过分层技术处理了这个问题，该技术限制中间结果的分辨率以便根据实际需要获得不同精度的视差。在这些方法中，低分辨率深度图可以在移动平台上采用，因此可以实时生成。高分辨率的深度贴图需要越来越多的计算时间。实时绘制高空之间和深度分辨率的准确地图仍然是未来研究的课题。

“双目视觉研究最新动态”

(4)实时解决视差估计的许多深度学习方法采用3d和4d的价格体积，通过2d和3d的卷积解决并归一化。关于内存诉求和解决时间，非常昂贵。开发轻量级、高收益、端到端深度的互联网仍然是未来具有挑战性的研究方向。

(5)视差范围。过去是将视差范围统一离散化来解决。这会引起很多问题。特别是，重构误差在视差空之间可能很小，但是特别是在长距离的情况下，有可能导致深度空之间的米级误差。缓解这个问题的方法之一是在对数空之间均匀地离散视差和深度。另外，改变差异范围需要重新训练互联网。将深度视为连续变量可能是未来研究前途光明的途径。

“双目视觉研究最新动态”

(六)培训。深度互联网在很大程度上取决于标记有真实值的训练图像的可用性。这使得深度/视差重构非常昂贵和费力。同样，这些方法的性能和泛化功能可能会受到很大的影响，例如使模型过度适合特定行业的风险。现有方法通过设计无需三维表示的损失函数或采用行业适应和迁移学习策略来缓解这一问题。但是，前者需要校准的照相机。近来，行业适应技术，特别是无监督行业[4]引起了许多关注。因为通过采用这些技术，我们可以训练出容易得到的合成数据和实际数据。收集新的图像后，将通过无人监管适应变化的环境。他们早期的成果非常令人鼓舞，因此看到未来大数据集的出现，就像imagenet一样，但我们希望将其应用于3d重建。

“双目视觉研究最新动态”

(7)从数据中自动学习互联网结构及其激活函数和参数。现有的研究大多集中在设计新奇的网络结构和新奇的训练方法上，优化其参数。直到最近，一篇论文自动开始研究最佳框架。像文献[5]这样的早期尝试，集中在单纯的互联网结构上，关于采用神经互联网进化理论[6]等更多的异视差估计结构及其激活函数的自动学习的研究将来会发生。

“双目视觉研究最新动态”

结论:本文综述了基于深度学习的立体视觉深度估计技术的最新快速发展。这些技术还处于初期阶段，但已经达到了最高水平。年以来，我们进入了一个新的时代。在这个时代，数据驱动和机器学习技术在基于图像的深度重构中起着核心作用。据了解，到2019年为止，在计算机视觉、计算机图形学、机器学习第一次会议和期刊上发表了150多篇相关论文。到了投稿的最后阶段，发表的新论文一多，追踪最新动态就不容易了，更重要的是，不能很好地了解它们的异同，特别是这个行业的初学者。因此，这个及时的评论可以为网民提供浏览快速发展的研究行业的指南。

“双目视觉研究最新动态”

最后，本文不涉及一些相关行业。例如利用深度学习，基于图像的三维物体重构(韩国等最近正在研究这个[7] )，基于单眼和视频的深度估计(这5~6年间，该行业发表了很多论文，需要单独进行综述)。。其他行业包括光度立体学和主动双眼立体学[8]，本文不讨论。

“双目视觉研究最新动态”

欢迎与加入微信官方账户的网民群同行交流。目前有灌篮高手、检测、分割识别、3d视觉、医疗图像、gan、自动驾驶、计算拍摄、算法竞赛等微信群。 (以后分阶段细分)。请扫描以下微信号添加组。备注:“昵称学校/企业的研究方向”，如“张三上海交大愿景slam”。请按样式注明。不这样做的话是不会通过的。如果添加成功，将根据研究方向被邀请进入相关微信群。请不要在人群中做广告。否则就出群了。感谢您的理解。

“双目视觉研究最新动态”