1.1 计算机视觉任务

Bella ·

更新时间:2024-11-14

· 823 次阅读

1.1 计算机视觉任务 学习目标

目标

了解计算机视觉发展历程

知道计算机视觉的常见任务

应用

无

1.2.1 计算机视觉发展历程

1、1963年，Larry Roberts发表了（可能是）CV领域的第一篇专业论文，用以对简单几何体进行边缘提取和三维重建。1966年，麻省理工学院(MIT)发起了一个夏季项目，目标是搭建一个机器视觉系统，完成模式识别(pattern recognition)等工作。

从现在来看，当时的目标确实定的过大，以至于到了50多年后的今天为止，即使CV领域有了数以千计的科学工作者，仍然无法建立起整个机器视觉系统。

2、七十年代，同样是在MIT，学者David Marr发表的著作《Vision》从严谨又长远的角度给出了CV的发展方向和一些基本算法，其中不乏现在为人熟知的“图层”的概念、边缘提取、三维重建等。

整个60年代到80年代，虽然CV的概念已经提出了20年，但是与“识别”相关的工作进展得并不顺利。除了上述些许学者们点燃的星星之火，很难看到太多突破性的方法和文献。因此人们开始思考：如果图像识别太困难了，那为什么不先试试图像分割呢？

3、1999年David Lowe提出了尺度不变特征变换（SIFT, Scale-invariant feature transform）目标检测算法，用于匹配不同拍摄方向、纵深、光线等图片中的相同元素。

（1）2001年，在互联网泡沫的大背景下，CV领域却发展得风生水起，并再次取得重大突破性进展：Paul Viola和Michael Johns使用Adaboost算法实现了实时性的人脸检测。而这一技术仅在5年后就被富士胶片公司(Fujifilm)用于产品中——首个带有实时人脸检测功能的照相机。

（2）同一时期，Lazbnik, Schmid 和 Ponce等人提出了空间金字塔匹配算法（SPM, Spatial Pyramid Matching），具有开创性地将图片进行分块和特征提取，以验证图片间的相似度。Dalal和Triggs等人提出了进行人物识别的HoG特征（Histogram of Gradient）。2009年，Felzenswalb, McAllester和Ramanan等人提出了可变形部件模型（DPM, Deformable Parts Model）。

4、随着互联网的不断发展，学习计算机视觉可用的图片资源越来越多

（1）Everingham等人在2006年至2012年间搭建了一个大型图片数据库，供机器识别和训练，称为PASCAL Visual Object Challenge，该数据库中有20种类别的图片，每种图片数量在一千至一万张不等。

（2）后来Li Fei-fei等人搭建了图像数据库ImageNet，总计两万两千种类别，和一千四百余万张图片。通过训练ImageNet所给出的数据集，识别错误率正逐年下降，并在2015年就已经低于了正常人类的错误率。图中值得注意的是，在2012年，识别错误率突然下降了近10个百分点，这得益于卷积神经网络（CNN，Convolutional Neural Network）的运用，或者更为大家所知晓的概念就是——深度学习(Deep Learning)。CNN在识别错误率上远低于同年的其他模型，这标志着以深度学习为核心的CV时代正式开启。

1.2.2 典型的计算机视觉任务

计算机视觉基于大量不同任务，并组合在一起实现高度复杂的应用。计算机视觉中最常见的任务是图像和视频识别，涉及确定图像包含的不同对象。

四大主要任务

图像分类

目标检测

目标分割

目标追踪

1、图像分类

计算机视觉中最知名的任务可能就是图像分类了，它对给定图像进行分类。我们看一个简单的二分类例子：我们想根据图像是否包含旅游景点对其进行分类。假设我们为此任务构建了一个分类器，并提供了一张图像（见下图）。

我们要得出这张建筑图片是否是埃菲尔铁塔。

2、目标检测

目标检测通常是从图像中输出单个目标的Bounding Box（边框）以及标签

我们想象一个同时包含定位和分类的动作，对一张图像中的所有感兴趣对象重复执行该动作，这就是目标检测。该场景中，图像中的对象数量是未知的。因此，目标检测的目标是找出图像中的对象，并进行分类。

在这个密集图像中，我们可以看到计算机视觉系统识别出大量不同对象：汽车、人、自行车，甚至包含文本的标志牌。这个问题对人类来说都算困难的。一些对象只显示出一部分，因为它们有一部分在图像外，或者彼此重叠。此外，相似对象的大小差别极大。目标检测的一个直接应用是计数，它在现实生活中应用广泛，从计算收获水果的种类到计算公众集会或足球赛等活动的人数，不一而足。

3、语义分割（Semantic Segmentation）

我们可以把实例分割看作是目标检测的下一步。它不仅涉及从图像中找出对象，还需要为检测到的每个对象创建一个尽可能准确的掩码。

你可以从上图中看到，实例分割算法为四位披头士成员和一些汽车创建掩码（不过该结果并不完整，尤其是列侬）。

还有实例分割与语义分割有所不同，物体分割不仅需要对图像中不同的对象进行分类，而且还需要确定它们之间的界限、差异和关系。

4、目标追踪

目标追踪旨在追踪随着时间不断移动的对象，它使用连续视频帧作为输入。该功能对于机器人来说是必要的，以守门员机器人举例，它们需要执行从追球到挡球等各种任务。目标追踪对于自动驾驶汽车而言同样重要，它可以实现高级空间推理和路径规划。类似地，目标追踪在多人追踪系统中也很有用，包括用于理解用户行为的系统（如零售店的计算机视觉系统），以及在游戏中监控足球或篮球运动员的系统。

其他任务技术：

图像标注（Image Captioning）

图像标注是一项引人注目的研究领域，它的研究目的是给出一张图片，你给我用一段文字描述它。（根据图片生成描述文字）

图像生成（Image Generator）：文字转图像

超分辨率、风格迁移、着色

超分辨率指的是从低分辨率对应物估计高分辨率图像的过程，以及不同放大倍数下图像特征的预测，这是人脑几乎毫不费力地完成的。最初的超分辨率是通过简单的技术，如bicubic-interpolation和最近邻。在商业应用方面，克服低分辨率限制和实现“CSI Miami”风格图像增强的愿望推动了该领域的研究。

风格转换：作为一个主题，一旦可视化是相当直观的，比如，拍摄一幅图像，并用不同的图像的风格特征呈现。

着色：是将单色图像更改为新的全色版本的过程。最初，这是由那些精心挑选的颜色由负责每个图像中的特定像素的人手动完成的。2016年，这一过程自动化成为可能，同时保持了以人类为中心的色彩过程的现实主义的外观。

行为识别

行为识别的任务是指在给定的视频帧内动作的分类，以及最近才出现的，用算法预测在动作发生之前几帧的可能的相互作用的结果。

人体姿势估计

人体姿势估计试图找出人体部位的方向和构型。 2D人体姿势估计或关键点检测一般是指定人体的身体部位，例如寻找膝盖，眼睛，脚等的二维位置。

注：在基础课程部分会着重介绍分类、检测、分割、追踪几种任务，也是计算机视觉关键的任务。在后面案例或者项目中中会基于基础阶段介绍的算法来进行讲解其热门他方向（如人脸识别、关键点检测等）

1.2.3 总结

计算机视觉发展历程

计算机视觉的任务