计算机视觉的重要性及概述

计算机视觉(Computer Vision)是人工智能的一个关键领域,旨在让机器能够解释和理解图像内容。这一技术模仿人类的视觉能力,对信息的获取和理解起着至关重要的作用。

为什么计算机视觉至关重要

  • 人类视觉处理:人脑皮层大约70%用于处理视觉信息,这表明视觉是人类感知世界的主要途径。

  • 数字内容增长:随着互联网的发展,网络上的照片和视频(即图像集合)正经历爆炸性增长。根据新增数据的占比趋势,非结构化数据(主要为图像和视频)呈现指数级增长,而这些数据大多是非结构化的,蓝色部分代表这部分的增长。

基本概念与实现原理

计算机视觉涉及多个复杂的算法和技术,用以分析和理解视觉内容。它通过模拟人类视觉系统的工作方式,从图像或视频中提取信息,并尝试理解这些信息。

计算机视觉的任务

计算机视觉涵盖了许多任务,包括但不限于以下8个方面:

  1. 物体识别:识别图片中的特定物体。

  2. 场景分类:确定图片所展示的整体环境类型。

  3. 物体检测:定位并识别图片中的多个物体。

  4. 姿态估计:确定图片中人物或其他生物的姿态。

  5. 动作识别:识别视频中的人物动作。

  6. 图像分割:将图像分为多个片段,每个片段对应一个物体或区域。

  7. 三维重建:从二维图像创建三维模型。

  8. 文本识别:在图像中识别文字内容。

应用场景

计算机视觉技术已经在多个生活领域得到应用,例如:

  1. 医疗成像:辅助医生进行疾病诊断。

  2. 自动驾驶:帮助车辆理解周围环境,做出驾驶决策。

  3. 安防监控:自动监测异常行为,提高安全性。

  4. 增强现实:提供互动式体验,结合虚拟元素与真实世界。
    图片和视频数据在飞速增长

图片和视频数据在飞速增长

而在计算机视觉出现之前,图像对于计算机来说是黑盒的状态。

一张图片对于机器只是一个文件。机器并不知道图片里的内容到底是什么,只知道这张图片是什么尺寸,多少MB,什么格式的。

CV之前,机器智能看到文件属性,看不懂图片内容

CV之前,机器智能看到文件属性,看不懂图片内容

如果计算机、人工智能想要在现实世界发挥重要作用,就必须看懂图片!这就是计算机视觉要解决的问题。

什么是计算机视觉 – CV?

计算机视觉是人工智能的一个重要分支,它要解决的问题就是:看懂图像里的内容。

比如:

  • 图片里的宠物是猫还是狗?

  • 图片里的人是老张还是老王?

  • 这张照片里,桌子上放了哪些物品?

CV让机器可以看懂图片里的内容
计算机视觉的原理与人类大脑的工作方式类似,首先从原始信号摄入开始,即通过摄像头等设备获取图像的像素信息。接着,进行初步处理,如检测图像中的边缘和方向。然后,进行抽象处理,识别出物体的基本形状,例如圆形。最后,进一步抽象,识别出物体的具体类别,例如气球。
人类大脑看图的原理

人类大脑看图的原理

机器的方法也是类似:构造多层的神经网络,较低层的识别初级的图像特征,若干底层特征组成更上一层特征,最终通过多个层级的组合,最终在顶层做出分类。

CV的原理和人类视觉的原理类似

计算机视觉的挑战

计算机视觉(CV)旨在模仿人类视觉系统的能力,但与人类轻松识别图像不同,机器在理解图像方面面临诸多挑战。以下是计算机视觉面临的两个主要难题:

特征提取困难

  • 角度、光线和动作的变化:即使是同一只猫,在不同的视角、光照条件或姿态下,其像素表示会有显著差异。即使同一张图片旋转90度,也会导致像素值发生巨大变化。

  • 内容相似性与像素差异:尽管图像中的对象可能相同或非常相似,但在像素级别上,这些变化会带来极大的不一致性,给特征提取带来了巨大的挑战。

庞大的数据处理需求

  • 高分辨率图像的数据量:现代设备拍摄的照片通常具有较高的分辨率,例如1000 x 2000像素的图像。每个像素由RGB三个颜色通道组成,这意味着单张照片就有1000 X 2000 X 3 = 6,000,000个参数需要处理。

  • 视频流的计算负担:当考虑到4K视频等更高分辨率的内容时,数据处理的需求更是呈指数级增长,进一步增加了计算的复杂性和资源消耗。 注意:上述内容中的换行符已替换为 。
    计算机视觉的2大挑战

计算机视觉的2大挑战

CNN 解决了上面的两大难题

CNN 属于深度学习的范畴,它很好的解决了上面所说的2大难点:

  • CNN 可以有效的提取图像里的特征

  • CNN 可以将海量的数据(不影响特征提取的前提下)进行有效的降维,大大减少了对算力的要求

CNN 的具体原理这里不做具体说明,感兴趣的可以看看《一文看懂卷积神经网络-CNN(基本原理+独特价值+实际应用)

计算机视觉的 8 大任务

CV的8大任务

CV的8大任务

图像分类

图像分类是计算机视觉中重要的基础问题。后面提到的其他任务也是以它为基础的。

举几个典型的例子:人脸识别、图片鉴黄、相册根据人物自动分类等。

计算机视觉图像分类

计算机视觉图像分类

目标检测

目标检测任务的目标是给定一张图像或是一个视频帧,让计算机找出其中所有目标的位置,并给出每个目标的具体类别。

计算机视觉目标检测
计算机视觉中的目标检测技术包括语义分割,这是一种高级的图像处理技术。它涉及将图像分割成多个像素组,并对这些像素组进行标记和分类。语义分割的目标是在语义层面上理解图像中每个像素所代表的内容,例如识别出人、车辆、狗或树木等物体。此外,语义分割还需要精确地确定每个识别对象的边界,以提供更详细的图像信息。这种技术对于自动驾驶汽车、医疗影像分析等领域具有重要的应用价值。
计算机视觉语义分割

计算机视觉中的实例分割

在计算机视觉领域,除了语义分割之外,还有一个更为精细的任务称为实例分割。实例分割不仅对图像中的每个像素点进行分类,还能够区分出属于同一类别的不同个体实例。 例如,如果图像中有5辆汽车,实例分割技术会使用5种不同的颜色来标记这5辆汽车,确保每辆车都被单独识别出来。这种方法对于处理包含多个重叠物体和复杂背景的场景非常有用。 实例分割的主要目标是:

  • 对图像中的不同对象进行分类。

  • 确定各个对象的确切边界。

  • 区分同一类别下的不同实例。

  • 分析对象之间的空间关系。 这些能力使得实例分割在自动驾驶、医学影像分析、机器人视觉等领域有着广泛的应用。
    计算机视觉实例分割

计算机视觉实例分割

视频分类

与图像分类不同的是,分类的对象不再是静止的图像,而是一个由多帧图像构成的、包含语音数据、包含运动信息等的视频对象,因此理解视频需要获得更多的上下文信息,不仅要理解每帧图像是什么、包含什么,还需要结合不同帧,知道上下文的关联信息。

计算机视觉视频分类

计算机视觉视频分类

人体关键点检测

体关键点检测,通过人体关键节点的组合和追踪来识别人的运动和行为,对于描述人体姿态,预测人体行为至关重要。

在 Xbox 中就有利用到这个技术。

计算机视觉人体关键点检测
计算机视觉中的人体关键点检测与场景文字识别是两个重要的应用领域。在复杂的图像背景、低分辨率、多样字体和随机分布的情况下,场景文字识别技术能够将图像中的文字信息转化为可读的文本序列。这一技术在停车场和收费站的车牌识别等场景中得到广泛应用。
计算机视觉场景文字识别

计算机视觉场景文字识别

目标跟踪

目标跟踪,是指在特定场景跟踪某一个或多个特定感兴趣对象的过程。传统的应用就是视频和真实世界的交互,在检测到初始对象之后进行观察。

无人驾驶里就会用到这个技术。

计算机视觉目标跟踪

计算机视觉在日常生活中的应用场景

计算机视觉技术已经渗透到我们生活的方方面面,提供了极大的便利性和创新性体验。以下是几个常见的应用场景:

  • 安全与支付

  • 门禁系统中的人脸识别技术用于验证个人身份。

  • 支付宝等支付平台利用人脸识别保障交易的安全。

  • 交通管理

  • 停车场和收费站的车牌识别系统提高了车辆通行效率,减少了人工干预。

  • 内容审核

  • 当上传图片或视频到网站时,计算机视觉可以帮助进行风险评估,确保内容符合规定。

  • 娱乐互动

  • 抖音等社交平台上流行的道具效果,依赖于计算机视觉来定位人脸位置,从而实现趣味性的图像处理效果。

计算机视觉在日常生活中的应用场景

计算机视觉在日常生活中的应用场景

这里需要说明一下,条形码和二维码的扫描不算是计算机视觉。

这种对图像的识别,还是基于固定规则的,并不需要处理复杂的图像,完全用不到 AI 技术。

百科介绍

搜狗百科(详情

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所 指的信息指Shannon定义的,可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提 取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

维基百科(详情

计算机视觉是一个跨学科的科学领域,涉及如何制作计算机以从数字图像或视频中获得高层次的理解。从工程的角度来看,它寻求自动化人类视觉系统可以完成的任务。

计算机视觉任务包括用于获取,处理,分析和理解数字图像的方法,以及从现实世界中提取高维数据以便例如以决策的形式产生数字或符号信息。

在这种情况下理解意味着将视觉图像(视网膜的输入)转换为可以与其他思维过程交互并引出适当行动的世界描述。这种图像理解可以看作是利用几何学,物理学,统计学和学习理论构建的模型从图像数据中解开符号信息。

作为一门科学学科,计算机视觉关注从图像中提取信息的人工系统背后的理论。图像数据可以采用多种形式,例如视频序列,来自多个相机的视图或来自医学扫描仪的多维数据。作为一门技术学科,计算机视觉试图将其理论和模型应用于计算机视觉系统的构建。 计算机视觉的子域包括场景重建,事件检测,视频跟踪,对象识别,3D姿态估计,学习,索引,运动估计和图像恢复。

扩展阅读

开拓视野

实践类

应用类