CV | wxya

第1层：掌握学习算法必要的预备知识，包括Python编程，深度学习基础，数据使用，框架使用。

第2层：掌握CV算法最底层的能力，包括CNN模型，Transformer模型，图像分类，模型分析。

第3层：掌握CV算法最核心的方向，包括图像分割，目标检测，图像生成，目标跟踪。

第4层：掌握CV算法最核心的应用，包括人脸图像，图像质量，视频分析，图像编辑。

第5层：掌握算法落地的关键技术，包括模型优化，模型部署。

随着Transformer模型的诞生，自然语言处理领域进入了预训练模型时代，随后研究者开始将Transformer模型迁移到计算机视觉领域，并在学术上取得了许多进展，提出了各种各样的Vision Transformer模型，在性能上不输CNN模型。

深度学习在视觉方面有三个重要的部分：目标分类、目标检测、目标分割。

目标分类（Object Classification）：判断图像中出现的物体属于哪一个类别。可实现：输入一副图片，输出该图片中物体类别的候选集合。

目标检测（Object Detection）:又叫物体检测或目标分类检测，包含两个问题，一是判断出现在图片上的物体属于哪一个类别；二是对该物体进行定位，定位常用的表征就是物体的边界框。可实现：输入一副图片，输出检测到的物体的类别以及位置。

目标分割（Object Segmentation）：又叫语义分割，将图片中每一个像素点进行分类。可实现：输入一副图片，输出该图片每个像素点所属的物体类别。

●图像关键词标记（Image Keywording或Image Tagging）：给图像分配关键词或标签。

●物体检测（Object Detection）：在照片、视频或图像中识别特定物体，并用边界框（一个准确标记物体轮廓的矩形框）进行标记。

对象检测模型

RCNN系列（RCNN、Fast RCNN、Faster RCNN）、YOLO和SSD

●光学字符识别（OCR）：识别图像中的文字和数字，并将它们转换成机器可读的文本。

●图像分割（Image Segmentation）：将一张图像分割成若干小块（分段），以更细致地理解图像。这个过程会产生一个图像掩膜，标示出每一个识别类别的具体边界和形状。

●物体跟踪（Object Tracking）：追踪视频中移动物体的位置变化。