CV
第1层:掌握学习算法必要的预备知识,包括Python编程,深度学习基础,数据使用,框架使用。
第2层:掌握CV算法最底层的能力,包括CNN模型,Transformer模型,图像分类,模型分析。
第3层:掌握CV算法最核心的方向,包括图像分割,目标检测,图像生成,目标跟踪。
第4层:掌握CV算法最核心的应用,包括人脸图像,图像质量,视频分析,图像编辑。
第5层:掌握算法落地的关键技术,包括模型优化,模型部署。
随着Transformer模型的诞生,自然语言处理领域进入了预训练模型时代,随后研究者开始将Transformer模型迁移到计算机视觉领域,并在学术上取得了许多进展,提出了各种各样的Vision Transformer模型,在性能上不输CNN模型。
深度学习在视觉方面有三个重要的部分:目标分类、目标检测、目标分割。
目标分类(Object Classification):判断图像中出现的物体属于哪一个类别。可实现:输入一副图片,输出该图片中物体类别的候选集合。
目标检测(Object Detection):又叫物体检测或目标分类检测,包含两个问题,一是判断出现在图片上的物体属于哪一个类别;二是对该物体进行定位,定位常用的表征就是物体的边界框。可实现:输入一副图片,输出检测到的物体的类别以及位置。
目标分割(Object Segmentation):又叫语义分割,将图片中每一个像素点进行分类。可实现:输入一副图片,输出该图片每个像素点所属的物体类别。
场景
●图像关键词标记(Image Keywording或Image Tagging):给图像分配关键词或标签。
●物体检测(Object Detection):在照片、视频或图像中识别特定物体,并用边界框(一个准确标记物体轮廓的矩形框)进行标记。
对象检测模型
RCNN系列(RCNN、Fast RCNN、Faster RCNN)、YOLO和SSD
●光学字符识别(OCR):识别图像中的文字和数字,并将它们转换成机器可读的文本。
●图像分割(Image Segmentation):将一张图像分割成若干小块(分段),以更细致地理解图像。这个过程会产生一个图像掩膜,标示出每一个识别类别的具体边界和形状。
●物体跟踪(Object Tracking):追踪视频中移动物体的位置变化。
零样本目标检测YOLOVITOCRSegmentLoading...