VIT
视觉变换器ViT(Vision Transformer)
尽管卷积神经网络(CNN)得到了广泛应用,但近年来出现的视觉变换器(ViT)在某些情况下表现更加出色。
与CNN直接处理整个图像的方式不同,ViT将图像分解成更小的“图像块”,并把这些块作为一个有结构的序列来处理。直接应用于图像块序列的纯变换器,在图像分类任务中表现尤为出色。当ViT在大型数据集上进行预训练后,应用于各种图像识别基准测试(例如ImageNet)时,它与最先进的卷积网络相比取得了卓越的结果,同时在训练过程中对计算资源的需求显著降低。然而,要深入探讨这些微妙和细节的差异,可能需要进行更广泛的讨论。
Loading...