其他
EraseNet(EraseNet: End-to-End Text Removal in the Wild)端到端文本删除NRNet精度、FLOPS和参数量基于V100 GPU的预测速度基于T4 GPU的预测速度ISNet: Integrate Image-Level and Semantic-Level Context for Semantic SegmentationCRNN
EraseNet(EraseNet: End-to-End Text Removal in the Wild)端到端文本删除
文中提出了一个新的数据集SCUT-EnsText,总共包含3562张图片,每张图片都是从公开的场景文字理解数据集中挑选的,而且图像标注也是保证了视觉上的擦除效果,而非之前使用一些自动的方法去获得的标注信息(擦除效果无法得到保证)。
基于上述数据集,本文基于GAN的方法,提出了EraseNet这个网络结构,用来实现端到端的文字擦除。model包含coarse和refinement两个阶段。refinement sub-network主要就是对coarse sub-network的输出进行进一步的refinement,从而提升擦除效果。
NRNet
HRNet是2019年由微软亚洲研究院提出的一种全新的神经网络,不同于以往的卷积神经网络,该网络在网络深层仍然可以保持高分辨率,因此预测的关键点热图更准确,在空间上也更精确。此外,该网络在对分辨率敏感的其他视觉任务中,如检测、分割等,表现尤为优异。
该系列模型的FLOPS、参数量以及T4 GPU上的预测耗时如下图所示。
精度、FLOPS和参数量
Models | Top1 | Top5 | Referencetop1 | Referencetop5 | FLOPS(G) | Parameters(M) |
HRNet_W18_C | 0.769 | 0.934 | 0.768 | 0.934 | 4.140 | 21.290 |
HRNet_W30_C | 0.780 | 0.940 | 0.782 | 0.942 | 16.230 | 37.710 |
HRNet_W32_C | 0.783 | 0.942 | 0.785 | 0.942 | 17.860 | 41.230 |
HRNet_W40_C | 0.788 | 0.945 | 0.789 | 0.945 | 25.410 | 57.550 |
HRNet_W44_C | 0.790 | 0.945 | 0.789 | 0.944 | 29.790 | 67.060 |
HRNet_W48_C | 0.790 | 0.944 | 0.793 | 0.945 | 34.580 | 77.470 |
HRNet_W64_C | 0.793 | 0.946 | 0.795 | 0.946 | 57.830 | 128.060 |
基于V100 GPU的预测速度
Models | Crop Size | Resize Short Size | FP32Batch Size=1(ms) |
HRNet_W18_C | 224 | 256 | 7.368 |
HRNet_W30_C | 224 | 256 | 9.402 |
HRNet_W32_C | 224 | 256 | 9.467 |
HRNet_W40_C | 224 | 256 | 10.739 |
HRNet_W44_C | 224 | 256 | 11.497 |
HRNet_W48_C | 224 | 256 | 12.165 |
HRNet_W64_C | 224 | 256 | 15.003 |
基于T4 GPU的预测速度
Models | Crop Size | Resize Short Size | FP16Batch Size=1(ms) | FP16Batch Size=4(ms) | FP16Batch Size=8(ms) | FP32Batch Size=1(ms) | FP32Batch Size=4(ms) | FP32Batch Size=8(ms) |
HRNet_W18_C | 224 | 256 | 6.79093 | 11.50986 | 17.67244 | 7.40636 | 13.29752 | 23.33445 |
HRNet_W30_C | 224 | 256 | 8.98077 | 14.08082 | 21.23527 | 9.57594 | 17.35485 | 32.6933 |
HRNet_W32_C | 224 | 256 | 8.82415 | 14.21462 | 21.19804 | 9.49807 | 17.72921 | 32.96305 |
HRNet_W40_C | 224 | 256 | 11.4229 | 19.1595 | 30.47984 | 12.12202 | 25.68184 | 48.90623 |
HRNet_W44_C | 224 | 256 | 12.25778 | 22.75456 | 32.61275 | 13.19858 | 32.25202 | 59.09871 |
HRNet_W48_C | 224 | 256 | 12.65015 | 23.12886 | 33.37859 | 13.70761 | 34.43572 | 63.01219 |
HRNet_W64_C | 224 | 256 | 15.10428 | 27.68901 | 40.4198 | 17.57527 | 47.9533 | 97.11228 |
ISNet: Integrate Image-Level and Semantic-Level Context for Semantic Segmentation
ISTDU-Net: Infrared Small-Target Detection U-Net
ISNet:深度分类器的无成本和隐式图像分割
CRNN
CRNN 全称为 Convolutional Recurrent Neural Network,主要用于端到端地对不定长的文本序列进行识别,不用先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问题,就是基于图像的序列识别。
Loading...