其他

EraseNet(EraseNet: End-to-End Text Removal in the Wild)端到端文本删除

文中提出了一个新的数据集SCUT-EnsText,总共包含3562张图片,每张图片都是从公开的场景文字理解数据集中挑选的,而且图像标注也是保证了视觉上的擦除效果,而非之前使用一些自动的方法去获得的标注信息(擦除效果无法得到保证)。
基于上述数据集,本文基于GAN的方法,提出了EraseNet这个网络结构,用来实现端到端的文字擦除。model包含coarse和refinement两个阶段。refinement sub-network主要就是对coarse sub-network的输出进行进一步的refinement,从而提升擦除效果。

NRNet

HRNet是2019年由微软亚洲研究院提出的一种全新的神经网络,不同于以往的卷积神经网络,该网络在网络深层仍然可以保持高分辨率,因此预测的关键点热图更准确,在空间上也更精确。此外,该网络在对分辨率敏感的其他视觉任务中,如检测、分割等,表现尤为优异。
该系列模型的FLOPS、参数量以及T4 GPU上的预测耗时如下图所示。
notion image

精度、FLOPS和参数量

Models
Top1
Top5
Referencetop1
Referencetop5
FLOPS(G)
Parameters(M)
HRNet_W18_C
0.769
0.934
0.768
0.934
4.140
21.290
HRNet_W30_C
0.780
0.940
0.782
0.942
16.230
37.710
HRNet_W32_C
0.783
0.942
0.785
0.942
17.860
41.230
HRNet_W40_C
0.788
0.945
0.789
0.945
25.410
57.550
HRNet_W44_C
0.790
0.945
0.789
0.944
29.790
67.060
HRNet_W48_C
0.790
0.944
0.793
0.945
34.580
77.470
HRNet_W64_C
0.793
0.946
0.795
0.946
57.830
128.060

基于V100 GPU的预测速度

Models
Crop Size
Resize Short Size
FP32Batch Size=1(ms)
HRNet_W18_C
224
256
7.368
HRNet_W30_C
224
256
9.402
HRNet_W32_C
224
256
9.467
HRNet_W40_C
224
256
10.739
HRNet_W44_C
224
256
11.497
HRNet_W48_C
224
256
12.165
HRNet_W64_C
224
256
15.003

基于T4 GPU的预测速度

Models
Crop Size
Resize Short Size
FP16Batch Size=1(ms)
FP16Batch Size=4(ms)
FP16Batch Size=8(ms)
FP32Batch Size=1(ms)
FP32Batch Size=4(ms)
FP32Batch Size=8(ms)
HRNet_W18_C
224
256
6.79093
11.50986
17.67244
7.40636
13.29752
23.33445
HRNet_W30_C
224
256
8.98077
14.08082
21.23527
9.57594
17.35485
32.6933
HRNet_W32_C
224
256
8.82415
14.21462
21.19804
9.49807
17.72921
32.96305
HRNet_W40_C
224
256
11.4229
19.1595
30.47984
12.12202
25.68184
48.90623
HRNet_W44_C
224
256
12.25778
22.75456
32.61275
13.19858
32.25202
59.09871
HRNet_W48_C
224
256
12.65015
23.12886
33.37859
13.70761
34.43572
63.01219
HRNet_W64_C
224
256
15.10428
27.68901
40.4198
17.57527
47.9533
97.11228

ISNet: Integrate Image-Level and Semantic-Level Context for Semantic Segmentation

 ISTDU-Net: Infrared Small-Target Detection U-Net
ISNet:深度分类器的无成本和隐式图像分割

CRNN

CRNN 全称为 Convolutional Recurrent Neural Network,主要用于端到端地对不定长的文本序列进行识别,不用先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问题,就是基于图像的序列识别。
Loading...
目录
文章列表
王小扬博客
产品
Think
Git
软件开发
计算机网络
CI
DB
设计
缓存
Docker
Node
操作系统
Java
大前端
Nestjs
其他
PHP