Multi-Lingual Text Localization via Language-Specific Convolutional Neural Networks
Resumo
Localização e Reconhecimento de texto em cena é um tópico em visão computacional que objetiva delimitar regiões candidatas em uma imagem de entrada contendo texto em cena. O desafio desta pesquisa consiste em desenvolver detectores capazes de lidar com diversas fontes de variabilidade tais como tamanho de fontes e cor, fundo complexo, texto em diferentes linguagens, entre outros. Este trabalho apresenta uma comparação entre estratégias para a construção de modelos de classificação baseados em Redes Neurais Convolucionais, para detectar elementos textuais em múltiplas linguagens em imagens, tais como: (i) modelo de classificação construído em um cenário multilíngue; e (ii) modelo de classificação construído em um cenário de linguagem específica. Os experimentos conduzidos neste trabalho indicam que modelos de linguagem específica superam os modelos treinados em um cenário multilíngue, apresentando uma melhoria de 14.79%, 8.94%, e 11.43%, em termos de precisão, revocação e f-measure, respectivamente.
Referências
Y. Baek, B. Lee, D. Han, S. Yun, and H. Lee, "Character Region Awareness for Text Detection," in IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 9365–9374.
D. Deng, H. Liu, X. Li, and D. Cai, "PixelLink: Detecting Scene Text via Instance Segmentation," ArXiv, vol. abs/1801.01315, 2018.
D. Karatzas, L. Gomez-Bigorda, A. Nicolaou, S. Ghosh, A. Bagdanov, M. Iwamura, J. Matas, L. Neumann, V. R. Chandrasekhar, S. Lu, F. Shafait, S. Uchida, and E. Valveny, "ICDAR 2015 Competition on Robust Reading," in 13th International Conference on Document Analysis and Recognition, Aug. 2015, pp. 1156–1160.
N. Nayef, F. Yin, I. Bizid, H. Choi, Y. Feng, D. Karatzas, Z. Luo, U. Pal, C. Rigaud, J. Chazalon, W. Khlif, M. Luqman, J.-C. Burie, C.-L. Liu, and J.-M. Ogier, "ICDAR 2017 Robust Reading Challenge on Multi-Lingual Scene Text Detection and Script Identification - RRC-MLT," in 14th IAPR International Conference on Document Analysis and Recognition, 11 2017, pp. 1454–1459.
N. Nayef, Y. Patel, M. Busta, P. N. Chowdhury, D. Karatzas, W. Khlif, J. Matas, U. Pal, J.-C. Burie, C. lin Liu, and J.-M. Ogier, "ICDAR2019 Robust Reading Challenge on Multi-lingual Scene Text Detection and Recognition - RRC-MLT-2019," ArXiv, vol. abs/1907.00945, 2019.
A. Shrivastava, A. Gupta, and R. Girshick, "Training Region-Based Object Detectors with Online Hard Example Mining," in IEEE Conference on Computer Vision and Pattern Recognition, Jun. 2016, pp. 761–769.