Uma abordagem para extração de elementos textuais em imagens com linhas de texto inclinadas

Daniel M. Kuhn; Cristiano R. Cervi; Edimar Mânica

doi:10.5753/semish.2019.6576

Daniel M. Kuhn UPF
Cristiano R. Cervi UPF
Edimar Mânica IFRS

DOI: https://doi.org/10.5753/semish.2019.6576

Resumo

Softwares de reconhecimento óptico de caracteres têm como propósito converter elementos textuais de documentos em texto editável e pesquisável. Essa tarefa apresenta desafios específicos quando os elementos textuais estão em imagens capturadas por câmeras de smartphones. Um desses desafios é a inclinação das linhas do texto que afeta a eficácia e eficiência dos métodos de reconhecimento atuais. Este trabalho apresenta uma abordagem para extrair elementos textuais em imagens com linhas de texto inclinadas. Os experimentos demonstram que a abordagem obteve um aumento de eficácia significativo em relação ao baseline, ao instante em que também apresentou eficiência superior.

Referências

E. Manica; C. F. Dorneles; R. Galante. (2017). R-Extractor: a method for data extraction from template-based entity-pages. In Computer Software and Applications Conference (COMPSAC) , IEEE 41st Annual . IEEE. p. 778-787.

A. Labrinidis, H. V. Jagadish. (2012). Challenges and opportunities with big data, Proceedings of VLDB Endowment , v. 5, n.12, pp. 2032-2033.

D. Agrawal, P. Bernstein, E. Bertino, et. al. (2012). Challenges and Opportunities with Big Data - A community white paper developed by leading researchers across the United States.

Statistic Brain. (2017). Instagram Company Statistics. Disponível em: brain https://www.statisticbrain.com/instagram-company-statistics . Acessado em: 15 de Janeiro de 2018.

D. Berchmans; S. S. Kumar. (2014). Optical character recognition: An overview and an insight. In 2014 International Conference on Control, Instrumentation, Communication and Computational Technologies (ICCICCT), Kanyakumari, pp. 1361-1365.

N. Islam; Z. Islam; N. Noor. (2016). A Survey on Optical Character Recognition System. Journal of Information & Communication Technology-JICT Vol. 10 Issue.2.

F. Asad et al. (2016) High Performance OCR for Camera-Captured Blurred Documents with LSTM Networks. In Document Analysis Systems (DAS) , 2016 12th IAPR Workshop on. IEEE. p. 7-12.

J. Liang, D. Doermann, and H. Li. (2005). Camera-based analysis of text and documents: a survey. International Journal on Document Analysis and Recognition (IJDAR), v. 7, n. 2-3, pp. 84–104.

D. M. Kuhn; C. R. Cervi; E. Manica (2018). Extração de elementos textuais em imagens capturadas por smartphones : análise da relação entre as características das imagens e a eficácia da extração. Escola Regional de Banco de Dados (ERBD) , [S.l.], v. 14, n.1/2018.

R. C. Gonzalez; R. E. Woods. (2000). Processamento de imagens digitais. Edgard Blucher.

C. Olah. (2015). Understanding LSTM. Disponível em: http://colah.github.io/posts/2015-08-Understanding-LSTMs/. Acesso em: novembro de 2017.

T. Kil; W. Seo; H. I. Koo and N. I. Cho. (2017). Robust Document Image Dewarping Method Using Text-Lines and Line Segments. 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), Kyoto, 2017, pp. 865-870.

R. W. Smith. (2017). The Extraction and Recognition of Text from Multimedia Document Images, PhD Thesis, University of Bristol, November 1987.

Tesseract (2015). Tesseract. Disponível em: https://github.com/tesseract-ocr/tesseract. Acesso em: novembro de 2017.

A. Gabasio. (2013). Comparasion of Optical Character Recognition (OCR) Software. Department of Computer Science, Faculty of Engineering, LTH, Lund University, 2013.

S. Dhiman; A. Singh. Tesseract vs gocr a comparative study. International Journal of Recent Technology and Engineering, v. 2, n. 4, p. 80, 2013.

OpenCv. (2018). OpenCv Disponível em: https://opencv.org. Acessado em: novembro de 2017.

R. Baeza-Yates; B. Ribeiro Neto. (2013). Recuperação de Informação: Conceitos e Tecnologia das Máquinas de Busca. Porto Alegre: Bookman Editora.