LHTR.br: em Busca de um Conjunto Anotado de Textos Manuscritos em Português

Gabriel Henrique Coelho da Silva; Daniel de Oliveira; Isabel Rosseti; Aline Paes

doi:10.5753/dsw.2023.233618

Gabriel Henrique Coelho da Silva Universidade Federal Fluminense http://orcid.org/0000-0003-0268-631X
Daniel de Oliveira Universidade Federal Fluminense
Isabel Rosseti Universidade Federal Fluminense
Aline Paes Universidade Federal Fluminense

DOI: https://doi.org/10.5753/dsw.2023.233618

Resumo

Atividades diversas utilizam registros escritos à mão, tais como receituários e prontuários médicos e serviços de segurança. Embora recursos tecnológicos, como tablets e celulares, permitam a escrita à mão usando meios digitais, muitos ainda utilizam papel para registrar sua escrita. Em todos os casos, automatizar a transcrição de tais registros para um formato digital implica no reconhecimento de seus conteúdos textuais. Embora métodos baseados em redes neurais profundas auxiliem este processo, eles carecem de conjuntos de dados anotados de idiomas específicos. Porém, majoritariamente, os dados disponibilizados estão na língua inglesa, que não faz uso de símbolos de acentuação. Também, a escrita pode conter estilos culturais que podem não ser parte de falantes de outros idiomas. Para abordar este problema, este artigo contribui com o LHTR.br (Labeled Handwritten Text Recognition in Brazilian Portuguese), um conjunto de dados com demarcações de textos em imagens e transcrição do texto em Português. Espera-se que esse conjunto de dados possa ser utilizado para o treinamento de modelos baseados em redes neurais.

Palavras-chave: Aprendizado de máquina, Inteligência artificial, Processamento de linguagem natural

Referências

Adak, C., Chaudhuri, B. B., and Blumenstein, M. (2016). Named entity recognition from unstructured handwritten document images. In 12th DAS, pages 375–380. IEEE Computer Society.

AL-Qawasmeh, N., Khayyat, M., and Suen, C. Y. (2023). Novel features to detect gender from handwritten documents. Pattern Recognition Letters, 171:201–208.

Aqab, S. and Tariq, M. U. (2020). Handwriting recognition using artificial intelligence neural network and image processing. IJACSA, 11(7).

Bertolini, D., Oliveira, L. S., Justino, E. J. R., and Sabourin, R. (2013). Texture-based descriptors for writer identification and verification. Expert Syst. Appl., 40(6):2069–2080.

Bouh, M. M., Hossain, F., and Ahmed, A. (2023). A machine learning approach to digitize medical history and archive in a standard format. In 9th ICT4AWE, pages 230–236.

Chakraborty, S., Harit, G., and Ghosh, S. (2023). TransDocAnalyser: A framework for offline semi-structured handwritten document analysis in the legal domain. CoRR, abs/2306.02142.

Chowdhary, K. (2020). Natural language processing. Fundamentals of artificial intelligence, pages 603–649.

Freitas, C., Oliveira, L. S., Sabourin, R., and Bortolozzi, F. (2008). Brazilian forensic letter database. In 11th International workshop on frontiers on handwriting recognition, Montreal, Canada.

Guimarães, E. (2005). A língua portuguesa no brasil. Ciência e Cultura, 57(2):24–28.

Ignat, O., Maillard, J., Chaudhary, V., and Guzmán, F. (2022). OCR improves machine translation for low-resource languages. In Findings of the Association for Computational Linguistics: ACL 2022, pages 1164–1174.

Joshi, C., Sorenson, L., Wolfert, A., Clement, M. J., Price, J., and Buckles, K. (2023). CENSUS-HWR: a large training dataset for offline handwriting recognition. CoRR, abs/2305.16275.

Kim, G., Govindaraju, V., and Srihari, S. N. (1999). An architecture for handwritten text recognition systems. Int. J. Document Anal. Recognit., 2(1):37–44.

Marti, U. and Bunke, H. (2002). The iam-database: an english sentence database for offline handwriting recognition. Int. J. Document Anal. Recognit., 5(1):39–46.

Pereira, L. F. M., Pinhelli, F., Cizeski, E. M. A., Uber, F. R., Bertolini, D., and Costa, Y. M. G. (2021). Japanese kana and brazilian portuguese manuscript database. In 25th CIARP, volume 12702, pages 173–183. Springer.

Rahman, M. A., Tabassum, N., Paul, M., Pal, R., and Islam, M. K. (2022). Bn-htrd: A benchmark dataset for document level offline bangla handwritten text recognition (HTR) and line segmentation. CoRR, abs/2206.08977.

Sanches, M., de Sá, J., Foerste, H., Souza, R., Reis, J. D., and Villas, L. (2022). Textual datasets for portuguese-brazilian language models. In IV DSW, pages 1–12.

Sharma, A., Katlaa, R., Kaur, G., and Jayagopi, D. B. (2023). Full-page handwriting recognition and automated essay scoring for in-the-wild essays. MTAP, pages 1–24.

Souibgui, M. A., Fornés, A., Kessentini, Y., and Megyesi, B. (2021). Few shots is all you need: A progressive few shot learning approach for low resource handwriting recognition. CoRR, abs/2107.10064.

Tappert, C. C., Suen, C. Y., and Wakahara, T. (1990). The state of the art in online handwriting recognition. IEEE Trans. Pattern Anal. Mach. Intell., 12(8):787–808.

Xing, L. and Qiao, Y. (2016). Deepwriter: A multi-stream deep CNN for text-independent writer identification. In 15th International Conference on Frontiers in Handwriting Recognition, ICFHR 2016, Shenzhen, China, October 23-26, 2016, pages 584–589. IEEE Computer Society.