Ampliando a vitalidade dos termos do ALiB através da Extração de Informação Geolocalizada nas mídias sociais

Resumo


O Projeto ALiB (Atlas Linguístico do Brasil) descreve a geolinguística contemporânea, priorizando a variação diatópica na análise do português brasileiro. Seus termos foram coletados entre 1996 e 2013. Com o advento das redes sociais surgiu a necessidade de analisar a vitalidade destes termos. Dentre os diversos desafios inerentes às redes sociais, tem-se a não-obrigatoriedade da marcação de geolocalização no momento da postagem e a ampla utilização da Internet slang. Assim, o presente trabalho apresenta uma nova abordagem para extrair as informações de geolocalização diretamente de tweets, com o intuito de ampliar a cobertura da localização. Neste trabalho, o BERTimbau, foi treinado para realizar tarefas de Reconhecimento de Entidades Nomeadas e utilizado para extrair conteúdo de geolocalização do usuário. Essa abordagem foi comparada com a vitalidade dos termos ALiB analisados manualmente. Os resultados dão indícios de que a extração de localização é uma possibilidade de ampliar e aprimorar a análise da vitalidade dos termos do ALiB.

Palavras-chave: ALiB, Extração de Informação, Geolocalização

Referências

Bertaglia, T. F. C. and Nunes, M. d. G. V. (2016). Exploring word embeddings for unsupervised textual user-generated content normalization. In Proceedings of the 2nd Workshop on Noisy User-generated Text (WNUT), pages 112–120.

Cardoso, S., Mota, J., Aguilera, V., de Aragão, M. d. S., Isquerdo, A., Razky, A., Margotti, F., and Altenhofen, C. (2014a). Atlas linguístico do Brasil, volume 1. Londrina: Eduel.

Cardoso, S., Mota, J., Aguilera, V., de Aragão, M. d. S., Isquerdo, A., Razky, A., Margotti, F., and Altenhofen, C. (2014b). Atlas linguístico do Brasil, volume 2. Londrina: Eduel.

Gupta, S. and Nishu, K. (2020). Mapping local news coverage: Precise location extraction in textual news content using fine-tuned BERT based language model. In Proceedings of the Fourth Workshop on Natural Language Processing and Computational Social Science, pages 155–162, Online. Association for Computational Linguistics.

Nunes, A. P. M., de Jesus, L. E. N., Claro, D. B., Mota, J., Ribeiro, S., Paim, M., and Oliveira, J. (2020). Vitality analysis of the linguistic atlas of brazil on twitter. In Quaresma, P., Vieira, R., Aluísio, S., Moniz, H., Batista, F., and Gonçalves, T., editors, Computational Processing of the Portuguese Language, pages 184–194, Cham. Springer International Publishing.

Souza, F., Nogueira, R., and Lotufo, R. (2020). Bertimbau: Pretrained bert models for brazilian portuguese. In Cerri, R. and Prati, R. C., editors, Intelligent Systems, pages 403–417, Cham. Springer International Publishing.
Publicado
29/05/2023
SANTOS, Pedro Guimarães Mendes; CLARO, Daniela Barreiro; SANTOS, Laila P. Mota; CAVALCANTE, Rerisson. Ampliando a vitalidade dos termos do ALiB através da Extração de Informação Geolocalizada nas mídias sociais. In: TRILHA DE TEMAS, IDEIAS E RESULTADOS EMERGENTES EM SISTEMAS DE INFORMAÇÃO - SIMPÓSIO BRASILEIRO DE SISTEMAS DE INFORMAÇÃO (SBSI), 19. , 2023, Maceió/AL. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 178-183. DOI: https://doi.org/10.5753/sbsi_estendido.2023.229362.