Desambiguação dos termos do Atlas Linguístico do Brasil através da OpenWordnet-PT-ALiB
Resumo
Este trabalho descreve a desambiguação de termos do Atlas Linguístico do Brasil (ALiB) via OpenWN-PT-ALiB através de um corpus do Twitter. O estudo apresenta duas principais contribuições: a incorporação de alguns termos do ALiB na OpenWordNet-PT (OpenWN-PT) e o desenvolvimento de um método de desambiguação utilizando Word Embeddings e a Soft Cosine Measure (SCM). O método proposto utiliza Word Embeddings para representar as palavras em um espaço vetorial e calcula a SCM entre o contexto dos tweets e os possíveis synsets da OpenWN-PT-ALiB para a desambiguação. Os Resultados demonstram a eficácia do método, com taxas de desambiguação superiores mesmo no contexto do Twitter.
Palavras-chave:
Desambiguação, Vitalidade, Twitter, Vetores de Palavras
Referências
Bengio, Y., Ducharme, R., Vincent, P., and Janvin, C. (2003). A neural probabilistic language model. J. Mach. Learn. Res., 3(null):1137–1155.
Cardoso, S. and Mota, J. (2014). Atlas Linguístico do Brasil. Addison-Wesley Longman Publishing Co., Inc.
de Paiva, V., Rademaker, A., and de Melo, G. (2012). Openwordnet-pt: An open Brazilian Wordnet for reasoning. In Proceedings of COLING 2012: Demonstration Papers, pages 353–360, Mumbai, India. The COLING 2012 Organizing Committee. Published also as Techreport http://hdl.handle.net/10438/10274.
Fellbaum, C. (1998). WordNet: An Electronic Lexical Database. Bradford Books. https://doi.org/10.2307/417141
Hartmann, N. S., Fonseca, E. R., Shulby, C. D., Treviso, M. V., Rodrigues, J. S., and Aluísio, S. M. (2017). Portuguese word embeddings: Evaluating on word analogies and natural language tasks. In Anais do XI Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 122–131, Porto Alegre, RS, Brasil. SBC.
Ide, N. and Véronis, J. (1998). Introduction to the special issue on word sense disambiguation: The state of the art. Computational Linguistics, 24(1):1–40.
Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013). Efficient estimation of word representations in vector space. In Bengio, Y. and LeCun, Y., editors, 1st International Conference on Learning Representations, ICLR 2013, Scottsdale, Arizona, USA, May 2-4, 2013, Workshop Track Proceedings. https://doi.org/10.48550/arXiv.1301.3781
Cardoso, S. and Mota, J. (2014). Atlas Linguístico do Brasil. Addison-Wesley Longman Publishing Co., Inc.
de Paiva, V., Rademaker, A., and de Melo, G. (2012). Openwordnet-pt: An open Brazilian Wordnet for reasoning. In Proceedings of COLING 2012: Demonstration Papers, pages 353–360, Mumbai, India. The COLING 2012 Organizing Committee. Published also as Techreport http://hdl.handle.net/10438/10274.
Fellbaum, C. (1998). WordNet: An Electronic Lexical Database. Bradford Books. https://doi.org/10.2307/417141
Hartmann, N. S., Fonseca, E. R., Shulby, C. D., Treviso, M. V., Rodrigues, J. S., and Aluísio, S. M. (2017). Portuguese word embeddings: Evaluating on word analogies and natural language tasks. In Anais do XI Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 122–131, Porto Alegre, RS, Brasil. SBC.
Ide, N. and Véronis, J. (1998). Introduction to the special issue on word sense disambiguation: The state of the art. Computational Linguistics, 24(1):1–40.
Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013). Efficient estimation of word representations in vector space. In Bengio, Y. and LeCun, Y., editors, 1st International Conference on Learning Representations, ICLR 2013, Scottsdale, Arizona, USA, May 2-4, 2013, Workshop Track Proceedings. https://doi.org/10.48550/arXiv.1301.3781
Publicado
25/09/2023
Como Citar
BARRETO, Augusto Sampaio; CLARO, Daniela Barreiro.
Desambiguação dos termos do Atlas Linguístico do Brasil através da OpenWordnet-PT-ALiB. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14. , 2023, Belo Horizonte/MG.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2023
.
p. 377-381.
DOI: https://doi.org/10.5753/stil.2023.234580.