Reforço e Delimitação Contextual para Reconhecimento de Entidades e Relações em Documentos Oficiais

Fabiano Muniz Belém; Marcelo Ganem; Celso França; Marcos Carvalho; Alberto H. F. Laender; Marcos André Gonçalves

doi:10.5753/sbbd.2022.224650

Fabiano Muniz Belém Universidade Federal de Minas Gerais (UFMG)
Marcelo Ganem Universidade Federal de Minas Gerais (UFMG)
Celso França Universidade Federal de Minas Gerais (UFMG)
Marcos Carvalho Universidade Federal de Minas Gerais (UFMG)
Alberto H. F. Laender Universidade Federal de Minas Gerais (UFMG)
Marcos André Gonçalves Universidade Federal de Minas Gerais (UFMG)

DOI: https://doi.org/10.5753/sbbd.2022.224650

Resumo

Arquiteturas neurais baseadas em transformers tornaram-se o principal componente de vários métodos do estado-da-arte em tarefas de processamento de linguagem natural, tais como Reconhecimento de Entidades Nomeadas e Extração de Relações (REN+ER). Como essas arquiteturas baseiam-se em aspectos semânticos de sequências de palavras, elas podem não funcionar na identificação e delimitação de entidades nomeadas quando há pouco contexto semântico associado, tais como entidades compostas por dígitos e pontuações apenas (e.g., números de CPF) e entidades com nomes compostos. Neste artigo, são propostas novas técnicas de reforço contextual e delimitação de entidades baseadas em pré- e pós-processamento de dados para enriquecer o contexto semântico, melhorando assim um método do estado-da-arte para REN+RE, o SpERT (Span-Based Entity and Relation Transformer). Tais técnicas foram avaliadas usando dados reais de diários oficiais e de processos judiciais. Os resultados mostram que, quando aplicadas em conjunto, as estratégias de pré- e pós-processamento levam a ganhos significativos na efetividade de REN+ER.

Palavras-chave: Reconhecimento de Entidades Nomeadas, Extração de Relações, Reforço Contextual, Processamento de Texto

Referências

Brunner, U. & Stockinger, K. (2020). Entity Matching with Transformer Architectures-A Step Forward in Data Integration. In International Conference on Extending Database Technology, pages 463-473.

Caputo, A., Basile, P., & Semeraro, G. (2009). Boosting a Semantic Search Engine by Named Entities. In Foundations of Intelligent Systems, pages 241-250.

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Conference of the of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4171-4186.

Eberts, M. & Ulges, A. (2020). Span-based Joint Entity and Relation Extraction with Transformer Pretraining. In 24th European Conference on Artificial Intelligence, pages 2006-2013.

Eberts, M. & Ulges, A. (2021). An End-to-end Model for Entity-level Relation Extraction using Multiinstance Learning. In Association for Computational Linguistics, pages 3650-3660.

Finkel, J. R., Grenager, T., & Manning, C. (2005). Incorporating non-local information into information extraction systems by Gibbs sampling. In Annual Meeting of the Association for Computational Linguistics, pages 363-370.

Fu, J., Huang, X., & Liu, P. (2021). SpanNER: Named Entity Re-/Recognition as Span Prediction. In Annual Meeting of the Association for Computational Linguistics, pages 7183-7195.

Liu, C., Fan, H., & Liu, J. (2021). Span-based nested named entity recognition with pretrained language model. In Jensen, C. S., Lim, E.-P., Yang, D.-N., Lee, W.-C., Tseng, V. S., Kalogeraki, V., Huang, J.-W., & Shen, C.-Y., editors, Database Systems for Advanced Applications, pages 620-628.

Luz de Araujo, P. H., de Campos, T. E., de Oliveira, R. R. R., Stauffer, M., Couto, S., & Bermejo, P. (2018). LeNER-Br: a dataset for named entity recognition in Brazilian legal text. In International Conference on the Computational Processing of Portuguese (PROPOR), pages 313-323.

Niu, F., Zhang, C., R´e, C., & Shavlik, J. W. (2012). DeepDive: Web-scale Knowledge-base Construction using Statistical Learning and Inference. VLDS, 12:25-28.

Patil, N., Patil, A., & Pawar, B. (2020). Named Entity Recognition using Conditional Random Fields. Procedia Computer Science, 167:1181-1188.

Silva, L., Canalle, G. K., Salgado, A. C., Lóscio, B., & Moro, M. (2019). Uma Análise Experimental do Impacto da Seleção de Atributos em Processos de Resolução de Entidades. In SBBD, pages 37-48.

Wang, T., Zhao, X., Lv, Q., Hu, B., & Sun, D. (2021). Density weighted diversity based query strategy for active learning. In IEEE International Conference on Computer Supported Cooperative Work in Design (CSCWD), pages 156-161.

Zhang, S., He, L., Vucetic, S., & Dragut, E. (2018). Regular Expression Guided Entity Mention Mining from Noisy Web Data. In Empirical Methods in Natural Language Processing, pages 1991-2000.