Reforço e Delimitação Contextual para Reconhecimento de Entidades e Relações em Documentos Oficiais
Resumo
Arquiteturas neurais baseadas em transformers tornaram-se o principal componente de vários métodos do estado-da-arte em tarefas de processamento de linguagem natural, tais como Reconhecimento de Entidades Nomeadas e Extração de Relações (REN+ER). Como essas arquiteturas baseiam-se em aspectos semânticos de sequências de palavras, elas podem não funcionar na identificação e delimitação de entidades nomeadas quando há pouco contexto semântico associado, tais como entidades compostas por dígitos e pontuações apenas (e.g., números de CPF) e entidades com nomes compostos. Neste artigo, são propostas novas técnicas de reforço contextual e delimitação de entidades baseadas em pré- e pós-processamento de dados para enriquecer o contexto semântico, melhorando assim um método do estado-da-arte para REN+RE, o SpERT (Span-Based Entity and Relation Transformer). Tais técnicas foram avaliadas usando dados reais de diários oficiais e de processos judiciais. Os resultados mostram que, quando aplicadas em conjunto, as estratégias de pré- e pós-processamento levam a ganhos significativos na efetividade de REN+ER.
Palavras-chave:
Reconhecimento de Entidades Nomeadas, Extração de Relações, Reforço Contextual, Processamento de Texto
Referências
Brunner, U. & Stockinger, K. (2020). Entity Matching with Transformer Architectures-A Step Forward in Data Integration. In International Conference on Extending Database Technology, pages 463-473.
Caputo, A., Basile, P., & Semeraro, G. (2009). Boosting a Semantic Search Engine by Named Entities. In Foundations of Intelligent Systems, pages 241-250.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Conference of the of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4171-4186.
Eberts, M. & Ulges, A. (2020). Span-based Joint Entity and Relation Extraction with Transformer Pretraining. In 24th European Conference on Artificial Intelligence, pages 2006-2013.
Eberts, M. & Ulges, A. (2021). An End-to-end Model for Entity-level Relation Extraction using Multiinstance Learning. In Association for Computational Linguistics, pages 3650-3660.
Finkel, J. R., Grenager, T., & Manning, C. (2005). Incorporating non-local information into information extraction systems by Gibbs sampling. In Annual Meeting of the Association for Computational Linguistics, pages 363-370.
Fu, J., Huang, X., & Liu, P. (2021). SpanNER: Named Entity Re-/Recognition as Span Prediction. In Annual Meeting of the Association for Computational Linguistics, pages 7183-7195.
Liu, C., Fan, H., & Liu, J. (2021). Span-based nested named entity recognition with pretrained language model. In Jensen, C. S., Lim, E.-P., Yang, D.-N., Lee, W.-C., Tseng, V. S., Kalogeraki, V., Huang, J.-W., & Shen, C.-Y., editors, Database Systems for Advanced Applications, pages 620-628.
Luz de Araujo, P. H., de Campos, T. E., de Oliveira, R. R. R., Stauffer, M., Couto, S., & Bermejo, P. (2018). LeNER-Br: a dataset for named entity recognition in Brazilian legal text. In International Conference on the Computational Processing of Portuguese (PROPOR), pages 313-323.
Niu, F., Zhang, C., R´e, C., & Shavlik, J. W. (2012). DeepDive: Web-scale Knowledge-base Construction using Statistical Learning and Inference. VLDS, 12:25-28.
Patil, N., Patil, A., & Pawar, B. (2020). Named Entity Recognition using Conditional Random Fields. Procedia Computer Science, 167:1181-1188.
Silva, L., Canalle, G. K., Salgado, A. C., Lóscio, B., & Moro, M. (2019). Uma Análise Experimental do Impacto da Seleção de Atributos em Processos de Resolução de Entidades. In SBBD, pages 37-48.
Wang, T., Zhao, X., Lv, Q., Hu, B., & Sun, D. (2021). Density weighted diversity based query strategy for active learning. In IEEE International Conference on Computer Supported Cooperative Work in Design (CSCWD), pages 156-161.
Zhang, S., He, L., Vucetic, S., & Dragut, E. (2018). Regular Expression Guided Entity Mention Mining from Noisy Web Data. In Empirical Methods in Natural Language Processing, pages 1991-2000.
Caputo, A., Basile, P., & Semeraro, G. (2009). Boosting a Semantic Search Engine by Named Entities. In Foundations of Intelligent Systems, pages 241-250.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Conference of the of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4171-4186.
Eberts, M. & Ulges, A. (2020). Span-based Joint Entity and Relation Extraction with Transformer Pretraining. In 24th European Conference on Artificial Intelligence, pages 2006-2013.
Eberts, M. & Ulges, A. (2021). An End-to-end Model for Entity-level Relation Extraction using Multiinstance Learning. In Association for Computational Linguistics, pages 3650-3660.
Finkel, J. R., Grenager, T., & Manning, C. (2005). Incorporating non-local information into information extraction systems by Gibbs sampling. In Annual Meeting of the Association for Computational Linguistics, pages 363-370.
Fu, J., Huang, X., & Liu, P. (2021). SpanNER: Named Entity Re-/Recognition as Span Prediction. In Annual Meeting of the Association for Computational Linguistics, pages 7183-7195.
Liu, C., Fan, H., & Liu, J. (2021). Span-based nested named entity recognition with pretrained language model. In Jensen, C. S., Lim, E.-P., Yang, D.-N., Lee, W.-C., Tseng, V. S., Kalogeraki, V., Huang, J.-W., & Shen, C.-Y., editors, Database Systems for Advanced Applications, pages 620-628.
Luz de Araujo, P. H., de Campos, T. E., de Oliveira, R. R. R., Stauffer, M., Couto, S., & Bermejo, P. (2018). LeNER-Br: a dataset for named entity recognition in Brazilian legal text. In International Conference on the Computational Processing of Portuguese (PROPOR), pages 313-323.
Niu, F., Zhang, C., R´e, C., & Shavlik, J. W. (2012). DeepDive: Web-scale Knowledge-base Construction using Statistical Learning and Inference. VLDS, 12:25-28.
Patil, N., Patil, A., & Pawar, B. (2020). Named Entity Recognition using Conditional Random Fields. Procedia Computer Science, 167:1181-1188.
Silva, L., Canalle, G. K., Salgado, A. C., Lóscio, B., & Moro, M. (2019). Uma Análise Experimental do Impacto da Seleção de Atributos em Processos de Resolução de Entidades. In SBBD, pages 37-48.
Wang, T., Zhao, X., Lv, Q., Hu, B., & Sun, D. (2021). Density weighted diversity based query strategy for active learning. In IEEE International Conference on Computer Supported Cooperative Work in Design (CSCWD), pages 156-161.
Zhang, S., He, L., Vucetic, S., & Dragut, E. (2018). Regular Expression Guided Entity Mention Mining from Noisy Web Data. In Empirical Methods in Natural Language Processing, pages 1991-2000.
Publicado
19/09/2022
Como Citar
BELÉM, Fabiano Muniz; GANEM, Marcelo; FRANÇA, Celso; CARVALHO, Marcos; LAENDER, Alberto H. F.; GONÇALVES, Marcos André.
Reforço e Delimitação Contextual para Reconhecimento de Entidades e Relações em Documentos Oficiais. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 37. , 2022, Búzios.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2022
.
p. 292-303.
ISSN 2763-8979.
DOI: https://doi.org/10.5753/sbbd.2022.224650.