Inteligência Artificial Sustentável baseado em Engenharia de Dados, Aprendizado de Máquina e Transferência de Conhecimento para Processamento de Linguagem Natural
Resumo
Grandes Modelos de Linguagem (GMLs), baseados em técnicas de Inteligência Artificial, têm transformado o Processamento de Linguagem Natural (PLN), sendo referência em tarefas como classificação de texto, análise de sentimentos, sumarização e perguntas-e-respostas. No entanto, sua construção e adaptação exigem alto custo computacional, demandando infraestrutura especializada e grande consumo energético, o que acarreta impactos ambientais negativos, como a emissão de CO2. O modelo atual adotado pelos grandes players -- baseado na "Lei do Mais" (mais dados, mais hardware, mais energia) -- é insustentável e pouco viável para países com recursos limitados, como o Brasil, dificultando a competitividade internacional. Neste tutorial, propomos uma alternativa a essa abordagem dominante, focando em soluções inovadoras baseadas em engenharia de dados e técnicas de IA avançada. O objetivo é aumentar a eficiência dos modelos, reduzindo os custos computacionais e o consumo energético, contribuindo para um desenvolvimento mais sustentável e acessível.
Palavras-chave:
Inteligência Artificial, Engenharia de Dados, Aprendizado de Máquina, Processamento de Linguagem Natural
Referências
Bianco, G. D., Duarte, D., and Gonçalves, M. A. (2023). Reducing the user labeling effort in effective high recall tasks by fine-tuning active learning. IIS, 61(2):453–472.
Cunha, W. et al. (2023a). A comparative survey of instance selection methods applied to nonneural and transformer-based text classification. ACM Comput. Surv.
Cunha, W., França, C., Fonseca, G., Rocha, L., and Gonçalves, M. A. (2023b). An effective, efficient, and scalable confidence-based instance selection framework for transformer-based text classification. In ACM SIGIR, pages 665–674.
Cunha, W., Mangaravite, V., Gomes, C., Canuto, S., Resende, E., Nascimento, C., Viegas, F., França, C., Martins, W. S., Almeida, J. M., et al. (2021). On the cost-effectiveness of neural and non-neural approaches and representations for text classification: A comprehensive comparative study. IP&M.
Cunha, W., Moreo Fernández, A., Esuli, A., Sebastiani, F., Rocha, L., and Gonçalves, M. A. (2025a). A noise-oriented and redundancy-aware instance selection framework. ACM TOIS, 43(2):1–33.
Cunha, W., Rocha, L., and Gonçalves, M. A. (2025b). A thorough benchmark of automatic text classification: From traditional approaches to large language models. arXiv preprint arXiv:2504.01930.
Nardini, F. M., Rulli, C., Trani, S., and Venturini, R. (2023). Neural network compression using binarization and few full-precision weights. arXiv preprint arXiv:2306.08960.
Pasin, A., Cunha, W., Goncalves, M., and Ferro, N. (2024). A quantum annealing instance selection approach for efficient and effective transformer fine-tuning. In ACM ICTIR.
Siino, M., Tinnirello, I., and La Cascia, M. (2024). Is text preprocessing still worth the time? a comparative survey on the influence of popular preprocessing methods on transformers. Inf. Sys., 121:102342.
Cunha, W. et al. (2023a). A comparative survey of instance selection methods applied to nonneural and transformer-based text classification. ACM Comput. Surv.
Cunha, W., França, C., Fonseca, G., Rocha, L., and Gonçalves, M. A. (2023b). An effective, efficient, and scalable confidence-based instance selection framework for transformer-based text classification. In ACM SIGIR, pages 665–674.
Cunha, W., Mangaravite, V., Gomes, C., Canuto, S., Resende, E., Nascimento, C., Viegas, F., França, C., Martins, W. S., Almeida, J. M., et al. (2021). On the cost-effectiveness of neural and non-neural approaches and representations for text classification: A comprehensive comparative study. IP&M.
Cunha, W., Moreo Fernández, A., Esuli, A., Sebastiani, F., Rocha, L., and Gonçalves, M. A. (2025a). A noise-oriented and redundancy-aware instance selection framework. ACM TOIS, 43(2):1–33.
Cunha, W., Rocha, L., and Gonçalves, M. A. (2025b). A thorough benchmark of automatic text classification: From traditional approaches to large language models. arXiv preprint arXiv:2504.01930.
Nardini, F. M., Rulli, C., Trani, S., and Venturini, R. (2023). Neural network compression using binarization and few full-precision weights. arXiv preprint arXiv:2306.08960.
Pasin, A., Cunha, W., Goncalves, M., and Ferro, N. (2024). A quantum annealing instance selection approach for efficient and effective transformer fine-tuning. In ACM ICTIR.
Siino, M., Tinnirello, I., and La Cascia, M. (2024). Is text preprocessing still worth the time? a comparative survey on the influence of popular preprocessing methods on transformers. Inf. Sys., 121:102342.
Publicado
29/09/2025
Como Citar
CUNHA, Washington; ROCHA, Leonardo; GONÇALVES, Marcos A..
Inteligência Artificial Sustentável baseado em Engenharia de Dados, Aprendizado de Máquina e Transferência de Conhecimento para Processamento de Linguagem Natural. In: TUTORIAIS - SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 40. , 2025, Fortaleza/CE.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 208-212.
DOI: https://doi.org/10.5753/sbbd_estendido.2025.tutorial2.
