Sustainable Artificial Intelligence Based on Data Engineering, Machine Learning, and Knowledge Transfer for Natural Language Processing
Abstract
Grandes Modelos de Linguagem (GMLs), baseados em técnicas de Inteligência Artificial, têm transformado o Processamento de Linguagem Natural (PLN), sendo referência em tarefas como classificação de texto, análise de sentimentos, sumarização e perguntas-e-respostas. No entanto, sua construção e adaptação exigem alto custo computacional, demandando infraestrutura especializada e grande consumo energético, o que acarreta impactos ambientais negativos, como a emissão de CO2. O modelo atual adotado pelos grandes players -- baseado na "Lei do Mais" (mais dados, mais hardware, mais energia) -- é insustentável e pouco viável para países com recursos limitados, como o Brasil, dificultando a competitividade internacional. Neste tutorial, propomos uma alternativa a essa abordagem dominante, focando em soluções inovadoras baseadas em engenharia de dados e técnicas de IA avançada. O objetivo é aumentar a eficiência dos modelos, reduzindo os custos computacionais e o consumo energético, contribuindo para um desenvolvimento mais sustentável e acessível.
Keywords:
Artificial Intelligence, Data Engineering, Machine Learning, Natural Language Processing
References
Bianco, G. D., Duarte, D., and Gonçalves, M. A. (2023). Reducing the user labeling effort in effective high recall tasks by fine-tuning active learning. IIS, 61(2):453–472.
Cunha, W. et al. (2023a). A comparative survey of instance selection methods applied to nonneural and transformer-based text classification. ACM Comput. Surv.
Cunha, W., França, C., Fonseca, G., Rocha, L., and Gonçalves, M. A. (2023b). An effective, efficient, and scalable confidence-based instance selection framework for transformer-based text classification. In ACM SIGIR, pages 665–674.
Cunha, W., Mangaravite, V., Gomes, C., Canuto, S., Resende, E., Nascimento, C., Viegas, F., França, C., Martins, W. S., Almeida, J. M., et al. (2021). On the cost-effectiveness of neural and non-neural approaches and representations for text classification: A comprehensive comparative study. IP&M.
Cunha, W., Moreo Fernández, A., Esuli, A., Sebastiani, F., Rocha, L., and Gonçalves, M. A. (2025a). A noise-oriented and redundancy-aware instance selection framework. ACM TOIS, 43(2):1–33.
Cunha, W., Rocha, L., and Gonçalves, M. A. (2025b). A thorough benchmark of automatic text classification: From traditional approaches to large language models. arXiv preprint arXiv:2504.01930.
Nardini, F. M., Rulli, C., Trani, S., and Venturini, R. (2023). Neural network compression using binarization and few full-precision weights. arXiv preprint arXiv:2306.08960.
Pasin, A., Cunha, W., Goncalves, M., and Ferro, N. (2024). A quantum annealing instance selection approach for efficient and effective transformer fine-tuning. In ACM ICTIR.
Siino, M., Tinnirello, I., and La Cascia, M. (2024). Is text preprocessing still worth the time? a comparative survey on the influence of popular preprocessing methods on transformers. Inf. Sys., 121:102342.
Cunha, W. et al. (2023a). A comparative survey of instance selection methods applied to nonneural and transformer-based text classification. ACM Comput. Surv.
Cunha, W., França, C., Fonseca, G., Rocha, L., and Gonçalves, M. A. (2023b). An effective, efficient, and scalable confidence-based instance selection framework for transformer-based text classification. In ACM SIGIR, pages 665–674.
Cunha, W., Mangaravite, V., Gomes, C., Canuto, S., Resende, E., Nascimento, C., Viegas, F., França, C., Martins, W. S., Almeida, J. M., et al. (2021). On the cost-effectiveness of neural and non-neural approaches and representations for text classification: A comprehensive comparative study. IP&M.
Cunha, W., Moreo Fernández, A., Esuli, A., Sebastiani, F., Rocha, L., and Gonçalves, M. A. (2025a). A noise-oriented and redundancy-aware instance selection framework. ACM TOIS, 43(2):1–33.
Cunha, W., Rocha, L., and Gonçalves, M. A. (2025b). A thorough benchmark of automatic text classification: From traditional approaches to large language models. arXiv preprint arXiv:2504.01930.
Nardini, F. M., Rulli, C., Trani, S., and Venturini, R. (2023). Neural network compression using binarization and few full-precision weights. arXiv preprint arXiv:2306.08960.
Pasin, A., Cunha, W., Goncalves, M., and Ferro, N. (2024). A quantum annealing instance selection approach for efficient and effective transformer fine-tuning. In ACM ICTIR.
Siino, M., Tinnirello, I., and La Cascia, M. (2024). Is text preprocessing still worth the time? a comparative survey on the influence of popular preprocessing methods on transformers. Inf. Sys., 121:102342.
Published
2025-09-29
How to Cite
CUNHA, Washington; ROCHA, Leonardo; GONÇALVES, Marcos A..
Sustainable Artificial Intelligence Based on Data Engineering, Machine Learning, and Knowledge Transfer for Natural Language Processing. In: TUTORIALS - BRAZILIAN SYMPOSIUM ON DATABASES (SBBD), 40. , 2025, Fortaleza/CE.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 208-212.
DOI: https://doi.org/10.5753/sbbd_estendido.2025.tutorial2.
