Da criação de um Corpus ao treinamento de um grande modelo de linguagem: O que pode dar errado em uma IC?

  • Lucas B. Bulcão Mota UFBA
  • Aline Athaydes UFBA
  • Babacar Mane UFBA
  • Daniela Barreiro Claro UFBA
  • Marlo Souza UFBA
  • Fernando Humberto UFBA

Resumo


Este artigo apresenta a experiência de uma iniciação cient́ıfica voltada ao desenvolvimento de um chatbot especializado em direito do consumidor. Um dos principais desafios enfrentados foi a criação de um conjunto de dados sintético para permitir o ajuste fino de um modelo de linguagem. Ao longo do processo, diversas dificuldades técnicas e metodológicas foram identificadas, desde a coleta e estruturação dos dados até o treinamento do modelo. O objetivo deste trabalho é relatar essas dificuldades, destacando a importância do erro como parte do processo de aprendizagem cient́ıfica e refletindo sobre os aprendizados obtidos na construção de sistemas jurídicos baseados em IA.

Referências

Bardin, L. (2011). Análise de conteúdo. Edições 70, São Paulo, 1 edition. Traduzido por Luís Antero Reto e Augusto Pinheiro.

ConJur (2023). Cada ações judiciais estaduais e federais sobre consumo.

Ebrahimi, S., Chen, K., Asudeh, A., Das, G., and Koudas, N. (2024). Axolotl: Fairness through assisted self-debiasing of large language model outputs. arXiv preprint arXiv:2403.00198. Disponível em: [link].

Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., and Chen, W. (2021). Lora: Low-rank adaptation of large language models.

Hugging Face. Hugging face: The ai community building the future. [link]. Acesso em: jun. 2025.

Malaquias Junior, R., Pires, R., Romero, R., and Nogueira, R. (2024). Juru: Legal brazilian large language model from reputable sources. arXiv preprint arXiv:2403.18140. Disponível em: [link].

OpenAI (2024). Gpt-4o mini: advancing cost-efficient intelligence. Online. Disponível via anúncio oficial da OpenAI; modelo lançado em 18 de julho de 2024.

Qwen Team (2025). Qwen3 technical report. Technical report, Qwen Research. Relatório técnico sobre a série de modelos Qwen3, incluindo Qwen3-8B.

Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., and Zhou, D. (2022). Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903.
Publicado
29/09/2025
MOTA, Lucas B. Bulcão; ATHAYDES, Aline; MANE, Babacar; CLARO, Daniela Barreiro; SOUZA, Marlo; HUMBERTO, Fernando. Da criação de um Corpus ao treinamento de um grande modelo de linguagem: O que pode dar errado em uma IC?. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 16. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 703-707. DOI: https://doi.org/10.5753/stil.2025.37875.