Novos Caminhos para Aumento de Documentos com templates e Modelos de Linguagem

  • Lucas Wojcik UFPR
  • Luiz Coelho UFPR
  • Roger Granada UFPR
  • David Menotti UFPR


Avanços recentes em processamento de linguagem natural percolam para o campo de reconhecimento de documentos em novos modelos e tarefas, mas o tópico de aumento de dados é raramente discutido. Isto é relevante especialmente para o escopo de documentos, onde tarefas com poucas instâncias de treinamento são de grande importância para muitos domínios, visto que dados bem anotados são escassos, e estes modelos podem ser mesmo utilizados para a própria tarefa de anotação. Para melhorar estes cenários, apresentamos duas novas técnicas de aumento de dados focadas em maximizar o conhecimento de poucas instâncias. Uma é baseada em documentos de estrutura simples, utilizando templates que codificam a informação de layout. A outra usa Large Language Models (LLMs) para reescreveros textos de documentos. Estes métodos funcionam com dois modos: texto e layout. Validamos nossas técnicas nos datasets EPHOIE e FUNSD, respectivamente. Mostramos que nossas técnicas melhoram o baseline, de acordo com as métricas para treinamento simples e combinado.


WOJCIK, Lucas; COELHO, Luiz; GRANADA, Roger; MENOTTI, David. Novos Caminhos para Aumento de Documentos com templates e Modelos de Linguagem. In: WORKSHOP DE TRABALHOS EM ANDAMENTO - CONFERENCE ON GRAPHICS, PATTERNS AND IMAGES (SIBGRAPI), 37. , 2024, Manaus/AM. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 99-104. DOI:

