Enriquecimento de Dados com Base em Estatísticas de Grafo de Similaridade para Melhorar o Desempenho em Modelos de ML Supervisionados de Classificação


Esta pesquisa propõe um método para o enriquecimento de conjuntos de dados tabulares utilizando estatísticas de grafo, visando melhorar o desempenho de modelos de ML supervisionados de classificação. O método constrói um grafo a partir da similaridade entre as instâncias do conjunto de dados e extrai características do grafo para enriquecer o conjunto de dados original. Avaliado em 10 conjuntos de dados públicos de diferentes áreas do conhecimento, com 7 modelos de aprendizado de máquina, o método proporcionou um aumento médio de 4,9% na acurácia. Os resultados demonstram a efetividade do método como uma alternativa para melhorar o desempenho de modelos em cenários que conjuntos de dados carecem das características necessárias para as abordagens tradicionais de enriquecimento com a utilização de grafo.

Palavras-chave: Aprendizado de Máquina, Grafo, Similaridade, Grafo por Similaridade, Predição, Enriquecimento de Dados, Características Topológicas Grafo, Redes Complexas


BARCHILON, Ney; LOPES, Hélio Côrtes Vieira; KALINOWSKI, Marcos; PEREZ, Jefry Sastre. Enriquecimento de Dados com Base em Estatísticas de Grafo de Similaridade para Melhorar o Desempenho em Modelos de ML Supervisionados de Classificação. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 39. , 2024, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 220-233. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2024.240196.