Análise e Comparação de Algoritmos de Similaridade e Distância entre strings Adaptados ao Português Brasileiro

Diogo Luis Von Grafen Ruberto; Rodrigo Luiz Antoniazzi

Diogo Luis Von Grafen Ruberto
Rodrigo Luiz Antoniazzi

Resumo

A utilização bancos de dados nas empresas é fundamental para tomada de decisões, porém a recuperação de informações nos SGBD poderia utilizar técnicas para tornar as buscas mais inteligentes. As buscas que utilizam operadores relacionais são limitadas quando ocorrem erros de digitação ou quando a base de dados está inconsistente. Para suprir esta deficiência, alguns sistemas possuem funções que permitem fazer buscas baseadas na similaridade das strings, por exemplo, as buscas baseadas em algoritmos fonéticos como o Soundex e o Metaphone, porém ambos os métodos não são usuais em idiomas diferentes do inglês e precisam, portanto, de uma adaptação. O algoritmo do cálculo da distância entre strings, baseado no cálculo da distância de Levenshtein, é outra alternativa para encontrar similaridades entre duas cadeias de caracteres. Neste contexto, é necessário identificar qual algoritmo é o mais eficiente, tanto na performance quanto na precisão dos dados retornados. Além disso, deve ser analisado se a eficiência varia de acordo com a base de dados, e se os métodos híbridos são a melhor alternativa.