HASCH: Um Corretor Ortográfico Automático de Alto Desempenho para Textos Oriundos da Web

  • Guilherme Andrade UFSJ
  • Felipe Teixeira UFSJ
  • Carolina Xavier UFSJ / UFRJ
  • Leonardo Rocha UFSJ

Resumo

A Web 2.0 provocou uma democratização no âmbito da geração de dados, providos na grande maioria na forma de textos, tanto formais, como reportagens providas por portais de noticias, quanto informais (“Internetês”), como comentários em micro-blogging. Tratar essa heterogeneidade é uma preprocessamento indispensável para que esses dados possam ser utilizados por ferramentas que visam inferir informações precisas. Apresentamos nesse trabalho o HASCH (High Performance Automatic Spell CHecker), um corretor ortográfico automático, completamente paralelizado em memória compartilhada, cujo objetivo é preprocessar grandes volumes de textos em português coletados da Web, de forma eficiente.

Referências

Edward M. Riseman, A. R. H. (1974). A contextual post-processing system for error correction using binary n-grams. IEEE Trans Computers, C-23(5):480–493.

Kenneth W. Church, W. A. G. (1991). Probability scoring for spelling correction. Statistics and Computing, 1:93–103.

McIlroy, M. D. (1982). Development of a spelling list. IEEE Transactions on Communications, COM-30(1):91–99.

Nix, R. (1981). Experience with a space efficient way to store a dictionary. Communications of the A.C.M., 24(5):297–298.

Norvig, P. How to Write a Spelling Corrector. [link].

Peterson, J. L. (1980). Computer programs for detecting and correcting spelling errors. Communications of the A.C.M., 23(12):676–687.
Publicado
2012-07-16
Como Citar
ANDRADE, Guilherme et al. HASCH: Um Corretor Ortográfico Automático de Alto Desempenho para Textos Oriundos da Web. Anais do Concurso de Trabalhos de Iniciação Científica da SBC (CTIC-SBC), [S.l.], p. 41-50, jul. 2012. Disponível em: <https://sol.sbc.org.br/index.php/ctic/article/view/28094>. Acesso em: 17 maio 2024.