HASCH: Um Corretor Ortográfico Automático de Alto Desempenho para Textos Oriundos da Web
Resumo
A Web 2.0 provocou uma democratização no âmbito da geração de dados, providos na grande maioria na forma de textos, tanto formais, como reportagens providas por portais de noticias, quanto informais (“Internetês”), como comentários em micro-blogging. Tratar essa heterogeneidade é uma preprocessamento indispensável para que esses dados possam ser utilizados por ferramentas que visam inferir informações precisas. Apresentamos nesse trabalho o HASCH (High Performance Automatic Spell CHecker), um corretor ortográfico automático, completamente paralelizado em memória compartilhada, cujo objetivo é preprocessar grandes volumes de textos em português coletados da Web, de forma eficiente.Referências
Edward M. Riseman, A. R. H. (1974). A contextual post-processing system for error correction using binary n-grams. IEEE Trans Computers, C-23(5):480–493.
Kenneth W. Church, W. A. G. (1991). Probability scoring for spelling correction. Statistics and Computing, 1:93–103.
McIlroy, M. D. (1982). Development of a spelling list. IEEE Transactions on Communications, COM-30(1):91–99.
Nix, R. (1981). Experience with a space efficient way to store a dictionary. Communications of the A.C.M., 24(5):297–298.
Norvig, P. How to Write a Spelling Corrector. [link].
Peterson, J. L. (1980). Computer programs for detecting and correcting spelling errors. Communications of the A.C.M., 23(12):676–687.
Kenneth W. Church, W. A. G. (1991). Probability scoring for spelling correction. Statistics and Computing, 1:93–103.
McIlroy, M. D. (1982). Development of a spelling list. IEEE Transactions on Communications, COM-30(1):91–99.
Nix, R. (1981). Experience with a space efficient way to store a dictionary. Communications of the A.C.M., 24(5):297–298.
Norvig, P. How to Write a Spelling Corrector. [link].
Peterson, J. L. (1980). Computer programs for detecting and correcting spelling errors. Communications of the A.C.M., 23(12):676–687.
Publicado
16/07/2012
Como Citar
ANDRADE, Guilherme; TEIXEIRA, Felipe; XAVIER, Carolina; ROCHA, Leonardo.
HASCH: Um Corretor Ortográfico Automático de Alto Desempenho para Textos Oriundos da Web. In: CONCURSO DE TRABALHOS DE INICIAÇÃO CIENTÍFICA DA SBC (CTIC-SBC), 31. , 2012, Curitiba/PR.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2012
.
p. 41-50.