Detecção Multilíngue de Serviços Web Duplicados Baseada na Similaridade Textual
Resumo
O agrupamento por similaridade representa uma etapa relevante nas estratégias de descoberta e composição de serviços web. Muitos métodos de agrupamento processam as descrições dos serviços em linguagem natural para estimar o grau de correlação entre eles. Entretanto, a utilização de bases de conhecimento em idiomas específicos limita a aplicabilidade desses métodos. Neste artigo e proposto um modelo multilíngue para agrupamento de serviços web similares a partir das suas descrições em linguagem natural. Em particular, foi aplicado o Latent Semantic Indexing (LSI), um método de Recuperação da Informação (RI) independente da língua e do domínio. Além disso, foi feita uma análise experimental com três medidas de similaridade, a fim de determinar qual delas e mais adequada à detecção de serviços web duplicados a partir das descrições dos serviços em dois idiomas.