Um Estudo sobre a Rotulação de Exemplos no Aprendizado Semissupervisionado Multivisão

Ígor Assis Braga; Edson Takashi Matsubara; Maria Carolina Monard

Ígor Assis Braga USP
Edson Takashi Matsubara USP
Maria Carolina Monard USP

Resumo

O aprendizado semissupervisionado combina dados rotulados e não rotulados durante a fase de treinamento. CO-TRAINING é um algoritmo amplamente utilizado de aprendizado semissupervisionado, o qual pode ser aplicado em domínios nos quais os exemplos de treinamento são descritos por duas diferentes descrições, usando um método para combinar os classificadores relacionados a cada descrição durante o processo de rotulação. Desse modo, é importante evitar erros de rotulação durante a fase de treinamento para que o desempenho do algoritmo não degrade. Como CO-TRAINING trata ambos classificadores de modo independente, alguns exemplos podem não ser igualmente rotulados por esses classificadores. Neste trabalho, é proposto um outro método de combinação da decisão dos classificadores com o objetivo de atrasar a rotulação desse tipo de exemplos. O método proposto é ilustrado utilizando uma base de dados bastante conhecida na área.

Referências

Balcan, M.-F. e Blum, A. (2006). An augmented PAC model for semi-supervised learning. In Semi-Supervised Learning (Adaptive Computation and Machine Learning), páginas 397–420.

Balcan, M.-F., Blum, A., e Yang, K. (2005). “CO-TRAINING and expansion: Towards bridging theory and practice”. In NIPS ’04: Advances in Neural Information Processing Systems 17, páginas 89–96.

Blum, A. e Mitchell, T. (1998). “Combining labeled and unlabeled data with CO-TRAINING”. In COLT ’98: Proceedings of the 11th Annual Conference on Computational Learning Theory, páginas 92–100.

Fawcett, T. (2004). ROC graphs: Notes and practical considerations for researchers. Relatório técnico, HP Laboratories. [link].

Gupta, S., Kim, J., Grauman, K., e Mooney, R. (2008). “Watch, listen & learn: CO-TRAINING on captioned images and videos”. In ECML/PKDD ’08: Proceedings of the 2008 European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, páginas 457–472.

Luhn, H. P. (1958). The automatic creation of literature abstracts. IBM Journal of Research and Development, 2(2):159–165.

Matsubara, E. T. (2004). O algoritmo de aprendizado semi-supervisionado CO-TRAINING e sua aplicação na rotulação de documentos. Dissertação de Mestrado, Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. [link].

Matsubara, E. T., Monard, M. C., e Prati, R. C. (2006). “On the class distribution labelling step sensitivity of CO-TRAINING”. In IFIP AI ’06: Artificial Intelligence in Theory and Practice, páginas 199–208.

Mitchell, T. M. (1999). “The role of unlabeled data in supervised learning”. In Proceedings of the 6th International Colloquium on Cognitive Science, páginas 1–8.

Muslea, I., Minton, S., e Knoblock, C. (2002). “Active + semi-supervised learning = robust multi-view learning”. In ICML ’02: Proceedings of the 19th International Conference on Machine Learning, páginas 435–432.

Nigam, K. e Ghani, R. (2000). “Analyzing the effectiveness and applicability of CO-TRAINING”. In CIKM ’00: Proceedings of the 9th International Conference on Information and Knowledge Management, páginas 86–93.

Um Estudo sobre a Rotulação de Exemplos no Aprendizado Semissupervisionado Multivisão

Resumo

Referências

Artigos mais lidos do(s) mesmo(s) autor(es)