Um Estudo sobre a Rotulação de Exemplos no Aprendizado Semissupervisionado Multivisão
Resumo
O aprendizado semissupervisionado combina dados rotulados e não rotulados durante a fase de treinamento. CO-TRAINING é um algoritmo amplamente utilizado de aprendizado semissupervisionado, o qual pode ser aplicado em domínios nos quais os exemplos de treinamento são descritos por duas diferentes descrições, usando um método para combinar os classificadores relacionados a cada descrição durante o processo de rotulação. Desse modo, é importante evitar erros de rotulação durante a fase de treinamento para que o desempenho do algoritmo não degrade. Como CO-TRAINING trata ambos classificadores de modo independente, alguns exemplos podem não ser igualmente rotulados por esses classificadores. Neste trabalho, é proposto um outro método de combinação da decisão dos classificadores com o objetivo de atrasar a rotulação desse tipo de exemplos. O método proposto é ilustrado utilizando uma base de dados bastante conhecida na área.Referências
Balcan, M.-F. e Blum, A. (2006). An augmented PAC model for semi-supervised learning. In Semi-Supervised Learning (Adaptive Computation and Machine Learning), páginas 397–420.
Balcan, M.-F., Blum, A., e Yang, K. (2005). “CO-TRAINING and expansion: Towards bridging theory and practice”. In NIPS ’04: Advances in Neural Information Processing Systems 17, páginas 89–96.
Blum, A. e Mitchell, T. (1998). “Combining labeled and unlabeled data with CO-TRAINING”. In COLT ’98: Proceedings of the 11th Annual Conference on Computational Learning Theory, páginas 92–100.
Fawcett, T. (2004). ROC graphs: Notes and practical considerations for researchers. Relatório técnico, HP Laboratories. [link].
Gupta, S., Kim, J., Grauman, K., e Mooney, R. (2008). “Watch, listen & learn: CO-TRAINING on captioned images and videos”. In ECML/PKDD ’08: Proceedings of the 2008 European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, páginas 457–472.
Luhn, H. P. (1958). The automatic creation of literature abstracts. IBM Journal of Research and Development, 2(2):159–165.
Matsubara, E. T. (2004). O algoritmo de aprendizado semi-supervisionado CO-TRAINING e sua aplicação na rotulação de documentos. Dissertação de Mestrado, Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. [link].
Matsubara, E. T., Monard, M. C., e Prati, R. C. (2006). “On the class distribution labelling step sensitivity of CO-TRAINING”. In IFIP AI ’06: Artificial Intelligence in Theory and Practice, páginas 199–208.
Mitchell, T. M. (1999). “The role of unlabeled data in supervised learning”. In Proceedings of the 6th International Colloquium on Cognitive Science, páginas 1–8.
Muslea, I., Minton, S., e Knoblock, C. (2002). “Active + semi-supervised learning = robust multi-view learning”. In ICML ’02: Proceedings of the 19th International Conference on Machine Learning, páginas 435–432.
Nigam, K. e Ghani, R. (2000). “Analyzing the effectiveness and applicability of CO-TRAINING”. In CIKM ’00: Proceedings of the 9th International Conference on Information and Knowledge Management, páginas 86–93.
Balcan, M.-F., Blum, A., e Yang, K. (2005). “CO-TRAINING and expansion: Towards bridging theory and practice”. In NIPS ’04: Advances in Neural Information Processing Systems 17, páginas 89–96.
Blum, A. e Mitchell, T. (1998). “Combining labeled and unlabeled data with CO-TRAINING”. In COLT ’98: Proceedings of the 11th Annual Conference on Computational Learning Theory, páginas 92–100.
Fawcett, T. (2004). ROC graphs: Notes and practical considerations for researchers. Relatório técnico, HP Laboratories. [link].
Gupta, S., Kim, J., Grauman, K., e Mooney, R. (2008). “Watch, listen & learn: CO-TRAINING on captioned images and videos”. In ECML/PKDD ’08: Proceedings of the 2008 European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, páginas 457–472.
Luhn, H. P. (1958). The automatic creation of literature abstracts. IBM Journal of Research and Development, 2(2):159–165.
Matsubara, E. T. (2004). O algoritmo de aprendizado semi-supervisionado CO-TRAINING e sua aplicação na rotulação de documentos. Dissertação de Mestrado, Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. [link].
Matsubara, E. T., Monard, M. C., e Prati, R. C. (2006). “On the class distribution labelling step sensitivity of CO-TRAINING”. In IFIP AI ’06: Artificial Intelligence in Theory and Practice, páginas 199–208.
Mitchell, T. M. (1999). “The role of unlabeled data in supervised learning”. In Proceedings of the 6th International Colloquium on Cognitive Science, páginas 1–8.
Muslea, I., Minton, S., e Knoblock, C. (2002). “Active + semi-supervised learning = robust multi-view learning”. In ICML ’02: Proceedings of the 19th International Conference on Machine Learning, páginas 435–432.
Nigam, K. e Ghani, R. (2000). “Analyzing the effectiveness and applicability of CO-TRAINING”. In CIKM ’00: Proceedings of the 9th International Conference on Information and Knowledge Management, páginas 86–93.
Publicado
20/07/2009
Como Citar
BRAGA, Ígor Assis; MATSUBARA, Edson Takashi; MONARD, Maria Carolina.
Um Estudo sobre a Rotulação de Exemplos no Aprendizado Semissupervisionado Multivisão. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 7. , 2009, Bento Gonçalves/RS.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2009
.
p. 432-441.
ISSN 2763-9061.
