Aprendizagem ativa em fluxo de dados com latência intermediária

Pedro Parreira; Ronaldo Prati

doi:10.5753/eniac.2019.9298

Pedro Parreira Universidade Federal do ABC
Ronaldo Prati Universidade Federal do ABC

DOI: https://doi.org/10.5753/eniac.2019.9298

Resumo

Um fluxo de dados é caracterizado por uma produção massiva de exemplos devido à chegada contínua desses exemplos. Em problemas de classificação em fluxo de dados, normalmente o rótulo real do exemplo é necessário para a avaliação do desempenho ou a detecção de mudança de conceito. No entanto, em muitas aplicações, a obtenção de todos os rótulos verdadeiros é impraticável devido ao alto custo associado. Apesar de existirem diversos trabalhos que utilizam a aprendizagem ativa em fluxo de dados para obter uma porção de exemplos rotulados, normalmente eles consideram que o rótulo verdadeiro é disponibilizado de forma imediata na requisição, o que nem sempre é possível devido ao tempo necessário de análise do exemplo. Este artigo tem por objetivo a investigação de um novo cenário de fluxo de dados com latência intermediária e restrição de rotulagem, além de propor algumas estratégias de aprendizagem ativa para esse cenário e um framework de suporte teórico para essas estratégias.

Palavras-chave: Fluxo de dados, Aprendizagem Ativa, Latência, Mudança de Conceito

Referências

Aggarwal, C. C. (2007). Data streams: models and algorithms, volume 31. Springer Science & Business Media.

Alves de Souza, V., Pinho da Silva, T., and Batista, G. (2018). Evaluating stream classifiers with delayed labels information. In 7th Brazilian Conference on Intelligent Systems, BRACIS 2018, São Paulo, Brazil, pages 408–413.

Attenberg, J. and Provost, F. (2011). Online active inference and learning. In Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’11, pages 186–194, New York, NY, USA. ACM.

Bifet, A., Holmes, G., Kirkby, R., and Pfahringer, B. (2010). Moa: Massive online analysis. J. Mach. Learn. Res., 11:1601–1604.

Brunner, E. and Puri, M. L. (2001). Nonparametric methods in factorial designs. Statistical Papers, 42(1):1–52.

Ditzler, G., Roveri, M., Alippi, C., and Polikar, R. (2015). Learning in nonstationary environments: A survey. IEEE Computational Intelligence Magazine, 10(4):12–25.

Gama, J. (2010). Knowledge discovery from data streams. CRC Press.

Gama, J., Žliobaitė, I., Bifet, A., Pechenizkiy, M., and Bouchachia, A. (2014). A survey on concept drift adaptation. ACM computing surveys (CSUR), 46(4):44.

Golab, L. and Özsu, M. T. (2003). Issues in data stream management. ACM Sigmod Record, 32(2):5–14.

Hanqing Hu, M. K. (2017). Sliding reservoir approach for delayed labeling in streaming data classification. In Proceedings of the 50th Hawaii International Conference on System Sciences.

Hao, S., Lu, J., Zhao, P., Zhang, C., Hoi, S. C. H., and Miao, C. (2018). Second-order online active learning and its applications. IEEE Transactions on Knowledge and Data Engineering, 30(7):1338–1351.

Harries, M., cse tr, U. N., and Wales, N. S. (1999). Splice-2 comparative evaluation: Electricity pricing. Technical report, University of New South Wales.

Kuncheva, L. I. and Sánchez, J. S. (2008). Nearest neighbour classifiers for streaming data with delayed labelling. In 2008 Eighth IEEE International Conference on Data Mining, pages 869–874.

Marrs, G. R., Hickey, R. J., and Black, M. M. (2010). The impact of latency on online classification learning with concept drift. In Bi, Y. and Williams, M.-A., editors, Knowledge Science, Engineering and Management, pages 459–469, Berlin, Heidelberg. Springer Berlin Heidelberg.

Mohamad, S., Bouchachia, A., and Sayed-Mouchaweh, M. (2018). A bi-criteria active learning algorithm for dynamic data streams. IEEE Transactions on Neural Networks and Learning Systems, 29(1):74–86.

Mohamad, S., Sayed Mouchaweh, M., and Bouchachia, H. (2017). Active learning for classifying data streams with unknown number of classes. Neural Networks, 98.

Plasse, J. and Adams, N. (2016). Handling delayed labels in temporally evolving data streams. In 2016 IEEE International Conference on Big Data (Big Data), pages 2416– 2424.

Pozzolo, A. D., Boracchi, G., Caelen, O., Alippi, C., and Bontempi, G. (2015). Credit card fraud detection and concept-drift adaptation with delayed supervised information. In 2015 International Joint Conference on Neural Networks (IJCNN), pages 1–8.

Pozzolo, A. D., Boracchi, G., Caelen, O., Alippi, C., and Bontempi, G. (2018). Credit card fraud detection: A realistic modeling and a novel learning strategy. IEEE Transactions on Neural Networks and Learning Systems, 29(8):3784–3797.

Webb, G. I., Hyde, R., Cao, H., Nguyen, H. L., and Petitjean, F. (2016). Characterizing concept drift. Data Mining and Knowledge Discovery, 30(4):964–994.

Zhao, P. and Hoi, S. C. (2013). Cost-sensitive online active learning with application to malicious url detection. In Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’13, pages 919–927, New York, NY, USA. ACM.

Žliobaitė, I., Bifet, A., Pfahringer, B., and Holmes, G. (2014). Active learning with drifting streaming data. IEEE Transactions on Neural Networks and Learning Systems, 25(1):27–39.