Aprendizagem ativa em fluxo de dados com latência intermediária
Resumo
Um fluxo de dados é caracterizado por uma produção massiva de exemplos devido à chegada contínua desses exemplos. Em problemas de classificação em fluxo de dados, normalmente o rótulo real do exemplo é necessário para a avaliação do desempenho ou a detecção de mudança de conceito. No entanto, em muitas aplicações, a obtenção de todos os rótulos verdadeiros é impraticável devido ao alto custo associado. Apesar de existirem diversos trabalhos que utilizam a aprendizagem ativa em fluxo de dados para obter uma porção de exemplos rotulados, normalmente eles consideram que o rótulo verdadeiro é disponibilizado de forma imediata na requisição, o que nem sempre é possível devido ao tempo necessário de análise do exemplo. Este artigo tem por objetivo a investigação de um novo cenário de fluxo de dados com latência intermediária e restrição de rotulagem, além de propor algumas estratégias de aprendizagem ativa para esse cenário e um framework de suporte teórico para essas estratégias.
Referências
Alves de Souza, V., Pinho da Silva, T., and Batista, G. (2018). Evaluating stream classifiers with delayed labels information. In 7th Brazilian Conference on Intelligent Systems, BRACIS 2018, São Paulo, Brazil, pages 408–413.
Attenberg, J. and Provost, F. (2011). Online active inference and learning. In Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’11, pages 186–194, New York, NY, USA. ACM.
Bifet, A., Holmes, G., Kirkby, R., and Pfahringer, B. (2010). Moa: Massive online analysis. J. Mach. Learn. Res., 11:1601–1604.
Brunner, E. and Puri, M. L. (2001). Nonparametric methods in factorial designs. Statistical Papers, 42(1):1–52.
Ditzler, G., Roveri, M., Alippi, C., and Polikar, R. (2015). Learning in nonstationary environments: A survey. IEEE Computational Intelligence Magazine, 10(4):12–25.
Gama, J. (2010). Knowledge discovery from data streams. CRC Press.
Gama, J., Žliobaitė, I., Bifet, A., Pechenizkiy, M., and Bouchachia, A. (2014). A survey on concept drift adaptation. ACM computing surveys (CSUR), 46(4):44.
Golab, L. and Özsu, M. T. (2003). Issues in data stream management. ACM Sigmod Record, 32(2):5–14.
Hanqing Hu, M. K. (2017). Sliding reservoir approach for delayed labeling in streaming data classification. In Proceedings of the 50th Hawaii International Conference on System Sciences.
Hao, S., Lu, J., Zhao, P., Zhang, C., Hoi, S. C. H., and Miao, C. (2018). Second-order online active learning and its applications. IEEE Transactions on Knowledge and Data Engineering, 30(7):1338–1351.
Harries, M., cse tr, U. N., and Wales, N. S. (1999). Splice-2 comparative evaluation: Electricity pricing. Technical report, University of New South Wales.
Kuncheva, L. I. and Sánchez, J. S. (2008). Nearest neighbour classifiers for streaming data with delayed labelling. In 2008 Eighth IEEE International Conference on Data Mining, pages 869–874.
Marrs, G. R., Hickey, R. J., and Black, M. M. (2010). The impact of latency on online classification learning with concept drift. In Bi, Y. and Williams, M.-A., editors, Knowledge Science, Engineering and Management, pages 459–469, Berlin, Heidelberg. Springer Berlin Heidelberg.
Mohamad, S., Bouchachia, A., and Sayed-Mouchaweh, M. (2018). A bi-criteria active learning algorithm for dynamic data streams. IEEE Transactions on Neural Networks and Learning Systems, 29(1):74–86.
Mohamad, S., Sayed Mouchaweh, M., and Bouchachia, H. (2017). Active learning for classifying data streams with unknown number of classes. Neural Networks, 98.
Plasse, J. and Adams, N. (2016). Handling delayed labels in temporally evolving data streams. In 2016 IEEE International Conference on Big Data (Big Data), pages 2416– 2424.
Pozzolo, A. D., Boracchi, G., Caelen, O., Alippi, C., and Bontempi, G. (2015). Credit card fraud detection and concept-drift adaptation with delayed supervised information. In 2015 International Joint Conference on Neural Networks (IJCNN), pages 1–8.
Pozzolo, A. D., Boracchi, G., Caelen, O., Alippi, C., and Bontempi, G. (2018). Credit card fraud detection: A realistic modeling and a novel learning strategy. IEEE Transactions on Neural Networks and Learning Systems, 29(8):3784–3797.
Webb, G. I., Hyde, R., Cao, H., Nguyen, H. L., and Petitjean, F. (2016). Characterizing concept drift. Data Mining and Knowledge Discovery, 30(4):964–994.
Zhao, P. and Hoi, S. C. (2013). Cost-sensitive online active learning with application to malicious url detection. In Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’13, pages 919–927, New York, NY, USA. ACM.
Žliobaitė, I., Bifet, A., Pfahringer, B., and Holmes, G. (2014). Active learning with drifting streaming data. IEEE Transactions on Neural Networks and Learning Systems, 25(1):27–39.