Tolerância a Falhas com Aprendizado por Reforço para Tomada de Decisão em Cenários Distribuídos
Resumo
Este trabalho apresenta contribuições ao estudo do impacto da latência em sistemas distribuídos com aprendizado por reforço. Propostas práticas incluem a repetição da última ação ou a execução de ações aleatórias para mitigar falhas de temporização. A eficácia dessas estratégias é avaliada para diferentes níveis de latência, sendo critérios considerados o tempo de convergência no treinamento, a tolerância a falhas ou atrasos e as estratégias de ação. O desempenho do aprendizado por reforço é analisado em contextos geograficamente distribuídos, considerando condições de redes de comunicação brasileiras. Modificações na biblioteca Stable Baselines3 simulam condições reais de comunicação, aumentando a reprodutibilidade dos resultados. Diretrizes práticas são fornecidas para aplicações em drones autônomos, redes industriais e dispositivos IoT, destacando particularidades regionais do Brasil.
Referências
Avizienis, A., Laprie, J.-C., Randell, B., and Landwehr, C. (2004). Basic concepts and taxonomy of dependable and secure computing. IEEE Transactions on Dependable and Secure Computing, 1(1), 11–33.
Azar, A. T., Koubaa, A., Ali Mohamed, N., Ibrahim, H. A., Ibrahim, Z. F., Kazim, M., Ammar, A., Benjdira, B., Khamis, A. M., Hameed, I. A., and Casalino, G. (2021). Drone deep reinforcement learning: A review. Electronics, 10(9).
Bayerlein, H., Theile, M., Caccamo, M., and Gesbert, D. (2020). UAV path planning for wireless data harvesting: A deep reinforcement learning approach. In GLOBECOM 2020 - 2020 IEEE Global Communications Conference (pp. 1–6).
Bernardo, G. Jr., G. M., and Macedo, D. (2022). Analysis of network performance over deep reinforcement learning control loops for Industry 4.0. In Anais do XL Simposio Brasileiro de Redes de Computadores e Sistemas Distribuídos (pp. 1–14). Porto Alegre, RS, Brasil: SBC.
Ceptro.br (2021). Covid-19 impactos na qualidade da internet no Brasil. [Online]. Available: [link].
Cheng, H., Bertizzolo, L., D’oro, S., Buczek, J., Melodia, T., and Bentley, E. S. (2021). Learning to fly: A distributed deep reinforcement learning framework for software-defined UAV network control. IEEE Open Journal of the Communications Society, 2, 1486–1504.
Gartner, F. C. (1999). Fundamentals of fault-tolerant distributed computing in asynchronous environments. ACM Computing Surveys, 31(1), 1–26.
Guttulsrud, H., Sandnes, M., and Shrestha, R. (2024). Solving the lunar lander problem with multiple uncertainties using a deep Q-learning based short-term memory agent. In Proceedings of the 2023 12th International Conference on Computing and Pattern Recognition, ICCPR ’23 (pp. 27–33). New York, NY, USA: Association for Computing Machinery.
Jiang, Z., Fu, S., Zhou, S., Niu, Z., Zhang, S., and Xu, S. (2020). AI-assisted low information latency wireless networking. IEEE Wireless Communications, 27(1), 108–115.
Khayatian, M., Mehrabian, M., Andert, E., Grimsley, R., Liang, K., Hu, Y., McCormack, I., Joe-Wong, C., Aldrich, J., Iannucci, B., and Shrivastava, A. (2022). Plan B: Design methodology for cyber-physical systems robust to timing failures. ACM Transactions on Cyber-Physical Systems, 6(3).
Kunst, R., Avila, L., Binotto, A., Pignaton, E., Bampi, S., and Rochol, J. (2019). Improving devices communication in Industry 4.0 wireless networks. Engineering Applications of Artificial Intelligence, 83, 1–12.
Li, Y., Liu, I.-J., Yuan, Y., Chen, D., Schwing, A., and Huang, J. (2019). Accelerating distributed reinforcement learning with in-switch computing. In Proceedings of the 46th International Symposium on Computer Architecture (pp. 279–291).
Lu, R., Li, Y.-C., Li, Y., Jiang, J., and Ding, Y. (2020). Multi-agent deep reinforcement learning based demand response for discrete manufacturing systems energy management. Applied Energy, 276, 115473.
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., Petersen, S., Beattie, C., Sadik, A., Antonoglou, I., King, H., Kumaran, D., Wierstra, D., Legg, S., and Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529–533.
Raposo, D., Rodrigues, A., Silva, J. S., Boavida, F., Oliveira, J., Herrera, C., and Egas, C. (2016). An autonomous diagnostic tool for the WirelessHART industrial standard. In 2016 IEEE 17th International Symposium on A World of Wireless, Mobile and Multimedia Networks (WoWMoM) (pp. 1–3).
Samanta, S., Mukherjee, A., Ashour, A. S., Dey, N., Tavares, J. M. R., Karaa, W. B. A., Taïar, R., Azar, A. T., and Hassanien, A. E. (2018). Log transform based optimal image enhancement using firefly algorithm for autonomous mini unmanned aerial vehicle: An application of aerial photography. International Journal of Image Graphics, 18, 1850019:1–1850019:25.
Shakhatreh, H., Sawalmeh, A. H., Al-Fuqaha, A., Dou, Z., Almaita, E., Khalil, I., Othman, N. S., Khreishah, A., and Guizani, M. (2019). Unmanned aerial vehicles (UAVs): A survey on civil applications and key research challenges. IEEE Access, 7, 48572–48634.
Szarski, M. and Chauhan, S. (2021). Composite temperature profile and tooling optimization via deep reinforcement learning. Composites Part A: Applied Science and Manufacturing, 142, 106235.
Wu, F., Zhang, H., Wu, J., Han, Z., Poor, H. V., and Song, L. (2021). UAV-to-device underlay communications: Age of information minimization by multi-agent deep reinforcement learning. IEEE Transactions on Communications, 69(7), 4461–4475.
