DIGA: Definição e Implementação de Modelos com Aprendizado Generativo para Aplicações Inteligentes
Resumo
O aprendizado de máquina já está presente em diversas aplicações cotidianas. Entretanto, determinar qual modelo utilizar é uma tarefa árdua devido ao grande número de opções disponíveis. Esse cenário torna-se ainda mais complexo em redes veiculares, onde as aplicações exigem baixa latência e os dispositivos são heterogêneos. Assim, torna-se necessário um mecanismo que estime o tempo de inferência e selecione o modelo mais apropriado para um dispositivo no qual será executado. Este trabalho propõe o DIGA, um sistema de seleção de modelos de aprendizado de máquina projetado para o setor automotivo. Considerando características do dispositivo e do modelo candidato, o sistema estima o tempo de inferência necessário para processar uma amostra e verifica se o modelo atende aos critérios de latência estabelecidos pela aplicação em um cenário com múltiplos dispositivos. Para estimar o tempo de inferência de cada modelo em um dispositivo, este trabalho compara o uso de um modelo matemático determinístico com quatro modelos diferentes de inteligência artificial generativa, usando como referência o tempo real de execução nos dispositivos. Os resultados mostram que modelos matemáticos determinísticos usados na literatura subestimam o tempo de inferência em 80% dos casos. Portanto, demonstra-se a necessidade de considerar a estrutura do modelo, pois o número de operações de ponto flutuante encontrado matematicamente é insuficiente para determinar o tempo de inferência.
Referências
Boutros, A., et al. (2020). Beyond peak performance: Comparing the real performance of AI-optimized FPGAs and GPUs. In IEEE International Conference on Field-Programmable Technology (ICFPT) (pp. 10–19).
Chitty-Venkata, K. T., Emani, M., Vishwanath, V., & Somani, A. K. (2023). Neural architecture search benchmarks: Insights and survey. IEEE Access, 11, 25217–25236.
Clancy, J., et al. (2024). Wireless access for V2X communications: Research, challenges, and opportunities. Communications Surveys & Tutorials.
Cui, W., et al. (2021). Enable simultaneous DNN services based on deterministic operator overlap and precise latency prediction. In International Conference for High Performance Computing, Networking, Storage and Analysis (pp. 1–15).
de Souza, L. A. C., et al. (2024). AutoMHS-GPT: Automated model and hyperparameter selection with generative pre-trained model. In IEEE International Conference on Cloud Networking.
Desislavov, R., Martínez-Plumed, F., & Hernandez-Orallo, J. (2023). Trends in AI inference energy consumption: Beyond the performance-vs-parameter laws of deep learning. Sustainable Computing: Informatics and Systems, 38, 100857.
Ding, X., et al. (2023). HPC-GPT: Integrating large language model for high-performance computing. In Workshops of the International Conference on High Performance Computing, Network, Storage, and Analysis (pp. 951–960).
Idelbayev, Y., & Carreira-Perpiñan, M. Á. (2021). Beyond FLOPs in low-rank compression of neural networks: Optimizing device-specific inference runtime. In IEEE International Conference on Image Processing (ICIP) (pp. 2843–2847).
Mattson, P., et al. (2020). MLPerf: An industry standard benchmark suite for machine learning performance. IEEE Micro, 40(2), 8–16.
Memon, Z., Arham, M., Ul-Hasan, A., & Shafait, F. (2024). LLM-informed discrete prompt optimization. In Workshop on LLMs and Cognition (ICML).
Raca, D., Leahy, D., Sreenan, C. J., & Quinlan, J. J. (2020). Beyond throughput, the next generation: A 5G dataset with channel and context metrics. In ACM Multimedia Systems Conference (pp. 303–308).
Reddi, V. J., et al. (2020). MLPerf inference benchmark. In ACM/IEEE Annual International Symposium on Computer Architecture (ISCA) (pp. 446–459). IEEE.
Salay, R., Queiroz, R., & Czarnecki, K. (2017). An analysis of ISO 26262: Using machine learning safely in automotive software. arXiv preprint arXiv:1709.02435.
TechPowerUp. (2025). Hardware specification.
Wang, E., Chen, B., Chowdhury, M., Kannan, A., & Liang, F. (2023). FLINT: A platform for federated learning integration. Proceedings of Machine Learning and Systems, 5, 21–34.
Weng, Q., et al. (2022). MLaaS in the wild: Workload analysis and scheduling in large-scale heterogeneous GPU clusters. In USENIX Symposium on Networked Systems Design and Implementation (NSDI 22) (pp. 945–960).
Zhang, X., Wang, Y., & Shi, W. (2018). pCAMP: Performance comparison of machine learning packages on the edges. In USENIX Workshop on Hot Topics in Edge Computing (HotEdge).
Zhao, A., et al. (2024). ExpeL: LLM agents are experiential learners. In Conference on Artificial Intelligence (AAAI) (pp. 19632–19642).
