Integração de Agentes de Inteligência Artificial com Sistema de Voz Convencional via VoIP e Asterisk
Resumo
A modernização de sistemas legados de atendimento por voz é um desafio relevante para organizações que dependem de infraestruturas TDM e não podem substituir integralmente seus equipamentos. Este trabalho propõe e avalia uma arquitetura híbrida que integra um PABX tradicional a agentes de Inteligência Artificial na nuvem por meio de VoIP e Asterisk. A solução implementa um pipeline conversacional completo, envolvendo reconhecimento automático de fala (ASR), modelo de linguagem (LLM) e síntese de voz (TTS), permitindo substituir menus DTMF por uma interação natural. Um protótipo foi validado em cenário real, com enlace digital E1, e submetido a testes de desempenho. Os resultados indicaram alta precisão de transcrição (WER de 2,65%) e latência média de 1.438 ms. A análise mostrou que uma parcela significativa do atraso decorre da infraestrutura de teste, e não do processamento de IA. Conclui-se que a abordagem híbrida é tecnicamente viável e permite modernizar sistemas legados sem a substituição completa do hardware.Referências
Agência Nacional de Telecomunicações (2011). Resolução nº 574, de 28 de outubro de 2011. aprova o regulamento de gestão da qualidade do serviço de comunicação multimídia (rgq-scm). ANATEL.
Chen, J., Wei, Y., Lin, Z., Tan, X., Wang, B., and Zhang, L. (2024). Wavchat: A survey of spoken dialogue models. arXiv:2411.13577. Disponível em: [link].
Chowdhury, M. Q. Z. and Hussan, M. A. (2023). A review-based study on different text-to-speech technologies. arXiv:2312.11563. Disponível em: [link].
Cunha, M. A. P., Silva, K. S., Mota, D. F. M., and Vasconcellos, A. A. (2012). Uma arquitetura modular de hardware e software para pabx voip baseado em asterisk. In XXX Simpósio Brasileiro de Telecomunicações (SBT), Brasília, DF.
ElevenLabs (2025). Sip trunking integration for agents. Disponível em: [link].
Fernando, R. (2025). Voice driven ai based automated voip pbx for smes. In International Conference on Advanced Computing Technologies (ICACT 2025), Sri Lanka.
González-Bustamante, B. (2024). Textclass benchmark: A continuous elo rating of llms in social sciences. arXiv:2412.00539. Disponível em: [link].
Hugging Face (2025). Tts arena and leaderboards. Disponível em: [link].
International Telecommunication Union (1988). Recommendation g.711: Pulse code modulation (pcm) of voice frequencies. Recommendation, ITU-T, Geneva.
International Telecommunication Union (2003). Recommendation g.114: One-way transmission time. Recommendation, ITU-T, Geneva.
Jacoby, D., Zhang, T., Mohan, A., and Coady, Y. (2024). Human latency conversational turns for spoken avatar systems. arXiv:2404.16053. Disponível em: [link].
Madsen, L., Van Meggelen, J., and Bryant, R. (2013). Asterisk: The Definitive Guide. O’Reilly Media, 4th edition.
McGillivray, B. (2024). Speech-to-text api benchmarks: Accuracy, speed, and cost compared. Disponível em: [link].
MicroSIP (n.d.). Microsip help and documentation. Disponível em: [link].
Minixhofer, C., Klejch, O., and Bell, P. (2024). Ttsds – text-to-speech distribution score. arXiv:2407.12707. Disponível em: [link].
Schulzrinne, H. and Casner, S. (2003). Rtp profile for audio and video conferences with minimal control. RFC 3551, Internet Engineering Task Force.
Sultan, P. (2018). Asterisk eagi with google speech recognition. Disponível em: [link].
Unify Software and Solutions (2020). Is3000 / SIP@Net: BIM Manual. Disponível via Scribd. Disponível em: [link].
VoiceWriter (2025). Automatic speech recognition leaderboards. Disponível em: [link].
VoIP Info (2025). Voip-info.org - what is voip. Disponível em: [link].
Chen, J., Wei, Y., Lin, Z., Tan, X., Wang, B., and Zhang, L. (2024). Wavchat: A survey of spoken dialogue models. arXiv:2411.13577. Disponível em: [link].
Chowdhury, M. Q. Z. and Hussan, M. A. (2023). A review-based study on different text-to-speech technologies. arXiv:2312.11563. Disponível em: [link].
Cunha, M. A. P., Silva, K. S., Mota, D. F. M., and Vasconcellos, A. A. (2012). Uma arquitetura modular de hardware e software para pabx voip baseado em asterisk. In XXX Simpósio Brasileiro de Telecomunicações (SBT), Brasília, DF.
ElevenLabs (2025). Sip trunking integration for agents. Disponível em: [link].
Fernando, R. (2025). Voice driven ai based automated voip pbx for smes. In International Conference on Advanced Computing Technologies (ICACT 2025), Sri Lanka.
González-Bustamante, B. (2024). Textclass benchmark: A continuous elo rating of llms in social sciences. arXiv:2412.00539. Disponível em: [link].
Hugging Face (2025). Tts arena and leaderboards. Disponível em: [link].
International Telecommunication Union (1988). Recommendation g.711: Pulse code modulation (pcm) of voice frequencies. Recommendation, ITU-T, Geneva.
International Telecommunication Union (2003). Recommendation g.114: One-way transmission time. Recommendation, ITU-T, Geneva.
Jacoby, D., Zhang, T., Mohan, A., and Coady, Y. (2024). Human latency conversational turns for spoken avatar systems. arXiv:2404.16053. Disponível em: [link].
Madsen, L., Van Meggelen, J., and Bryant, R. (2013). Asterisk: The Definitive Guide. O’Reilly Media, 4th edition.
McGillivray, B. (2024). Speech-to-text api benchmarks: Accuracy, speed, and cost compared. Disponível em: [link].
MicroSIP (n.d.). Microsip help and documentation. Disponível em: [link].
Minixhofer, C., Klejch, O., and Bell, P. (2024). Ttsds – text-to-speech distribution score. arXiv:2407.12707. Disponível em: [link].
Schulzrinne, H. and Casner, S. (2003). Rtp profile for audio and video conferences with minimal control. RFC 3551, Internet Engineering Task Force.
Sultan, P. (2018). Asterisk eagi with google speech recognition. Disponível em: [link].
Unify Software and Solutions (2020). Is3000 / SIP@Net: BIM Manual. Disponível via Scribd. Disponível em: [link].
VoiceWriter (2025). Automatic speech recognition leaderboards. Disponível em: [link].
VoIP Info (2025). Voip-info.org - what is voip. Disponível em: [link].
Publicado
19/07/2026
Como Citar
COSTA, Arthur Henrique Tavares de Lyra; MORAES, Renato Mariz de.
Integração de Agentes de Inteligência Artificial com Sistema de Voz Convencional via VoIP e Asterisk. In: WORKSHOP EM DESEMPENHO DE SISTEMAS COMPUTACIONAIS E DE COMUNICAÇÃO (WPERFORMANCE), 25. , 2026, Gramado/RS.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2026
.
p. 201-212.
ISSN 2595-6167.
DOI: https://doi.org/10.5753/wperformance.2026.21812.
