Agnostic Architecture for Transcription, Storage, and Analysis of Operational Audio in the Electrical Sector Using Cloud Services and Elasticsearch

Abstract


This article presents a cloud-based solution for the transcription, structured storage, and analysis of audio data from power system operations. The developed tool leverages Elasticsearch for efficient storage and indexing of transcribed data and integrates with data science pipelines for semi-automatic labeling, operator evaluation, and visualization through Business Intelligence (BI). The proposed architecture is cloud-agnostic and has been validated in AWS, GCP, and Azure environments. Experiments demonstrate an average reduction of 83.3% in the time required to search for operational events, highlighting the solution’s potential for auditing, informational efficiency, and reliability in the power sector.

Keywords: Data science applications/pipelines, Data visualization, Database user interfaces and usability, NoSQL Databases, Text mining and natural language processing

References

Carrari, G. M. (2024). Desenvolvimento de modelo de Inteligência Artificial para degravação de depoimentos judiciais. Dissertação de Mestrado, Instituto Federal do Espírito Santo.

Cavalcante, L., Lima, U., Barbosa, L., Gomes, A. L., Santana, E., and Martins, T. (2020). Improving search quality with automatic ranking evaluation and tuning. In Simpósio Brasileiro de Banco de Dados (SBBD), pages 157–162. SBC.

de Andrade, C. M., França, C., Belém, F., Jallais, G., Ganem, M. A., Texeira, G., Laender, A. H., and Gonçalves, M. A. (2023). Promptner: Uma abordagem para reconhecimento de entidades nomeadas em dados sensíveis a partir de instâncias rotuladas automaticamente. In Simpósio Brasileiro de Banco de Dados (SBBD), pages 269–281. SBC.

Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). Bert: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies, volume 1 (long and short papers), pages 4171–4186.

Floriano, A. C. (2021). Transcrições Automatizadas de Áudios para Centros de Operação do Setor Elétrico. Dissertação de mestrado, Instituto Federal de Santa Catarina (IFSC), Florianópolis, SC. Acesso em 14/05/2025.

Gonçalves, Y. T., Alves, J. V. B., Sá, B. A. D., da Silva, L. N., de Macedo, J. A. F., and da Silva, T. L. C. (2024). Speech recognition models in assisting medical history. In Anais do XXXIX Simpósio Brasileiro de Bancos de Dados (SBBD 2024), pages 485–497, Florianópolis, SC. Sociedade Brasileira de Computação.

Gormley, C. and Tong, Z. (2015). Elasticsearch: the definitive guide: a distributed real-time search and analytics engine. O’Reilly Media, Inc.

Jurafsky, D. and Martin, J. H. (2023). Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition (3rd)[draft].

Operador Nacional do Sistema Elétrico (ONS) (2023). Procedimentos de Rede – Regras e Critérios para a Operação do Sistema Interligado Nacional. [link]. Acesso em 13/05/2025.

Silva, R. F. C. (2022). Arquitectura para Processamento Integrado no Repositório de Dados e Metadados de Observação Terrestre. Dissertação de Mestrado, Universidade NOVA de Lisboa (Portugal).

Soares, J. M. S., Barbosa, L., Rego, P. A. L., Magalhães, R. P., and de Macêdo, J. A. F. (2020). Indexando impressões digitais utilizando índice invertido: Uma investigação inicial. In Simpósio Brasileiro de Banco de Dados (SBBD), pages 181–186. SBC.

Toledo, L. H. S. d. (2017). Estudo de caso de um centro de controle de sistema elétrico de potência: Uma abordagem tridimensional. Dissertação de Mestrado, Universidade Federal de Minas Gerais. Acesso em: 14/05/2025.
Published
2025-09-29
WANG, Patrícia C.; MAGALHÃES, Maurício S.; REBELO, Hugo D.; VIANNA, Leonardo T.; PORTUITA, Hugo R. V.; SIMIONI, Tássio; ROCHA, Rodrigo M.. Agnostic Architecture for Transcription, Storage, and Analysis of Operational Audio in the Electrical Sector Using Cloud Services and Elasticsearch. In: BRAZILIAN SYMPOSIUM ON DATABASES (SBBD), 40. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 774-780. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2025.247623.