Vocal Tract Detection using Yolo v8

Haroldo G. B. Filho; Luã C. Saunders

doi:10.5753/erad-eramia-no2.2024.245583

Haroldo G. B. Filho UFMA
Luã C. Saunders UFMA

DOI: https://doi.org/10.5753/erad-eramia-no2.2024.245583

Resumo

A fala é um meio pelo qual o indivíduo pode interagir com a sociedade em que está inserido, mas a sua fragilidade pode levar à exclusão social e estigmas, por isso é necessário compreender o processo da fala de forma sistematizada e especificada. Neste trabalho, propõe-se a detecção do trato vocal utilizando o framework YOLO v7 para analise da viabilidade do processo da fala representado por uma imagem de ressonância magnética, para observar a precisão e o desempenho do modelo, auxiliando o especialista a reconhecer um padrão na fala do indivíduo e consequentemente a maturidade e evolução do framework.

Referências

Bresch E. and Narayanan S., "Region Segmentation in the Frequency Domain Applied to Upper Airway Real-Time Magnetic Resonance Images" in IEEE Transactions on Medical Imaging, vol. 28, no. 3, pp. 323-338, March 2009, DOI: 10.1109/TMI.2008.928920.

C.-Y. Wang, A. Bochkovskiy, and H.-Y. M. Liao, “Yolov7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors,” arXiv preprint arXiv:2207.02696, 2022

Dwyer, B., Nelson, J. (2022), Solawetz, J., et. al. Roboflow (Version 1.0) [Software]. Available from [link].

G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger, “Densely connected convolutional networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 4700–4708, 2017

MARCELINO, F. C; HAMER, B. L. Intervenção fonoaudiológica nos atrasos de linguagem: uma visão integral. In: LOPES-HERRERA, S. A; MAXIMINO, L. P. Fonoaudiologia:Intervenções e alterações da linguagem oral infantil. 1a edição. RibeirãoPreto: Editora Novo Conceito, 2011

K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770–778, 2016.

X. Ding, X. Zhang, N. Ma, J. Han, G. Ding, and J. Sun, “Repvgg: Making vgg-style convnets great again,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 13733–13742, 2021.

Vocal Tract Detection using Yolo v7

Resumo

Referências