Vocal Tract Detection using Yolo v7
Resumo
A fala é um meio pelo qual o indivíduo pode interagir com a sociedade em que está inserido, mas a sua fragilidade pode levar à exclusão social e estigmas, por isso é necessário compreender o processo da fala de forma sistematizada e especificada. Neste trabalho, propõe-se a detecção do trato vocal utilizando o framework YOLO v7 para analise da viabilidade do processo da fala representado por uma imagem de ressonância magnética, para observar a precisão e o desempenho do modelo, auxiliando o especialista a reconhecer um padrão na fala do indivíduo e consequentemente a maturidade e evolução do framework.Referências
Bresch E. and Narayanan S., "Region Segmentation in the Frequency Domain Applied to Upper Airway Real-Time Magnetic Resonance Images" in IEEE Transactions on Medical Imaging, vol. 28, no. 3, pp. 323-338, March 2009, DOI: 10.1109/TMI.2008.928920.
C.-Y. Wang, A. Bochkovskiy, and H.-Y. M. Liao, “Yolov7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors,” arXiv preprint arXiv:2207.02696, 2022
Dwyer, B., Nelson, J. (2022), Solawetz, J., et. al. Roboflow (Version 1.0) [Software]. Available from [link].
G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger, “Densely connected convolutional networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 4700–4708, 2017
MARCELINO, F. C; HAMER, B. L. Intervenção fonoaudiológica nos atrasos de linguagem: uma visão integral. In: LOPES-HERRERA, S. A; MAXIMINO, L. P. Fonoaudiologia:Intervenções e alterações da linguagem oral infantil. 1a edição. RibeirãoPreto: Editora Novo Conceito, 2011
K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770–778, 2016.
X. Ding, X. Zhang, N. Ma, J. Han, G. Ding, and J. Sun, “Repvgg: Making vgg-style convnets great again,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 13733–13742, 2021.
C.-Y. Wang, A. Bochkovskiy, and H.-Y. M. Liao, “Yolov7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors,” arXiv preprint arXiv:2207.02696, 2022
Dwyer, B., Nelson, J. (2022), Solawetz, J., et. al. Roboflow (Version 1.0) [Software]. Available from [link].
G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger, “Densely connected convolutional networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 4700–4708, 2017
MARCELINO, F. C; HAMER, B. L. Intervenção fonoaudiológica nos atrasos de linguagem: uma visão integral. In: LOPES-HERRERA, S. A; MAXIMINO, L. P. Fonoaudiologia:Intervenções e alterações da linguagem oral infantil. 1a edição. RibeirãoPreto: Editora Novo Conceito, 2011
K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770–778, 2016.
X. Ding, X. Zhang, N. Ma, J. Han, G. Ding, and J. Sun, “Repvgg: Making vgg-style convnets great again,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 13733–13742, 2021.
Publicado
04/11/2024
Como Citar
B. FILHO, Haroldo G.; SAUNDERS, Luã C..
Vocal Tract Detection using Yolo v7. In: ESCOLA REGIONAL DE ALTO DESEMPENHO NORTE 2 (ERAD-NO2) E ESCOLA REGIONAL DE APRENDIZADO DE MÁQUINA E INTELIGÊNCIA ARTIFICIAL NORTE 2 (ERAMIA-NO2), 4. , 2024, Santarém/PA.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2024
.
p. 13-17.
DOI: https://doi.org/10.5753/erad-eramia-no2.2024.245583.