Aplicação Assistiva para Audiodescrição de Imagens

Iury Santos; Brendel Santos; Alcides Benicasa; Antônio Almeida; Hiury Silva; Paulo Silva; Mikaele Mendonça

Iury Santos – Universidade Federal De Sergipe (UFS)
Brendel Santos - Universidade Federal De Sergipe (UFS)
Alcides Benicasa - Universidade Federal De Sergipe (UFS)
Antônio Almeida - Universidade Federal De Sergipe (UFS)
Hiury Silva - Universidade Federal De Sergipe (UFS)
Paulo Silva - Universidade Federal De Sergipe (UFS)
Mikaele Mendonça - Universidade Federal De Sergipe (UFS)

Resumo

A inclusão das pessoas com deﬁciência na sociedade é de grande importância para a formação de uma sociedade ampla e plural. Devido aos diversos avanc¸os tecnológicos como a miniaturização de dispositivos computacionais e poderosas técnicas de inteligência artiﬁcial, o presente trabalho proprôe o desenvolvimento de uma aplicação para audiodescrição de imagens em tempo real, permitindo que as pessoas com deﬁciência visual obtenham informações a respeito do ambiente ao seu redor no formato de sentenc¸as em linguagemnatural. Experimentos foram realizados demonstrando comparações e análises entre descrições humanas e as geradas pela aplicação. Os resultados foram satisfatórios, uma vez que, foram obtidas sentenças informativas a respeito da cena.

Referências

DEMOGRAFICO, I. C. características gerais da populacao, religião e pessoas com deficiencia. Rio de Janeiro: Instituto Brasileiro de Geografia e Estatistica, 2010.

HICKS, S. L. et al. A depth-based head-mounted visual display to aid navigation in partially sighted individuals. PLOS ONE, Public Library of Science, v. 8, n. 7, p. 1–8, 07 2013. Disponivel em: http://dx.doi.org/10.1371\%2Fjournal.pone.0067695i.

JOHNSON, J.; KARPATHY, A.; FEI-FEI, L. Densecap: Fully convolutional localization networks for dense captioning. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2016.

KARPATHY, A. Connecting Images and Natural Language. Tese (Doutorado) —
Stanford University, 2016.

LEWIS, C. et al. Apparatus and method for augmenting sight. Google Patents, 2013. US Patent 8,494,298. Disponivel em: hhttps://www.google.com/patents/US8494298i.

NAMAN, E.; SHASHUA, A.; WEXLER, Y. User wearable visual assistance system. Google Patents, 2012. US Patent App. 13/397,919. Disponivel em:
hhttps://www.google.com/patents/US20120212593i.

ORGANIZATION, W. H. et al. World report on disability. [S.l.]: World Health Organization, 2011.

TRAN, K. et al. Rich image captioning in the wild. In: The IEEE Conference on
Computer Vision and Pattern Recognition (CVPR) Workshops. [S.l.: s.n.], 2016.

VINYALS, O. et al. Show and tell: A neural image caption generator. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2015. p. 3156–3164