Uma Investigação sobre Técnicas de Data Augmentation Aplicadas a Tradução Automática Português-LIBRAS

Marcos André Bezerra da Silva; Manuella Aschoff C. B. Lima; Diego Ramon Bezerra da Silva; Daniel Faustino L. de Souza; Rostand Edson O. Costa; Tiago Maritan U. de Araújo

doi:10.5753/webmedia.2024.241964

Marcos André Bezerra da Silva UFPB
Manuella Aschoff C. B. Lima UFPB
Diego Ramon Bezerra da Silva UFPB
Daniel Faustino L. de Souza UFPB
Rostand Edson O. Costa UFPB
Tiago Maritan U. de Araújo UFPB

DOI: https://doi.org/10.5753/webmedia.2024.241964

Resumo

The automatic translation from Portuguese to LIBRAS is extremely important for accessibility and inclusion of deaf individuals in society, but the scarcity of data and the high cost of building an authentic corpora pose significant challenges. Data Augmentation in Neural Machine Translation is the process of generating synthetic sentences to increase the quantity and diversity of the training set. This work investigates the use of data augmentation techniques to improve the performance of Portuguese-LIBRAS automatic translation using the BLEU metric. Among the techniques analyzed, back-translation and its combination with synonym substitution using part-of-speech tagging stood out as the most effective in enhancing the translation model and can be used to increase the diversity of underrepresented datasets.

Palavras-chave: Tradução Automática Neural, Aumento de Dados, Libras

Referências

T. M. U. Araújo. 2012. Uma solução para geração automática de trilhas em língua brasileira de sinais em conteúdos multimídia. Tese (Doutorado em Automação e Sistemas). Universidade Federal do Rio Grande do Norte, Natal. [link]

Renan Costa e Diego Ramon Silva e Samuel Moreira e Daniel Faustino Souza e Rostand Edson Costa e Tiago Maritan Araújo. 2024. Avaliação do uso de modelos de aprendizagem profunda na tradução automática de línguas de sinais. Revista Principia - Divulgação Científica e Tecnológica do IFPB 0, 0 (2024). [link]

Marzieh Fadaee, Arianna Bisazza, and Christof Monz. 2017. Data Augmentation for Low-Resource Neural Machine Translation. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), Regina Barzilay and Min-Yen Kan (Eds.). Association for Computational Linguistics, Vancouver, Canada, 567–573. DOI: 10.18653/v1/P17-2090

Steven Y. Feng, Varun Gangal, Jason Wei, Sarath Chandar, Soroush Vosoughi, Teruko Mitamura, and Eduard Hovy. 2021. A Survey of Data Augmentation Approaches for NLP. In Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, Chengqing Zong, Fei Xia, Wenjie Li, and Roberto Navigli (Eds.). Association for Computational Linguistics, Online, 968–988. DOI: 10.18653/v1/2021.findings-acl.84

Jiatao Gu, Hany Hassan, Jacob Devlin, and Victor O. K. Li. 2018. Universal Neural Machine Translation for Extremely Low Resource Languages. [link]

Nathan Hartmann, Erick Fonseca, Christopher Shulby, Marcos Treviso, Jessica Rodrigues, and Sandra Aluisio. 2017. Portuguese Word Embeddings: Evaluating on Word Analogies and Natural Language Tasks. In Proceedings of the XI Brazilian Symposium in Information and Human Language Technology and Collocated Events (STIL 2017). Uberlandia, Minas Gerais, Brazil.

Jin Yea Jang, Han-Mu Park, Saim Shin, Suna Shin, Byungcheon Yoon, and Gahgene Gweon. 2022. Automatic Gloss-level Data Augmentation for Sign Language Translation. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, Nicoletta Calzolari, Frédéric Béchet, Philippe Blache, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Hélène Mazo, Jan Odijk, and Stelios Piperidis (Eds.). European Language Resources Association, Marseille, France, 6808–6813. [link]

Z. Liang, H. Li, and J. Chai. 2023. Sign Language Translation: A Survey of Approaches and Techniques. Electronics 12, 12 (2023). DOI: 10.3390/electronics12122678

Manuella Aschoff C. B. Lima, Tiago Maritan U. de Araújo, Rostand E. O. Costa, and Erickson S. Oliveira. 2022. A machine translation mechanism of Brazilian Portuguese to Libras with syntactic-semantic adequacy. Natural Language Engineering 28, 3 (2022), 271–294. DOI: 10.1017/S1351324920000662

Alexandre Magueresse, Vincent Carles, and Evan Heetderks. 2020. Low-resource Languages: A Review of Past Work and Future Challenges. CoRR abs/2006.07264 (2020). [link]

Mieradilijiang Maimaiti, Yang Liu, Huanbo Luan, Zegao Pan, and Maosong Sun. 2021. Improving Data Augmentation for Low-Resource NMT Guided by POS-Tagging and Paraphrase Embedding. ACM Trans. Asian Low-Resour. Lang. Inf. Process. 20, 6, Article 107 (aug 2021), 21 pages. DOI: 10.1145/3464427

Amit Moryossef, Kayo Yin, Graham Neubig, and Yoav Goldberg. 2021. Data Augmentation for Sign Language Gloss Translation. In Proceedings of the 1st International Workshop on Automatic Translation for Signed and Spoken Languages (AT4SSL), Dimitar Shterionov (Ed.). Association for Machine Translation in the Americas, Virtual. [link]

Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, Pierre Isabelle, Eugene Charniak, and Dekang Lin (Eds.). Association for Computational Linguistics, Philadelphia, Pennsylvania, USA, 311–318. DOI: 10.3115/1073083.1073135

Alberto Poncelas, Dimitar Shterionov, Andy Way, Gideon Maillette de Buy Wenniger, and Peyman Passban. 2018. Investigating Backtranslation in Neural Machine Translation. In Proceedings of the 21st Annual Conference of the European Association for Machine Translation, Juan Antonio Pérez-Ortiz, Felipe Sánchez-Martínez, Miquel Esplà-Gomis, Maja Popović, Celia Rico, André Martins, Joachim Van den Bogaert, and Mikel L. Forcada (Eds.). Alicante, Spain, 269–278. [link]

Surangika Ranathunga, En-Shiun Annie Lee, Marjana Prifti Skenduli, Ravi Shekhar, Mehreen Alam, and Rishemjit Kaur. 2023. Neural Machine Translation for Low-resource Languages: A Survey. ACM Comput. Surv. 55, 11, Article 229 (feb 2023), 37 pages. DOI: 10.1145/3567592

Víctor M. Sánchez-Cartagena, Miquel Esplà-Gomis, Juan Antonio Pérez-Ortiz, and Felipe Sánchez-Martínez. 2021. Rethinking Data Augmentation for Low-Resource Neural Machine Translation: A Multi-Task Learning Approach. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, Marie-Francine Moens, Xuanjing Huang, Lucia Specia, and Scott Wen-tau Yih (Eds.). Association for Computational Linguistics, Online and Punta Cana, Dominican Republic, 8502–8516. DOI: 10.18653/v1/2021.emnlp-main.669

Vinícius Veríssimo, Cecília Silva, Vitor Hanael, Caio Moraes, Rostand Costa, Tiago Maritan, Manuella Aschoff, and Thaís Gaudêncio. 2019. A study on the use of sequence-to-sequence neural networks for automatic translation of brazilian portuguese to libras. In Proceedings of the 25th Brazillian Symposium on Multimedia and the Web. 101–108.

Jing Wang and Lina Yang. 2022. Effective Data Augmentation Methods for CCMT 2022. In Machine Translation, Tong Xiao and Juan Pino (Eds.). Springer Nature Singapore, Singapore, 135–142.

Xinyi Wang, Hieu Pham, Zihang Dai, and Graham Neubig. 2018. SwitchOut: an Efficient Data Augmentation Algorithm for Neural Machine Translation. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Ellen Riloff, David Chiang, Julia Hockenmaier, and Jun’ichi Tsujii (Eds.). Association for Computational Linguistics, Brussels, Belgium, 856–861. DOI: 10.18653/v1/D18-1100