Investigating Lexical NP-Chunking with Universal Dependencies for Portuguese
Resumo
A tarefa de análise superficial consiste em recuperar uma quantidade limitada de informações sintáticas de frases escritas em linguagem natural. Este trabalho tem como objetivo identificar e extrair um tipo particular de sintagma nominal denominado sintagma nominal lexical (SNL). Os estudos iniciais mostrados neste artigo demostram, em primeira mão, a possibilidade de identificar e extrair SNL a partir de sentenças escritas em português e anotadas pelo formalismo da Universal Dependency. Também demonstramos como a tarefa de análise sintática superficial pode se beneficiar das marcações de PoS usando um comitê de algoritmos de aprendizado de máquina.
Referências
Branco, A. and Silva, J. R. (2006). A suite of shallow processing tools for Portuguese: LX-suite. In Proceedings of the Eleventh Conference of the European Chapter of the Association for Computational Linguistics: Posters & Demonstrations, pages 179-182, Trento, Italy. Association for Computational Linguistics.
Brill, E. D. (1993). A corpus-based approach to language learning. PhD thesis, University of Pennsylvania.
Choi, M.-S., Lim, C. S., and Choi, K.-S. (2005). Automatic Partial Parsing Rule Acquisition Using Decision Tree Induction. In Dale, R., Wong, K.-F., Su, J., and Kwong, O. Y., editors, Natural Language Processing - IJCNLP 2005, pages 143-154, Berlin, Heidelberg. Springer Berlin Heidelberg.
da Silva, J. R. M. F. (2007). Shallow processing of Portuguese: From sentence chunking to nominal lemmatization. PhD thesis, Universidade de Lisboa, Faculdade de Ciências.
Garrido Alenda, A., Gilabert Zarco, P., Pérez-Ortiz, J. A., Pertusa, A., Ramírez Sánchez, G., Sánchez-Martínez, F., Scalco, M. A., and Forcada, M. L. (2004). Shallow parsing for Portuguese-Spanish machine translation. In Workshop Notes of TASHA'2003, pages 21-24, Lisboa, Portugal. Edições Colibri.
Hammerton, J., Osborne, M., Armstrong, S., and Daelemans, W. (2002). Introduction to Special Issue on Machine Learning Approaches to Shallow Parsing. Journal of Machine Learning Research, 2:551-558.
Lacroix, O. (2018). Investigating NP-Chunking with Universal Dependencies for English. In Proceedings of the Second Workshop on Universal Dependencies (UDW 2018), pages 85-90, Brussels, Belgium. Association for Computational Linguistics.
Littlestone, N. (1988). Learning quickly when irrelevant attributes abound: A new linear-threshold algorithm. Machine Learning, 2(4):285-318.
McDonald, R., Nivre, J., Quirmbach-Brundage, Y., Goldberg, Y., Das, D., Ganchev, K., Hall, K., Petrov, S., Zhang, H., Täckström, O., Bedini, C., Bertomeu Castelló, N., and Lee, J. (2013). Universal Dependency Annotation for Multilingual Parsing. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 92-97, Sofia, Bulgaria. Association for Computational Linguistics.
Molina, A. and Pla, F. (2002). Shallow Parsing using Specialized HMMs. Journal of Machine Learning Research, 2(4):595-613.
Oliveira, C. and Freitas, M. C. d. (2006). Um modelo de sintagma nominal lexical na recuperação de informações. XI Simpósio Nacional e I Simpósio Internacional de Letras e Linguística (XI SILEL), pages 778-786.
Rademaker, A., Chalub, F., Real, L., Freitas, C., Bick, E., and de Paiva, V. (2017). Universal Dependencies for Portuguese. In Proceedings of the Fourth International Conference on Dependency Linguistics (Depling 2017), pages 197-206, Pisa,Italy. Linköping University Electronic Press.
Radford, A. (1981). Syntactic Theory and the Structure of English: A Minimalist Approach. Cambridge Textbooks in Linguistics.
Ramshaw, L. A. and Marcus, M. P. (1999). Text Chunking Using Transformation-Based Learning. In Armstrong, S., Church, K., Isabelle, P., Manzi, S., Tzoukermann, E., and Yarowsky, D., editors, Natural Language Processing Using Very Large Corpora, pages 157-176. Springer Netherlands, Dordrecht.
Sang, E. T. K. (2002). Memory-Based Shallow Parsing. Journal of Machine Learning Research, 2:559-595.
Santos, D., Simões, A., Frankenberg-Garcia, A., Pinto, A., Barreiro, A., Maia, B., Mota, C., Oliveira, D., Bick, E., Ranchhod, E., et al. (2004). Linguateca: um centro de recursos distribuído para o processamento computacional da língua portuguesa. In Iberomerican Conference on Artificial Intelligence, pages 147-154. Guillermo de Ita Luna, Olac Fuentes Chávez and, Mauricio Osorio Galindo.
Santos, D. S. M. (2021). Grandes quantidades de informação: um olhar crítico. In II Congresso Internacional em Humanidades Digitais, Online. UFRJ.
Sharma, A., Gupta, S., Motlani, R., Bansal, P., Shrivastava, M., Mamidi, R., and Sharma, D. M. (2016). Shallow Parsing Pipeline - Hindi-English Code-Mixed Social Media Text. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1340-1345, San Diego, California. Association for Computational Linguistics.
Topsakal, O., Açikgöz, O., Gürkan, A. T., Kanburoglu, A. B., Ertopçu, B., Özenç, B., Çam, I., Avar, B., Ercan, G., and Yildiz, O. T. (2017). Shallow parsing in Turkish. In 2017 International Conference on Computer Science and Engineering (UBMK), pages 480-485.