Análise automática de relatórios de acreditação usando aprendizagem de máquina
Resumo
Durante um processo de acreditação de organismos de inspeção, relatórios precisam ser revisados por uma equipe técnica do Inmetro. Utilizando as respostas dadas nesses relatórios, este estudo propõe um procedimento para análise automática dos relatórios de acreditação do Inmetro. O objetivo é categorizar os componentes dos relatórios em adequados ou inadequados, evitando a necessidade de revisão manual. Além disso, pretende-se aumentar a eficiência dos modelos utilizando features customizadas, que seriam elementos identificados como importantes para que uma resposta seja considerada adequada. Nos experimentos, o SVM foi o algoritmo com melhor resultado para o problema e a utilização de features customizadas melhorou o desempenho final a depender da pergunta e do algoritmo utilizado.
Palavras-chave:
Classificação de Texto, Mineração de texto, Engenharia de Features, Acreditação
Referências
ALETRAS, N.; TSARAPATSANIS, D.; PREOŢIUC-PIETRO, D.; LAMPOS, V. Predicting judicial decisions of the European court of human rights: A natural language processing perspective. PeerJ Computer Science, v. 2016, n. 10, p. 1–19, 2016.
BAHGAT, E. M.; RADY, S.; GAD, W.; MOAWAD, I. F. Efficient email classification approach based on semantic methods. Ain Shams Engineering Journal, v. 9, n. 4, p. 3259–3269, 2018.
CACCAMISI, A.; JØRGENSEN, L.; DALIANIS, H.; ROSENLUND, M. Natural language processing and machine learning to enable automatic extraction and classification of patients’ smoking status from electronic medical records. Upsala Journal of Medical Sciences, v. 125, n. 4, p. 1–9, 2020.
CARUANA, R.; KARAMPATZIAKIS, N.; YESSENALINA, A. An empirical evaluation of supervised learning in high dimensions. Proceedings of the 25th International Conference on Machine Learning, p. 96–103, 2008.
INMETRO - Instituto Nacional de Metrologia, Qualidade e Tecnologia, Acreditação. Disponível em: [https://www.gov.br/inmetro/pt-br/assuntos/acreditacao/cgcre/acreditacao]. Acesso em: 15 abr. 2021.
FAWCETT, T. An introduction to ROC analysis. Pattern recognition letters, v. 27, n. 8, p. 861-874, 2006.
OROZCO, L. E. J., MANZANERA, O. M., NESTEROV, S. V., KAJANDER, S., KINUTI, J. The machine learning horizon in cardiac hybrid imaging. European Journal of Hybrid Imaging, v. 2, n. 1, p. 1-15, 2018.
LEI, M.; GE, J.; LI, Z.; et al. Automatically classify Chinese judgment documents utilizing machine learning algorithms. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), v. 10179 LNCS, n. March, p. 3–17, 2017.
PALATUCCI, M.; MITCHELL, T. M. Classification in very high dimensional problems with handfuls of examples. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), v. 4702 LNAI, p. 212–223, 2007.
PARTALIDOU, E.; SPYROMITROS-XIOUFIS, E.; DOROPOULOS, S.; VOLOGIANNIDIS, S.; DIAMANTARAS, K. I. Design and implementation of an open source Greek pos tagger and entity recognizer using spaCy. arXiv, p. 337–341, 2019.
UKEY, K. P.; ALVI, A. S. Text Classification Using Support Vector Machine with Mixture of Kernel. International Journal of Engineering Research & Technology (IJERT), v. 1, n. 3, p. 55–58, 2012.
WEI, F.; QIN, H.; YE, S.; ZHAO, H. Empirical Study of deep learning for text classification in legal document review. arXiv, 2019.
BAHGAT, E. M.; RADY, S.; GAD, W.; MOAWAD, I. F. Efficient email classification approach based on semantic methods. Ain Shams Engineering Journal, v. 9, n. 4, p. 3259–3269, 2018.
CACCAMISI, A.; JØRGENSEN, L.; DALIANIS, H.; ROSENLUND, M. Natural language processing and machine learning to enable automatic extraction and classification of patients’ smoking status from electronic medical records. Upsala Journal of Medical Sciences, v. 125, n. 4, p. 1–9, 2020.
CARUANA, R.; KARAMPATZIAKIS, N.; YESSENALINA, A. An empirical evaluation of supervised learning in high dimensions. Proceedings of the 25th International Conference on Machine Learning, p. 96–103, 2008.
INMETRO - Instituto Nacional de Metrologia, Qualidade e Tecnologia, Acreditação. Disponível em: [https://www.gov.br/inmetro/pt-br/assuntos/acreditacao/cgcre/acreditacao]. Acesso em: 15 abr. 2021.
FAWCETT, T. An introduction to ROC analysis. Pattern recognition letters, v. 27, n. 8, p. 861-874, 2006.
OROZCO, L. E. J., MANZANERA, O. M., NESTEROV, S. V., KAJANDER, S., KINUTI, J. The machine learning horizon in cardiac hybrid imaging. European Journal of Hybrid Imaging, v. 2, n. 1, p. 1-15, 2018.
LEI, M.; GE, J.; LI, Z.; et al. Automatically classify Chinese judgment documents utilizing machine learning algorithms. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), v. 10179 LNCS, n. March, p. 3–17, 2017.
PALATUCCI, M.; MITCHELL, T. M. Classification in very high dimensional problems with handfuls of examples. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), v. 4702 LNAI, p. 212–223, 2007.
PARTALIDOU, E.; SPYROMITROS-XIOUFIS, E.; DOROPOULOS, S.; VOLOGIANNIDIS, S.; DIAMANTARAS, K. I. Design and implementation of an open source Greek pos tagger and entity recognizer using spaCy. arXiv, p. 337–341, 2019.
UKEY, K. P.; ALVI, A. S. Text Classification Using Support Vector Machine with Mixture of Kernel. International Journal of Engineering Research & Technology (IJERT), v. 1, n. 3, p. 55–58, 2012.
WEI, F.; QIN, H.; YE, S.; ZHAO, H. Empirical Study of deep learning for text classification in legal document review. arXiv, 2019.
Publicado
18/07/2021
Como Citar
VICK NETO, Oduvaldo; CARMO, Luiz F. R. C.; SOUZA, Rosembergue P..
Análise automática de relatórios de acreditação usando aprendizagem de máquina. In: BRAZILIAN E-SCIENCE WORKSHOP (BRESCI), 15. , 2021, Evento Online.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2021
.
p. 105-112.
ISSN 2763-8774.
DOI: https://doi.org/10.5753/bresci.2021.15795.