Analysis of the Influence of Textual Characteristics on the Medical Regulation Automation Process

  • Benjamim de Pinho Sabino UFPI
  • Rafael T. Anchiêta IFPI
  • Raimundo S. Moura UFPI

Abstract


This paper describes an investigation of the influence of textual features on Machine Learning (ML) models for predicting response to medical requests from a Health Insurance/Plan Companies. We used NLP techniques in the pre-processing stage to clean and normalize the clinical data, in addition to retrieving acronyms and technical terms in the area. We investigated two supervised to classify exam requests into two classes: Approved and Rejected. Preliminary results show moderate accuracy for Naive Bayes (versions: MultinomialNB and BernoulliNB) and LinearSVC algorithms, being 71%, 70%, and 72%, respectively.

Keywords: Textual data, Supervised machine learning, Natural language processing, Medical regulation

References

Benicio, D. H. P. (2020). Aplicação de mineração de texto e processamento de linguagem natural em prontuários eletrônicos de pacientes para extração e transformação de texto em dado estruturado. Dissertação de Mestrado, Universidade Federal do Rio Grande do Norte (UFRN).

Bertozzo, R. J. (2022). Aplicação de machine learning em dataset de consultas médicas do SUS. Monografia, Universidade Federal de Santa Catarina (UFSC).

BRASIL (1988). Constituição da República Federativa do Brasil de 1988. Brasília, DF: Presidente da República.

Brasil (1998). Lei no 9.656, de 3 de junho de 1998. Diário Oficial da República Federativa do Brasil.

Brasil (2000). Lei no 9.961, de 28 de janeiro de 2000. Diário Oficial da República Federativa do Brasil.

da Silva, L. A., Peres, S. M., and Boscarioli, C. (2016). Introdução à mineração de dados com aplicações em R. Rio de Janeiro: Elsevier.

de Araújo, F. H. D. (2014). Descoberta de conhecimento em base de dados para o aprendizado da regulação médica/odontológica em operadora de plano de saúde. Dissertação de Mestrado, Universidade Federal do Piauí (UFPI).

Hasan, F., Roy, A., and Pan, S. (2020). Integrating text embedding with traditional NLP features for clinical relation extraction. In 2020 IEEE 32nd International Conference on Tools with Artificial Intelligence (ICTAI), pages 418–425.

Kose, I., Gokturk, M., and Kilic, K. (2015). An interactive machine-learning-based electronic fraud and abuse detection system in healthcare insurance. Applied Soft Computing, 36:283–299.

Lucini, F. R., Fogliatto, F. S., da Silveira, G. J., Neyeloff, J. L., Anzanello, M. J., Kuchenbecker, R. S., and Schaan, B. D. (2017). Text mining approach to predict hospital admissions using early medical records from the emergency department. International Journal of Medical Informatics, 100:1–8.

Magalhães Jr, G. V. (2019). Estudo da influência de características textuais no processo de automatização da regulação médica. Dissertação de Mestrado, Universidade Federal do Piauí (UFPI).

Mitchell, T. M. (1991). Key Ideas in Machine Learning. John Wiley & Sons Ltd.

Pires, R., de Souza, F. C., Rosa, G., Lotufo, R. A., and Nogueira, R. (2022). Sequence-to-sequence models for extracting information from registration and legal documents. In Uchida, S., Barney, E., and Eglin, V., editors, Document Analysis Systems, pages 83–95, Cham. Springer International Publishing.
Published
2023-10-19
SABINO, Benjamim de Pinho; ANCHIÊTA, Rafael T.; MOURA, Raimundo S.. Analysis of the Influence of Textual Characteristics on the Medical Regulation Automation Process. In: UNIFIED COMPUTING MEETING OF PIAUÍ (ENUCOMPI), 16. , 2023, Piripiri/PI. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 73-80. DOI: https://doi.org/10.5753/enucompi.2023.26619.