BioF4C-Frame: A Framework for Feature Preparation and Selection applied to Ecological Data Classification
Resumo
A seleção de atributos é essencial para melhorar modelos de classificação em bases biológicas, especialmente aquelas com alta dimensionalidade e inconsistências, como dados de incidência de espécies de plantas, algas e fungos. Esses dados apresentam variáveis redundantes, desequilíbrio entre classes e inconsistências taxonômicas, afetando desempenho e interpretabilidade. Apesar do potencial, a seleção de atributos é pouco explorada em contextos ecológicos e botânicos, sobretudo em hotspots como a Mata Atlântica. Este estudo apresenta o BioF4C-Frame, um framework modular que integra pré-processamento, funções de similaridade, estratégias de seleção e modelos de classificação. A análise empírica avalia como métodos como o LASSO interagem com classificadores como Random Forest, Árvores de Decisão, Naïve Bayes, Redes Neurais e Regressão Logística. O Random Forest obteve o melhor desempenho, lidando bem com dados ecológicos complexos e desbalanceados. LASSO e Redes Neurais apresentaram ganhos modestos, especialmente após deduplicação de campos de autoria taxonômica com funções de similaridade. O estudo propõe práticas de seleção para dados de biodiversidade, aprimora a confiabilidade da classificação e indica lacunas para pesquisas futuras.
Referências
Alexandre Antonelli, Chris Fry, Richard J Smith, James Eden, Rafaël H A Govaerts, Paul Kersey, Eimear Nic Lughadha, and Andrea R Zuntini. State of the world’s plants and fungi 2023. Royal Botanic Gardens, Kew, 2023.
V. Bolón-Canedo, N. Sánchez-Maroño, et al. Feature selection for high-dimensional data. Progress in Artificial Intelligence, 8(2):93–110, 2019. DOI: 10.1007/s13748-015-0080-y.
M. Bourel and A.M. Segura. Multiclass classification methods in ecology. Ecological Indicators, 85:1012–1021, 2018. DOI: 10.1016/j.ecolind.2017.11.031.
Rung-Ching Chen, Christine Dewi, Su-Wen Huang, and Rezzy Eko Caraka. Selecting critical features for data classification based on machine learning methods. Journal of Big Data, 7(1):52, 2020. DOI: 10.1186/s40537-020-00327-4.
D. Richard Cutler, Thomas C. Edwards Jr., Karen H. Beard, Adele Cutler, Kyle T. Hess, Jacob Gibson, and Joshua J. Lawler. Random forests for classification in ecology. Ecology, 88(11):2783–2792, 2007.
Dimitrios Effrosynidis and Avi Arampatzis. An evaluation of feature selection methods for environmental data. Ecological Informatics, 61:101224, 2021. DOI: 10.1016/j.ecoinf.2021.101224.
Zoë A Goodwin, David J Harris, Denis Filer, John RI Wood, and Robert W Scotland. Widespread mistaken identity in tropical plant collections. Current biology, 25(22):R1066–R1067, 2015.
J. Hortal, F. Bello, J.A.F. Diniz-Filho, T.M. Lewinsohn, J.M. Lobo, and R.J. Ladle. Seven shortfalls that beset largescale knowledge of biodiversity. Annual Review of Ecology, Evolution, and Systematics, 46:523–549, 2015.
T. Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár. Focal loss for dense object detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(4):923–936, 2017. DOI: 10.1109/TPAMI.2018.2858826.
N. Myers, R.A. Mittermeier, C.G. Mittermeier, G.A.B. Fonseca, and J. Kent. Biodiversity hotspots for conservation priorities. Nature, 403:853–858, 2000.
Elnaz Pashaei and Nizamettin Aydin. Binary black hole algorithm for feature selection and classification on biological data. Applied Soft Computing, 56, 03 2017. DOI: 10.1016/j.asoc.2017.03.002.
P. Schratz, J. Muenchow, E. Iturritxa, et al. Monitoring forest health using hyperspectral imagery: Does feature selection improve the performance of machine-learning techniques? Remote Sensing, 13(23):4832, 2021. DOI: 10.3390/rs13234832.
Nick J Turland, John Harry Wiersema, Fred R Barrie, Werner Greuter, David L Hawksworth, Patrick Stephen Herendeen, Sandra Knapp, Wolf-Henning Kusber, De-Zhu Li, Karol Marhold, et al. International Code of Nomenclature for algae, fungi, and plants (Shenzhen Code) adopted by the Nineteenth International Botanical Congress Shenzhen, China, July 2017. Koeltz botanical books, 2018.
R.J. Whittaker, M.B. Araújo, P. Jepson, R.J. Ladle, J.E.M. Watson, and K.J. Willis. Conservation biogeography: Assessment and prospect. Diversity and Distributions, 11:3–23, 2005.
E.O. Wilson. Biodiversity research requires more boots on the ground. Nature Ecology & Evolution, 1:1590–1591, 2017. DOI: 10.1038/s41559-017-0346-0.
Yongbo Zheng, Yueqiang Peng, Yingying Gao, Guo Yang, Yu Jiang, Gaojie Zhang, Linfeng Wang, Jiang Yu, Yong Huang, Ziling Wei, and Jiayu Liu. Identification and dissection of prostate cancer grounded on fatty acid metabolismcorrelative features for predicting prognosis and assisting immunotherapy. Computational Biology and Chemistry, 115:108323, 2025. ISSN 1476-9271. DOI: 10.1016/j.compbiolchem.2024.108323. URL [link].
