Proposta de Comparação da Eficiência e Escalabilidade de Bibliotecas Python para Manipulação e Análise de Dados

Gabriel R. B. Cirillo; Guilherme Galante

doi:10.5753/eradrs.2025.6563

Gabriel R. B. Cirillo UNIOESTE
Guilherme Galante UNIOESTE

DOI: https://doi.org/10.5753/eradrs.2025.6563

Resumo

Esta proposta de pesquisa visa analisar a eficiência e escalabilidade de bibliotecas Python para manipulação e análise de dados. O objetivo central consiste em identificar as soluções mais adequadas para lidar com grandes volumes de dados, considerando o desempenho em termos de tempo de execução, uso de memória e capacidade de escalabilidade. O estudo se propõe a comparar bibliotecas como Pandas, Polars, Dask, Modin e PySpark, contribuindo para a criação de diretrizes mais eficazes no uso dessas bibliotecas.

Referências

Dask Development Team (2024). Dask: Scale the python tools you love. [link]. Acesso em: 23 Nov 2024.

Foundation, A. S. (2024). Apache spark: A unified analytics engine for large-scale data processing. Acesso em: 23 Nov 2024.

Mckinney, W. (2011). pandas: a foundational python library for data analysis and statistics. Python High Performance Science Computer.

Modin (2024). Modin: Scale your pandas workflows by changing a single line of code. Acesso em: 23 Nov 2024.

Petersohn, D. (2018). Scaling interactive data science transparently with modin. Master’s thesis, EECS Department, University of California, Berkeley.

Pola-rs (2024). Polars: Lightning-fast dataframe library for rust and python. Acesso em: 23 Nov 2024.

Pöss, M. and Floyd, C. (2000). New tpc benchmarks for decision support and web commerce. ACM SIGMOD Record, 29(4):64–71.