DFedForest: Floresta Federada Descentralizada

  • Lucas Airam C. de Souza UFRJ
  • Gabriel Antonio F. Rebello UFRJ
  • Gustavo F. Camilo UFRJ
  • Lucas C. B. Guimarães UFRJ
  • Otto Carlos M. B. Duarte UFRJ

Resumo


A eficácia dos sistemas de aprendizado de máquina depende fortemente da relevância dos dados que são empregados no treino. Usualmente, os dados são sensíveis e privados, pois são coletados de dispositivos e sensores usados no dia a dia das pessoas. A Lei Geral de Proteção de Dados (LGPD) coloca em risco a abordagem atual, pois regula o processamento remoto centralizado de dados sensíveis coletados de forma distribuída. Este artigo propõe um sistema de aprendizado de máquina distribuído baseado em algoritmos locais de floresta aleatória criados com árvores de decisão compartilhadas através da corrente de blocos. Os resultados mostram que a abordagem proposta iguala ou supera os resultados obtidos com o emprego de florestas aleatórias apenas com dados locais. Além disso, a proposta aumenta a detecção de novos ataques quando os domínios possuem distribuições de ameaça diferentes.

Referências

Androulaki et al. (2018). Hyperledger Fabric: A distributed operating system for permissioned blockchains. In Proceedings of the 13th EuroSys Conference, page 30.

Bao, X. et al. (2019). FLChain: A blockchain for auditable federated learning with trust and incentive. In 2019 5th BIGCOM, pages 151–159.

Bezerra, V. et al. (2018). Providing IoT host-based datasets for intrusion detection research. In Anais do XVIII SBSeg, pages 15–28.

Breiman, L. (1996). Bagging predictors. Machine learning, 24(2):123–140.

Breiman, L. (2001). Random forests. Machine learning, 45(1):5–32.

Camilo, G. F. et al. (2020). AutAvailChain: Disponibilização segura, controlada e automática de dados IoT usando corrente de blocos. SBRC.

de Brito Guimarães, L. C. et al. (2020). TeMIA-NT: Monitoramento e análise inteligente de ameaças de tráfego de rede. In Salão de Ferramentas SBRC 2020.

de Oliveira, M. T. et al. (2019). Towards a blockchain-based secure electronic medical record for healthcare applications. In IEEE ICC, pages 1–6.

Douceur, J. R. (2002). The sybil attack. In IPTPS, pages 251–260. Springer.

Fan, W., Wang, H., Yu, P. S., and Ma, S. (2003). Is random model better? On its accuracy and efficiency. In Third IEEE International Conference on Data Mining, pages 51–58.

Garcia, S., Grill, M., Stiborek, J., and Zunino, A. (2014). An empirical comparison of botnet detection methods. Computers & Security, 45:100–123.

Giacomelli, I. et al. (2019). Privacy-preserving collaborative prediction using random forests. AMIA Summits on Translational Science Proceedings, 2019:248.

Gorenflo, C., Lee, S., Golab, L., and Keshav, S. (2019). FastFabric: Scaling Hyperledger Fabric to 20,000 transactions per second. In 2019 IEEE ICBC, pages 455–463.

Hegedus, I., Danner, G., and Jelasity, M. (2019). Gossip learning as a decentralized alternative to federated learning. In IFIP DAIS, pages 74–90. Springer.

Li, Y. et al. (2020). A blockchain-based decentralized federated learning framework with committee consensus. arXiv preprint arXiv:2004.00773.

Liu, Y., Liu, Y., Liu, Z., Liang, Y., Meng, C., Zhang, J., and Zheng, Y. (2020). Federated Forest. IEEE Transactions on Big Data, pages 1–1.

Mantovani, R. G. and othes (2016). Hyper-parameter tuning of a decision tree induction algorithm. In 2016 5th BRACIS, pages 37–42.

McMahan, B. et al. (2016). Communication-efficient learning of deep networks from decentralized data. arXiv preprint arXiv:1602.05629.

Michelin, R. A., Dorri, A., Lunardi, R. C., Steger, M., Kanhere, S. S., Jurdak, R., and Zorzo, A. F. (2018). SpeedyChain: A framework for decoupling data from blockchain for smart cities. In MobiQuitous, pages 145–154.

Nguyen, T. D., Marchal, S., Miettinen, M., Fereidooni, H., Asokan, N., and Sadeghi, A.R. (2019). D¨IoT: A federated self-learning anomaly detection system for IoT. In 2019 IEEE 39th ICDCS, pages 756–767.

Oshiro, T. M., Perez, P. S., and Baranauskas, J. A. (2012). How many trees in a random forest? In MLDM, pages 154–168. Springer.

Palma, L. M., Vigil, M. A., Pereira, F. L., and Martina, J. E. (2019). Blockchain and smart contracts for higher education registry in brazil. IJNM, 29(3):e2061.

Pedregosa, F. et al. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12:2825–2830.

Pelloso, M. et al. (2018). A self-adaptable system for DDoS attack prediction based on the metastability theory. In IEEE GLOBECOM, pages 1–6.

Pinno, O. J. A., Gregio, A. R. A., and De Bona, L. C. (2017). Controlchain: Blockchain as a central enabler for access control authorizations in the iot. In IEEE GLOBECOM, pages 1–6.

Pisa, P. S., Abdalla, M., and Duarte, O. C. M. B. (2012). Somewhat homomorphic encryption scheme for arithmetic operations on large integers. In IEEE GIIS, pages 1–8.

Rana, S., Gupta, S. K., and Venkatesh, S. (2015). Differentially private random forest with high utility. In 2015 IEEE International Conference on Data Mining, pages 955–960.

Rebello, G. A. F. et al. (2019). Providing a sliced, secure, and isolated software infrastructure of virtual functions through blockchain technology. In IEEE HPSR, pages 1–6.

Vaidya, J., Shafiq, B., Fan, W., Mehmood, D., and Lorenzi, D. (2013). A random decision tree framework for privacy-preserving data mining. IEEE TDSC, 11(5):399–411.

Viegas, E., Santin, A., Bessani, A., and Neves, N. (2019). BigFlow: Real-time and reliable anomaly-based intrusion detection for high-speed networks. FGCS, 93:473–485.
Publicado
13/10/2020
SOUZA, Lucas Airam C. de; REBELLO, Gabriel Antonio F.; CAMILO, Gustavo F.; GUIMARÃES, Lucas C. B.; DUARTE, Otto Carlos M. B.. DFedForest: Floresta Federada Descentralizada. In: SIMPÓSIO BRASILEIRO DE SEGURANÇA DA INFORMAÇÃO E DE SISTEMAS COMPUTACIONAIS (SBSEG), 20. , 2020, Petrópolis. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 355-368. DOI: https://doi.org/10.5753/sbseg.2020.19249.

Artigos mais lidos do(s) mesmo(s) autor(es)

1 2 > >>