Acelerando Convoluções em Dispositivos Reprogramáveis

Welbert Hime Lino Castro; Fábio Luís Livi Ramos; Bruno Silveira Neves

doi:10.5753/eradrs.2020.10760

Welbert Hime Lino Castro UNIPAMPA
Fábio Luís Livi Ramos UNIPAMPA
Bruno Silveira Neves UNIPAMPA

DOI: https://doi.org/10.5753/eradrs.2020.10760

Resumo

As Redes Neurais Convolucionais (RNC) executam tarefas como classificação e detecção de objetos, exigindo alto poder de processamento. Este trabalho descreve duas arquiteturas para dispositivos FPGA para aceleração da inferência das RNC, otimizando os acessos aos pixels nas convoluções. A versão com paralelismo apresenta ganho em latência proporcional ao número de unidades de operação utilizadas com baixo custo em área do dispositivo.

Palavras-chave: Arquitetura de Computadores e Processadores, Arquiteturas Dedicadas e Específicas (GPUs, FPGAs, e outras)

Referências

Goodfellow, I., Bengio, Y., and Courville, A. (2016). Deep learning. MIT press, Series: Adaptive computation and machine learnng series.

Paszke, A., Chaurasia, A., Kim, S., and Culurciello, E. (2016). ENet: A deep neural network architecture for real-time semantic segmentation. CoRR, abs/1606.02147.

Sanchez, J., Soltani, N., Kulkarni, P., Chamarthi, R. V., and Tabkhi, H. (2018). A reconfigurable streaming processor for real-time low-power execution of convolutional neural networks at the edge. In International Conference on Edge Computing, pages 49–64. Springer.

Solovyev, R. A., Kalinin, A. A., Kustov, A. G., Telpukhov, D. V., and Ruhlov, V. S. (2018).

FPGA implementation of convolutional neural networks with fixed-point calculations. CoRR, abs/1808.09945.