Acelerando Convoluções em Dispositivos Reprogramáveis
Resumo
As Redes Neurais Convolucionais (RNC) executam tarefas como classificação e detecção de objetos, exigindo alto poder de processamento. Este trabalho descreve duas arquiteturas para dispositivos FPGA para aceleração da inferência das RNC, otimizando os acessos aos pixels nas convoluções. A versão com paralelismo apresenta ganho em latência proporcional ao número de unidades de operação utilizadas com baixo custo em área do dispositivo.
Referências
Paszke, A., Chaurasia, A., Kim, S., and Culurciello, E. (2016). ENet: A deep neural network architecture for real-time semantic segmentation. CoRR, abs/1606.02147.
Sanchez, J., Soltani, N., Kulkarni, P., Chamarthi, R. V., and Tabkhi, H. (2018). A reconfigurable streaming processor for real-time low-power execution of convolutional neural networks at the edge. In International Conference on Edge Computing, pages 49–64. Springer.
Solovyev, R. A., Kalinin, A. A., Kustov, A. G., Telpukhov, D. V., and Ruhlov, V. S. (2018).
FPGA implementation of convolutional neural networks with fixed-point calculations. CoRR, abs/1808.09945.