Reduced precision floating-point optimization for Deep Neural Network On-Device Learning on microcontrollers

Nadalini, Davide; Rusci, Manuele; Benini, Luca; Conti, Francesco

doi:10.1016/j.future.2023.07.020

Enabling On-Device Learning (ODL) for Ultra-Low-Power Micro-Controller Units (MCUs) is a key step for post-deployment adaptation and fine-tuning of Deep Neural Network (DNN) models in future TinyML applications. This paper tackles this challenge by introducing a novel reduced precision optimization technique for ODL primitives on MCU-class devices, leveraging the State-of-Art advancements in RISC-V RV32 architectures with support for vectorized 16-bit floating-point (FP16) Single-Instruction Multiple-Data (SIMD) operations. Our approach for the Forward and Backward steps of the Back Propagation training algorithm is composed of specialized shape transform operators and Matrix Multiplication (MM) kernels, accelerated with parallelization and loop unrolling. When evaluated on a single training step of a 2D Convolution layer, the SIMD-optimized FP16 primitives result up to 1.72x faster than the FP32 baseline on a RISC-V-based 8+1-core MCU. An average computing efficiency of 3.11 Multiply and Accumulate operations per clock cycle (MAC/clk) and 0.81 MAC/clk is measured for the end-to-end training tasks of a ResNet8 and a DS-CNN for Image Classification and Keyword Spotting, respectively - requiring 17.1 ms and 6.4 ms on the target platform to compute a training step on a single sample. Overall, our approach results more than two orders of magnitude faster than existing ODL software frameworks for single-core MCUs and outperforms by 1.6x previous FP32 parallel implementations on a Continual Learning setup.& COPY; 2023 Elsevier B.V. All rights reserved.

Reduced precision floating-point optimization for Deep Neural Network On-Device Learning on microcontrollers / Nadalini, Davide; Rusci, Manuele; Benini, Luca; Conti, Francesco. - In: FUTURE GENERATION COMPUTER SYSTEMS. - ISSN 0167-739X. - 149:(2023), pp. 212-226. [10.1016/j.future.2023.07.020]

Reduced precision floating-point optimization for Deep Neural Network On-Device Learning on microcontrollers

Davide Nadalini;Manuele Rusci;Luca Benini;Francesco Conti

2023

Abstract

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno del prodotto
	
				2023
			
	Codice DOI
	
				https://dx.doi.org/10.1016/j.future.2023.07.020
			
	Titolo della Rivista
	
				FUTURE GENERATION COMPUTER SYSTEMS
			
	Appare nelle tipologie
	
				1.1 Articolo in rivista

File in questo prodotto:

File	Dimensione	Formato
ArXiv.pdf accesso aperto Tipologia: 1. Preprint / submitted version [pre- review] Licenza: Pubblico - Tutti i diritti riservati Dimensione 8.52 MB Formato Adobe PDF Visualizza/Apri	8.52 MB	Adobe PDF	Visualizza/Apri
1-s2.0-S0167739X23002728-main.pdf accesso riservato Tipologia: 2a Post-print versione editoriale / Version of Record Licenza: Non Pubblico - Accesso privato/ristretto Dimensione 3.63 MB Formato Adobe PDF Visualizza/Apri Richiedi una copia	3.63 MB	Adobe PDF	Visualizza/Apri Richiedi una copia

Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11583/2982341

Nome	Dominio	Durata	Descrizione
s_.*	plu.mx	sessione	recupero grafico citazioni sociali da plumx
A_.*	core.ac.uk	7 giorni	recupero pubblicazioni consigliate per il pannello core-recommander
GS_.*	gstatic.com	richiesta http	visualizza grafico citazioni
CC_.*	creativecommons.org	richiesta http	visualizza licenza bitstream

PORTO @ Archivio Istituzionale della Ricerca

Reduced precision floating-point optimization for Deep Neural Network On-Device Learning on microcontrollers

Davide Nadalini;Manuele Rusci;Luca Benini;Francesco Conti

2023

Abstract

Scheda breve Scheda completa Scheda completa (DC)

Pubblicazioni consigliate

Informazioni

Conferma cancellazione

Scheda breve

Scheda completa

Scheda completa (DC)