A Backpack Full of Skills: Egocentric Video Understanding with Diverse Task Perspectives

Peirone, SIMONE ALBERTO; Pistilli, Francesca; Alliegro, Antonio; Averta, Giuseppe

doi:10.1109/CVPR52733.2024.01730

Human comprehension of a video stream is naturally broad: in a few instants, we are able to understand what is happening, the relevance and relationship of objects, and forecast what will follow in the near future, everything all at once. We believe that - to effectively transfer such an holistic perception to intelligent machines - an important role is played by learning to correlate concepts and to abstract knowledge coming from different tasks, to synergistically exploit them when learning novel skills. To accomplish this, we look for a unified approach to video understanding which combines shared temporal modelling of human actions with minimal overhead, to support multiple downstream tasks and enable cooperation when learning novel skills. We then propose EgoPack, a solution that creates a collection of task perspectives that can be carried across downstream tasks and used as a potential source of additional insights, as a backpack of skills that a robot can carry around and use when needed. We demonstrate the effectiveness and efficiency of our approach on four Ego4D benchmarks, outperforming current state-of-the-art methods.

A Backpack Full of Skills: Egocentric Video Understanding with Diverse Task Perspectives / Peirone, SIMONE ALBERTO; Pistilli, Francesca; Alliegro, Antonio; Averta, Giuseppe. - ELETTRONICO. - (2024), pp. 18275-18285. (Intervento presentato al convegno Conference on Computer Vision and Pattern Recognition (CVPR) tenutosi a Seattle WA (USA) nel 16-22 June 2024) [10.1109/CVPR52733.2024.01730].

A Backpack Full of Skills: Egocentric Video Understanding with Diverse Task Perspectives

Simone Alberto Peirone;Francesca Pistilli;Antonio Alliegro;Giuseppe Averta

2024

Abstract

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno del prodotto
	
				2024
			
	Codice ISBN
	
				979-8-3503-5300-6
			
	Appare nelle tipologie
	
				4.1 Contributo in Atti di convegno

File in questo prodotto:

File	Dimensione	Formato
Peirone_et_al__CVPR_camera.pdf accesso riservato Tipologia: 2. Post-print / Author's Accepted Manuscript Licenza: Non Pubblico - Accesso privato/ristretto Dimensione 2.2 MB Formato Adobe PDF Visualizza/Apri Richiedi una copia	2.2 MB	Adobe PDF	Visualizza/Apri Richiedi una copia
A_Backpack_Full_of_Skills_Egocentric_Video_Understanding_with_Diverse_Task_Perspectives.pdf accesso riservato Tipologia: 2a Post-print versione editoriale / Version of Record Licenza: Non Pubblico - Accesso privato/ristretto Dimensione 2.26 MB Formato Adobe PDF Visualizza/Apri Richiedi una copia	2.26 MB	Adobe PDF	Visualizza/Apri Richiedi una copia

Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11583/2988003

Nome	Dominio	Durata	Descrizione
s_.*	plu.mx	sessione	recupero grafico citazioni sociali da plumx
A_.*	core.ac.uk	7 giorni	recupero pubblicazioni consigliate per il pannello core-recommander
GS_.*	gstatic.com	richiesta http	visualizza grafico citazioni
CC_.*	creativecommons.org	richiesta http	visualizza licenza bitstream

PORTO @ Archivio Istituzionale della Ricerca

A Backpack Full of Skills: Egocentric Video Understanding with Diverse Task Perspectives

Simone Alberto Peirone;Francesca Pistilli;Antonio Alliegro;Giuseppe Averta

2024

Abstract

Scheda breve Scheda completa Scheda completa (DC)

Pubblicazioni consigliate

Informazioni

Conferma cancellazione

Scheda breve

Scheda completa

Scheda completa (DC)