A Parallel MapReduce Algorithm to Efficiently Support Itemset Mining on High Dimensional Data

Apiletti, Daniele; Baralis, Elena; Cerquitelli, Tania; Garza, Paolo; Pulvirenti, Fabio; Michiardi, Pietro

doi:10.1016/j.bdr.2017.10.004

In today’s world, large volumes of data are being continuously generated by many scientific applications, such as bioinformatics or networking. Since each monitored event is usually characterized by a variety of features, high-dimensional datasets have been continuously generated. To extract value from these complex collections of data, different exploratory data mining algorithms can be used to discover hidden and non-trivial correlations among data. Frequent closed itemset mining is an effective but computational expensive technique that is usually used to support data exploration. Thanks to the spread of distributed and parallel frameworks, the development of scalable approaches able to deal with the so called Big Data has been extended to frequent itemset mining. Unfortunately, most of the current algorithms are designed to cope with low-dimensional datasets, delivering poor performances in those use cases characterized by high-dimensional data. This work introduces PaMPa-HD, a MapReduce-based frequent closed itemset mining algorithm for high dimensional datasets. An efficient solution has been proposed to parallelize and speed up the mining process. Furthermore, different strategies have been proposed to easily configure the algorithm parameter. The experimental results, performed on real-life high-dimensional use cases, show the efficiency of the proposed approach in terms of execution time, load balancing and robustness to memory issues.

A Parallel MapReduce Algorithm to Efficiently Support Itemset Mining on High Dimensional Data / Apiletti, Daniele; Baralis, Elena; Cerquitelli, Tania; Garza, Paolo; Pulvirenti, Fabio; Michiardi, Pietro. - In: BIG DATA RESEARCH. - ISSN 2214-5796. - 10:(2017), pp. 53-69. [10.1016/j.bdr.2017.10.004]

A Parallel MapReduce Algorithm to Efficiently Support Itemset Mining on High Dimensional Data

Apiletti, Daniele;Baralis, Elena;Cerquitelli, Tania;Garza, Paolo;Pulvirenti, Fabio;Michiardi, Pietro

2017

Abstract

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno del prodotto
	
				2017
			
	Codice DOI
	
				https://dx.doi.org/10.1016/j.bdr.2017.10.004
			
	Titolo della Rivista
	
				BIG DATA RESEARCH
			
	Appare nelle tipologie
	
				1.1 Articolo in rivista

File in questo prodotto:

File	Dimensione	Formato
PampaHD_BDR.pdf accesso riservato Descrizione: Articolo principale - versione editoriale Tipologia: 2a Post-print versione editoriale / Version of Record Licenza: Non Pubblico - Accesso privato/ristretto Dimensione 2.94 MB Formato Adobe PDF Visualizza/Apri Richiedi una copia	2.94 MB	Adobe PDF	Visualizza/Apri Richiedi una copia
pampa_public.pdf Open Access dal 07/10/2019 Descrizione: Versione articolo accettato Tipologia: 2. Post-print / Author's Accepted Manuscript Licenza: Creative commons Dimensione 5.14 MB Formato Adobe PDF Visualizza/Apri	5.14 MB	Adobe PDF	Visualizza/Apri

Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11583/2693039

PORTO @ Archivio Istituzionale della Ricerca

A Parallel MapReduce Algorithm to Efficiently Support Itemset Mining on High Dimensional Data

Apiletti, Daniele;Baralis, Elena;Cerquitelli, Tania;Garza, Paolo;Pulvirenti, Fabio;Michiardi, Pietro

2017

Abstract

Scheda breve Scheda completa Scheda completa (DC)

Pubblicazioni consigliate

Informazioni

Conferma cancellazione

Scheda breve

Scheda completa

Scheda completa (DC)