Un approccio basato su DBpedia per la sistematizzazione della conoscenza sul Web

Cairo, Federico

doi:10.6092/polito/porto/2507077

La tesi propone una strategia per la sistematizzazione della conoscenza sul Web basata sui concetti presenti in DBpedia e finalizzata alla riduzione dell’information overload. L’opportunità dell’utilizzo di DBpedia è sostenuta sia da aspetti puramente tecnici sia da valutazioni più teoriche. Essendo DBpedia collegata a un vasto corpus multilingue preannotato di carattere enciclopedico (Wikipedia), essa risulta tecnicamente molto adatta ad essere utilizzata per procedimenti automatici di Natural Language Processing e di Text Mining. In aggiunta, i concetti presenti in DBpedia sono il risultato di un consenso semantico raggiunto in maniera collaborativa dalla comunità degli internauti. Un criterio efficace di classificazione sul Web non può essere imposto dall’alto, ma deve seguire gli stessi principi di libertà e trasparenza che hanno da sempre costituito l’essenza di Internet. Il primo capitolo della tesi descrive Wikipedia come un frutto di quell’intelligenza collettiva e di quella cultura collaborativa che sembrano emergere come i tratti costitutivi delle comunità in Rete. Vengono esaminate le posizioni di diversi autori sui concetti di intelligenza collettiva (come Pierre Lévy, James Surowiecki, David Weinberger, Micheal Nielsen) e di cultura collaborativa (tra cui Yochai Benkler, Manuel Castells, Henry Jenkins, Eric Raymond, Raffaele Meo). È proposta un’analisi dei punti di forza e di debolezza di Wikipedia per cercare di capire come tali aspetti possano influenzare la sua validità quale corpus annotato per la classificazione dei documenti online. Il secondo capitolo prende in esame DBpedia, inserendola nel contesto più ampio dei Linked Open Data. Si focalizza sui meccanismi tecnici che permettono la trasformazione della conoscenza semi-strutturata presente in Wikipedia nella conoscenza strutturata di DBpedia. DBpedia è vista come lo strumento più adatto per costruire un’ontologia della Rete condivisa e distribuita e per sistematizzare la conoscenza presente su Internet. Nel terzo capitolo viene descritta una soluzione software basata sull’utilizzo di tecnologie semantiche in grado di classificare automaticamente i documenti sul Web sulla base delle risorse presenti in DBpedia. Sono esposti il funzionamento e la metodologia del software TellMeFirst (http://tellmefirst.polito.it), sviluppato dal tesista nell’arco del 2011-2012 all’interno del Dipartimento di Automatica ed Informatica del Politecnico di Torino e in virtù di un grant Working Capital da parte di Telecom Italia. Nel quarto capitolo è delineato un possibile scenario futuro, frutto di questo processo di classificazione. Ogni concetto presente in Wikipedia diventa un Gateway per un insieme di documenti ordinati secondo la loro attinenza all’argomento stesso. Ognuno di questi Gateway si può configurare come un motore di ricerca semantico su un sottoinsieme di documenti del Web, dove si possono effettuare ricerche specifiche per sottoargomento o per argomenti correlati. I DBpedia Gateways possono essere contenuti o linkati direttamente nelle pagine di Wikipedia, come punto di partenza per approfondire un argomento specifico.

PORTO @ Archivio Istituzionale della Ricerca