As novas tecnologias e as suas aplicações modificaram as nossas interações com o mundo que nos circunda. O advento da Internet, com a sua capilaridade e seu uso generalizo, foi a transformação mais importante e repentina dos últimos 30 anos. Minha pesquisa nasce da necessidade de entender como as pessoas interagem com a web, de compreender como a web está evoluindo, e de modelar os hábitos e comportamentos dos usuários da Internet. Logs que registram o comportamentos dos usuários interagindo com a web, coletados através de medições passivas, oferecem uma oportunidade inigualável para estudar esses fenômenos. Baseado nesse tipo de logs, o meu trabalho foca em dois aspectos complementares: (i) na análise da navegação dos usuários e (ii) na modelagem do comportamento dos usuários. Muitos desafios devem de ser enfrentados para viabilizar essa análise: medições passivas são em geral volumosas, ou seja \textit{big data}, e por isso requerem metodologias e infra-estrutura escaláveis para seu processamento. A análise dos dados necessita de métricas significativas e a introdução de metodologias inovadoras para a obtenção de informações confiáveis, filtradas, limpas e, sobretudo, úteis. A análise requer métodos estatísticos, de aprendizagem de máquina e de mineração de dados robustos. Além disso, a análise deve servir de base para a criação de modelos analíticos que sejam aderentes à realidade. Em soma, entender a aplicabilidade dos modelos é um passo fundamental para analisar possíveis cenários de uso e otimizar a performance dos serviços web. Durante o doutorado eu analisei três anos de dados de cerca de 30\,000 consumidores de Internet de alta velocidade, reconstruindo a atividade dos usuários na web. Reconstruí as suas atividades de navegação, destacando a evolução no uso de diferentes dispositivos, a estrutura da navegação e a interação dos usuários com as redes sociais e os motores de busca. Introduzi uma nova metodologia de aprendizado de máquina para identificar páginas web e sites intencionalmente solicitados pelos usuários nos logs de medidas passivas. A partir dessas informações, demonstrei ser possível criar uma assinatura baseado nos sites visitados por cada usuário, que pode ser utilizadas para re-identificar usuários, com claras implicações para a privacidade on-line. Modelei a sequência de serviços visitados pelos usuários na web, representando-os de forma sucinta e interpretável. Mostrei como extrair automaticamente grupos de sites similares ou conectados, agrupando os interesses de usuários e de comunidades. Também modelei a interação dos usuários com sistemas de recomendação on-line, apresentando um modelo de comportamento que captura o impacto da dinâmica temporal dos anúncios exibidos nas páginas. Finalmente, mostrei como melhorar os ganhos de uma plataforma de propaganda digital, otimizando os horários nos quais os anúncios deveriam ser exibidos aos usuários. Os resultados dessa tese têm várias implicações para diferentes personagens na Internet e para a comunidade acadêmica. Na atual transformação digital, todas as pessoas e todos os objetos estão produzindo dados que podem ser explorados para criar novas aplicações revolucionarias. A análise dos dados de navegação nos permite realizar transformações incríveis não só na web, mas também em nossas cidades, na industria e na produção de energia. Aproveitar o conhecimento do comportamento do usuário obtido a partir de medições na rede e depois modelar e otimizar os sistemas, como feito neste trabalho, será um fator chave para a concepção de futuras cidades inteligentes.
New technologies and services strongly transform our approach with the world. The Internet and its pervasive use was certainly the most dramatic leap in the last 30 years. My research was driven by the need to understand how people interact with the web, capturing its characteristics and changes, and modelling people's inner habits and interactions. Traces and logs of users' behaviours collected in the Internet (i.e., passive measurements) offer invaluable information to obtain this goal. Thanks to these passive traces, my work focuses on studying the behaviour of the users on the Internet, with focus on two complementary aspects: (i) data analytics, and (ii) user modelling. There are many key challenges to face: (big) data requires the use of scalable software and hardware. It demands also the introduction of innovative methodologies and meaningful metric to obtain trustable, filtered, clean and useful information. Data analytics is performed by means of a variety of statistical, machine learning and data mining approaches. Moreover, it is also a pre-requisite for creating analytical models of the studied phenomena, that should be as much as possible adherent to the reality. Lastly, understanding the applicability of derived models is a fundamental step for optimizing performances and understanding possible scenarios. More in details, during my PhD I analyzed 3 years of data of about 30\,000 households. I reconstruct users' online activity. Thanks to this, I was able to highlight device usage evolution, the intrinsic structure of the navigation and the interactions with social networks and search engines. I introduced a new machine learning approach to identify the intentionally visited web-pages and web-sites. Then, I built specific users' profiles, fingerprinting their visited domains, and then I showed how to re-identify users in a future time. I modelled the sequence of the visited web services, representing them in a succinct and interpretable manner. I showed that I can automatically extract groups of similar or likely connected web-sites, and monitor the interests and browsing patterns of single users or communities. I also modelled the user interaction with online recommendation systems, introducing a user behavioural model that captures the impact of the temporal dynamics of shown advertisement. Lastly, I demonstrate how to improve the revenue of an advertisement platform, optimizing the timings when ads are shown to users. My findings have several direct implications to the different Internet actors and to the research community. Following the scientific approach, I made available the anonymized datasets for the community, in order to guarantee the reproducibility of my results. Moreover, I addressed the problem of privacy online in today changing world, with the objective of finding a trade-off between the desire to obtain knowledge for shaping new technologies and the need to not violate the privacy of individuals. Finally, the current digital transformation implicates that everyone and everything produce data that can be exploited to create new disruptive capabilities. Data analytics allows us to realize incredible transformations not only in the web, but also in our cities, in the energy production, and in manufacturing. Exploiting the knowledge of the users' behaviour from these data, modelling and optimizing system performances as I did in my work, will be a key factor for designing near future smart-cities.
Le nuove tecnologie e le loro applicazioni modificano il nostro approccio con ciò che ci circonda. L'avvento di Internet, con la sua capillarità e pervasività, è stata la trasformazione più importante e repentina degli ultimi 30 anni. La mia ricerca è stata guidata dalla necessità di capire come le persone interagiscano con il web, di catturare come il web stesso cambi, e di modellare le abitudini e i comportamenti degli utenti. Tracce e registri dell'attività online, altrimenti dette misure passive, offrono informazioni inestimabili per raggiungere questi obiettivi. Grazie a queste tracce, il mio lavoro si concentra nello studiare il comportamento delle persone quando navigano su Internet, da due punti di vista complementari: (i) l'analisi dei dati di navigazione e (ii) i modelli analitici di comportamento. Tuttavia, vi sono molteplici sfide da affrontare: questo tipo di dati, detti \textit{big data}, necessitano di hardware e software scalabili, e dell'introduzione di metodologie e metriche innovative per ottenere informazioni che siano pulite, affidabili e soprattutto utili. L'analisi dati viene eseguita grazie a metodi statistici, di machine learning e di data mining. Inoltre, l'analisi è un prerequisito per costruire dei modelli analitici dei fenomeni studiati, che siano il più possibile aderenti alla realtà. Infine, capire l'applicabilità dei modelli costruiti è un passaggio fondamentale per ottimizzare le prestazioni e capire i possibili scenari. Più in dettaglio, durante il mio dottorato, ho analizzato 3 anni di dati di circa 30\,000 abitazioni, e ne ho ricostruito le attività online. Grazie a ciò, ho potuto mostrare l'evoluzione nell'utilizzo di diversi dispositivi, la struttura intrinseca delle navigazioni e l'interazione con le reti sociali e i motori di ricerca. Ho introdotto dei sistemi automatici per identificare le pagine e i servizi web intenzionalmente richiesti. Ho anche analizzato la costruzione di profili degli utenti, tracciando i loro domini visitati, per poi mostrare come poterli re-identificare nel futuro. Ho modellato le sequenze di siti visti, rappresentandole succintamente in una maniera facilmente interpretabile. Ho mostrato come estrarre automaticamente gruppi di siti web simili in contenuto o strettamente relazionati, e come riunire interessi e trend di utenti singoli o intere comunità. Ho anche modellato l'interazione con i sistemi di raccomandazione, introducendo un modello di comportamento umano che cattura l'impatto della dinamica temporale delle pubblicità mostrate. Infine, ho migliorato sperimentalmente i ricavi di una piattaforma di pubblicità, ottimizzandone i tempi di visualizzazione delle inserzioni. I miei risultati hanno diverse implicazioni per i molteplici attori nel panorama web e per il mondo della ricerca. Seguendo un corretto approccio scientifico, I dataset usati in questa tesi sono resi disponibili in modo anonimizzato per la comunità, in modo da garantire la riproducibilità dei miei risultati. Inoltre, il tema della privacy online in un mondo in forte cambiamento è stato affrontato e analizzato, con l'obiettivo di trovare un compromesso tra il bisogno di ottenere la conoscenza per lo sviluppo delle tecnologie e la necessità di non violare la riservatezza degli individui. Infine, l'attuale trasformazione digitale comporta che tutte le persone e oggetti producono dati che possano essere sfruttati per creare sconvolgenti possibilità. L'analisi dati ci permette di realizzare incredibili trasformazioni non solo di Internet, ma anche nelle nostre città, nella produzione di energia o nell'industria. Sfruttare i comportamenti delle persone che si ottengono attraverso questi dati, modellare e ottimizzare le prestazioni dei sistemi così come ho fatto in questo lavoro, sarà un fattore chiave per progettare le città intelligenti di un futuro molto vicino.
Data Analysis and Modelling of Users’ Behaviour on the Web / Vassio, Luca. - (2018 Mar 15).
Data Analysis and Modelling of Users’ Behaviour on the Web
VASSIO, LUCA
2018
Abstract
New technologies and services strongly transform our approach with the world. The Internet and its pervasive use was certainly the most dramatic leap in the last 30 years. My research was driven by the need to understand how people interact with the web, capturing its characteristics and changes, and modelling people's inner habits and interactions. Traces and logs of users' behaviours collected in the Internet (i.e., passive measurements) offer invaluable information to obtain this goal. Thanks to these passive traces, my work focuses on studying the behaviour of the users on the Internet, with focus on two complementary aspects: (i) data analytics, and (ii) user modelling. There are many key challenges to face: (big) data requires the use of scalable software and hardware. It demands also the introduction of innovative methodologies and meaningful metric to obtain trustable, filtered, clean and useful information. Data analytics is performed by means of a variety of statistical, machine learning and data mining approaches. Moreover, it is also a pre-requisite for creating analytical models of the studied phenomena, that should be as much as possible adherent to the reality. Lastly, understanding the applicability of derived models is a fundamental step for optimizing performances and understanding possible scenarios. More in details, during my PhD I analyzed 3 years of data of about 30\,000 households. I reconstruct users' online activity. Thanks to this, I was able to highlight device usage evolution, the intrinsic structure of the navigation and the interactions with social networks and search engines. I introduced a new machine learning approach to identify the intentionally visited web-pages and web-sites. Then, I built specific users' profiles, fingerprinting their visited domains, and then I showed how to re-identify users in a future time. I modelled the sequence of the visited web services, representing them in a succinct and interpretable manner. I showed that I can automatically extract groups of similar or likely connected web-sites, and monitor the interests and browsing patterns of single users or communities. I also modelled the user interaction with online recommendation systems, introducing a user behavioural model that captures the impact of the temporal dynamics of shown advertisement. Lastly, I demonstrate how to improve the revenue of an advertisement platform, optimizing the timings when ads are shown to users. My findings have several direct implications to the different Internet actors and to the research community. Following the scientific approach, I made available the anonymized datasets for the community, in order to guarantee the reproducibility of my results. Moreover, I addressed the problem of privacy online in today changing world, with the objective of finding a trade-off between the desire to obtain knowledge for shaping new technologies and the need to not violate the privacy of individuals. Finally, the current digital transformation implicates that everyone and everything produce data that can be exploited to create new disruptive capabilities. Data analytics allows us to realize incredible transformations not only in the web, but also in our cities, in the energy production, and in manufacturing. Exploiting the knowledge of the users' behaviour from these data, modelling and optimizing system performances as I did in my work, will be a key factor for designing near future smart-cities.Pubblicazioni consigliate
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/11583/2703665
Attenzione
Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo