Questo studio presenta un approccio a due fasi che sfrutta il potenziale dell'intelligenza artificiale (AI) per l'analisi e la generazione di strutture molecolari. Partendo da un dataset di stringhe SMILES, il metodo combina una fase di clustering non supervisionato con una di generazione. Inizialmente, l'algoritmo K-Means raggruppa automaticamente le molecole in cluster chimicamente coerenti, utilizzando i Morgan Fingerprints come impronte digitali numeriche. Questo processo rivela le relazioni strutturali intrinseche nel set di dati. Successivamente, un modello generativo, il Variational Autoencoder (VAE) con Gated Recurrent Units (GRU), viene addestrato su uno di questi cluster per imparare le regole sottostanti che governano la struttura di una specifica famiglia chimica. I risultati dimostrano che, su un dataset coerente, il modello è in grado di generare molecole nuove e plausibili, suggerendo la possibilità di ampliare le librerie molecolari esistenti. La ricerca conferma l'efficacia del processo, che può essere ulteriormente ampliato con l'iterazione del processo clustering/generativo, e stabilisce un nuovo paradigma in cui l'AI può essere usata non solo per analizzare, ma anche per fungere da catalizzatore per la scoperta scientifica e la creazione di nuove ipotesi. This study presents a two-phase approach that leverages the potential of artificial intelligence (AI) for the analysis and generation of molecular structures. Starting from a dataset of SMILES strings, the method combines an unsupervised clustering phase with a generative one. Initially, the K-Means algorithm automatically groups molecules into chemically coherent clusters, using Morgan Fingerprints as numerical molecular fingerprints. This process reveals the intrinsic structural relationships within the dataset. Subsequently, a generative model, the Variational Autoencoder (VAE) with Gated Recurrent Units (GRU), is trained on one of these clusters to learn the underlying rules that govern the structure of a specific chemical family. The results show that, on a coherent dataset, the model is capable of generating new and plausible molecules, suggesting the possibility of expanding existing molecular libraries with chemically valid structures. The research confirms the effectiveness of the process, which can be further expanded with an iterative clustering/generative process, and establishes a new paradigm in which AI can be used not only for analysis, but also as a catalyst for scientific discovery and the creation of new hypotheses. Disclaimer: Il presente lavoro si configura come una prova di concetto e si concentra sull'esplorazione e la dimostrazione delle potenzialità dei modelli di Intelligenza Artificiale (AI) generativa nell'ambito della ricerca molecolare. I dati e le molecole generati in questo studio sono il risultato di una collaborazione tra l'autrice, ricercatrice in fisica, e il modello linguistico Gemini, uno strumento di Gemini AI. Si sottolinea che i risultati presentati non sostituiscono l'esperienza e la validazione degli esperti di chimica. Al contrario, l'obiettivo è dimostrare come strumenti di AI come Gemini possano agire da catalizzatori per la creatività scientifica, offrendo ai ricercatori un punto di partenza per l'esplorazione di nuove ipotesi e per la progettazione di esperimenti. La convalida sperimentale e l'analisi dettagliata di ogni molecola generata rimangono di esclusiva competenza della comunità scientifica chimica. Disclaimer This work is configured as a proof of concept and focuses on exploring and demonstrating the potential of generative Artificial Intelligence (AI) models in the field of molecular research. The data and molecules generated in this study are the result of a collaboration between the author, a physics researcher, and the Gemini language model, a Gemini AI tool. It is emphasized that the results presented do not replace the expertise and validation of chemistry experts. On the contrary, the goal is to demonstrate how AI tools like Gemini can act as catalysts for scientific creativity, offering researchers a starting point for exploring new hypotheses and designing experiments. The experimental validation and detailed analysis of each generated molecule remain the sole responsibility of the chemical scientific community.

Dalla Classificazione alla Creazione: Usare l'AI per Svelare e Generare Nuove Strutture Molecolari (From Classification to Creation: Using AI to Uncover and Generate Novel Molecular Structures) / Sparavigna, Amelia Carolina. - ELETTRONICO. - (2025). [10.5281/zenodo.17094136]

Dalla Classificazione alla Creazione: Usare l'AI per Svelare e Generare Nuove Strutture Molecolari (From Classification to Creation: Using AI to Uncover and Generate Novel Molecular Structures)

Amelia Carolina Sparavigna
2025

Abstract

Questo studio presenta un approccio a due fasi che sfrutta il potenziale dell'intelligenza artificiale (AI) per l'analisi e la generazione di strutture molecolari. Partendo da un dataset di stringhe SMILES, il metodo combina una fase di clustering non supervisionato con una di generazione. Inizialmente, l'algoritmo K-Means raggruppa automaticamente le molecole in cluster chimicamente coerenti, utilizzando i Morgan Fingerprints come impronte digitali numeriche. Questo processo rivela le relazioni strutturali intrinseche nel set di dati. Successivamente, un modello generativo, il Variational Autoencoder (VAE) con Gated Recurrent Units (GRU), viene addestrato su uno di questi cluster per imparare le regole sottostanti che governano la struttura di una specifica famiglia chimica. I risultati dimostrano che, su un dataset coerente, il modello è in grado di generare molecole nuove e plausibili, suggerendo la possibilità di ampliare le librerie molecolari esistenti. La ricerca conferma l'efficacia del processo, che può essere ulteriormente ampliato con l'iterazione del processo clustering/generativo, e stabilisce un nuovo paradigma in cui l'AI può essere usata non solo per analizzare, ma anche per fungere da catalizzatore per la scoperta scientifica e la creazione di nuove ipotesi. This study presents a two-phase approach that leverages the potential of artificial intelligence (AI) for the analysis and generation of molecular structures. Starting from a dataset of SMILES strings, the method combines an unsupervised clustering phase with a generative one. Initially, the K-Means algorithm automatically groups molecules into chemically coherent clusters, using Morgan Fingerprints as numerical molecular fingerprints. This process reveals the intrinsic structural relationships within the dataset. Subsequently, a generative model, the Variational Autoencoder (VAE) with Gated Recurrent Units (GRU), is trained on one of these clusters to learn the underlying rules that govern the structure of a specific chemical family. The results show that, on a coherent dataset, the model is capable of generating new and plausible molecules, suggesting the possibility of expanding existing molecular libraries with chemically valid structures. The research confirms the effectiveness of the process, which can be further expanded with an iterative clustering/generative process, and establishes a new paradigm in which AI can be used not only for analysis, but also as a catalyst for scientific discovery and the creation of new hypotheses. Disclaimer: Il presente lavoro si configura come una prova di concetto e si concentra sull'esplorazione e la dimostrazione delle potenzialità dei modelli di Intelligenza Artificiale (AI) generativa nell'ambito della ricerca molecolare. I dati e le molecole generati in questo studio sono il risultato di una collaborazione tra l'autrice, ricercatrice in fisica, e il modello linguistico Gemini, uno strumento di Gemini AI. Si sottolinea che i risultati presentati non sostituiscono l'esperienza e la validazione degli esperti di chimica. Al contrario, l'obiettivo è dimostrare come strumenti di AI come Gemini possano agire da catalizzatori per la creatività scientifica, offrendo ai ricercatori un punto di partenza per l'esplorazione di nuove ipotesi e per la progettazione di esperimenti. La convalida sperimentale e l'analisi dettagliata di ogni molecola generata rimangono di esclusiva competenza della comunità scientifica chimica. Disclaimer This work is configured as a proof of concept and focuses on exploring and demonstrating the potential of generative Artificial Intelligence (AI) models in the field of molecular research. The data and molecules generated in this study are the result of a collaboration between the author, a physics researcher, and the Gemini language model, a Gemini AI tool. It is emphasized that the results presented do not replace the expertise and validation of chemistry experts. On the contrary, the goal is to demonstrate how AI tools like Gemini can act as catalysts for scientific creativity, offering researchers a starting point for exploring new hypotheses and designing experiments. The experimental validation and detailed analysis of each generated molecule remain the sole responsibility of the chemical scientific community.
2025
Dalla Classificazione alla Creazione: Usare l'AI per Svelare e Generare Nuove Strutture Molecolari (From Classification to Creation: Using AI to Uncover and Generate Novel Molecular Structures) / Sparavigna, Amelia Carolina. - ELETTRONICO. - (2025). [10.5281/zenodo.17094136]
File in questo prodotto:
File Dimensione Formato  
dallaclassallagen4.pdf

accesso aperto

Tipologia: 1. Preprint / submitted version [pre- review]
Licenza: Creative commons
Dimensione 4.41 MB
Formato Adobe PDF
4.41 MB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11583/3002919