Il presente lavoro illustra lo sviluppo di un "Setaccio Semantico" basato su un’architettura Autoencoder Denoising di tipo LSTM (Long Short-Term Memory), finalizzato alla validazione e alla pulizia del linguaggio tecnico nei database mineralogici. Partendo dall'analogia con la rimozione del rumore negli spettri Raman, abbiamo trasposto il concetto di "pseudospettro" alla ricostruzione dei vocaboli scientifici. Attraverso un bottleneck compresso a 32 dimensioni e tecniche di Data Augmentation, il modello ha generato robusti bacini di attrazione nello spazio latente, capaci di ricondurre varianti errate (refusi) alla forma corretta e di isolare termini estranei attraverso una metrica di anomalia basata sulla Cross-Entropy Loss. I risultati dimostrano che il sistema non si limita alla correzione testuale, ma funge da sentinella della coerenza scientifica, discriminando tra variazioni lessicali accettabili e intrusioni spurie.

La Creazione di un Setaccio Semantico / Sparavigna, Amelia Carolina. - ELETTRONICO. - (2026). [10.5281/zenodo.19574573]

La Creazione di un Setaccio Semantico

Amelia Carolina Sparavigna
2026

Abstract

Il presente lavoro illustra lo sviluppo di un "Setaccio Semantico" basato su un’architettura Autoencoder Denoising di tipo LSTM (Long Short-Term Memory), finalizzato alla validazione e alla pulizia del linguaggio tecnico nei database mineralogici. Partendo dall'analogia con la rimozione del rumore negli spettri Raman, abbiamo trasposto il concetto di "pseudospettro" alla ricostruzione dei vocaboli scientifici. Attraverso un bottleneck compresso a 32 dimensioni e tecniche di Data Augmentation, il modello ha generato robusti bacini di attrazione nello spazio latente, capaci di ricondurre varianti errate (refusi) alla forma corretta e di isolare termini estranei attraverso una metrica di anomalia basata sulla Cross-Entropy Loss. I risultati dimostrano che il sistema non si limita alla correzione testuale, ma funge da sentinella della coerenza scientifica, discriminando tra variazioni lessicali accettabili e intrusioni spurie.
2026
La Creazione di un Setaccio Semantico / Sparavigna, Amelia Carolina. - ELETTRONICO. - (2026). [10.5281/zenodo.19574573]
File in questo prodotto:
File Dimensione Formato  
setaccio.pdf

accesso aperto

Tipologia: 1. Preprint / submitted version [pre- review]
Licenza: Creative commons
Dimensione 367.37 kB
Formato Adobe PDF
367.37 kB Adobe PDF Visualizza/Apri
Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11583/3009872