Il presente lavoro illustra lo sviluppo di un "Setaccio Semantico" basato su un’architettura Autoencoder Denoising di tipo LSTM (Long Short-Term Memory), finalizzato alla validazione e alla pulizia del linguaggio tecnico nei database mineralogici. Partendo dall'analogia con la rimozione del rumore negli spettri Raman, abbiamo trasposto il concetto di "pseudospettro" alla ricostruzione dei vocaboli scientifici. Attraverso un bottleneck compresso a 32 dimensioni e tecniche di Data Augmentation, il modello ha generato robusti bacini di attrazione nello spazio latente, capaci di ricondurre varianti errate (refusi) alla forma corretta e di isolare termini estranei attraverso una metrica di anomalia basata sulla Cross-Entropy Loss. I risultati dimostrano che il sistema non si limita alla correzione testuale, ma funge da sentinella della coerenza scientifica, discriminando tra variazioni lessicali accettabili e intrusioni spurie.
La Creazione di un Setaccio Semantico / Sparavigna, Amelia Carolina. - ELETTRONICO. - (2026). [10.5281/zenodo.19574573]
La Creazione di un Setaccio Semantico
Amelia Carolina Sparavigna
2026
Abstract
Il presente lavoro illustra lo sviluppo di un "Setaccio Semantico" basato su un’architettura Autoencoder Denoising di tipo LSTM (Long Short-Term Memory), finalizzato alla validazione e alla pulizia del linguaggio tecnico nei database mineralogici. Partendo dall'analogia con la rimozione del rumore negli spettri Raman, abbiamo trasposto il concetto di "pseudospettro" alla ricostruzione dei vocaboli scientifici. Attraverso un bottleneck compresso a 32 dimensioni e tecniche di Data Augmentation, il modello ha generato robusti bacini di attrazione nello spazio latente, capaci di ricondurre varianti errate (refusi) alla forma corretta e di isolare termini estranei attraverso una metrica di anomalia basata sulla Cross-Entropy Loss. I risultati dimostrano che il sistema non si limita alla correzione testuale, ma funge da sentinella della coerenza scientifica, discriminando tra variazioni lessicali accettabili e intrusioni spurie.| File | Dimensione | Formato | |
|---|---|---|---|
|
setaccio.pdf
accesso aperto
Tipologia:
1. Preprint / submitted version [pre- review]
Licenza:
Creative commons
Dimensione
367.37 kB
Formato
Adobe PDF
|
367.37 kB | Adobe PDF | Visualizza/Apri |
Pubblicazioni consigliate
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/11583/3009872
