Evaluating Attribute Confusion in Fashion Text-to-Image Generation

Liu, Ziyue; Girella, Federico; Wang, Yiming; Talon, Davide

doi:10.1007/978-3-032-10192-1_47

Despite the rapid advances in Text-to-Image (T2I) generation models, their evaluation remains challenging in domains like fashion, involving complex compositional generation. Recent automated T2I evaluation methods leverage pre-trained vision-language models to measure cross-modal alignment. However, our preliminary study reveals that they are still limited in assessing rich entity-attribute semantics, facing challenges in attribute confusion, i.e., when attributes are correctly depicted but associated with the wrong entities. To address this, we build on a Visual Question Answering (VQA) localization strategy targeting one single entity at a time across both visual and textual modalities. We propose a localized human evaluation protocol and introduce a novel automatic metric, Localized VQAScore (L-VQAScore), that combines visual localization with VQA probing both correct (reflection) and mislocalized (leakage) attribute generation. On a newly curated dataset featuring challenging compositional alignment scenarios, L-VQAScore outperforms state-of-the-art T2I evaluation methods in terms of correlation with human judgments, demonstrating its strength in capturing fine-grained entity-attribute associations. We believe L-VQAScore can be a reliable and scalable alternative to subjective evaluations.

Evaluating Attribute Confusion in Fashion Text-to-Image Generation / Liu, Z., Girella, F., Wang, Y., Talon, D.. - (2026), pp. 561-573. (23rd International Conference on Image Analysis and Processing, ICIAP 2025 Roma (ta) 15 - 19 Settembre 2025) [10.1007/978-3-032-10192-1_47].

Evaluating Attribute Confusion in Fashion Text-to-Image Generation

Liu, Ziyue;Girella, Federico;Wang, Yiming;Talon, Davide

2026

Abstract

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno del prodotto
	
				2026
			
	Titolo della Serie/Collana
	
				LECTURE NOTES IN COMPUTER SCIENCE
			
	Codice ISBN
	
				9783032101914
9783032101921
			
	Appare nelle tipologie
	
				4.1 Contributo in Atti di convegno

File in questo prodotto:

File	Dimensione	Formato
Pagine da 978-3-032-10192-1.pdf accesso riservato Tipologia: 2a Post-print versione editoriale / Version of Record Licenza: Non Pubblico - Accesso privato/ristretto Dimensione 705.54 kB Formato Adobe PDF Visualizza/Apri Richiedi una copia	705.54 kB	Adobe PDF	Visualizza/Apri Richiedi una copia

Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11583/3011881

PORTO @ Archivio Istituzionale della Ricerca

Evaluating Attribute Confusion in Fashion Text-to-Image Generation

Liu, Ziyue;Girella, Federico;Wang, Yiming;Talon, Davide

2026

Abstract

Scheda breve Scheda completa Scheda completa (DC)

Pubblicazioni consigliate

Informazioni

Conferma cancellazione

Scheda breve

Scheda completa

Scheda completa (DC)