LOTS of Fashion! Multi-Conditioning for Image Generation via Sketch-Text Pairing

Girella, Federico; Talon, Davide; Liu, Ziyue; Ruan, Zanxi; Wang, Yiming; Cristani, Marco

doi:10.1109/iccv51701.2025.01833

Fashion design is a complex creative process that blends visual and textual expressions. Designers convey ideas through sketches, which define spatial structure and design elements, and textual descriptions, capturing material, texture, and stylistic details. In this paper, we present LOcalized Text and Sketch for fashion image generation (LOTS), an approach for compositional sketch-text based generation of complete fashion outlooks. LOTS leverages a global description with paired localized sketch + text information for conditioning and introduces a novel step-based merging strategy for diffusion adaptation. First, a Modularized Pair-Centric representation encodes sketches and text into a shared latent space while preserving independent localized features; then, a Diffusion Pair Guidance phase integrates both local and global conditioning via attentionbased guidance within the diffusion model's multi-step denoising process. To validate our method, we build on Fashionpedia to release Sketchy, the first fashion dataset where multiple text-sketch pairs are provided per image. Quantitative results show LOTS achieves state-of-the-art image generation performance on both global and localized metrics, while qualitative examples and a human evaluation study highlight its unprecedented level of design customization.

LOTS of Fashion! Multi-Conditioning for Image Generation via Sketch-Text Pairing / Girella, F., Talon, D., Liu, Z., Ruan, Z., Wang, Y., Cristani, M.. - (2025), pp. 19711-19720. (IEEE/CVF International Conference on Computer Vision (ICCV 2025) Honolulu (USA) 19-25 October 2025) [10.1109/iccv51701.2025.01833].

LOTS of Fashion! Multi-Conditioning for Image Generation via Sketch-Text Pairing

Girella, Federico;Talon, Davide;Liu, Ziyue;Ruan, Zanxi;Wang, Yiming;Cristani, Marco

2025

Abstract

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno del prodotto
	
				2025
			
	Codice ISBN
	
				979-8-3315-8775-8
			
	Appare nelle tipologie
	
				4.1 Contributo in Atti di convegno

File in questo prodotto:

File	Dimensione	Formato
LOTS_of_Fashion_Multi-Conditioning_for_Image_Generation_via_Sketch-Text_Pairing.pdf accesso riservato Tipologia: 2a Post-print versione editoriale / Version of Record Licenza: Non Pubblico - Accesso privato/ristretto Dimensione 1.22 MB Formato Adobe PDF Visualizza/Apri Richiedi una copia	1.22 MB	Adobe PDF	Visualizza/Apri Richiedi una copia

Pubblicazioni consigliate

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11583/3011880

PORTO @ Archivio Istituzionale della Ricerca

LOTS of Fashion! Multi-Conditioning for Image Generation via Sketch-Text Pairing

Girella, Federico;Talon, Davide;Liu, Ziyue;Ruan, Zanxi;Wang, Yiming;Cristani, Marco

2025

Abstract

Scheda breve Scheda completa Scheda completa (DC)

Pubblicazioni consigliate

Informazioni

Conferma cancellazione

Scheda breve

Scheda completa

Scheda completa (DC)