Guides • May 28, 2026

Exécuter Flux.1 sur du matériel grand public : guide d'optimisation complet

By Maxime-A

Flux.1, développé par Black Forest Labs, a pris d'assaut la communauté de l'art génératif. Avec sa fidélité aux invites inégalée, son rendu texte hyper-réaliste et son anatomie détaillée, il a surpassé les plateformes commerciales fermées. Cependant, son échelle massive (12 milliards de paramètres) en fait un défi à exécuter sur des cartes graphiques grand public.

Dans ce guide, nous allons parcourir les étapes exactes pour configurer votre machine locale afin d'exécuter les modèles Flux.1 Schnell ou Dev en utilisant des poids compressés sans sacrifier la fidélité visuelle.

Comprendre le goulot d'étranglement mémoire

Un modèle Flux.1 Dev standard non quantifié nécessite plus de 24 Go de mémoire pour charger les poids du modèle, les encodeurs de texte (CLIP et T5XXL) et le VAE. Si votre système manque de VRAM, votre OS déchargera les couches vers la RAM système, entraînant des temps de génération de 5 à 10 minutes par image au lieu de secondes. Notre objectif est de compresser ces poids pour qu'ils tiennent confortablement dans les cartes grand public (8 Go - 16 Go VRAM).

Étape 1 : Obtenir les bons poids quantifiés

Grâce à la communauté open-source, nous avons accès aux quantifications NF4 (NormalFloat 4) et GGUF. NF4 offre un excellent équilibre entre vitesse et fidélité aux invites, tandis que GGUF permet de sélectionner des largeurs de bits spécifiques (Q4, Q5, Q8) selon votre matériel.

🛠️ Quantifications Recommandées par VRAM :

8 Go VRAM : Flux.1 Schnell NF4 ou Flux.1 Dev GGUF Q3_K_S. Utilisez un encodeur T5 quantifié.
12 Go - 16 Go VRAM : Flux.1 Dev GGUF Q4_K_M ou NF4. Encodeurs texte FP8 standard.
24 Go+ VRAM : Flux.1 Dev FP8 (non quantifié) ou FP16 pour une précision native.

Étape 2 : Installer ComfyUI et les fichiers du modèle

ComfyUI est le pipeline basé sur des nœuds de choix pour une exécution locale optimisée. Son exécution native gère l'échange mémoire faible VRAM bien plus efficacement que les interfaces web automatiques.

# 1. Cloner le dépôt ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI

# 2. Installer les dépendances (assurez-vous d'avoir PyTorch avec support CUDA)
pip install -r requirements.txt

Placez vos fichiers flux1-schnell-nv4.safetensors téléchargés dans le dossier ComfyUI/models/unet/, et vos encodeurs de texte (T5XXL et CLIP) dans ComfyUI/models/clip/.

Étape 3 : Utiliser le délestage mémoire intelligent

Lors de l'exécution de ComfyUI, lancez-le avec des arguments en ligne de commande qui ordonnent au moteur de diffuser les poids de la RAM hôte vers la VRAM dynamiquement :

python main.py --lowvram --use-split-cross-attention

Le drapeau --lowvram force ComfyUI à charger les encodeurs de texte, effectuer l'analyse des tokens d'invite dans la RAM système, les décharger, puis charger le modèle UNet de génération d'image dans la VRAM. Ce processus garantit que les encodeurs de texte et le modèle générateur ne se disputent pas le même espace mémoire GPU simultanément.

🎉 Benchmarks de Génération

En utilisant une RTX 4060 standard (8 Go VRAM), une image 1024x1024 pixels générée avec Flux.1 Schnell NF4 ne prend que 14 à 18 secondes à rendre avec ces configurations optimisées. Une excellence visuelle absolue, complètement hors ligne !