Spaces:

tennant
/

old_tok

Sleeping

App Files Files Community

old_tok / paintmind /engine /gpt_trainer.py

tennant

upload

af7c0ce about 2 months ago

raw

history blame

37.3 kB

	import os, torch
	import os.path as osp
	import cv2
	import shutil
	import numpy as np
	import copy
	import torch_fidelity
	import torch.nn as nn
	from tqdm.auto import tqdm
	from collections import OrderedDict
	from einops import rearrange
	from accelerate import Accelerator
	from .util import instantiate_from_config
	from torchvision.utils import make_grid, save_image
	from torch.utils.data import DataLoader, random_split, DistributedSampler, Sampler
	from paintmind.utils.lr_scheduler import build_scheduler
	from paintmind.utils.logger import SmoothedValue, MetricLogger, synchronize_processes, empty_cache
	from paintmind.engine.misc import is_main_process, all_reduce_mean, concat_all_gather
	from accelerate.utils import DistributedDataParallelKwargs, AutocastKwargs
	from torch.optim import AdamW
	from concurrent.futures import ThreadPoolExecutor
	from paintmind.stage2.gpt import GPT_models
	from paintmind.stage2.causaldit import CausalDiT_models
	from paintmind.stage2.generate import generate, generate_causal_dit
	from pathlib import Path
	import time


	def requires_grad(model, flag=True):
	for p in model.parameters():
	p.requires_grad = flag


	def save_img(img, save_path):
	img = np.clip(img.float().numpy().transpose([1, 2, 0]) * 255, 0, 255)
	img = img.astype(np.uint8)[:, :, ::-1]
	cv2.imwrite(save_path, img)

	def save_img_batch(imgs, save_paths):
	"""Process and save multiple images at once using a thread pool."""
	# Convert to numpy and prepare all images in one go
	imgs = np.clip(imgs.float().numpy().transpose(0, 2, 3, 1) * 255, 0, 255).astype(np.uint8)
	imgs = imgs[:, :, :, ::-1] # RGB to BGR for all images at once

	# Use ProcessPoolExecutor which is generally better for CPU-bound tasks
	# ThreadPoolExecutor is better for I/O-bound tasks like file saving
	with ThreadPoolExecutor(max_workers=32) as pool:
	# Submit all tasks at once
	futures = [pool.submit(cv2.imwrite, path, img)
	for path, img in zip(save_paths, imgs)]
	# Wait for all tasks to complete
	for future in futures:
	future.result() # This will raise any exceptions that occurred

	def get_fid_stats(real_dir, rec_dir, fid_stats):
	stats = torch_fidelity.calculate_metrics(
	input1=real_dir,
	input2=rec_dir,
	fid_statistics_file=fid_stats,
	cuda=True,
	isc=True,
	fid=True,
	kid=False,
	prc=False,
	verbose=False,
	)
	return stats


	class EMAModel:
	"""Model Exponential Moving Average."""
	def __init__(self, model, device, decay=0.999):
	self.device = device
	self.decay = decay
	self.ema_params = OrderedDict(
	(name, param.clone().detach().to(device))
	for name, param in model.named_parameters()
	if param.requires_grad
	)

	@torch.no_grad()
	def update(self, model):
	for name, param in model.named_parameters():
	if param.requires_grad:
	if name in self.ema_params:
	self.ema_params[name].lerp_(param.data, 1 - self.decay)
	else:
	self.ema_params[name] = param.data.clone().detach()

	def state_dict(self):
	return self.ema_params

	def load_state_dict(self, params):
	self.ema_params = OrderedDict(
	(name, param.clone().detach().to(self.device))
	for name, param in params.items()
	)

	class CacheDataLoader:
	"""DataLoader-like interface for cached data with epoch-based shuffling."""
	def __init__(self, slots, targets=None, batch_size=32, num_augs=1, seed=None):
	self.slots = slots
	self.targets = targets
	self.batch_size = batch_size
	self.num_augs = num_augs
	self.seed = seed
	self.epoch = 0
	# Original dataset size (before augmentations)
	self.num_samples = len(slots) // num_augs

	def set_epoch(self, epoch):
	"""Set epoch for deterministic shuffling."""
	self.epoch = epoch

	def __len__(self):
	"""Return number of batches based on original dataset size."""
	return self.num_samples // self.batch_size

	def __iter__(self):
	"""Return random indices for current epoch."""
	g = torch.Generator()
	g.manual_seed(self.seed + self.epoch if self.seed is not None else self.epoch)

	# Randomly sample indices from the entire augmented dataset
	indices = torch.randint(
	0, len(self.slots),
	(self.num_samples,),
	generator=g
	).numpy()

	# Yield batches of indices
	for start in range(0, self.num_samples, self.batch_size):
	end = min(start + self.batch_size, self.num_samples)
	batch_indices = indices[start:end]
	yield (
	torch.from_numpy(self.slots[batch_indices]),
	torch.from_numpy(self.targets[batch_indices])
	)

	class GPTTrainer(nn.Module):
	def __init__(
	self,
	ae_model,
	gpt_model,
	dataset,
	test_dataset=None,
	test_only=False,
	num_test_images=50000,
	num_epoch=400,
	eval_classes=[1, 7, 282, 604, 724, 207, 250, 751, 404, 850], # goldfish, cock, tiger cat, hourglass, ship, golden retriever, husky, race car, airliner, teddy bear
	lr=None,
	blr=1e-4,
	cosine_lr=False,
	lr_min=0,
	warmup_epochs=100,
	warmup_steps=None,
	warmup_lr_init=0,
	decay_steps=None,
	batch_size=32,
	cache_bs=8,
	test_bs=100,
	num_workers=0,
	pin_memory=False,
	max_grad_norm=None,
	grad_accum_steps=1,
	precision="bf16",
	save_every=10000,
	sample_every=1000,
	fid_every=50000,
	result_folder=None,
	log_dir="./log",
	steps=0,
	cfg=1.75,
	ae_cfg=1.5,
	diff_cfg=2.0,
	temperature=1.0,
	cfg_schedule="constant",
	diff_cfg_schedule="inv_linear",
	train_num_slots=None,
	test_num_slots=None,
	eval_fid=False,
	fid_stats=None,
	enable_ema=False,
	compile=False,
	enable_cache_latents=True,
	cache_dir='/dev/shm/slot_cache',
	seed=42
	):
	super().__init__()
	kwargs = DistributedDataParallelKwargs(find_unused_parameters=False)
	self.accelerator = Accelerator(
	kwargs_handlers=[kwargs],
	mixed_precision="bf16",
	gradient_accumulation_steps=grad_accum_steps,
	log_with="tensorboard",
	project_dir=log_dir,
	)

	self.ae_model = instantiate_from_config(ae_model)
	if hasattr(ae_model.params, "ema_path") and ae_model.params.ema_path is not None:
	ae_model_path = ae_model.params.ema_path
	else:
	ae_model_path = ae_model.params.ckpt_path
	assert ae_model_path.endswith(".safetensors") or ae_model_path.endswith(".pt") or ae_model_path.endswith(".pth") or ae_model_path.endswith(".pkl")
	assert osp.exists(ae_model_path), f"AE model checkpoint {ae_model_path} does not exist"
	self._load_checkpoint(ae_model_path, self.ae_model)

	self.ae_model.to(self.device)
	for param in self.ae_model.parameters():
	param.requires_grad = False
	self.ae_model.eval()

	self.model_name = gpt_model.target
	if 'GPT' in gpt_model.target:
	self.gpt_model = GPT_models[gpt_model.target](**gpt_model.params)
	elif 'CausalDiT' in gpt_model.target:
	self.gpt_model = CausalDiT_models[gpt_model.target](**gpt_model.params)
	else:
	raise ValueError(f"Unknown model type: {gpt_model.target}")
	self.num_slots = ae_model.params.num_slots
	self.slot_dim = ae_model.params.slot_dim

	assert precision in ["bf16", "fp32"]
	precision = "fp32"
	if self.accelerator.is_main_process:
	print("Overlooking specified precision and using autocast bf16...")
	self.precision = precision

	self.test_only = test_only
	self.test_bs = test_bs
	self.num_test_images = num_test_images
	self.num_classes = gpt_model.params.num_classes

	self.batch_size = batch_size
	if not test_only:
	self.train_ds = instantiate_from_config(dataset)
	train_size = len(self.train_ds)
	if self.accelerator.is_main_process:
	print(f"train dataset size: {train_size}")

	sampler = DistributedSampler(
	self.train_ds,
	num_replicas=self.accelerator.num_processes,
	rank=self.accelerator.process_index,
	shuffle=True,
	)
	self.train_dl = DataLoader(
	self.train_ds,
	batch_size=batch_size if not enable_cache_latents else cache_bs,
	sampler=sampler,
	num_workers=num_workers,
	pin_memory=pin_memory,
	drop_last=True,
	)

	effective_bs = batch_size * grad_accum_steps * self.accelerator.num_processes
	if lr is None:
	lr = blr * effective_bs / 256
	if self.accelerator.is_main_process:
	print(f"Effective batch size is {effective_bs}")

	self.g_optim = self._creat_optimizer(weight_decay=0.05, learning_rate=lr, betas=(0.9, 0.95))
	self.g_sched = self._create_scheduler(
	cosine_lr, warmup_epochs, warmup_steps, num_epoch,
	lr_min, warmup_lr_init, decay_steps
	)
	self.accelerator.register_for_checkpointing(self.g_sched)

	self.steps = steps
	self.loaded_steps = -1

	# Prepare everything together
	if not test_only:
	self.gpt_model, self.g_optim, self.g_sched = self.accelerator.prepare(
	self.gpt_model, self.g_optim, self.g_sched
	)
	else:
	self.gpt_model = self.accelerator.prepare(self.gpt_model)

	# assume _ori_model does not exist in checkpoints
	if compile:
	_model = self.accelerator.unwrap_model(self.gpt_model)
	self.ae_model = torch.compile(self.ae_model, mode="reduce-overhead")
	_model = torch.compile(_model, mode="reduce-overhead")

	self.enable_ema = enable_ema
	if self.enable_ema and not self.test_only: # when testing, we directly load the ema dict and skip here
	self.ema_model = EMAModel(self.accelerator.unwrap_model(self.gpt_model), self.device)
	self.accelerator.register_for_checkpointing(self.ema_model)

	self._load_checkpoint(gpt_model.params.ckpt_path)
	if self.test_only:
	self.steps = self.loaded_steps

	self.num_epoch = num_epoch
	self.save_every = save_every
	self.samp_every = sample_every
	self.fid_every = fid_every
	self.max_grad_norm = max_grad_norm

	self.eval_classes = eval_classes
	self.cfg = cfg
	self.ae_cfg = ae_cfg
	self.diff_cfg = diff_cfg
	self.cfg_schedule = cfg_schedule
	self.diff_cfg_schedule = diff_cfg_schedule
	self.temperature = temperature
	self.train_num_slots = train_num_slots
	self.test_num_slots = test_num_slots
	if self.train_num_slots is not None:
	self.train_num_slots = min(self.train_num_slots, self.num_slots)
	else:
	self.train_num_slots = self.num_slots
	if self.test_num_slots is not None:
	self.num_slots_to_gen = min(self.test_num_slots, self.train_num_slots)
	else:
	self.num_slots_to_gen = self.train_num_slots
	self.eval_fid = eval_fid
	if eval_fid:
	assert fid_stats is not None
	self.fid_stats = fid_stats

	self.result_folder = result_folder
	self.model_saved_dir = os.path.join(result_folder, "models")
	os.makedirs(self.model_saved_dir, exist_ok=True)

	self.image_saved_dir = os.path.join(result_folder, "images")
	os.makedirs(self.image_saved_dir, exist_ok=True)

	self.cache_dir = Path(cache_dir)
	self.enable_cache_latents = enable_cache_latents
	self.seed = seed
	self.cache_loader = None

	@property
	def device(self):
	return self.accelerator.device

	def _creat_optimizer(self, weight_decay, learning_rate, betas):
	# start with all of the candidate parameters
	param_dict = {pn: p for pn, p in self.gpt_model.named_parameters()}
	# filter out those that do not require grad
	param_dict = {pn: p for pn, p in param_dict.items() if p.requires_grad}
	# create optim groups. Any parameters that is 2D will be weight decayed, otherwise no.
	# i.e. all weight tensors in matmuls + embeddings decay, all biases and layernorms don't.
	decay_params = [p for n, p in param_dict.items() if p.dim() >= 2]
	nodecay_params = [p for n, p in param_dict.items() if p.dim() < 2]
	optim_groups = [
	{'params': decay_params, 'weight_decay': weight_decay},
	{'params': nodecay_params, 'weight_decay': 0.0}
	]
	num_decay_params = sum(p.numel() for p in decay_params)
	num_nodecay_params = sum(p.numel() for p in nodecay_params)
	if self.accelerator.is_main_process:
	print(f"num decayed parameter tensors: {len(decay_params)}, with {num_decay_params:,} parameters")
	print(f"num non-decayed parameter tensors: {len(nodecay_params)}, with {num_nodecay_params:,} parameters")
	optimizer = AdamW(optim_groups, lr=learning_rate, betas=betas)
	return optimizer

	def _create_scheduler(self, cosine_lr, warmup_epochs, warmup_steps, num_epoch, lr_min, warmup_lr_init, decay_steps):
	if warmup_epochs is not None:
	warmup_steps = warmup_epochs * len(self.train_dl)
	else:
	assert warmup_steps is not None

	scheduler = build_scheduler(
	self.g_optim,
	num_epoch,
	len(self.train_dl),
	lr_min,
	warmup_steps,
	warmup_lr_init,
	decay_steps,
	cosine_lr, # if not cosine_lr, then use step_lr (warmup, then fix)
	)
	return scheduler

	def _load_state_dict(self, state_dict, model):
	"""Helper to load a state dict with proper prefix handling."""
	if 'state_dict' in state_dict:
	state_dict = state_dict['state_dict']
	# Remove '_orig_mod' prefix if present
	state_dict = {k.replace('_orig_mod.', ''): v for k, v in state_dict.items()}
	missing, unexpected = model.load_state_dict(
	state_dict, strict=False
	)
	if self.accelerator.is_main_process:
	print(f"Loaded model. Missing: {missing}, Unexpected: {unexpected}")

	def _load_safetensors(self, path, model):
	"""Helper to load a safetensors checkpoint."""
	from safetensors.torch import safe_open
	with safe_open(path, framework="pt", device="cpu") as f:
	state_dict = {k: f.get_tensor(k) for k in f.keys()}
	self._load_state_dict(state_dict, model)

	def _load_checkpoint(self, ckpt_path=None, model=None):
	if ckpt_path is None or not osp.exists(ckpt_path):
	return

	if model is None:
	model = self.accelerator.unwrap_model(self.gpt_model)

	if osp.isdir(ckpt_path):
	# ckpt_path is something like 'path/to/models/step10/'
	self.loaded_steps = int(
	ckpt_path.split("step")[-1].split("/")[0]
	)
	if not self.test_only:
	self.accelerator.load_state(ckpt_path)
	else:
	if self.enable_ema:
	model_path = osp.join(ckpt_path, "custom_checkpoint_1.pkl")
	if osp.exists(model_path):
	state_dict = torch.load(model_path, map_location="cpu")
	self._load_state_dict(state_dict, model)
	if self.accelerator.is_main_process:
	print(f"Loaded ema model from {model_path}")
	else:
	model_path = osp.join(ckpt_path, "model.safetensors")
	if osp.exists(model_path):
	self._load_safetensors(model_path, model)
	else:
	# ckpt_path is something like 'path/to/models/step10.pt'
	if ckpt_path.endswith(".safetensors"):
	self._load_safetensors(ckpt_path, model)
	else:
	state_dict = torch.load(ckpt_path, map_location="cpu")
	self._load_state_dict(state_dict, model)

	if self.accelerator.is_main_process:
	print(f"Loaded checkpoint from {ckpt_path}")

	def _build_cache(self):
	"""Build cache for slots and targets."""
	rank = self.accelerator.process_index
	world_size = self.accelerator.num_processes

	# Clean up any existing cache files first
	slots_file = self.cache_dir / f"slots_rank{rank}_of_{world_size}.mmap"
	targets_file = self.cache_dir / f"targets_rank{rank}_of_{world_size}.mmap"

	if slots_file.exists():
	os.remove(slots_file)
	if targets_file.exists():
	os.remove(targets_file)

	dataset_size = len(self.train_dl.dataset)
	shard_size = dataset_size // world_size

	# Detect number of augmentations from first batch
	with torch.no_grad():
	sample_batch = next(iter(self.train_dl))
	img, _ = sample_batch
	num_augs = img.shape[1] if len(img.shape) == 5 else 1

	print(f"Rank {rank}: Creating new cache with {num_augs} augmentations per image...")
	os.makedirs(self.cache_dir, exist_ok=True)
	slots_file = self.cache_dir / f"slots_rank{rank}_of_{world_size}.mmap"
	targets_file = self.cache_dir / f"targets_rank{rank}_of_{world_size}.mmap"

	# Create memory-mapped files
	slots_mmap = np.memmap(
	slots_file,
	dtype='float32',
	mode='w+',
	shape=(shard_size * num_augs, self.train_num_slots, self.slot_dim)
	)

	targets_mmap = np.memmap(
	targets_file,
	dtype='int64',
	mode='w+',
	shape=(shard_size * num_augs,)
	)

	# Cache data
	with torch.no_grad():
	for i, batch in enumerate(tqdm(
	self.train_dl,
	desc=f"Rank {rank}: Caching data",
	disable=not self.accelerator.is_local_main_process
	)):
	imgs, targets = batch
	if len(imgs.shape) == 5: # [B, num_augs, C, H, W]
	B, A, C, H, W = imgs.shape
	imgs = imgs.view(-1, C, H, W) # [B*num_augs, C, H, W]
	targets = targets.unsqueeze(1).expand(-1, A).reshape(-1) # [B*num_augs]

	# Split imgs into n chunks
	num_splits = num_augs
	split_size = imgs.shape[0] // num_splits
	imgs_splits = torch.split(imgs, split_size)
	targets_splits = torch.split(targets, split_size)

	start_idx = i * self.train_dl.batch_size * num_augs

	for split_idx, (img_split, targets_split) in enumerate(zip(imgs_splits, targets_splits)):
	img_split = img_split.to(self.device, non_blocking=True)
	slots_split = self.ae_model.encode_slots(img_split)[:, :self.train_num_slots, :]

	split_start = start_idx + (split_idx * split_size)
	split_end = split_start + img_split.shape[0]

	# Write directly to mmap files
	slots_mmap[split_start:split_end] = slots_split.cpu().numpy()
	targets_mmap[split_start:split_end] = targets_split.numpy()

	# Close the mmap files
	del slots_mmap
	del targets_mmap

	# Reopen in read mode
	self.cached_latents = np.memmap(
	slots_file,
	dtype='float32',
	mode='r',
	shape=(shard_size * num_augs, self.train_num_slots, self.slot_dim)
	)

	self.cached_targets = np.memmap(
	targets_file,
	dtype='int64',
	mode='r',
	shape=(shard_size * num_augs,)
	)

	# Store the number of augmentations for the cache loader
	self.num_augs = num_augs

	def _setup_cache(self):
	"""Setup cache if enabled."""
	self._build_cache()
	self.accelerator.wait_for_everyone()

	# Initialize cache loader if cache exists
	if self.cached_latents is not None:
	self.cache_loader = CacheDataLoader(
	slots=self.cached_latents,
	targets=self.cached_targets,
	batch_size=self.batch_size,
	num_augs=self.num_augs,
	seed=self.seed + self.accelerator.process_index
	)

	def __del__(self):
	"""Cleanup cache files."""
	if self.enable_cache_latents:
	rank = self.accelerator.process_index
	world_size = self.accelerator.num_processes

	# Clean up slots cache
	slots_file = self.cache_dir / f"slots_rank{rank}_of_{world_size}.mmap"
	if slots_file.exists():
	os.remove(slots_file)

	# Clean up targets cache
	targets_file = self.cache_dir / f"targets_rank{rank}_of_{world_size}.mmap"
	if targets_file.exists():
	os.remove(targets_file)

	def _train_step(self, slots, targets=None):
	"""Execute single training step."""

	with self.accelerator.accumulate(self.gpt_model):
	with self.accelerator.autocast():
	loss = self.gpt_model(slots, targets)

	self.accelerator.backward(loss)
	if self.accelerator.sync_gradients and self.max_grad_norm is not None:
	self.accelerator.clip_grad_norm_(self.gpt_model.parameters(), self.max_grad_norm)
	self.g_optim.step()
	if self.g_sched is not None:
	self.g_sched.step_update(self.steps)
	self.g_optim.zero_grad()

	# Update EMA model if enabled
	if self.enable_ema:
	self.ema_model.update(self.accelerator.unwrap_model(self.gpt_model))

	return loss

	def _train_epoch_cached(self, epoch, logger):
	"""Train one epoch using cached data."""
	self.cache_loader.set_epoch(epoch)
	header = f'Epoch: [{epoch}/{self.num_epoch}]'

	for batch in logger.log_every(self.cache_loader, 20, header):
	slots, targets = (b.to(self.device, non_blocking=True) for b in batch)

	self.steps += 1

	if self.steps == 1:
	print(f"Training batch size: {len(slots)}")
	print(f"Hello from index {self.accelerator.local_process_index}")

	loss = self._train_step(slots, targets)
	self._handle_periodic_ops(loss, logger)

	def _train_epoch_uncached(self, epoch, logger):
	"""Train one epoch using raw data."""
	header = f'Epoch: [{epoch}/{self.num_epoch}]'

	for batch in logger.log_every(self.train_dl, 20, header):
	img, targets = (b.to(self.device, non_blocking=True) for b in batch)

	self.steps += 1

	if self.steps == 1:
	print(f"Training batch size: {img.size(0)}")
	print(f"Hello from index {self.accelerator.local_process_index}")

	slots = self.ae_model.encode_slots(img)[:, :self.train_num_slots, :]
	loss = self._train_step(slots, targets)
	self._handle_periodic_ops(loss, logger)

	def _handle_periodic_ops(self, loss, logger):
	"""Handle periodic operations and logging."""
	logger.update(loss=loss.item())
	logger.update(lr=self.g_optim.param_groups[0]["lr"])

	if self.steps % self.save_every == 0:
	self.save()

	if (self.steps % self.samp_every == 0) or (self.eval_fid and self.steps % self.fid_every == 0):
	empty_cache()
	self.evaluate()
	self.accelerator.wait_for_everyone()
	empty_cache()

	def _save_config(self, config):
	"""Save configuration file."""
	if config is not None and self.accelerator.is_main_process:
	import shutil
	from omegaconf import OmegaConf

	if isinstance(config, str) and osp.exists(config):
	shutil.copy(config, osp.join(self.result_folder, "config.yaml"))
	else:
	config_save_path = osp.join(self.result_folder, "config.yaml")
	OmegaConf.save(config, config_save_path)

	def _should_skip_epoch(self, epoch):
	"""Check if epoch should be skipped due to loaded checkpoint."""
	loader = self.train_dl if not self.enable_cache_latents else self.cache_loader
	if ((epoch + 1) * len(loader)) <= self.loaded_steps:
	if self.accelerator.is_main_process:
	print(f"Epoch {epoch} is skipped because it is loaded from ckpt")
	self.steps += len(loader)
	return True

	if self.steps < self.loaded_steps:
	for _ in loader:
	self.steps += 1
	if self.steps >= self.loaded_steps:
	break
	return False

	def train(self, config=None):
	"""Main training loop."""
	# Initial setup
	n_parameters = sum(p.numel() for p in self.parameters() if p.requires_grad)
	if self.accelerator.is_main_process:
	print(f"number of learnable parameters: {n_parameters//1e6}M")

	self._save_config(config)
	self.accelerator.init_trackers("gpt")

	# Handle test-only mode
	if self.test_only:
	empty_cache()
	self.evaluate()
	self.accelerator.wait_for_everyone()
	empty_cache()
	return

	# Setup cache if enabled
	if self.enable_cache_latents:
	self._setup_cache()

	# Training loop
	for epoch in range(self.num_epoch):
	if self._should_skip_epoch(epoch):
	continue

	self.gpt_model.train()
	logger = MetricLogger(delimiter=" ")
	logger.add_meter('lr', SmoothedValue(window_size=1, fmt='{value:.6f}'))

	# Choose training path based on cache availability
	if self.enable_cache_latents:
	self._train_epoch_cached(epoch, logger)
	else:
	self._train_epoch_uncached(epoch, logger)

	# Synchronize and log epoch stats
	# logger.synchronize_between_processes()
	# if self.accelerator.is_main_process:
	# print("Averaged stats:", logger)

	# Finish training
	self.accelerator.end_training()
	self.save()
	if self.accelerator.is_main_process:
	print("Train finished!")

	def save(self):
	self.accelerator.wait_for_everyone()
	self.accelerator.save_state(
	os.path.join(self.model_saved_dir, f"step{self.steps}")
	)

	@torch.no_grad()
	def evaluate(self, use_ema=True):
	self.gpt_model.eval()
	unwraped_gpt_model = self.accelerator.unwrap_model(self.gpt_model)
	# switch to ema params, only when eval_fid is True
	use_ema = use_ema and self.enable_ema and self.eval_fid and not self.test_only
	if use_ema:
	if hasattr(self, "ema_model"):
	model_without_ddp = self.accelerator.unwrap_model(self.gpt_model)
	model_state_dict = copy.deepcopy(model_without_ddp.state_dict())
	ema_state_dict = copy.deepcopy(model_without_ddp.state_dict())
	for i, (name, _value) in enumerate(model_without_ddp.named_parameters()):
	if "nested_sampler" in name:
	continue
	ema_state_dict[name] = self.ema_model.state_dict()[name]
	if self.accelerator.is_main_process:
	print("Switch to ema")
	model_without_ddp.load_state_dict(ema_state_dict)
	else:
	print("EMA model not found, using original model")
	use_ema = False

	generate_fn = generate if 'GPT' in self.model_name else generate_causal_dit
	if not self.test_only:
	classes = torch.tensor(self.eval_classes, device=self.device)
	with self.accelerator.autocast():
	slots = generate_fn(unwraped_gpt_model, classes, self.num_slots_to_gen, cfg_scale=self.cfg, diff_cfg=self.diff_cfg, cfg_schedule=self.cfg_schedule, diff_cfg_schedule=self.diff_cfg_schedule, temperature=self.temperature)
	if self.num_slots_to_gen < self.num_slots:
	null_slots = self.ae_model.dit.null_cond.expand(slots.shape[0], -1, -1)
	null_slots = null_slots[:, self.num_slots_to_gen:, :]
	slots = torch.cat([slots, null_slots], dim=1)
	imgs = self.ae_model.sample(slots, targets=classes, cfg=self.ae_cfg) # targets are not used for now

	imgs = concat_all_gather(imgs)
	if self.accelerator.num_processes > 16:
	imgs = imgs[:16*len(self.eval_classes)]
	imgs = imgs.detach().cpu()
	grid = make_grid(
	imgs, nrow=len(self.eval_classes), normalize=True, value_range=(0, 1)
	)
	if self.accelerator.is_main_process:
	save_image(
	grid,
	os.path.join(
	self.image_saved_dir, f"step{self.steps}_aecfg-{self.ae_cfg}_cfg-{self.cfg_schedule}-{self.cfg}_diffcfg-{self.diff_cfg_schedule}-{self.diff_cfg}_slots{self.num_slots_to_gen}_temp{self.temperature}.jpg"
	),
	)
	if self.eval_fid and (self.test_only or (self.steps % self.fid_every == 0)):
	# Create output directory (only on main process)
	save_folder = os.path.join(self.image_saved_dir, f"gen_step{self.steps}_aecfg-{self.ae_cfg}_cfg-{self.cfg_schedule}-{self.cfg}_diffcfg-{self.diff_cfg_schedule}-{self.diff_cfg}_slots{self.num_slots_to_gen}_temp{self.temperature}")
	if self.accelerator.is_main_process:
	os.makedirs(save_folder, exist_ok=True)

	# Setup for distributed generation
	world_size = self.accelerator.num_processes
	local_rank = self.accelerator.process_index
	batch_size = self.test_bs

	# Create balanced class distribution
	num_classes = self.num_classes
	images_per_class = self.num_test_images // num_classes
	class_labels = np.repeat(np.arange(num_classes), images_per_class)

	# Shuffle the class labels to ensure random ordering
	np.random.shuffle(class_labels)

	total_images = len(class_labels)

	padding_size = world_size * batch_size - (total_images % (world_size * batch_size))
	class_labels = np.pad(class_labels, (0, padding_size), 'constant')
	padded_total_images = len(class_labels)

	# Distribute workload across GPUs
	images_per_gpu = padded_total_images // world_size
	start_idx = local_rank * images_per_gpu
	end_idx = min(start_idx + images_per_gpu, padded_total_images)
	local_class_labels = class_labels[start_idx:end_idx]
	local_num_steps = len(local_class_labels) // batch_size

	if self.accelerator.is_main_process:
	print(f"Generating {total_images} images ({images_per_class} per class) across {world_size} GPUs")

	used_time = 0
	gen_img_cnt = 0

	for i in range(local_num_steps):
	if self.accelerator.is_main_process and i % 10 == 0:
	print(f"Generation step {i}/{local_num_steps}")

	# Get and pad labels for current batch
	batch_start = i * batch_size
	batch_end = batch_start + batch_size
	labels = local_class_labels[batch_start:batch_end]

	# Convert to tensors and track real vs padding
	labels = torch.tensor(labels, device=self.device)

	# Generate images
	self.accelerator.wait_for_everyone()
	start_time = time.time()
	with torch.no_grad():
	with self.accelerator.autocast():
	slots = generate_fn(unwraped_gpt_model, labels, self.num_slots_to_gen,
	cfg_scale=self.cfg, diff_cfg=self.diff_cfg,
	cfg_schedule=self.cfg_schedule, diff_cfg_schedule=self.diff_cfg_schedule,
	temperature=self.temperature)
	if self.num_slots_to_gen < self.num_slots:
	null_slots = self.ae_model.dit.null_cond.expand(slots.shape[0], -1, -1)
	null_slots = null_slots[:, self.num_slots_to_gen:, :]
	slots = torch.cat([slots, null_slots], dim=1)
	imgs = self.ae_model.sample(slots, targets=labels, cfg=self.ae_cfg)

	samples_in_batch = min(batch_size * world_size, total_images - gen_img_cnt)

	# Update timing stats
	used_time += time.time() - start_time
	gen_img_cnt += samples_in_batch
	if self.accelerator.is_main_process and i % 10 == 0:
	print(f"Avg generation time: {used_time/gen_img_cnt:.5f} sec/image")

	gathered_imgs = concat_all_gather(imgs)
	gathered_imgs = gathered_imgs[:samples_in_batch]

	# Save images (only on main process)
	if self.accelerator.is_main_process:
	real_imgs = gathered_imgs.detach().cpu()

	save_paths = [
	os.path.join(save_folder, f"{str(idx).zfill(5)}.png")
	for idx in range(gen_img_cnt - samples_in_batch, gen_img_cnt)
	]
	save_img_batch(real_imgs, save_paths)

	# Calculate metrics (only on main process)
	self.accelerator.wait_for_everyone()
	if self.accelerator.is_main_process:
	generated_files = len(os.listdir(save_folder))
	print(f"Generated {generated_files} images out of {total_images} expected")

	metrics_dict = get_fid_stats(save_folder, None, self.fid_stats)
	fid = metrics_dict["frechet_inception_distance"]
	inception_score = metrics_dict["inception_score_mean"]

	metric_prefix = "fid_ema" if use_ema else "fid"
	isc_prefix = "isc_ema" if use_ema else "isc"

	self.accelerator.log({
	metric_prefix: fid,
	isc_prefix: inception_score,
	"gpt_cfg": self.cfg,
	"ae_cfg": self.ae_cfg,
	"diff_cfg": self.diff_cfg,
	"cfg_schedule": self.cfg_schedule,
	"diff_cfg_schedule": self.diff_cfg_schedule,
	"temperature": self.temperature,
	"num_slots": self.test_num_slots if self.test_num_slots is not None else self.train_num_slots
	}, step=self.steps)

	# Print comprehensive CFG information
	cfg_info = (
	f"{'EMA ' if use_ema else ''}CFG params: "
	f"gpt_cfg={self.cfg}, ae_cfg={self.ae_cfg}, diff_cfg={self.diff_cfg}, "
	f"cfg_schedule={self.cfg_schedule}, diff_cfg_schedule={self.diff_cfg_schedule}, "
	f"num_slots={self.test_num_slots if self.test_num_slots is not None else self.train_num_slots}, "
	f"temperature={self.temperature}"
	)
	print(cfg_info)
	print(f"FID: {fid:.2f}, ISC: {inception_score:.2f}")

	# Cleanup
	shutil.rmtree(save_folder)

	# back to no ema
	if use_ema:
	if self.accelerator.is_main_process:
	print("Switch back from ema")
	model_without_ddp.load_state_dict(model_state_dict)

	self.gpt_model.train()