Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

ckpt/magi/4.5B_base/inference_weight/model-00001-of-00003.safetensors +3 -0
ckpt/magi/4.5B_base/inference_weight/model-00002-of-00003.safetensors +3 -0
ckpt/magi/4.5B_base/inference_weight/model-00003-of-00003.safetensors +3 -0
ckpt/magi/4.5B_base/inference_weight/model.safetensors.index.json +905 -0

ckpt/magi/4.5B_base/inference_weight/model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8decc4bd82daf9c61586acf432a205107be65cfa5e8d47eb158ab83f693ce4b
+size 2647706200

ckpt/magi/4.5B_base/inference_weight/model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3cadb037a0ce8b0a99a8f35c50c9abe21479c29d26c80ba3646ee45ef38a0a4
+size 4708294960

ckpt/magi/4.5B_base/inference_weight/model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef8489d5fc2ada87b8b23439c5132fffcbb0e8966ca19aaa49f3b319a92c832a
+size 1605174136

ckpt/magi/4.5B_base/inference_weight/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,905 @@

+{
+  "metadata": {
+    "total_size": 8961059904
+  },
+  "weight_map": {
+    "final_linear.linear.weight": "model-00001-of-00003.safetensors",
+    "rope.bands": "model-00001-of-00003.safetensors",
+    "t_embedder.mlp.0.bias": "model-00001-of-00003.safetensors",
+    "t_embedder.mlp.0.weight": "model-00001-of-00003.safetensors",
+    "t_embedder.mlp.2.bias": "model-00001-of-00003.safetensors",
+    "t_embedder.mlp.2.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.final_layernorm.bias": "model-00001-of-00003.safetensors",
+    "videodit_blocks.final_layernorm.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.0.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.0.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.0.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.0.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.0.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.0.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.1.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.1.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.1.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.1.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.1.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.10.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.10.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.10.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.10.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.10.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.11.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.11.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.11.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.11.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.11.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.12.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.12.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.12.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.12.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.12.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.13.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.13.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.13.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.13.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.13.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.14.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.14.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.14.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.14.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.14.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.15.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.15.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.15.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.15.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.15.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.16.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.16.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.16.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.16.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.16.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.17.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.17.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.17.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.17.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.17.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.18.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.18.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.18.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.18.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.18.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.19.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.19.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.19.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.19.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.19.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.2.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.2.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.2.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.2.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.2.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.20.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.20.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.20.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.20.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.20.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.21.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.21.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.21.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.21.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.21.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.22.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.22.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.22.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.22.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.22.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.23.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.23.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.23.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.23.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.23.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.24.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.24.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.24.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.24.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.24.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.25.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.25.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.25.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.25.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.25.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.26.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.26.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.26.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.26.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.26.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.27.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.27.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.27.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.27.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.27.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.28.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.28.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.28.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.28.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.28.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.29.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.29.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.29.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.29.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.29.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.3.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.3.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.3.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.3.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.3.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.30.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.30.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.30.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.30.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.30.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.31.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.31.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.31.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.31.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.31.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.32.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.32.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.32.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.32.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.32.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.33.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.33.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.33.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.33.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.33.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.4.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.4.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.4.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.4.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.4.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.5.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.5.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.5.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.5.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.5.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.6.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.6.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.6.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.6.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.6.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.7.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.7.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.7.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.7.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.7.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.8.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.8.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.8.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.8.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.8.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.ada_modulate_layer.proj.0.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.9.ada_modulate_layer.proj.0.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.9.mlp.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.mlp.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.mlp.linear_fc1.weight": "model-00001-of-00003.safetensors",
+    "videodit_blocks.layers.9.mlp.linear_fc2.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.mlp_post_norm.bias": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.9.mlp_post_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.k_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.k_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.k_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.k_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_kv_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_proj.weight": "model-00003-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_qkv.k.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_qkv.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_qkv.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_qkv.q.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_qkv.qx.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_qkv.v.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.q_layernorm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.q_layernorm.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.q_layernorm_xattn.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attention.q_layernorm_xattn.weight": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attn_post_norm.bias": "model-00002-of-00003.safetensors",
+    "videodit_blocks.layers.9.self_attn_post_norm.weight": "model-00002-of-00003.safetensors",
+    "x_embedder.weight": "model-00001-of-00003.safetensors",
+    "y_embedder.null_caption_embedding": "model-00001-of-00003.safetensors",
+    "y_embedder.y_proj_adaln.0.bias": "model-00001-of-00003.safetensors",
+    "y_embedder.y_proj_adaln.0.weight": "model-00001-of-00003.safetensors",
+    "y_embedder.y_proj_xattn.0.bias": "model-00001-of-00003.safetensors",
+    "y_embedder.y_proj_xattn.0.weight": "model-00001-of-00003.safetensors"
+  }
+}