Training in progress, step 38000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +90 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d960d4cf1314782ff9fa34b4fa4ff52147a6a3edb83af4b92d07e2bfe2de068c
 size 132187888

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f14125fba192c696e9ea3e36ca9f9429c24cac19e9b8c350f6135ab01f7ad59
 size 132187888

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3c47f9755f99713864a7b4e3ec92efc30fda75d652ffd65ed16182316bd0cf3
 size 1800

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea672d9cf3b33b67a7d7775ed77487a43c2ed825e9c82fdac570ac86bb7b82e0
 size 1800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae4ce6863400bf14083af33a7f6b1eb29b1d7a79f7ec21fe556f80564974288f
 size 264665786

 version https://git-lfs.github.com/spec/v1
+oid sha256:8bcbfe92a4edd63a8b647a0117b3f07614d7a6540fc40ddbb287c8b91dd837c1
 size 264665786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52e415f584d39fd895ae020039e8e625bf0351da63110c6500e3a11320d6621f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc11b8250e89187182c146356c8dd099d66b6a75fadfa56262487e142dbe4b90
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:689e59e066b48be0feeeeb12da6d1787ebe3b841285102ea7503ee5943525726
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:102e993b93214454fb03b9ca20f482147915e5a724733ab537e52178df0f84f1
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23ce717bb1ff7d19ce8b39673c5e006d14b3fec124190d834c88a63ab05da6d0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:541cb6dea9c80e2359e5134078f161ec83a5de3af8e29b3e9b6b880e5dd9058f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 37500,
-  "best_metric": 0.595755934715271,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-37500",
-  "epoch": 2.8843935081916774,
   "eval_steps": 250,
-  "global_step": 37500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6458,6 +6458,92 @@
       "eval_samples_per_second": 22.655,
       "eval_steps_per_second": 5.664,
       "step": 37500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 37750,
+  "best_metric": 0.5946066975593567,
   "best_model_checkpoint": "./qwen3-4b-ar-diffusion-checkpoints/checkpoint-37500",
+  "epoch": 2.9228520883008997,
   "eval_steps": 250,
+  "global_step": 38000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.655,
       "eval_steps_per_second": 5.664,
       "step": 37500
+    },
+    {
+      "epoch": 2.8882393662026,
+      "grad_norm": 0.6938227415084839,
+      "learning_rate": 7.630574240968237e-06,
+      "loss": 0.6071,
+      "step": 37550
+    },
+    {
+      "epoch": 2.892085224213522,
+      "grad_norm": 0.8504564166069031,
+      "learning_rate": 7.3708542191517545e-06,
+      "loss": 0.5963,
+      "step": 37600
+    },
+    {
+      "epoch": 2.895931082224444,
+      "grad_norm": 0.5555813312530518,
+      "learning_rate": 7.111134197335273e-06,
+      "loss": 0.628,
+      "step": 37650
+    },
+    {
+      "epoch": 2.8997769402353666,
+      "grad_norm": 0.9856501221656799,
+      "learning_rate": 6.851414175518792e-06,
+      "loss": 0.6144,
+      "step": 37700
+    },
+    {
+      "epoch": 2.903622798246289,
+      "grad_norm": 1.2680622339248657,
+      "learning_rate": 6.591694153702309e-06,
+      "loss": 0.6156,
+      "step": 37750
+    },
+    {
+      "epoch": 2.903622798246289,
+      "eval_loss": 0.5946066975593567,
+      "eval_runtime": 21.1442,
+      "eval_samples_per_second": 23.647,
+      "eval_steps_per_second": 5.912,
+      "step": 37750
+    },
+    {
+      "epoch": 2.907468656257211,
+      "grad_norm": 0.7417711615562439,
+      "learning_rate": 6.331974131885828e-06,
+      "loss": 0.6468,
+      "step": 37800
+    },
+    {
+      "epoch": 2.9113145142681334,
+      "grad_norm": 1.0585455894470215,
+      "learning_rate": 6.072254110069346e-06,
+      "loss": 0.585,
+      "step": 37850
+    },
+    {
+      "epoch": 2.9151603722790553,
+      "grad_norm": 0.5458203554153442,
+      "learning_rate": 5.812534088252864e-06,
+      "loss": 0.6077,
+      "step": 37900
+    },
+    {
+      "epoch": 2.9190062302899777,
+      "grad_norm": 0.7168423533439636,
+      "learning_rate": 5.552814066436382e-06,
+      "loss": 0.5597,
+      "step": 37950
+    },
+    {
+      "epoch": 2.9228520883008997,
+      "grad_norm": 0.8493395447731018,
+      "learning_rate": 5.2930940446198996e-06,
+      "loss": 0.5849,
+      "step": 38000
+    },
+    {
+      "epoch": 2.9228520883008997,
+      "eval_loss": 0.5946918725967407,
+      "eval_runtime": 22.1504,
+      "eval_samples_per_second": 22.573,
+      "eval_steps_per_second": 5.643,
+      "step": 38000
     }
   ],
   "logging_steps": 50,