Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +104 -26

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f249b4c12d0314b83435dfe63816bee13e5910dc2b4ef014ba7a61e89f43ac0
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:935c0c9e6c9bad61c25203243a2dced5424fa2c750c3b63d12e6a9555bd1d414
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2341c66cd39e43b1d806239932be769b677cdef8e280c9b4ff34c8958b0ad34
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b6424579b540963ca5dff78ef0b1bc07be8ee502bd08a007f4baf7bfc0962f2
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbe26b37d45ea8d0357f9b26f439f5ad172b1a279f1b8765178fa166fce80cbc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:994ecdd24463592bb7a469b126032a8d12a6fc0731753b561060d5f56a11ebf4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9c9a3885ae8ac27be8fa78a1d765dfbf434202614784e058d9c43f9ea39114b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:86f6fa01b61cfbdf0a99f96e2c8520500066cb2276b7fc4c693828106716e38a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08540560305118561,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-3500",
-  "epoch": 0.56,
   "eval_steps": 500,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -81,9 +81,9 @@
     {
       "epoch": 0.08,
       "eval_loss": 0.09235642850399017,
-      "eval_runtime": 116.7651,
-      "eval_samples_per_second": 17.128,
-      "eval_steps_per_second": 2.141,
       "step": 500
     },
     {
@@ -159,9 +159,9 @@
     {
       "epoch": 0.16,
       "eval_loss": 0.08949962258338928,
-      "eval_runtime": 116.7407,
-      "eval_samples_per_second": 17.132,
-      "eval_steps_per_second": 2.141,
       "step": 1000
     },
     {
@@ -237,9 +237,9 @@
     {
       "epoch": 0.24,
       "eval_loss": 0.08808805048465729,
-      "eval_runtime": 116.8722,
-      "eval_samples_per_second": 17.113,
-      "eval_steps_per_second": 2.139,
       "step": 1500
     },
     {
@@ -315,9 +315,9 @@
     {
       "epoch": 0.32,
       "eval_loss": 0.08704760670661926,
-      "eval_runtime": 116.8362,
-      "eval_samples_per_second": 17.118,
-      "eval_steps_per_second": 2.14,
       "step": 2000
     },
     {
@@ -393,9 +393,9 @@
     {
       "epoch": 0.4,
       "eval_loss": 0.08615937829017639,
-      "eval_runtime": 116.9591,
-      "eval_samples_per_second": 17.1,
-      "eval_steps_per_second": 2.137,
       "step": 2500
     },
     {
@@ -471,9 +471,9 @@
     {
       "epoch": 0.48,
       "eval_loss": 0.08551913499832153,
-      "eval_runtime": 116.545,
-      "eval_samples_per_second": 17.161,
-      "eval_steps_per_second": 2.145,
       "step": 3000
     },
     {
@@ -549,10 +549,88 @@
     {
       "epoch": 0.56,
       "eval_loss": 0.08540560305118561,
-      "eval_runtime": 116.9131,
-      "eval_samples_per_second": 17.107,
-      "eval_steps_per_second": 2.138,
       "step": 3500
     }
   ],
   "logging_steps": 50,
@@ -572,7 +650,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.705082093568e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08466340601444244,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-4000",
+  "epoch": 0.64,
   "eval_steps": 500,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.08,
       "eval_loss": 0.09235642850399017,
+      "eval_runtime": 109.274,
+      "eval_samples_per_second": 18.303,
+      "eval_steps_per_second": 2.288,
       "step": 500
     },
     {
     {
       "epoch": 0.16,
       "eval_loss": 0.08949962258338928,
+      "eval_runtime": 109.2536,
+      "eval_samples_per_second": 18.306,
+      "eval_steps_per_second": 2.288,
       "step": 1000
     },
     {
     {
       "epoch": 0.24,
       "eval_loss": 0.08808805048465729,
+      "eval_runtime": 109.2355,
+      "eval_samples_per_second": 18.309,
+      "eval_steps_per_second": 2.289,
       "step": 1500
     },
     {
     {
       "epoch": 0.32,
       "eval_loss": 0.08704760670661926,
+      "eval_runtime": 109.4348,
+      "eval_samples_per_second": 18.276,
+      "eval_steps_per_second": 2.284,
       "step": 2000
     },
     {
     {
       "epoch": 0.4,
       "eval_loss": 0.08615937829017639,
+      "eval_runtime": 109.2621,
+      "eval_samples_per_second": 18.305,
+      "eval_steps_per_second": 2.288,
       "step": 2500
     },
     {
     {
       "epoch": 0.48,
       "eval_loss": 0.08551913499832153,
+      "eval_runtime": 109.2626,
+      "eval_samples_per_second": 18.305,
+      "eval_steps_per_second": 2.288,
       "step": 3000
     },
     {
     {
       "epoch": 0.56,
       "eval_loss": 0.08540560305118561,
+      "eval_runtime": 109.3641,
+      "eval_samples_per_second": 18.288,
+      "eval_steps_per_second": 2.286,
       "step": 3500
+    },
+    {
+      "epoch": 0.568,
+      "grad_norm": 6408.47265625,
+      "learning_rate": 2.432e-05,
+      "loss": 0.0652,
+      "step": 3550
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 5537.69287109375,
+      "learning_rate": 2.4240000000000002e-05,
+      "loss": 0.0633,
+      "step": 3600
+    },
+    {
+      "epoch": 0.584,
+      "grad_norm": 7664.20703125,
+      "learning_rate": 2.4160000000000002e-05,
+      "loss": 0.0652,
+      "step": 3650
+    },
+    {
+      "epoch": 0.592,
+      "grad_norm": 5726.9697265625,
+      "learning_rate": 2.408e-05,
+      "loss": 0.0667,
+      "step": 3700
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 6898.275390625,
+      "learning_rate": 2.4e-05,
+      "loss": 0.0675,
+      "step": 3750
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 9309.822265625,
+      "learning_rate": 2.392e-05,
+      "loss": 0.0668,
+      "step": 3800
+    },
+    {
+      "epoch": 0.616,
+      "grad_norm": 8566.080078125,
+      "learning_rate": 2.384e-05,
+      "loss": 0.064,
+      "step": 3850
+    },
+    {
+      "epoch": 0.624,
+      "grad_norm": 5729.54833984375,
+      "learning_rate": 2.3760000000000003e-05,
+      "loss": 0.0635,
+      "step": 3900
+    },
+    {
+      "epoch": 0.632,
+      "grad_norm": 9562.8701171875,
+      "learning_rate": 2.368e-05,
+      "loss": 0.0643,
+      "step": 3950
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 4704.76025390625,
+      "learning_rate": 2.3599999999999998e-05,
+      "loss": 0.0649,
+      "step": 4000
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 0.08466340601444244,
+      "eval_runtime": 109.2066,
+      "eval_samples_per_second": 18.314,
+      "eval_steps_per_second": 2.289,
+      "step": 4000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.948665249792e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null