Training in progress, step 8000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d943046e9cee201d90914fe8b465ff2a60ed77f63734520ab719ff090af0b77
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:fca6aeaf4fa7d75a66f7f67555261a5bad739ad8db5c61e5370422d2a64fa2fc
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78ae5dc18c5c42b1ab70202f0fb9bb247ed17fda7375648f017acb36f68f1f78
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b88e6f2dade8574d8f36a8bac2bf06f1878dfc285f0ec2718f4874fafc93ed3
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e6d24d84d7824f21eaa5899dfd03019f712068506f4aab4dbb4d9b68c233cb1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c54a623ce5f15765fc85292580b0c84fff2141008e564ba5f42059bc2565398
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:551dce9770f5878295b9620e9ba43823a7a814027d76d3160674655baa064b21
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5562a3e399d7179333c76429cef48051cde3665996849a423be292e48285e2bc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08285799622535706,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-7500",
-  "epoch": 1.2,
   "eval_steps": 500,
-  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1177,6 +1177,84 @@
       "eval_samples_per_second": 17.106,
       "eval_steps_per_second": 2.138,
       "step": 7500
     }
   ],
   "logging_steps": 50,
@@ -1196,7 +1274,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.65374734336e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08285758644342422,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-8000",
+  "epoch": 1.28,
   "eval_steps": 500,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.106,
       "eval_steps_per_second": 2.138,
       "step": 7500
+    },
+    {
+      "epoch": 1.208,
+      "grad_norm": 4982.9521484375,
+      "learning_rate": 1.792e-05,
+      "loss": 0.0569,
+      "step": 7550
+    },
+    {
+      "epoch": 1.216,
+      "grad_norm": 5407.9384765625,
+      "learning_rate": 1.7840000000000002e-05,
+      "loss": 0.0579,
+      "step": 7600
+    },
+    {
+      "epoch": 1.224,
+      "grad_norm": 6399.041015625,
+      "learning_rate": 1.776e-05,
+      "loss": 0.0569,
+      "step": 7650
+    },
+    {
+      "epoch": 1.232,
+      "grad_norm": 6688.9658203125,
+      "learning_rate": 1.768e-05,
+      "loss": 0.0598,
+      "step": 7700
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 10116.4990234375,
+      "learning_rate": 1.76e-05,
+      "loss": 0.0538,
+      "step": 7750
+    },
+    {
+      "epoch": 1.248,
+      "grad_norm": 7761.98876953125,
+      "learning_rate": 1.7519999999999998e-05,
+      "loss": 0.0549,
+      "step": 7800
+    },
+    {
+      "epoch": 1.256,
+      "grad_norm": 5940.802734375,
+      "learning_rate": 1.7440000000000002e-05,
+      "loss": 0.0537,
+      "step": 7850
+    },
+    {
+      "epoch": 1.264,
+      "grad_norm": 7946.06787109375,
+      "learning_rate": 1.736e-05,
+      "loss": 0.0548,
+      "step": 7900
+    },
+    {
+      "epoch": 1.272,
+      "grad_norm": 8282.916015625,
+      "learning_rate": 1.728e-05,
+      "loss": 0.0539,
+      "step": 7950
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 6786.72509765625,
+      "learning_rate": 1.72e-05,
+      "loss": 0.0573,
+      "step": 8000
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.08285758644342422,
+      "eval_runtime": 116.7577,
+      "eval_samples_per_second": 17.129,
+      "eval_steps_per_second": 2.141,
+      "step": 8000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 3.897330499584e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null