Training in progress, step 8500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fca6aeaf4fa7d75a66f7f67555261a5bad739ad8db5c61e5370422d2a64fa2fc
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:584527770bbf61e7d3b9f5f5d7f0c7a2aed0cb0bbeab1852ed5dfa972751a3a6
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b88e6f2dade8574d8f36a8bac2bf06f1878dfc285f0ec2718f4874fafc93ed3
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:5913ee9284fa8aa307711a2e744c4df8b62a0ed34b254b5187e266b9a990b3a6
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c54a623ce5f15765fc85292580b0c84fff2141008e564ba5f42059bc2565398
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c0db314fbdae64c2adb9ae851d5b0fd06db20205c5b2a3393b31aa089ac9035
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5562a3e399d7179333c76429cef48051cde3665996849a423be292e48285e2bc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3e60a31f38c722952d958f95680b7f288aeccf8a56dab49290f6f451d5b392c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08285758644342422,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-8000",
-  "epoch": 1.28,
   "eval_steps": 500,
-  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1255,6 +1255,84 @@
       "eval_samples_per_second": 17.129,
       "eval_steps_per_second": 2.141,
       "step": 8000
     }
   ],
   "logging_steps": 50,
@@ -1274,7 +1352,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.897330499584e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08279111981391907,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-8500",
+  "epoch": 1.3599999999999999,
   "eval_steps": 500,
+  "global_step": 8500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.129,
       "eval_steps_per_second": 2.141,
       "step": 8000
+    },
+    {
+      "epoch": 1.288,
+      "grad_norm": 6129.27783203125,
+      "learning_rate": 1.712e-05,
+      "loss": 0.0578,
+      "step": 8050
+    },
+    {
+      "epoch": 1.296,
+      "grad_norm": 6502.31298828125,
+      "learning_rate": 1.704e-05,
+      "loss": 0.0513,
+      "step": 8100
+    },
+    {
+      "epoch": 1.304,
+      "grad_norm": 10347.439453125,
+      "learning_rate": 1.696e-05,
+      "loss": 0.0527,
+      "step": 8150
+    },
+    {
+      "epoch": 1.312,
+      "grad_norm": 7870.1796875,
+      "learning_rate": 1.688e-05,
+      "loss": 0.0565,
+      "step": 8200
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 7197.3447265625,
+      "learning_rate": 1.6800000000000002e-05,
+      "loss": 0.0538,
+      "step": 8250
+    },
+    {
+      "epoch": 1.328,
+      "grad_norm": 5525.79931640625,
+      "learning_rate": 1.672e-05,
+      "loss": 0.0579,
+      "step": 8300
+    },
+    {
+      "epoch": 1.336,
+      "grad_norm": 5812.7490234375,
+      "learning_rate": 1.664e-05,
+      "loss": 0.0543,
+      "step": 8350
+    },
+    {
+      "epoch": 1.3439999999999999,
+      "grad_norm": 5728.1904296875,
+      "learning_rate": 1.656e-05,
+      "loss": 0.0572,
+      "step": 8400
+    },
+    {
+      "epoch": 1.3519999999999999,
+      "grad_norm": 6965.53759765625,
+      "learning_rate": 1.648e-05,
+      "loss": 0.0535,
+      "step": 8450
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 6986.52783203125,
+      "learning_rate": 1.64e-05,
+      "loss": 0.0549,
+      "step": 8500
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "eval_loss": 0.08279111981391907,
+      "eval_runtime": 116.6629,
+      "eval_samples_per_second": 17.143,
+      "eval_steps_per_second": 2.143,
+      "step": 8500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 4.140913655808e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null