Training in progress, step 13000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3440c751a156d2ea034af88bf09257dd0a13e2135cfbb097e39dfddddef310fd
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:84ffb6564333bec2f290dbb25cc2aa16322f854baa8d4d551f3c98e898121f1a
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1457c08b9b3534e02e583e1c8e42d69598ca892990b039f5a31fe9230fe0935
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:55950639d5a01737cdced1ff8ae565003480c956e54966fe29dbcc5ee832bbe0
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f0a30224aa29ff1d82dc265e86d4dfad17d2e9441b1e7410af0f89b7ac502d4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ede19b1f06f575564a160b0c17fcb5315d8660261b38069d03c83f6d06084b12
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b03c363c915c0dcfc4a0726bfa268bae9d4c39d40263aa6bcf80af31957091aa
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ed905996f8c375ddf1e71a02110476c5d9bb4d922dca340182e086437e4a3a1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.08158940076828003,
   "best_model_checkpoint": "./fine-tuned/checkpoint-12500",
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 12500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1957,6 +1957,84 @@
       "eval_samples_per_second": 17.125,
       "eval_steps_per_second": 2.141,
       "step": 12500
     }
   ],
   "logging_steps": 50,
@@ -1976,7 +2054,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.0895789056e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.08158940076828003,
   "best_model_checkpoint": "./fine-tuned/checkpoint-12500",
+  "epoch": 2.08,
   "eval_steps": 500,
+  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.125,
       "eval_steps_per_second": 2.141,
       "step": 12500
+    },
+    {
+      "epoch": 2.008,
+      "grad_norm": 6336.53076171875,
+      "learning_rate": 9.92e-06,
+      "loss": 0.0466,
+      "step": 12550
+    },
+    {
+      "epoch": 2.016,
+      "grad_norm": 4880.88330078125,
+      "learning_rate": 9.84e-06,
+      "loss": 0.0531,
+      "step": 12600
+    },
+    {
+      "epoch": 2.024,
+      "grad_norm": 6478.1640625,
+      "learning_rate": 9.76e-06,
+      "loss": 0.0516,
+      "step": 12650
+    },
+    {
+      "epoch": 2.032,
+      "grad_norm": 6105.318359375,
+      "learning_rate": 9.68e-06,
+      "loss": 0.0492,
+      "step": 12700
+    },
+    {
+      "epoch": 2.04,
+      "grad_norm": 6270.1318359375,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.0511,
+      "step": 12750
+    },
+    {
+      "epoch": 2.048,
+      "grad_norm": 5914.5458984375,
+      "learning_rate": 9.52e-06,
+      "loss": 0.0522,
+      "step": 12800
+    },
+    {
+      "epoch": 2.056,
+      "grad_norm": 6194.03076171875,
+      "learning_rate": 9.44e-06,
+      "loss": 0.0535,
+      "step": 12850
+    },
+    {
+      "epoch": 2.064,
+      "grad_norm": 7986.248046875,
+      "learning_rate": 9.36e-06,
+      "loss": 0.0529,
+      "step": 12900
+    },
+    {
+      "epoch": 2.072,
+      "grad_norm": 10384.2099609375,
+      "learning_rate": 9.280000000000001e-06,
+      "loss": 0.0471,
+      "step": 12950
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 8849.5703125,
+      "learning_rate": 9.2e-06,
+      "loss": 0.0502,
+      "step": 13000
+    },
+    {
+      "epoch": 2.08,
+      "eval_loss": 0.08202869445085526,
+      "eval_runtime": 117.0019,
+      "eval_samples_per_second": 17.094,
+      "eval_steps_per_second": 2.137,
+      "step": 13000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 6.333162061824e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null