Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +98 -20

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d253ddcfd4df2acb84a6afc37ea897625fd4823975484b2722f1d732a807a42
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8e4a377d9d9b4ee3182c91d09c6aa160ff1ade127f1e240b0ace4f4312419ec
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80072666b3be47f53f317ccfe6322071cfa6706038da8de25f13ce6816f3172e
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:37c76f78e4bea0bb233f5490f2342fc733388c7761a0fa0c0e5fdf8f1a5336d2
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f2667454d6cffb59aea7917c33b6757bc9e126470ce377cf6d3d3b895b28bce
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f180d57072cebd56f1e36f710e6b62868e2b14fe85aee7effc0a0d28a6763011
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9e7d6d8721d0efdf284e8ea86037aff29ca12a45581cd9384185af5e287f2cf
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:19fa64c0f058dbaac84e2a6129da56913abd2f29f4a3f61f13f6abfb2cd3ff5f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08615937829017639,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-2500",
-  "epoch": 0.4,
   "eval_steps": 500,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -81,9 +81,9 @@
     {
       "epoch": 0.08,
       "eval_loss": 0.09235642850399017,
-      "eval_runtime": 116.7651,
-      "eval_samples_per_second": 17.128,
-      "eval_steps_per_second": 2.141,
       "step": 500
     },
     {
@@ -159,9 +159,9 @@
     {
       "epoch": 0.16,
       "eval_loss": 0.08949962258338928,
-      "eval_runtime": 116.7407,
-      "eval_samples_per_second": 17.132,
-      "eval_steps_per_second": 2.141,
       "step": 1000
     },
     {
@@ -237,9 +237,9 @@
     {
       "epoch": 0.24,
       "eval_loss": 0.08808805048465729,
-      "eval_runtime": 116.8722,
-      "eval_samples_per_second": 17.113,
-      "eval_steps_per_second": 2.139,
       "step": 1500
     },
     {
@@ -315,9 +315,9 @@
     {
       "epoch": 0.32,
       "eval_loss": 0.08704760670661926,
-      "eval_runtime": 116.8362,
-      "eval_samples_per_second": 17.118,
-      "eval_steps_per_second": 2.14,
       "step": 2000
     },
     {
@@ -393,10 +393,88 @@
     {
       "epoch": 0.4,
       "eval_loss": 0.08615937829017639,
-      "eval_runtime": 116.9591,
-      "eval_samples_per_second": 17.1,
-      "eval_steps_per_second": 2.137,
       "step": 2500
     }
   ],
   "logging_steps": 50,
@@ -416,7 +494,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.21791578112e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08551913499832153,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-3000",
+  "epoch": 0.48,
   "eval_steps": 500,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.08,
       "eval_loss": 0.09235642850399017,
+      "eval_runtime": 109.274,
+      "eval_samples_per_second": 18.303,
+      "eval_steps_per_second": 2.288,
       "step": 500
     },
     {
     {
       "epoch": 0.16,
       "eval_loss": 0.08949962258338928,
+      "eval_runtime": 109.2536,
+      "eval_samples_per_second": 18.306,
+      "eval_steps_per_second": 2.288,
       "step": 1000
     },
     {
     {
       "epoch": 0.24,
       "eval_loss": 0.08808805048465729,
+      "eval_runtime": 109.2355,
+      "eval_samples_per_second": 18.309,
+      "eval_steps_per_second": 2.289,
       "step": 1500
     },
     {
     {
       "epoch": 0.32,
       "eval_loss": 0.08704760670661926,
+      "eval_runtime": 109.4348,
+      "eval_samples_per_second": 18.276,
+      "eval_steps_per_second": 2.284,
       "step": 2000
     },
     {
     {
       "epoch": 0.4,
       "eval_loss": 0.08615937829017639,
+      "eval_runtime": 109.2621,
+      "eval_samples_per_second": 18.305,
+      "eval_steps_per_second": 2.288,
       "step": 2500
+    },
+    {
+      "epoch": 0.408,
+      "grad_norm": 7447.5625,
+      "learning_rate": 2.592e-05,
+      "loss": 0.0672,
+      "step": 2550
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 7057.10009765625,
+      "learning_rate": 2.584e-05,
+      "loss": 0.0683,
+      "step": 2600
+    },
+    {
+      "epoch": 0.424,
+      "grad_norm": 8279.7392578125,
+      "learning_rate": 2.576e-05,
+      "loss": 0.0631,
+      "step": 2650
+    },
+    {
+      "epoch": 0.432,
+      "grad_norm": 7663.275390625,
+      "learning_rate": 2.568e-05,
+      "loss": 0.0698,
+      "step": 2700
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 7116.74609375,
+      "learning_rate": 2.5600000000000002e-05,
+      "loss": 0.0703,
+      "step": 2750
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 8839.5986328125,
+      "learning_rate": 2.552e-05,
+      "loss": 0.0654,
+      "step": 2800
+    },
+    {
+      "epoch": 0.456,
+      "grad_norm": 7157.17333984375,
+      "learning_rate": 2.544e-05,
+      "loss": 0.0628,
+      "step": 2850
+    },
+    {
+      "epoch": 0.464,
+      "grad_norm": 7690.267578125,
+      "learning_rate": 2.536e-05,
+      "loss": 0.0694,
+      "step": 2900
+    },
+    {
+      "epoch": 0.472,
+      "grad_norm": 5030.39501953125,
+      "learning_rate": 2.5280000000000002e-05,
+      "loss": 0.0654,
+      "step": 2950
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 7269.51171875,
+      "learning_rate": 2.52e-05,
+      "loss": 0.0732,
+      "step": 3000
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.08551913499832153,
+      "eval_runtime": 109.2626,
+      "eval_samples_per_second": 18.305,
+      "eval_steps_per_second": 2.288,
+      "step": 3000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.461498937344e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null