Training in progress, step 2500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +95 -17

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a43735b9df4b283992c9c4d45bee75fc6285185a63fdf5ab0ca479a5b3695e19
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d253ddcfd4df2acb84a6afc37ea897625fd4823975484b2722f1d732a807a42
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd5fe4f268d800b98de0ea4749a2562de05eb7ee03e087f4d9014c5c565df9cc
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:80072666b3be47f53f317ccfe6322071cfa6706038da8de25f13ce6816f3172e
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99f4372161e4aa7620062bb4cf560b7c8a1c037ae87066fa4a0856792df3e527
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f2667454d6cffb59aea7917c33b6757bc9e126470ce377cf6d3d3b895b28bce
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4de77d65b6ff9759de02ce30e6b375e61b559a45ccc8d168326bc1d5f160b8b2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9e7d6d8721d0efdf284e8ea86037aff29ca12a45581cd9384185af5e287f2cf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08704760670661926,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-2000",
-  "epoch": 0.32,
   "eval_steps": 500,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -81,9 +81,9 @@
     {
       "epoch": 0.08,
       "eval_loss": 0.09235642850399017,
-      "eval_runtime": 116.7651,
-      "eval_samples_per_second": 17.128,
-      "eval_steps_per_second": 2.141,
       "step": 500
     },
     {
@@ -159,9 +159,9 @@
     {
       "epoch": 0.16,
       "eval_loss": 0.08949962258338928,
-      "eval_runtime": 116.7407,
-      "eval_samples_per_second": 17.132,
-      "eval_steps_per_second": 2.141,
       "step": 1000
     },
     {
@@ -237,9 +237,9 @@
     {
       "epoch": 0.24,
       "eval_loss": 0.08808805048465729,
-      "eval_runtime": 116.8722,
-      "eval_samples_per_second": 17.113,
-      "eval_steps_per_second": 2.139,
       "step": 1500
     },
     {
@@ -315,10 +315,88 @@
     {
       "epoch": 0.32,
       "eval_loss": 0.08704760670661926,
-      "eval_runtime": 116.8362,
-      "eval_samples_per_second": 17.118,
-      "eval_steps_per_second": 2.14,
       "step": 2000
     }
   ],
   "logging_steps": 50,
@@ -338,7 +416,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9743326248960000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08615937829017639,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-2500",
+  "epoch": 0.4,
   "eval_steps": 500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.08,
       "eval_loss": 0.09235642850399017,
+      "eval_runtime": 109.274,
+      "eval_samples_per_second": 18.303,
+      "eval_steps_per_second": 2.288,
       "step": 500
     },
     {
     {
       "epoch": 0.16,
       "eval_loss": 0.08949962258338928,
+      "eval_runtime": 109.2536,
+      "eval_samples_per_second": 18.306,
+      "eval_steps_per_second": 2.288,
       "step": 1000
     },
     {
     {
       "epoch": 0.24,
       "eval_loss": 0.08808805048465729,
+      "eval_runtime": 109.2355,
+      "eval_samples_per_second": 18.309,
+      "eval_steps_per_second": 2.289,
       "step": 1500
     },
     {
     {
       "epoch": 0.32,
       "eval_loss": 0.08704760670661926,
+      "eval_runtime": 109.4348,
+      "eval_samples_per_second": 18.276,
+      "eval_steps_per_second": 2.284,
       "step": 2000
+    },
+    {
+      "epoch": 0.328,
+      "grad_norm": 6016.46826171875,
+      "learning_rate": 2.672e-05,
+      "loss": 0.0663,
+      "step": 2050
+    },
+    {
+      "epoch": 0.336,
+      "grad_norm": 6869.53076171875,
+      "learning_rate": 2.6640000000000002e-05,
+      "loss": 0.073,
+      "step": 2100
+    },
+    {
+      "epoch": 0.344,
+      "grad_norm": 6099.595703125,
+      "learning_rate": 2.656e-05,
+      "loss": 0.0667,
+      "step": 2150
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 6923.919921875,
+      "learning_rate": 2.648e-05,
+      "loss": 0.0653,
+      "step": 2200
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 8005.85595703125,
+      "learning_rate": 2.64e-05,
+      "loss": 0.0685,
+      "step": 2250
+    },
+    {
+      "epoch": 0.368,
+      "grad_norm": 6473.466796875,
+      "learning_rate": 2.632e-05,
+      "loss": 0.0678,
+      "step": 2300
+    },
+    {
+      "epoch": 0.376,
+      "grad_norm": 7177.6328125,
+      "learning_rate": 2.6240000000000003e-05,
+      "loss": 0.0637,
+      "step": 2350
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 5574.75439453125,
+      "learning_rate": 2.616e-05,
+      "loss": 0.0698,
+      "step": 2400
+    },
+    {
+      "epoch": 0.392,
+      "grad_norm": 6910.39599609375,
+      "learning_rate": 2.608e-05,
+      "loss": 0.0645,
+      "step": 2450
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 5913.9775390625,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.068,
+      "step": 2500
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.08615937829017639,
+      "eval_runtime": 109.2621,
+      "eval_samples_per_second": 18.305,
+      "eval_steps_per_second": 2.288,
+      "step": 2500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.21791578112e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null