Training in progress, step 5500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +113 -35

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11fbea9669742ba3ea39c635a607bbe423218198e460e6764bf73c6aab4c240d
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:69d1609aa46c5839ce2f0e40574d9fbde5dd0b26b3c6b24672dc874df7022413
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbb7a8dea04c89ec3fc490bba9edeb6cf633b3c3f918dfcb1a7b5c8e0283a4a1
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3ba4184275341c1f83f8c7ea5cc044fa98a0d37f2482c3badd6c3656af1348b
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d740a2b255005c6e7a6893364a7dc3b77e12bd1c4d5968595e98dca1e18092e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:98772bb230331f5cccf45e7b586be3da4127f0fa073760fa05315192ae7dcfa0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4cc549119fdb555619567d1cb3e1f53a8d128bcc831c85f577b9c54b5021dbcc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2b96925e850cd8ef32abae6516af5134c66eaecf4e61ddbdb73aaa1b5b6a670
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08396206796169281,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-5000",
-  "epoch": 0.8,
   "eval_steps": 500,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -81,9 +81,9 @@
     {
       "epoch": 0.08,
       "eval_loss": 0.09235642850399017,
-      "eval_runtime": 116.7651,
-      "eval_samples_per_second": 17.128,
-      "eval_steps_per_second": 2.141,
       "step": 500
     },
     {
@@ -159,9 +159,9 @@
     {
       "epoch": 0.16,
       "eval_loss": 0.08949962258338928,
-      "eval_runtime": 116.7407,
-      "eval_samples_per_second": 17.132,
-      "eval_steps_per_second": 2.141,
       "step": 1000
     },
     {
@@ -237,9 +237,9 @@
     {
       "epoch": 0.24,
       "eval_loss": 0.08808805048465729,
-      "eval_runtime": 116.8722,
-      "eval_samples_per_second": 17.113,
-      "eval_steps_per_second": 2.139,
       "step": 1500
     },
     {
@@ -315,9 +315,9 @@
     {
       "epoch": 0.32,
       "eval_loss": 0.08704760670661926,
-      "eval_runtime": 116.8362,
-      "eval_samples_per_second": 17.118,
-      "eval_steps_per_second": 2.14,
       "step": 2000
     },
     {
@@ -393,9 +393,9 @@
     {
       "epoch": 0.4,
       "eval_loss": 0.08615937829017639,
-      "eval_runtime": 116.9591,
-      "eval_samples_per_second": 17.1,
-      "eval_steps_per_second": 2.137,
       "step": 2500
     },
     {
@@ -471,9 +471,9 @@
     {
       "epoch": 0.48,
       "eval_loss": 0.08551913499832153,
-      "eval_runtime": 116.545,
-      "eval_samples_per_second": 17.161,
-      "eval_steps_per_second": 2.145,
       "step": 3000
     },
     {
@@ -549,9 +549,9 @@
     {
       "epoch": 0.56,
       "eval_loss": 0.08540560305118561,
-      "eval_runtime": 116.9131,
-      "eval_samples_per_second": 17.107,
-      "eval_steps_per_second": 2.138,
       "step": 3500
     },
     {
@@ -627,9 +627,9 @@
     {
       "epoch": 0.64,
       "eval_loss": 0.08466340601444244,
-      "eval_runtime": 116.6411,
-      "eval_samples_per_second": 17.147,
-      "eval_steps_per_second": 2.143,
       "step": 4000
     },
     {
@@ -705,9 +705,9 @@
     {
       "epoch": 0.72,
       "eval_loss": 0.0842796117067337,
-      "eval_runtime": 116.9361,
-      "eval_samples_per_second": 17.103,
-      "eval_steps_per_second": 2.138,
       "step": 4500
     },
     {
@@ -783,10 +783,88 @@
     {
       "epoch": 0.8,
       "eval_loss": 0.08396206796169281,
-      "eval_runtime": 116.8224,
-      "eval_samples_per_second": 17.12,
-      "eval_steps_per_second": 2.14,
       "step": 5000
     }
   ],
   "logging_steps": 50,
@@ -806,7 +884,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.43583156224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08360794186592102,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-5500",
+  "epoch": 0.88,
   "eval_steps": 500,
+  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.08,
       "eval_loss": 0.09235642850399017,
+      "eval_runtime": 109.274,
+      "eval_samples_per_second": 18.303,
+      "eval_steps_per_second": 2.288,
       "step": 500
     },
     {
     {
       "epoch": 0.16,
       "eval_loss": 0.08949962258338928,
+      "eval_runtime": 109.2536,
+      "eval_samples_per_second": 18.306,
+      "eval_steps_per_second": 2.288,
       "step": 1000
     },
     {
     {
       "epoch": 0.24,
       "eval_loss": 0.08808805048465729,
+      "eval_runtime": 109.2355,
+      "eval_samples_per_second": 18.309,
+      "eval_steps_per_second": 2.289,
       "step": 1500
     },
     {
     {
       "epoch": 0.32,
       "eval_loss": 0.08704760670661926,
+      "eval_runtime": 109.4348,
+      "eval_samples_per_second": 18.276,
+      "eval_steps_per_second": 2.284,
       "step": 2000
     },
     {
     {
       "epoch": 0.4,
       "eval_loss": 0.08615937829017639,
+      "eval_runtime": 109.2621,
+      "eval_samples_per_second": 18.305,
+      "eval_steps_per_second": 2.288,
       "step": 2500
     },
     {
     {
       "epoch": 0.48,
       "eval_loss": 0.08551913499832153,
+      "eval_runtime": 109.2626,
+      "eval_samples_per_second": 18.305,
+      "eval_steps_per_second": 2.288,
       "step": 3000
     },
     {
     {
       "epoch": 0.56,
       "eval_loss": 0.08540560305118561,
+      "eval_runtime": 109.3641,
+      "eval_samples_per_second": 18.288,
+      "eval_steps_per_second": 2.286,
       "step": 3500
     },
     {
     {
       "epoch": 0.64,
       "eval_loss": 0.08466340601444244,
+      "eval_runtime": 109.2066,
+      "eval_samples_per_second": 18.314,
+      "eval_steps_per_second": 2.289,
       "step": 4000
     },
     {
     {
       "epoch": 0.72,
       "eval_loss": 0.0842796117067337,
+      "eval_runtime": 109.48,
+      "eval_samples_per_second": 18.268,
+      "eval_steps_per_second": 2.284,
       "step": 4500
     },
     {
     {
       "epoch": 0.8,
       "eval_loss": 0.08396206796169281,
+      "eval_runtime": 109.1825,
+      "eval_samples_per_second": 18.318,
+      "eval_steps_per_second": 2.29,
       "step": 5000
+    },
+    {
+      "epoch": 0.808,
+      "grad_norm": 6047.43359375,
+      "learning_rate": 2.192e-05,
+      "loss": 0.0673,
+      "step": 5050
+    },
+    {
+      "epoch": 0.816,
+      "grad_norm": 6286.21484375,
+      "learning_rate": 2.184e-05,
+      "loss": 0.0609,
+      "step": 5100
+    },
+    {
+      "epoch": 0.824,
+      "grad_norm": 6187.03369140625,
+      "learning_rate": 2.1760000000000002e-05,
+      "loss": 0.0628,
+      "step": 5150
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 4476.73095703125,
+      "learning_rate": 2.1680000000000002e-05,
+      "loss": 0.0626,
+      "step": 5200
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 6180.27490234375,
+      "learning_rate": 2.16e-05,
+      "loss": 0.061,
+      "step": 5250
+    },
+    {
+      "epoch": 0.848,
+      "grad_norm": 8477.626953125,
+      "learning_rate": 2.152e-05,
+      "loss": 0.0638,
+      "step": 5300
+    },
+    {
+      "epoch": 0.856,
+      "grad_norm": 11541.119140625,
+      "learning_rate": 2.144e-05,
+      "loss": 0.0602,
+      "step": 5350
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 6183.49609375,
+      "learning_rate": 2.136e-05,
+      "loss": 0.0645,
+      "step": 5400
+    },
+    {
+      "epoch": 0.872,
+      "grad_norm": 7597.5810546875,
+      "learning_rate": 2.1280000000000003e-05,
+      "loss": 0.067,
+      "step": 5450
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 8438.478515625,
+      "learning_rate": 2.12e-05,
+      "loss": 0.0628,
+      "step": 5500
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.08360794186592102,
+      "eval_runtime": 109.3353,
+      "eval_samples_per_second": 18.292,
+      "eval_steps_per_second": 2.287,
+      "step": 5500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.679414718464e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null