Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +92 -14

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a00b4752e5400013d03bdc3543638a739c5809565856c2e1fd067bc65223c01
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:a43735b9df4b283992c9c4d45bee75fc6285185a63fdf5ab0ca479a5b3695e19
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f45ec9bcb28283b1fb0e751097db73046047365cbfc45350295ba1f4757128a0
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd5fe4f268d800b98de0ea4749a2562de05eb7ee03e087f4d9014c5c565df9cc
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ba4dabbcdc1ce4a55a172ce7079644c4c8c4a6b7506dc54cdcd4f9b26f6f954
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:99f4372161e4aa7620062bb4cf560b7c8a1c037ae87066fa4a0856792df3e527
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d08a32404911dd432312864883a3240b833c1da247016f7258f9c59a4d0754c1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4de77d65b6ff9759de02ce30e6b375e61b559a45ccc8d168326bc1d5f160b8b2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08808805048465729,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-1500",
-  "epoch": 0.24,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -81,9 +81,9 @@
     {
       "epoch": 0.08,
       "eval_loss": 0.09235642850399017,
-      "eval_runtime": 116.7651,
-      "eval_samples_per_second": 17.128,
-      "eval_steps_per_second": 2.141,
       "step": 500
     },
     {
@@ -159,9 +159,9 @@
     {
       "epoch": 0.16,
       "eval_loss": 0.08949962258338928,
-      "eval_runtime": 116.7407,
-      "eval_samples_per_second": 17.132,
-      "eval_steps_per_second": 2.141,
       "step": 1000
     },
     {
@@ -237,10 +237,88 @@
     {
       "epoch": 0.24,
       "eval_loss": 0.08808805048465729,
-      "eval_runtime": 116.8722,
-      "eval_samples_per_second": 17.113,
-      "eval_steps_per_second": 2.139,
       "step": 1500
     }
   ],
   "logging_steps": 50,
@@ -260,7 +338,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7307494686720000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08704760670661926,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-2000",
+  "epoch": 0.32,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.08,
       "eval_loss": 0.09235642850399017,
+      "eval_runtime": 109.274,
+      "eval_samples_per_second": 18.303,
+      "eval_steps_per_second": 2.288,
       "step": 500
     },
     {
     {
       "epoch": 0.16,
       "eval_loss": 0.08949962258338928,
+      "eval_runtime": 109.2536,
+      "eval_samples_per_second": 18.306,
+      "eval_steps_per_second": 2.288,
       "step": 1000
     },
     {
     {
       "epoch": 0.24,
       "eval_loss": 0.08808805048465729,
+      "eval_runtime": 109.2355,
+      "eval_samples_per_second": 18.309,
+      "eval_steps_per_second": 2.289,
       "step": 1500
+    },
+    {
+      "epoch": 0.248,
+      "grad_norm": 6751.6494140625,
+      "learning_rate": 2.752e-05,
+      "loss": 0.0781,
+      "step": 1550
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 5040.9033203125,
+      "learning_rate": 2.7439999999999998e-05,
+      "loss": 0.0686,
+      "step": 1600
+    },
+    {
+      "epoch": 0.264,
+      "grad_norm": 8748.07421875,
+      "learning_rate": 2.7360000000000002e-05,
+      "loss": 0.0689,
+      "step": 1650
+    },
+    {
+      "epoch": 0.272,
+      "grad_norm": 5971.705078125,
+      "learning_rate": 2.728e-05,
+      "loss": 0.0671,
+      "step": 1700
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 10833.1357421875,
+      "learning_rate": 2.72e-05,
+      "loss": 0.0734,
+      "step": 1750
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 10036.919921875,
+      "learning_rate": 2.712e-05,
+      "loss": 0.0715,
+      "step": 1800
+    },
+    {
+      "epoch": 0.296,
+      "grad_norm": 7755.1669921875,
+      "learning_rate": 2.704e-05,
+      "loss": 0.0669,
+      "step": 1850
+    },
+    {
+      "epoch": 0.304,
+      "grad_norm": 7584.822265625,
+      "learning_rate": 2.696e-05,
+      "loss": 0.0699,
+      "step": 1900
+    },
+    {
+      "epoch": 0.312,
+      "grad_norm": 10103.142578125,
+      "learning_rate": 2.688e-05,
+      "loss": 0.07,
+      "step": 1950
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 5768.24267578125,
+      "learning_rate": 2.68e-05,
+      "loss": 0.0709,
+      "step": 2000
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.08704760670661926,
+      "eval_runtime": 109.4348,
+      "eval_samples_per_second": 18.276,
+      "eval_steps_per_second": 2.284,
+      "step": 2000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 9743326248960000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null