Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +89 -11

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b65f0032ace99ac31a5c4eaebab678922f9196855254a04fa04cd5b09838cd25
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a00b4752e5400013d03bdc3543638a739c5809565856c2e1fd067bc65223c01
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9542f526fbcdae270a597291ca95babaa9f3b9e2d72ac373956f44fc941c5cd5
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:f45ec9bcb28283b1fb0e751097db73046047365cbfc45350295ba1f4757128a0
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c88b9beda061d1039d8d779edfe7f5a8ca6add672a561cd18d21ff3443068c38
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ba4dabbcdc1ce4a55a172ce7079644c4c8c4a6b7506dc54cdcd4f9b26f6f954
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:635e57a0f4914cbbb1c670a34423e0edc1f884281d003185692f1319d135cdd1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d08a32404911dd432312864883a3240b833c1da247016f7258f9c59a4d0754c1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08949962258338928,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-1000",
-  "epoch": 0.16,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -81,9 +81,9 @@
     {
       "epoch": 0.08,
       "eval_loss": 0.09235642850399017,
-      "eval_runtime": 116.7651,
-      "eval_samples_per_second": 17.128,
-      "eval_steps_per_second": 2.141,
       "step": 500
     },
     {
@@ -159,10 +159,88 @@
     {
       "epoch": 0.16,
       "eval_loss": 0.08949962258338928,
-      "eval_runtime": 116.7407,
-      "eval_samples_per_second": 17.132,
-      "eval_steps_per_second": 2.141,
       "step": 1000
     }
   ],
   "logging_steps": 50,
@@ -182,7 +260,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4871663124480000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08808805048465729,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-1500",
+  "epoch": 0.24,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.08,
       "eval_loss": 0.09235642850399017,
+      "eval_runtime": 109.274,
+      "eval_samples_per_second": 18.303,
+      "eval_steps_per_second": 2.288,
       "step": 500
     },
     {
     {
       "epoch": 0.16,
       "eval_loss": 0.08949962258338928,
+      "eval_runtime": 109.2536,
+      "eval_samples_per_second": 18.306,
+      "eval_steps_per_second": 2.288,
       "step": 1000
+    },
+    {
+      "epoch": 0.168,
+      "grad_norm": 8266.658203125,
+      "learning_rate": 2.832e-05,
+      "loss": 0.0767,
+      "step": 1050
+    },
+    {
+      "epoch": 0.176,
+      "grad_norm": 6160.548828125,
+      "learning_rate": 2.824e-05,
+      "loss": 0.067,
+      "step": 1100
+    },
+    {
+      "epoch": 0.184,
+      "grad_norm": 7343.408203125,
+      "learning_rate": 2.816e-05,
+      "loss": 0.0717,
+      "step": 1150
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 5661.76318359375,
+      "learning_rate": 2.8080000000000002e-05,
+      "loss": 0.0733,
+      "step": 1200
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 8678.46484375,
+      "learning_rate": 2.8e-05,
+      "loss": 0.0737,
+      "step": 1250
+    },
+    {
+      "epoch": 0.208,
+      "grad_norm": 6331.21533203125,
+      "learning_rate": 2.792e-05,
+      "loss": 0.0696,
+      "step": 1300
+    },
+    {
+      "epoch": 0.216,
+      "grad_norm": 10563.5400390625,
+      "learning_rate": 2.784e-05,
+      "loss": 0.0747,
+      "step": 1350
+    },
+    {
+      "epoch": 0.224,
+      "grad_norm": 7221.74365234375,
+      "learning_rate": 2.7760000000000002e-05,
+      "loss": 0.0716,
+      "step": 1400
+    },
+    {
+      "epoch": 0.232,
+      "grad_norm": 6486.46142578125,
+      "learning_rate": 2.768e-05,
+      "loss": 0.0711,
+      "step": 1450
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 6838.505859375,
+      "learning_rate": 2.7600000000000003e-05,
+      "loss": 0.0703,
+      "step": 1500
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 0.08808805048465729,
+      "eval_runtime": 109.2355,
+      "eval_samples_per_second": 18.309,
+      "eval_steps_per_second": 2.289,
+      "step": 1500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 7307494686720000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null