Model save

Browse files

Files changed (7) hide show

README.md +2 -4
all_results.json +5 -5
generation_config.json +2 -1
moe_bias_states.json +1179 -0
train_results.json +5 -5
trainer_state.json +1548 -604
training.log +37 -0

README.md CHANGED Viewed

@@ -1,11 +1,9 @@
 ---
 base_model: allenai/OLMoE-1B-7B-0125
-datasets: fw407/Commonsense-15K
 library_name: transformers
 model_name: OLMoE-1B-7B-0125-aux-free-sft-commonsense15k
 tags:
 - generated_from_trainer
-- open-r1
 - trl
 - sft
 licence: license
@@ -13,7 +11,7 @@ licence: license
 # Model Card for OLMoE-1B-7B-0125-aux-free-sft-commonsense15k
-This model is a fine-tuned version of [allenai/OLMoE-1B-7B-0125](https://huggingface.co/allenai/OLMoE-1B-7B-0125) on the [fw407/Commonsense-15K](https://huggingface.co/datasets/fw407/Commonsense-15K) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -29,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/hector_-carnegie-mellon-university/huggingface/runs/y1ji2w8y)
 This model was trained with SFT.

 ---
 base_model: allenai/OLMoE-1B-7B-0125
 library_name: transformers
 model_name: OLMoE-1B-7B-0125-aux-free-sft-commonsense15k
 tags:
 - generated_from_trainer
 - trl
 - sft
 licence: license
 # Model Card for OLMoE-1B-7B-0125-aux-free-sft-commonsense15k
+This model is a fine-tuned version of [allenai/OLMoE-1B-7B-0125](https://huggingface.co/allenai/OLMoE-1B-7B-0125).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/hector_-carnegie-mellon-university/huggingface/runs/5zw6bqnr)
 This model was trained with SFT.

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 3245435781120.0,
-    "train_loss": 1.2809894014807308,
-    "train_runtime": 1398.581,
     "train_samples": 15119,
-    "train_samples_per_second": 10.81,
-    "train_steps_per_second": 0.085
 }

 {
+    "total_flos": 1.3663861802532864e+17,
+    "train_loss": 1.2117820017448457,
+    "train_runtime": 1211.3807,
     "train_samples": 15119,
+    "train_samples_per_second": 12.481,
+    "train_steps_per_second": 0.196
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,6 @@
   "_from_model_config": true,
   "eos_token_id": 50279,
   "pad_token_id": 1,
-  "transformers_version": "4.51.0"
 }

   "_from_model_config": true,
   "eos_token_id": 50279,
   "pad_token_id": 1,
+  "transformers_version": "4.51.0",
+  "use_cache": false
 }

moe_bias_states.json ADDED Viewed

	@@ -0,0 +1,1179 @@

+{
+  "metadata": {
+    "total_moe_layers": 16,
+    "save_timestamp": "2025-09-23T18:18:04.615500",
+    "model_type": "OlmoeForCausalLM",
+    "pytorch_version": "2.6.0+cu124",
+    "description": "Auxiliary-loss-free MoE bias states saved during training"
+  },
+  "moe_bias_states": {
+    "model.layers.0.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.1.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.2.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.3.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.4.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.5.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.6.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.7.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.8.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.9.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.10.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.11.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.12.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.13.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.14.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    },
+    "model.layers.15.mlp": {
+      "bias_values": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "bias_update_speed": 0.0001,
+      "num_experts": 64,
+      "module_type": "AuxFreeOlmoeSparseMoeBlock",
+      "device": "cuda:0",
+      "dtype": "torch.bfloat16"
+    }
+  }
+}

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 3245435781120.0,
-    "train_loss": 1.2809894014807308,
-    "train_runtime": 1398.581,
     "train_samples": 15119,
-    "train_samples_per_second": 10.81,
-    "train_steps_per_second": 0.085
 }

 {
+    "total_flos": 1.3663861802532864e+17,
+    "train_loss": 1.2117820017448457,
+    "train_runtime": 1211.3807,
     "train_samples": 15119,
+    "train_samples_per_second": 12.481,
+    "train_steps_per_second": 0.196
 }

trainer_state.json CHANGED Viewed

@@ -4,975 +4,1919 @@
   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 119,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.008403361344537815,
-      "grad_norm": 61.42735123885721,
       "learning_rate": 0.0,
-      "loss": 3.4985,
-      "mean_token_accuracy": 0.429544597864151,
       "step": 1
     },
     {
-      "epoch": 0.01680672268907563,
-      "grad_norm": 57.4818046786993,
-      "learning_rate": 8.333333333333333e-07,
-      "loss": 3.4966,
-      "mean_token_accuracy": 0.4261890649795532,
       "step": 2
     },
     {
-      "epoch": 0.025210084033613446,
-      "grad_norm": 52.36502980325029,
-      "learning_rate": 1.6666666666666667e-06,
-      "loss": 3.4063,
-      "mean_token_accuracy": 0.43464240431785583,
       "step": 3
     },
     {
-      "epoch": 0.03361344537815126,
-      "grad_norm": 61.1108274343337,
-      "learning_rate": 2.5e-06,
-      "loss": 3.3932,
-      "mean_token_accuracy": 0.4462195634841919,
       "step": 4
     },
     {
-      "epoch": 0.04201680672268908,
-      "grad_norm": 48.99953073096186,
-      "learning_rate": 3.3333333333333333e-06,
-      "loss": 3.2191,
-      "mean_token_accuracy": 0.4612500071525574,
       "step": 5
     },
     {
-      "epoch": 0.05042016806722689,
-      "grad_norm": 49.025280289581815,
-      "learning_rate": 4.166666666666667e-06,
-      "loss": 2.7456,
-      "mean_token_accuracy": 0.5155220627784729,
       "step": 6
     },
     {
-      "epoch": 0.058823529411764705,
-      "grad_norm": 49.39781059087277,
-      "learning_rate": 5e-06,
-      "loss": 2.7539,
-      "mean_token_accuracy": 0.5053491592407227,
       "step": 7
     },
     {
-      "epoch": 0.06722689075630252,
-      "grad_norm": 57.904833936071505,
-      "learning_rate": 5.833333333333334e-06,
-      "loss": 2.1641,
-      "mean_token_accuracy": 0.5849207043647766,
       "step": 8
     },
     {
-      "epoch": 0.07563025210084033,
-      "grad_norm": 53.449478044902804,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 2.0289,
-      "mean_token_accuracy": 0.5940138697624207,
       "step": 9
     },
     {
-      "epoch": 0.08403361344537816,
-      "grad_norm": 41.45801954741997,
-      "learning_rate": 7.500000000000001e-06,
-      "loss": 1.8407,
-      "mean_token_accuracy": 0.6121459007263184,
       "step": 10
     },
     {
-      "epoch": 0.09243697478991597,
-      "grad_norm": 17.301367329136305,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 1.4726,
-      "mean_token_accuracy": 0.6945884823799133,
       "step": 11
     },
     {
-      "epoch": 0.10084033613445378,
-      "grad_norm": 13.318364706508635,
-      "learning_rate": 9.166666666666666e-06,
-      "loss": 1.3569,
-      "mean_token_accuracy": 0.7142514586448669,
       "step": 12
     },
     {
-      "epoch": 0.1092436974789916,
-      "grad_norm": 7.9100322503188405,
-      "learning_rate": 1e-05,
-      "loss": 1.2797,
-      "mean_token_accuracy": 0.7263978719711304,
       "step": 13
     },
     {
-      "epoch": 0.11764705882352941,
-      "grad_norm": 2.8666413464434886,
-      "learning_rate": 9.998060528021493e-06,
-      "loss": 1.3058,
-      "mean_token_accuracy": 0.7304229140281677,
       "step": 14
     },
     {
-      "epoch": 0.12605042016806722,
-      "grad_norm": 3.976454136858748,
-      "learning_rate": 9.992243783886663e-06,
-      "loss": 1.2797,
-      "mean_token_accuracy": 0.7234476804733276,
       "step": 15
     },
     {
-      "epoch": 0.13445378151260504,
-      "grad_norm": 1.882632638506074,
-      "learning_rate": 9.982554781556512e-06,
-      "loss": 1.2544,
-      "mean_token_accuracy": 0.728027880191803,
       "step": 16
     },
     {
-      "epoch": 0.14285714285714285,
-      "grad_norm": 2.0420338361657984,
-      "learning_rate": 9.969001872830383e-06,
-      "loss": 1.1662,
-      "mean_token_accuracy": 0.756281852722168,
       "step": 17
     },
     {
-      "epoch": 0.15126050420168066,
-      "grad_norm": 1.9922358783832426,
-      "learning_rate": 9.951596740146809e-06,
-      "loss": 1.2733,
-      "mean_token_accuracy": 0.7221024632453918,
       "step": 18
     },
     {
-      "epoch": 0.15966386554621848,
-      "grad_norm": 2.6134470765459854,
-      "learning_rate": 9.930354386513399e-06,
-      "loss": 1.2796,
-      "mean_token_accuracy": 0.7271506190299988,
       "step": 19
     },
     {
-      "epoch": 0.16806722689075632,
-      "grad_norm": 1.325098516402124,
-      "learning_rate": 9.905293122574433e-06,
-      "loss": 1.165,
-      "mean_token_accuracy": 0.7458003163337708,
       "step": 20
     },
     {
-      "epoch": 0.17647058823529413,
-      "grad_norm": 1.4486654015778349,
-      "learning_rate": 9.876434550827315e-06,
-      "loss": 1.1875,
-      "mean_token_accuracy": 0.7506506443023682,
       "step": 21
     },
     {
-      "epoch": 0.18487394957983194,
-      "grad_norm": 1.3154551387689228,
-      "learning_rate": 9.843803547001487e-06,
-      "loss": 1.1617,
-      "mean_token_accuracy": 0.7380812168121338,
       "step": 22
     },
     {
-      "epoch": 0.19327731092436976,
-      "grad_norm": 1.5343790176286574,
-      "learning_rate": 9.807428238615858e-06,
-      "loss": 1.2258,
-      "mean_token_accuracy": 0.7297688126564026,
       "step": 23
     },
     {
-      "epoch": 0.20168067226890757,
-      "grad_norm": 1.2371348889686988,
-      "learning_rate": 9.76733998073324e-06,
-      "loss": 1.2359,
-      "mean_token_accuracy": 0.7324696183204651,
       "step": 24
     },
     {
-      "epoch": 0.21008403361344538,
-      "grad_norm": 1.1633581437587461,
-      "learning_rate": 9.723573328932669e-06,
-      "loss": 1.1231,
-      "mean_token_accuracy": 0.7543428540229797,
       "step": 25
     },
     {
-      "epoch": 0.2184873949579832,
-      "grad_norm": 1.186997167984166,
-      "learning_rate": 9.676166009522925e-06,
-      "loss": 1.3298,
-      "mean_token_accuracy": 0.7144016027450562,
       "step": 26
     },
     {
-      "epoch": 0.226890756302521,
-      "grad_norm": 1.1350670150932245,
-      "learning_rate": 9.62515888702293e-06,
-      "loss": 1.117,
-      "mean_token_accuracy": 0.7577504515647888,
       "step": 27
     },
     {
-      "epoch": 0.23529411764705882,
-      "grad_norm": 1.1006616707114463,
-      "learning_rate": 9.57059592893704e-06,
-      "loss": 1.2008,
-      "mean_token_accuracy": 0.7340885400772095,
       "step": 28
     },
     {
-      "epoch": 0.24369747899159663,
-      "grad_norm": 1.1240894442990508,
-      "learning_rate": 9.51252416785559e-06,
-      "loss": 1.2089,
-      "mean_token_accuracy": 0.734373927116394,
       "step": 29
     },
     {
-      "epoch": 0.25210084033613445,
-      "grad_norm": 1.0852353510826063,
-      "learning_rate": 9.450993660913418e-06,
-      "loss": 1.1635,
-      "mean_token_accuracy": 0.7386614084243774,
       "step": 30
     },
     {
-      "epoch": 0.2605042016806723,
-      "grad_norm": 1.1086196712408876,
-      "learning_rate": 9.386057446641195e-06,
-      "loss": 1.1637,
-      "mean_token_accuracy": 0.7464680671691895,
       "step": 31
     },
     {
-      "epoch": 0.2689075630252101,
-      "grad_norm": 1.1309482702848446,
-      "learning_rate": 9.317771499246918e-06,
-      "loss": 1.177,
-      "mean_token_accuracy": 0.7361091375350952,
       "step": 32
     },
     {
-      "epoch": 0.2773109243697479,
-      "grad_norm": 1.0682767953323058,
-      "learning_rate": 9.246194680366802e-06,
-      "loss": 1.135,
-      "mean_token_accuracy": 0.7523439526557922,
       "step": 33
     },
     {
-      "epoch": 0.2857142857142857,
-      "grad_norm": 1.1205579094583278,
-      "learning_rate": 9.171388688327307e-06,
-      "loss": 1.2141,
-      "mean_token_accuracy": 0.7343338131904602,
       "step": 34
     },
     {
-      "epoch": 0.29411764705882354,
-      "grad_norm": 1.070459745860962,
-      "learning_rate": 9.093418004961939e-06,
-      "loss": 1.1817,
-      "mean_token_accuracy": 0.733535885810852,
       "step": 35
     },
     {
-      "epoch": 0.3025210084033613,
-      "grad_norm": 1.2186326847566449,
-      "learning_rate": 9.012349840028707e-06,
-      "loss": 1.1218,
-      "mean_token_accuracy": 0.75095134973526,
       "step": 36
     },
     {
-      "epoch": 0.31092436974789917,
-      "grad_norm": 1.0915960765396624,
-      "learning_rate": 8.928254073276166e-06,
-      "loss": 1.1548,
-      "mean_token_accuracy": 0.7447705268859863,
       "step": 37
     },
     {
-      "epoch": 0.31932773109243695,
-      "grad_norm": 1.0113396310620022,
-      "learning_rate": 8.841203194207925e-06,
-      "loss": 1.0825,
-      "mean_token_accuracy": 0.7554290890693665,
       "step": 38
     },
     {
-      "epoch": 0.3277310924369748,
-      "grad_norm": 1.0227576546610853,
-      "learning_rate": 8.751272239597612e-06,
-      "loss": 1.0612,
-      "mean_token_accuracy": 0.7643552422523499,
       "step": 39
     },
     {
-      "epoch": 0.33613445378151263,
-      "grad_norm": 1.0589227478863605,
-      "learning_rate": 8.658538728808097e-06,
-      "loss": 1.1339,
-      "mean_token_accuracy": 0.7472735643386841,
       "step": 40
     },
     {
-      "epoch": 0.3445378151260504,
-      "grad_norm": 1.0297238689876962,
-      "learning_rate": 8.563082596970785e-06,
-      "loss": 1.1277,
-      "mean_token_accuracy": 0.7488000988960266,
       "step": 41
     },
     {
-      "epoch": 0.35294117647058826,
-      "grad_norm": 1.006983117306359,
-      "learning_rate": 8.4649861260825e-06,
-      "loss": 1.0795,
-      "mean_token_accuracy": 0.755338191986084,
       "step": 42
     },
     {
-      "epoch": 0.36134453781512604,
-      "grad_norm": 1.0929095890205571,
-      "learning_rate": 8.364333874079462e-06,
-      "loss": 1.1576,
-      "mean_token_accuracy": 0.7435667514801025,
       "step": 43
     },
     {
-      "epoch": 0.3697478991596639,
-      "grad_norm": 1.084386434492771,
-      "learning_rate": 8.261212601949374e-06,
-      "loss": 1.0902,
-      "mean_token_accuracy": 0.7600305676460266,
       "step": 44
     },
     {
-      "epoch": 0.37815126050420167,
-      "grad_norm": 0.9786422969060671,
-      "learning_rate": 8.155711198944536e-06,
-      "loss": 1.1568,
-      "mean_token_accuracy": 0.7446728348731995,
       "step": 45
     },
     {
-      "epoch": 0.3865546218487395,
-      "grad_norm": 1.0807855846470553,
-      "learning_rate": 8.047920605960428e-06,
-      "loss": 1.071,
-      "mean_token_accuracy": 0.7608465552330017,
       "step": 46
     },
     {
-      "epoch": 0.3949579831932773,
-      "grad_norm": 1.022702731208646,
-      "learning_rate": 7.937933737145777e-06,
-      "loss": 1.1201,
-      "mean_token_accuracy": 0.7528531551361084,
       "step": 47
     },
     {
-      "epoch": 0.40336134453781514,
-      "grad_norm": 1.062223911366596,
-      "learning_rate": 7.825845399811723e-06,
-      "loss": 1.1107,
-      "mean_token_accuracy": 0.7442110776901245,
       "step": 48
     },
     {
-      "epoch": 0.4117647058823529,
-      "grad_norm": 1.0050833455182735,
-      "learning_rate": 7.711752212709106e-06,
-      "loss": 1.1187,
-      "mean_token_accuracy": 0.7482293844223022,
       "step": 49
     },
     {
-      "epoch": 0.42016806722689076,
-      "grad_norm": 1.007940805785554,
-      "learning_rate": 7.595752522744287e-06,
-      "loss": 1.0953,
-      "mean_token_accuracy": 0.7530031204223633,
       "step": 50
     },
     {
-      "epoch": 0.42857142857142855,
-      "grad_norm": 0.9650750125007934,
-      "learning_rate": 7.477946320205358e-06,
-      "loss": 1.1336,
-      "mean_token_accuracy": 0.7465465068817139,
       "step": 51
     },
     {
-      "epoch": 0.4369747899159664,
-      "grad_norm": 1.0334836528707236,
-      "learning_rate": 7.358435152571749e-06,
-      "loss": 1.1931,
-      "mean_token_accuracy": 0.7283521890640259,
       "step": 52
     },
     {
-      "epoch": 0.44537815126050423,
-      "grad_norm": 1.0058006955982113,
-      "learning_rate": 7.237322036981568e-06,
-      "loss": 1.1619,
-      "mean_token_accuracy": 0.7378183603286743,
       "step": 53
     },
     {
-      "epoch": 0.453781512605042,
-      "grad_norm": 1.0129742292617223,
-      "learning_rate": 7.114711371432113e-06,
-      "loss": 1.1214,
-      "mean_token_accuracy": 0.7524005770683289,
       "step": 54
     },
     {
-      "epoch": 0.46218487394957986,
-      "grad_norm": 0.9634013156694173,
-      "learning_rate": 6.990708844790093e-06,
-      "loss": 1.0842,
-      "mean_token_accuracy": 0.754132091999054,
       "step": 55
     },
     {
-      "epoch": 0.47058823529411764,
-      "grad_norm": 0.9862552262307049,
-      "learning_rate": 6.865421345689147e-06,
-      "loss": 1.1125,
-      "mean_token_accuracy": 0.7493283748626709,
       "step": 56
     },
     {
-      "epoch": 0.4789915966386555,
-      "grad_norm": 0.9874154330933039,
-      "learning_rate": 6.73895687039317e-06,
-      "loss": 1.1484,
-      "mean_token_accuracy": 0.7431809306144714,
       "step": 57
     },
     {
-      "epoch": 0.48739495798319327,
-      "grad_norm": 0.9698004650017749,
-      "learning_rate": 6.611424429704879e-06,
-      "loss": 1.0733,
-      "mean_token_accuracy": 0.7608862519264221,
       "step": 58
     },
     {
-      "epoch": 0.4957983193277311,
-      "grad_norm": 0.9883985888705087,
-      "learning_rate": 6.482933954999858e-06,
-      "loss": 1.1497,
-      "mean_token_accuracy": 0.7470613718032837,
       "step": 59
     },
     {
-      "epoch": 0.5042016806722689,
-      "grad_norm": 1.0185742380167386,
-      "learning_rate": 6.353596203467085e-06,
-      "loss": 1.1337,
-      "mean_token_accuracy": 0.7488591074943542,
       "step": 60
     },
     {
-      "epoch": 0.5126050420168067,
-      "grad_norm": 0.973270451011091,
-      "learning_rate": 6.2235226626376075e-06,
-      "loss": 1.0861,
-      "mean_token_accuracy": 0.7639545202255249,
       "step": 61
     },
     {
-      "epoch": 0.5210084033613446,
-      "grad_norm": 0.9694005114210438,
-      "learning_rate": 6.0928254542836855e-06,
-      "loss": 1.0873,
-      "mean_token_accuracy": 0.7524347901344299,
       "step": 62
     },
     {
-      "epoch": 0.5294117647058824,
-      "grad_norm": 0.9724600628868327,
-      "learning_rate": 5.961617237771217e-06,
-      "loss": 1.1536,
-      "mean_token_accuracy": 0.7458714246749878,
       "step": 63
     },
     {
-      "epoch": 0.5378151260504201,
-      "grad_norm": 0.9500352117756259,
-      "learning_rate": 5.830011112948768e-06,
-      "loss": 1.2304,
-      "mean_token_accuracy": 0.7270871996879578,
       "step": 64
     },
     {
-      "epoch": 0.5462184873949579,
-      "grad_norm": 0.9945227488227443,
-      "learning_rate": 5.698120522656916e-06,
-      "loss": 1.0556,
-      "mean_token_accuracy": 0.7674956321716309,
       "step": 65
     },
     {
-      "epoch": 0.5546218487394958,
-      "grad_norm": 0.9676883555750646,
-      "learning_rate": 5.566059154941925e-06,
-      "loss": 1.098,
-      "mean_token_accuracy": 0.7561368942260742,
       "step": 66
     },
     {
-      "epoch": 0.5630252100840336,
-      "grad_norm": 1.04781134622391,
-      "learning_rate": 5.433940845058076e-06,
-      "loss": 1.0937,
-      "mean_token_accuracy": 0.7666974067687988,
       "step": 67
     },
     {
-      "epoch": 0.5714285714285714,
-      "grad_norm": 1.0183244679566534,
-      "learning_rate": 5.301879477343086e-06,
-      "loss": 1.1181,
-      "mean_token_accuracy": 0.7474605441093445,
       "step": 68
     },
     {
-      "epoch": 0.5798319327731093,
-      "grad_norm": 0.9591192764372636,
-      "learning_rate": 5.169988887051234e-06,
-      "loss": 1.13,
-      "mean_token_accuracy": 0.7436277270317078,
       "step": 69
     },
     {
-      "epoch": 0.5882352941176471,
-      "grad_norm": 0.9787662786555585,
-      "learning_rate": 5.038382762228786e-06,
-      "loss": 1.1328,
-      "mean_token_accuracy": 0.7496426701545715,
       "step": 70
     },
     {
-      "epoch": 0.5966386554621849,
-      "grad_norm": 0.9507355108991862,
-      "learning_rate": 4.907174545716317e-06,
-      "loss": 1.1048,
-      "mean_token_accuracy": 0.7508357763290405,
       "step": 71
     },
     {
-      "epoch": 0.6050420168067226,
-      "grad_norm": 0.9941578495647477,
-      "learning_rate": 4.776477337362394e-06,
-      "loss": 1.1155,
-      "mean_token_accuracy": 0.7493728399276733,
       "step": 72
     },
     {
-      "epoch": 0.6134453781512605,
-      "grad_norm": 1.005111788535626,
-      "learning_rate": 4.646403796532916e-06,
-      "loss": 1.1115,
-      "mean_token_accuracy": 0.757051944732666,
       "step": 73
     },
     {
-      "epoch": 0.6218487394957983,
-      "grad_norm": 0.9443186660832495,
-      "learning_rate": 4.517066045000142e-06,
-      "loss": 1.1915,
-      "mean_token_accuracy": 0.7324733734130859,
       "step": 74
     },
     {
-      "epoch": 0.6302521008403361,
-      "grad_norm": 1.0844270342796254,
-      "learning_rate": 4.388575570295123e-06,
-      "loss": 1.0884,
-      "mean_token_accuracy": 0.7623071670532227,
       "step": 75
     },
     {
-      "epoch": 0.6386554621848739,
-      "grad_norm": 0.9849374469980112,
-      "learning_rate": 4.261043129606832e-06,
-      "loss": 1.1225,
-      "mean_token_accuracy": 0.7571775913238525,
       "step": 76
     },
     {
-      "epoch": 0.6470588235294118,
-      "grad_norm": 0.9770353860403225,
-      "learning_rate": 4.134578654310854e-06,
-      "loss": 1.1438,
-      "mean_token_accuracy": 0.7406225204467773,
       "step": 77
     },
     {
-      "epoch": 0.6554621848739496,
-      "grad_norm": 0.9963027454603423,
-      "learning_rate": 4.009291155209909e-06,
-      "loss": 0.9975,
-      "mean_token_accuracy": 0.7706347703933716,
       "step": 78
     },
     {
-      "epoch": 0.6638655462184874,
-      "grad_norm": 1.0245462387900903,
-      "learning_rate": 3.8852886285678896e-06,
-      "loss": 1.0277,
-      "mean_token_accuracy": 0.7736483812332153,
       "step": 79
     },
     {
-      "epoch": 0.6722689075630253,
-      "grad_norm": 0.9867453808790595,
-      "learning_rate": 3.762677963018433e-06,
-      "loss": 1.0945,
-      "mean_token_accuracy": 0.7500572800636292,
       "step": 80
     },
     {
-      "epoch": 0.680672268907563,
-      "grad_norm": 0.9907470452421272,
-      "learning_rate": 3.641564847428254e-06,
-      "loss": 1.2412,
-      "mean_token_accuracy": 0.721602201461792,
       "step": 81
     },
     {
-      "epoch": 0.6890756302521008,
-      "grad_norm": 0.9877738858581707,
-      "learning_rate": 3.5220536797946447e-06,
-      "loss": 1.0882,
-      "mean_token_accuracy": 0.7540343999862671,
       "step": 82
     },
     {
-      "epoch": 0.6974789915966386,
-      "grad_norm": 0.9735916464629358,
-      "learning_rate": 3.4042474772557143e-06,
-      "loss": 1.0889,
-      "mean_token_accuracy": 0.7557320594787598,
       "step": 83
     },
     {
-      "epoch": 0.7058823529411765,
-      "grad_norm": 1.011109227075983,
-      "learning_rate": 3.2882477872908965e-06,
-      "loss": 1.0123,
-      "mean_token_accuracy": 0.779578447341919,
       "step": 84
     },
     {
-      "epoch": 0.7142857142857143,
-      "grad_norm": 0.9739026856030252,
-      "learning_rate": 3.1741546001882773e-06,
-      "loss": 1.0548,
-      "mean_token_accuracy": 0.7688317894935608,
       "step": 85
     },
     {
-      "epoch": 0.7226890756302521,
-      "grad_norm": 0.9785606022441755,
-      "learning_rate": 3.0620662628542256e-06,
-      "loss": 1.185,
-      "mean_token_accuracy": 0.7312161326408386,
       "step": 86
     },
     {
-      "epoch": 0.7310924369747899,
-      "grad_norm": 0.9961905704635389,
-      "learning_rate": 2.9520793940395735e-06,
-      "loss": 1.1403,
-      "mean_token_accuracy": 0.744536280632019,
       "step": 87
     },
     {
-      "epoch": 0.7394957983193278,
-      "grad_norm": 0.9312440257308606,
-      "learning_rate": 2.8442888010554658e-06,
-      "loss": 1.0966,
-      "mean_token_accuracy": 0.7522168755531311,
       "step": 88
     },
     {
-      "epoch": 0.7478991596638656,
-      "grad_norm": 0.9585122926929834,
-      "learning_rate": 2.7387873980506286e-06,
-      "loss": 1.0615,
-      "mean_token_accuracy": 0.7616564035415649,
       "step": 89
     },
     {
-      "epoch": 0.7563025210084033,
-      "grad_norm": 0.938343524190116,
-      "learning_rate": 2.6356661259205396e-06,
-      "loss": 1.1033,
-      "mean_token_accuracy": 0.7596261501312256,
       "step": 90
     },
     {
-      "epoch": 0.7647058823529411,
-      "grad_norm": 0.9837271772834161,
-      "learning_rate": 2.535013873917501e-06,
-      "loss": 0.9993,
-      "mean_token_accuracy": 0.7763923406600952,
       "step": 91
     },
     {
-      "epoch": 0.773109243697479,
-      "grad_norm": 0.9643380006931658,
-      "learning_rate": 2.436917403029219e-06,
-      "loss": 1.1516,
-      "mean_token_accuracy": 0.7430367469787598,
       "step": 92
     },
     {
-      "epoch": 0.7815126050420168,
-      "grad_norm": 1.0041291438351077,
-      "learning_rate": 2.341461271191903e-06,
-      "loss": 1.148,
-      "mean_token_accuracy": 0.753593921661377,
       "step": 93
     },
     {
-      "epoch": 0.7899159663865546,
-      "grad_norm": 0.9710567606823283,
-      "learning_rate": 2.248727760402391e-06,
-      "loss": 1.0827,
-      "mean_token_accuracy": 0.754690945148468,
       "step": 94
     },
     {
-      "epoch": 0.7983193277310925,
-      "grad_norm": 0.9667789737502585,
-      "learning_rate": 2.158796805792076e-06,
-      "loss": 1.0567,
-      "mean_token_accuracy": 0.7643100023269653,
       "step": 95
     },
     {
-      "epoch": 0.8067226890756303,
-      "grad_norm": 0.9958478241274705,
-      "learning_rate": 2.071745926723836e-06,
-      "loss": 1.1122,
-      "mean_token_accuracy": 0.7497897148132324,
       "step": 96
     },
     {
-      "epoch": 0.8151260504201681,
-      "grad_norm": 0.9523710901661049,
-      "learning_rate": 1.9876501599712933e-06,
-      "loss": 1.077,
-      "mean_token_accuracy": 0.7561772465705872,
       "step": 97
     },
     {
-      "epoch": 0.8235294117647058,
-      "grad_norm": 0.9532880854709574,
-      "learning_rate": 1.9065819950380634e-06,
-      "loss": 1.1662,
-      "mean_token_accuracy": 0.7427510619163513,
       "step": 98
     },
     {
-      "epoch": 0.8319327731092437,
-      "grad_norm": 0.9478756657575517,
-      "learning_rate": 1.8286113116726928e-06,
-      "loss": 1.1194,
-      "mean_token_accuracy": 0.7442958354949951,
       "step": 99
     },
     {
-      "epoch": 0.8403361344537815,
-      "grad_norm": 0.9921226812907276,
-      "learning_rate": 1.7538053196331988e-06,
-      "loss": 1.0637,
-      "mean_token_accuracy": 0.7638644576072693,
       "step": 100
     },
     {
-      "epoch": 0.8487394957983193,
-      "grad_norm": 0.9508865763052654,
-      "learning_rate": 1.682228500753083e-06,
-      "loss": 1.051,
-      "mean_token_accuracy": 0.7656214237213135,
       "step": 101
     },
     {
-      "epoch": 0.8571428571428571,
-      "grad_norm": 0.9546268203643725,
-      "learning_rate": 1.6139425533588055e-06,
-      "loss": 1.166,
-      "mean_token_accuracy": 0.741737425327301,
       "step": 102
     },
     {
-      "epoch": 0.865546218487395,
-      "grad_norm": 1.007082676416536,
-      "learning_rate": 1.5490063390865845e-06,
-      "loss": 1.0537,
-      "mean_token_accuracy": 0.7664616107940674,
       "step": 103
     },
     {
-      "epoch": 0.8739495798319328,
-      "grad_norm": 0.9826420216540788,
-      "learning_rate": 1.4874758321444091e-06,
-      "loss": 1.1865,
-      "mean_token_accuracy": 0.7296122312545776,
       "step": 104
     },
     {
-      "epoch": 0.8823529411764706,
-      "grad_norm": 0.9487926386987494,
-      "learning_rate": 1.4294040710629617e-06,
-      "loss": 1.138,
-      "mean_token_accuracy": 0.7487072944641113,
       "step": 105
     },
     {
-      "epoch": 0.8907563025210085,
-      "grad_norm": 0.9945929706480489,
-      "learning_rate": 1.3748411129770703e-06,
-      "loss": 1.0522,
-      "mean_token_accuracy": 0.7531285285949707,
       "step": 106
     },
     {
-      "epoch": 0.8991596638655462,
-      "grad_norm": 0.950668612631682,
-      "learning_rate": 1.323833990477076e-06,
-      "loss": 1.1069,
-      "mean_token_accuracy": 0.7477149367332458,
       "step": 107
     },
     {
-      "epoch": 0.907563025210084,
-      "grad_norm": 1.0455035364134098,
-      "learning_rate": 1.2764266710673335e-06,
-      "loss": 1.1656,
-      "mean_token_accuracy": 0.7393743395805359,
       "step": 108
     },
     {
-      "epoch": 0.9159663865546218,
-      "grad_norm": 0.9438442542715659,
-      "learning_rate": 1.2326600192667612e-06,
-      "loss": 1.1505,
-      "mean_token_accuracy": 0.7463235259056091,
       "step": 109
     },
     {
-      "epoch": 0.9243697478991597,
-      "grad_norm": 0.9441161468931093,
-      "learning_rate": 1.1925717613841432e-06,
-      "loss": 1.0912,
-      "mean_token_accuracy": 0.7579004764556885,
       "step": 110
     },
     {
-      "epoch": 0.9327731092436975,
-      "grad_norm": 0.9756496645004279,
-      "learning_rate": 1.1561964529985143e-06,
-      "loss": 1.0809,
-      "mean_token_accuracy": 0.7611285448074341,
       "step": 111
     },
     {
-      "epoch": 0.9411764705882353,
-      "grad_norm": 0.9686595951669469,
-      "learning_rate": 1.1235654491726853e-06,
-      "loss": 1.0244,
-      "mean_token_accuracy": 0.7686207294464111,
       "step": 112
     },
     {
-      "epoch": 0.9495798319327731,
-      "grad_norm": 0.9359227547987794,
-      "learning_rate": 1.0947068774255675e-06,
-      "loss": 1.2457,
-      "mean_token_accuracy": 0.7190503478050232,
       "step": 113
     },
     {
-      "epoch": 0.957983193277311,
-      "grad_norm": 0.9948246155805508,
-      "learning_rate": 1.0696456134866027e-06,
-      "loss": 1.0868,
-      "mean_token_accuracy": 0.7551665902137756,
       "step": 114
     },
     {
-      "epoch": 0.9663865546218487,
-      "grad_norm": 0.9848176758071714,
-      "learning_rate": 1.0484032598531933e-06,
-      "loss": 1.0888,
-      "mean_token_accuracy": 0.7574664950370789,
       "step": 115
     },
     {
-      "epoch": 0.9747899159663865,
-      "grad_norm": 0.9578094192978062,
-      "learning_rate": 1.0309981271696186e-06,
-      "loss": 1.2089,
-      "mean_token_accuracy": 0.7329251766204834,
       "step": 116
     },
     {
-      "epoch": 0.9831932773109243,
-      "grad_norm": 0.9741614673227095,
-      "learning_rate": 1.0174452184434888e-06,
-      "loss": 1.0675,
-      "mean_token_accuracy": 0.7658007740974426,
       "step": 117
     },
     {
-      "epoch": 0.9915966386554622,
-      "grad_norm": 1.0164869507154413,
-      "learning_rate": 1.0077562161133376e-06,
-      "loss": 1.0093,
-      "mean_token_accuracy": 0.775924801826477,
       "step": 118
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 0.9640139778034071,
-      "learning_rate": 1.0019394719785073e-06,
-      "loss": 1.0321,
-      "mean_token_accuracy": 0.7566091418266296,
       "step": 119
     },
     {
       "epoch": 1.0,
-      "step": 119,
-      "total_flos": 3245435781120.0,
-      "train_loss": 1.2809894014807308,
-      "train_runtime": 1398.581,
-      "train_samples_per_second": 10.81,
-      "train_steps_per_second": 0.085
     }
   ],
   "logging_steps": 1,
-  "max_steps": 119,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
@@ -988,8 +1932,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 3245435781120.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 237,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.004219409282700422,
+      "grad_norm": 56.492855072021484,
       "learning_rate": 0.0,
+      "loss": 3.4465,
+      "mean_token_accuracy": 0.43144476413726807,
       "step": 1
     },
     {
+      "epoch": 0.008438818565400843,
+      "grad_norm": 67.59725189208984,
+      "learning_rate": 4.1666666666666667e-07,
+      "loss": 3.5603,
+      "mean_token_accuracy": 0.4281432032585144,
       "step": 2
     },
     {
+      "epoch": 0.012658227848101266,
+      "grad_norm": 57.31755065917969,
+      "learning_rate": 8.333333333333333e-07,
+      "loss": 3.5257,
+      "mean_token_accuracy": 0.4222416579723358,
       "step": 3
     },
     {
+      "epoch": 0.016877637130801686,
+      "grad_norm": 60.031646728515625,
+      "learning_rate": 1.25e-06,
+      "loss": 3.5073,
+      "mean_token_accuracy": 0.4332667887210846,
       "step": 4
     },
     {
+      "epoch": 0.02109704641350211,
+      "grad_norm": 52.10445022583008,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 3.3834,
+      "mean_token_accuracy": 0.44102635979652405,
       "step": 5
     },
     {
+      "epoch": 0.02531645569620253,
+      "grad_norm": 49.48136520385742,
+      "learning_rate": 2.0833333333333334e-06,
+      "loss": 3.2116,
+      "mean_token_accuracy": 0.4614466726779938,
       "step": 6
     },
     {
+      "epoch": 0.029535864978902954,
+      "grad_norm": 57.7535400390625,
+      "learning_rate": 2.5e-06,
+      "loss": 3.1654,
+      "mean_token_accuracy": 0.4769577383995056,
       "step": 7
     },
     {
+      "epoch": 0.03375527426160337,
+      "grad_norm": 55.622840881347656,
+      "learning_rate": 2.916666666666667e-06,
+      "loss": 2.7736,
+      "mean_token_accuracy": 0.5238496661186218,
       "step": 8
     },
     {
+      "epoch": 0.0379746835443038,
+      "grad_norm": 53.84645080566406,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 2.7429,
+      "mean_token_accuracy": 0.5103054046630859,
       "step": 9
     },
     {
+      "epoch": 0.04219409282700422,
+      "grad_norm": 49.74085998535156,
+      "learning_rate": 3.7500000000000005e-06,
+      "loss": 2.7235,
+      "mean_token_accuracy": 0.5065439343452454,
       "step": 10
     },
     {
+      "epoch": 0.046413502109704644,
+      "grad_norm": 55.516387939453125,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 2.1734,
+      "mean_token_accuracy": 0.5752225518226624,
       "step": 11
     },
     {
+      "epoch": 0.05063291139240506,
+      "grad_norm": 51.78127670288086,
+      "learning_rate": 4.583333333333333e-06,
+      "loss": 1.9645,
+      "mean_token_accuracy": 0.5979234576225281,
       "step": 12
     },
     {
+      "epoch": 0.05485232067510549,
+      "grad_norm": 41.615440368652344,
+      "learning_rate": 5e-06,
+      "loss": 1.9885,
+      "mean_token_accuracy": 0.5931289196014404,
       "step": 13
     },
     {
+      "epoch": 0.05907172995780591,
+      "grad_norm": 18.521259307861328,
+      "learning_rate": 5.416666666666667e-06,
+      "loss": 1.6583,
+      "mean_token_accuracy": 0.6572901606559753,
       "step": 14
     },
     {
+      "epoch": 0.06329113924050633,
+      "grad_norm": 16.77658462524414,
+      "learning_rate": 5.833333333333334e-06,
+      "loss": 1.2774,
+      "mean_token_accuracy": 0.7345430254936218,
       "step": 15
     },
     {
+      "epoch": 0.06751054852320675,
+      "grad_norm": 16.902246475219727,
+      "learning_rate": 6.25e-06,
+      "loss": 1.4676,
+      "mean_token_accuracy": 0.6940106153488159,
       "step": 16
     },
     {
+      "epoch": 0.07172995780590717,
+      "grad_norm": 4.634657382965088,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 1.331,
+      "mean_token_accuracy": 0.7168394327163696,
       "step": 17
     },
     {
+      "epoch": 0.0759493670886076,
+      "grad_norm": 2.60319447517395,
+      "learning_rate": 7.083333333333335e-06,
+      "loss": 1.2297,
+      "mean_token_accuracy": 0.738610565662384,
       "step": 18
     },
     {
+      "epoch": 0.08016877637130802,
+      "grad_norm": 2.7165443897247314,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 1.0861,
+      "mean_token_accuracy": 0.7637795209884644,
       "step": 19
     },
     {
+      "epoch": 0.08438818565400844,
+      "grad_norm": 3.0834693908691406,
+      "learning_rate": 7.916666666666667e-06,
+      "loss": 1.2613,
+      "mean_token_accuracy": 0.7090403437614441,
       "step": 20
     },
     {
+      "epoch": 0.08860759493670886,
+      "grad_norm": 2.5113463401794434,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 1.1188,
+      "mean_token_accuracy": 0.7468186020851135,
       "step": 21
     },
     {
+      "epoch": 0.09282700421940929,
+      "grad_norm": 2.150643825531006,
+      "learning_rate": 8.750000000000001e-06,
+      "loss": 1.2615,
+      "mean_token_accuracy": 0.7228550910949707,
       "step": 22
     },
     {
+      "epoch": 0.0970464135021097,
+      "grad_norm": 2.469194173812866,
+      "learning_rate": 9.166666666666666e-06,
+      "loss": 1.198,
+      "mean_token_accuracy": 0.7393919825553894,
       "step": 23
     },
     {
+      "epoch": 0.10126582278481013,
+      "grad_norm": 2.4474411010742188,
+      "learning_rate": 9.583333333333335e-06,
+      "loss": 1.096,
+      "mean_token_accuracy": 0.7572800517082214,
       "step": 24
     },
     {
+      "epoch": 0.10548523206751055,
+      "grad_norm": 2.088087320327759,
+      "learning_rate": 1e-05,
+      "loss": 0.985,
+      "mean_token_accuracy": 0.7962148785591125,
       "step": 25
     },
     {
+      "epoch": 0.10970464135021098,
+      "grad_norm": 1.9643747806549072,
+      "learning_rate": 9.999510542279196e-06,
+      "loss": 1.209,
+      "mean_token_accuracy": 0.729297935962677,
       "step": 26
     },
     {
+      "epoch": 0.11392405063291139,
+      "grad_norm": 2.398698568344116,
+      "learning_rate": 9.998042275591827e-06,
+      "loss": 1.1201,
+      "mean_token_accuracy": 0.755721390247345,
       "step": 27
     },
     {
+      "epoch": 0.11814345991561181,
+      "grad_norm": 2.144404888153076,
+      "learning_rate": 9.995595519339882e-06,
+      "loss": 1.2033,
+      "mean_token_accuracy": 0.737983763217926,
       "step": 28
     },
     {
+      "epoch": 0.12236286919831224,
+      "grad_norm": 1.771583914756775,
+      "learning_rate": 9.992170805782799e-06,
+      "loss": 1.2612,
+      "mean_token_accuracy": 0.7275724411010742,
       "step": 29
     },
     {
+      "epoch": 0.12658227848101267,
+      "grad_norm": 1.857326626777649,
+      "learning_rate": 9.987768879921685e-06,
+      "loss": 1.089,
+      "mean_token_accuracy": 0.7615371942520142,
       "step": 30
     },
     {
+      "epoch": 0.1308016877637131,
+      "grad_norm": 1.5715709924697876,
+      "learning_rate": 9.982390699337253e-06,
+      "loss": 1.1158,
+      "mean_token_accuracy": 0.748799741268158,
       "step": 31
     },
     {
+      "epoch": 0.1350210970464135,
+      "grad_norm": 1.6975351572036743,
+      "learning_rate": 9.976037433981505e-06,
+      "loss": 1.2293,
+      "mean_token_accuracy": 0.7248790264129639,
       "step": 32
     },
     {
+      "epoch": 0.13924050632911392,
+      "grad_norm": 1.6748303174972534,
+      "learning_rate": 9.968710465923233e-06,
+      "loss": 1.0872,
+      "mean_token_accuracy": 0.7640039920806885,
       "step": 33
     },
     {
+      "epoch": 0.14345991561181434,
+      "grad_norm": 1.5389747619628906,
+      "learning_rate": 9.960411389047366e-06,
+      "loss": 1.091,
+      "mean_token_accuracy": 0.7640097737312317,
       "step": 34
     },
     {
+      "epoch": 0.14767932489451477,
+      "grad_norm": 1.5563571453094482,
+      "learning_rate": 9.951142008708238e-06,
+      "loss": 1.1572,
+      "mean_token_accuracy": 0.7440212368965149,
       "step": 35
     },
     {
+      "epoch": 0.1518987341772152,
+      "grad_norm": 1.5131391286849976,
+      "learning_rate": 9.940904341336859e-06,
+      "loss": 1.2426,
+      "mean_token_accuracy": 0.7158628106117249,
       "step": 36
     },
     {
+      "epoch": 0.15611814345991562,
+      "grad_norm": 1.5075509548187256,
+      "learning_rate": 9.929700614002265e-06,
+      "loss": 1.1656,
+      "mean_token_accuracy": 0.7480515837669373,
       "step": 37
     },
     {
+      "epoch": 0.16033755274261605,
+      "grad_norm": 1.4747117757797241,
+      "learning_rate": 9.91753326392706e-06,
+      "loss": 1.2723,
+      "mean_token_accuracy": 0.7222742438316345,
       "step": 38
     },
     {
+      "epoch": 0.16455696202531644,
+      "grad_norm": 1.5765788555145264,
+      "learning_rate": 9.904404937957213e-06,
+      "loss": 1.1191,
+      "mean_token_accuracy": 0.7518899440765381,
       "step": 39
     },
     {
+      "epoch": 0.16877637130801687,
+      "grad_norm": 1.4843032360076904,
+      "learning_rate": 9.890318491986282e-06,
+      "loss": 1.1076,
+      "mean_token_accuracy": 0.7483693361282349,
       "step": 40
     },
     {
+      "epoch": 0.1729957805907173,
+      "grad_norm": 1.5332094430923462,
+      "learning_rate": 9.87527699033415e-06,
+      "loss": 1.118,
+      "mean_token_accuracy": 0.7508232593536377,
       "step": 41
     },
     {
+      "epoch": 0.17721518987341772,
+      "grad_norm": 1.5774556398391724,
+      "learning_rate": 9.85928370508043e-06,
+      "loss": 1.1516,
+      "mean_token_accuracy": 0.7587430477142334,
       "step": 42
     },
     {
+      "epoch": 0.18143459915611815,
+      "grad_norm": 1.5169801712036133,
+      "learning_rate": 9.842342115352647e-06,
+      "loss": 1.0526,
+      "mean_token_accuracy": 0.7587090730667114,
       "step": 43
     },
     {
+      "epoch": 0.18565400843881857,
+      "grad_norm": 1.476678729057312,
+      "learning_rate": 9.824455906569423e-06,
+      "loss": 1.1723,
+      "mean_token_accuracy": 0.7248958349227905,
       "step": 44
     },
     {
+      "epoch": 0.189873417721519,
+      "grad_norm": 1.8056585788726807,
+      "learning_rate": 9.805628969638757e-06,
+      "loss": 1.2247,
+      "mean_token_accuracy": 0.728428065776825,
       "step": 45
     },
     {
+      "epoch": 0.1940928270042194,
+      "grad_norm": 1.4431560039520264,
+      "learning_rate": 9.785865400111593e-06,
+      "loss": 1.1691,
+      "mean_token_accuracy": 0.7389825582504272,
       "step": 46
     },
     {
+      "epoch": 0.19831223628691982,
+      "grad_norm": 1.5770704746246338,
+      "learning_rate": 9.765169497290908e-06,
+      "loss": 1.2224,
+      "mean_token_accuracy": 0.7342731356620789,
       "step": 47
     },
     {
+      "epoch": 0.20253164556962025,
+      "grad_norm": 1.505393624305725,
+      "learning_rate": 9.743545763296451e-06,
+      "loss": 1.1314,
+      "mean_token_accuracy": 0.731634795665741,
       "step": 48
     },
     {
+      "epoch": 0.20675105485232068,
+      "grad_norm": 1.5118578672409058,
+      "learning_rate": 9.720998902085354e-06,
+      "loss": 1.0991,
+      "mean_token_accuracy": 0.7543997764587402,
       "step": 49
     },
     {
+      "epoch": 0.2109704641350211,
+      "grad_norm": 1.4458030462265015,
+      "learning_rate": 9.697533818428863e-06,
+      "loss": 1.101,
+      "mean_token_accuracy": 0.7582892775535583,
       "step": 50
     },
     {
+      "epoch": 0.21518987341772153,
+      "grad_norm": 1.3428678512573242,
+      "learning_rate": 9.673155616845362e-06,
+      "loss": 1.219,
+      "mean_token_accuracy": 0.7282519936561584,
       "step": 51
     },
     {
+      "epoch": 0.21940928270042195,
+      "grad_norm": 1.4228544235229492,
+      "learning_rate": 9.647869600489954e-06,
+      "loss": 1.3229,
+      "mean_token_accuracy": 0.7029238343238831,
       "step": 52
     },
     {
+      "epoch": 0.22362869198312235,
+      "grad_norm": 1.427255630493164,
+      "learning_rate": 9.621681270000833e-06,
+      "loss": 1.0733,
+      "mean_token_accuracy": 0.7589775919914246,
       "step": 53
     },
     {
+      "epoch": 0.22784810126582278,
+      "grad_norm": 1.4552180767059326,
+      "learning_rate": 9.594596322302688e-06,
+      "loss": 1.0936,
+      "mean_token_accuracy": 0.7616468071937561,
       "step": 54
     },
     {
+      "epoch": 0.2320675105485232,
+      "grad_norm": 1.6069968938827515,
+      "learning_rate": 9.566620649367418e-06,
+      "loss": 1.2073,
+      "mean_token_accuracy": 0.7224194407463074,
       "step": 55
     },
     {
+      "epoch": 0.23628691983122363,
+      "grad_norm": 1.412222146987915,
+      "learning_rate": 9.537760336932406e-06,
+      "loss": 1.1143,
+      "mean_token_accuracy": 0.7492688298225403,
       "step": 56
     },
     {
+      "epoch": 0.24050632911392406,
+      "grad_norm": 1.4546841382980347,
+      "learning_rate": 9.508021663176648e-06,
+      "loss": 1.1594,
+      "mean_token_accuracy": 0.7387874126434326,
       "step": 57
     },
     {
+      "epoch": 0.24472573839662448,
+      "grad_norm": 1.3827760219573975,
+      "learning_rate": 9.477411097355025e-06,
+      "loss": 1.1539,
+      "mean_token_accuracy": 0.7320411801338196,
       "step": 58
     },
     {
+      "epoch": 0.2489451476793249,
+      "grad_norm": 1.4128773212432861,
+      "learning_rate": 9.445935298390994e-06,
+      "loss": 1.1729,
+      "mean_token_accuracy": 0.7295903563499451,
       "step": 59
     },
     {
+      "epoch": 0.25316455696202533,
+      "grad_norm": 1.436807632446289,
+      "learning_rate": 9.413601113428032e-06,
+      "loss": 1.1122,
+      "mean_token_accuracy": 0.7527050375938416,
       "step": 60
     },
     {
+      "epoch": 0.25738396624472576,
+      "grad_norm": 1.4155519008636475,
+      "learning_rate": 9.380415576340127e-06,
+      "loss": 1.134,
+      "mean_token_accuracy": 0.748845100402832,
       "step": 61
     },
     {
+      "epoch": 0.2616033755274262,
+      "grad_norm": 1.3568230867385864,
+      "learning_rate": 9.346385906201653e-06,
+      "loss": 1.0927,
+      "mean_token_accuracy": 0.7473200559616089,
       "step": 62
     },
     {
+      "epoch": 0.26582278481012656,
+      "grad_norm": 1.3414636850357056,
+      "learning_rate": 9.311519505716963e-06,
+      "loss": 1.116,
+      "mean_token_accuracy": 0.7434830665588379,
       "step": 63
     },
     {
+      "epoch": 0.270042194092827,
+      "grad_norm": 1.4687381982803345,
+      "learning_rate": 9.275823959610019e-06,
+      "loss": 1.1996,
+      "mean_token_accuracy": 0.7335405349731445,
       "step": 64
     },
     {
+      "epoch": 0.2742616033755274,
+      "grad_norm": 1.3659785985946655,
+      "learning_rate": 9.239307032974438e-06,
+      "loss": 1.1548,
+      "mean_token_accuracy": 0.7464311718940735,
       "step": 65
     },
     {
+      "epoch": 0.27848101265822783,
+      "grad_norm": 1.3824652433395386,
+      "learning_rate": 9.201976669584299e-06,
+      "loss": 1.0442,
+      "mean_token_accuracy": 0.7634408473968506,
       "step": 66
     },
     {
+      "epoch": 0.28270042194092826,
+      "grad_norm": 1.3764418363571167,
+      "learning_rate": 9.163840990166085e-06,
+      "loss": 1.163,
+      "mean_token_accuracy": 0.7362051606178284,
       "step": 67
     },
     {
+      "epoch": 0.2869198312236287,
+      "grad_norm": 1.4887207746505737,
+      "learning_rate": 9.124908290632119e-06,
+      "loss": 1.2148,
+      "mean_token_accuracy": 0.7365679144859314,
       "step": 68
     },
     {
+      "epoch": 0.2911392405063291,
+      "grad_norm": 1.412133812904358,
+      "learning_rate": 9.085187040275903e-06,
+      "loss": 1.1769,
+      "mean_token_accuracy": 0.7347424626350403,
       "step": 69
     },
     {
+      "epoch": 0.29535864978902954,
+      "grad_norm": 1.4466365575790405,
+      "learning_rate": 9.044685879929734e-06,
+      "loss": 1.1561,
+      "mean_token_accuracy": 0.736750066280365,
       "step": 70
     },
     {
+      "epoch": 0.29957805907172996,
+      "grad_norm": 1.452510952949524,
+      "learning_rate": 9.003413620085002e-06,
+      "loss": 1.0451,
+      "mean_token_accuracy": 0.7633549571037292,
       "step": 71
     },
     {
+      "epoch": 0.3037974683544304,
+      "grad_norm": 1.4171886444091797,
+      "learning_rate": 8.961379238975594e-06,
+      "loss": 1.1657,
+      "mean_token_accuracy": 0.7385682463645935,
       "step": 72
     },
     {
+      "epoch": 0.3080168776371308,
+      "grad_norm": 1.3945873975753784,
+      "learning_rate": 8.918591880624783e-06,
+      "loss": 1.154,
+      "mean_token_accuracy": 0.7416154742240906,
       "step": 73
     },
     {
+      "epoch": 0.31223628691983124,
+      "grad_norm": 1.3587473630905151,
+      "learning_rate": 8.875060852856082e-06,
+      "loss": 1.1147,
+      "mean_token_accuracy": 0.7544776201248169,
       "step": 74
     },
     {
+      "epoch": 0.31645569620253167,
+      "grad_norm": 1.3392646312713623,
+      "learning_rate": 8.830795625268437e-06,
+      "loss": 1.0643,
+      "mean_token_accuracy": 0.7560762763023376,
       "step": 75
     },
     {
+      "epoch": 0.3206751054852321,
+      "grad_norm": 1.3936909437179565,
+      "learning_rate": 8.785805827176256e-06,
+      "loss": 1.0533,
+      "mean_token_accuracy": 0.7552059292793274,
       "step": 76
     },
     {
+      "epoch": 0.32489451476793246,
+      "grad_norm": 1.3902052640914917,
+      "learning_rate": 8.740101245514659e-06,
+      "loss": 0.9963,
+      "mean_token_accuracy": 0.784263014793396,
       "step": 77
     },
     {
+      "epoch": 0.3291139240506329,
+      "grad_norm": 1.37273371219635,
+      "learning_rate": 8.69369182271048e-06,
+      "loss": 1.0645,
+      "mean_token_accuracy": 0.7502308487892151,
       "step": 78
     },
     {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 1.4530737400054932,
+      "learning_rate": 8.646587654519413e-06,
+      "loss": 1.048,
+      "mean_token_accuracy": 0.765147864818573,
       "step": 79
     },
     {
+      "epoch": 0.33755274261603374,
+      "grad_norm": 1.351982593536377,
+      "learning_rate": 8.598798987829816e-06,
+      "loss": 1.1773,
+      "mean_token_accuracy": 0.7323355674743652,
       "step": 80
     },
     {
+      "epoch": 0.34177215189873417,
+      "grad_norm": 1.4358004331588745,
+      "learning_rate": 8.550336218433631e-06,
+      "loss": 1.0669,
+      "mean_token_accuracy": 0.7604398727416992,
       "step": 81
     },
     {
+      "epoch": 0.3459915611814346,
+      "grad_norm": 1.4607288837432861,
+      "learning_rate": 8.501209888764928e-06,
+      "loss": 1.1499,
+      "mean_token_accuracy": 0.7327597737312317,
       "step": 82
     },
     {
+      "epoch": 0.350210970464135,
+      "grad_norm": 1.3822574615478516,
+      "learning_rate": 8.451430685606532e-06,
+      "loss": 1.0957,
+      "mean_token_accuracy": 0.7444460988044739,
       "step": 83
     },
     {
+      "epoch": 0.35443037974683544,
+      "grad_norm": 1.3216774463653564,
+      "learning_rate": 8.401009437765248e-06,
+      "loss": 1.0046,
+      "mean_token_accuracy": 0.767160177230835,
       "step": 84
     },
     {
+      "epoch": 0.35864978902953587,
+      "grad_norm": 1.6017900705337524,
+      "learning_rate": 8.349957113716213e-06,
+      "loss": 1.0585,
+      "mean_token_accuracy": 0.7692307829856873,
       "step": 85
     },
     {
+      "epoch": 0.3628691983122363,
+      "grad_norm": 1.3391270637512207,
+      "learning_rate": 8.29828481921683e-06,
+      "loss": 1.2253,
+      "mean_token_accuracy": 0.7242193818092346,
       "step": 86
     },
     {
+      "epoch": 0.3670886075949367,
+      "grad_norm": 1.373449683189392,
+      "learning_rate": 8.246003794890885e-06,
+      "loss": 1.0709,
+      "mean_token_accuracy": 0.757455587387085,
       "step": 87
     },
     {
+      "epoch": 0.37130801687763715,
+      "grad_norm": 1.4508413076400757,
+      "learning_rate": 8.19312541378326e-06,
+      "loss": 1.0736,
+      "mean_token_accuracy": 0.7621853947639465,
       "step": 88
     },
     {
+      "epoch": 0.3755274261603376,
+      "grad_norm": 1.3206504583358765,
+      "learning_rate": 8.139661178885912e-06,
+      "loss": 1.1301,
+      "mean_token_accuracy": 0.7476067543029785,
       "step": 89
     },
     {
+      "epoch": 0.379746835443038,
+      "grad_norm": 1.3155889511108398,
+      "learning_rate": 8.085622720635536e-06,
+      "loss": 1.1623,
+      "mean_token_accuracy": 0.743880569934845,
       "step": 90
     },
     {
+      "epoch": 0.38396624472573837,
+      "grad_norm": 1.4986933469772339,
+      "learning_rate": 8.031021794383513e-06,
+      "loss": 0.9997,
+      "mean_token_accuracy": 0.7751938104629517,
       "step": 91
     },
     {
+      "epoch": 0.3881856540084388,
+      "grad_norm": 1.3492070436477661,
+      "learning_rate": 7.975870277838695e-06,
+      "loss": 1.1146,
+      "mean_token_accuracy": 0.7491279244422913,
       "step": 92
     },
     {
+      "epoch": 0.3924050632911392,
+      "grad_norm": 1.3896995782852173,
+      "learning_rate": 7.920180168483565e-06,
+      "loss": 1.0942,
+      "mean_token_accuracy": 0.7597774267196655,
       "step": 93
     },
     {
+      "epoch": 0.39662447257383965,
+      "grad_norm": 1.3334070444107056,
+      "learning_rate": 7.863963580964344e-06,
+      "loss": 1.0688,
+      "mean_token_accuracy": 0.7475572228431702,
       "step": 94
     },
     {
+      "epoch": 0.4008438818565401,
+      "grad_norm": 1.4157761335372925,
+      "learning_rate": 7.80723274445561e-06,
+      "loss": 1.1208,
+      "mean_token_accuracy": 0.731880784034729,
       "step": 95
     },
     {
+      "epoch": 0.4050632911392405,
+      "grad_norm": 1.4356557130813599,
+      "learning_rate": 7.75e-06,
+      "loss": 1.0452,
+      "mean_token_accuracy": 0.7568075060844421,
       "step": 96
     },
     {
+      "epoch": 0.4092827004219409,
+      "grad_norm": 1.4047561883926392,
+      "learning_rate": 7.692277797823585e-06,
+      "loss": 1.0809,
+      "mean_token_accuracy": 0.7537745237350464,
       "step": 97
     },
     {
+      "epoch": 0.41350210970464135,
+      "grad_norm": 1.3407511711120605,
+      "learning_rate": 7.634078694627483e-06,
+      "loss": 1.1126,
+      "mean_token_accuracy": 0.7462708353996277,
       "step": 98
     },
     {
+      "epoch": 0.4177215189873418,
+      "grad_norm": 1.371414303779602,
+      "learning_rate": 7.575415350856316e-06,
+      "loss": 1.1067,
+      "mean_token_accuracy": 0.7437711954116821,
       "step": 99
     },
     {
+      "epoch": 0.4219409282700422,
+      "grad_norm": 1.3650238513946533,
+      "learning_rate": 7.516300527944104e-06,
+      "loss": 1.0487,
+      "mean_token_accuracy": 0.7662240862846375,
       "step": 100
     },
     {
+      "epoch": 0.42616033755274263,
+      "grad_norm": 1.3607968091964722,
+      "learning_rate": 7.456747085538173e-06,
+      "loss": 1.0891,
+      "mean_token_accuracy": 0.7554155588150024,
       "step": 101
     },
     {
+      "epoch": 0.43037974683544306,
+      "grad_norm": 1.3348058462142944,
+      "learning_rate": 7.3967679787017166e-06,
+      "loss": 1.147,
+      "mean_token_accuracy": 0.7373363971710205,
       "step": 102
     },
     {
+      "epoch": 0.4345991561181435,
+      "grad_norm": 1.4145907163619995,
+      "learning_rate": 7.336376255095592e-06,
+      "loss": 1.093,
+      "mean_token_accuracy": 0.7504742741584778,
       "step": 103
     },
     {
+      "epoch": 0.4388185654008439,
+      "grad_norm": 1.3660974502563477,
+      "learning_rate": 7.275585052139975e-06,
+      "loss": 1.2449,
+      "mean_token_accuracy": 0.7118442058563232,
       "step": 104
     },
     {
+      "epoch": 0.4430379746835443,
+      "grad_norm": 1.3254221677780151,
+      "learning_rate": 7.2144075941564835e-06,
+      "loss": 1.1414,
+      "mean_token_accuracy": 0.7412657737731934,
       "step": 105
     },
     {
+      "epoch": 0.4472573839662447,
+      "grad_norm": 1.3703272342681885,
+      "learning_rate": 7.152857189491406e-06,
+      "loss": 1.1501,
+      "mean_token_accuracy": 0.7333996891975403,
       "step": 106
     },
     {
+      "epoch": 0.45147679324894513,
+      "grad_norm": 1.3824867010116577,
+      "learning_rate": 7.090947227620646e-06,
+      "loss": 1.0566,
+      "mean_token_accuracy": 0.761897087097168,
       "step": 107
     },
     {
+      "epoch": 0.45569620253164556,
+      "grad_norm": 1.353622317314148,
+      "learning_rate": 7.028691176237018e-06,
+      "loss": 1.1275,
+      "mean_token_accuracy": 0.7441860437393188,
       "step": 108
     },
     {
+      "epoch": 0.459915611814346,
+      "grad_norm": 1.343522548675537,
+      "learning_rate": 6.966102578320531e-06,
+      "loss": 1.0808,
+      "mean_token_accuracy": 0.750849723815918,
       "step": 109
     },
     {
+      "epoch": 0.4641350210970464,
+      "grad_norm": 1.2934088706970215,
+      "learning_rate": 6.903195049192285e-06,
+      "loss": 1.0279,
+      "mean_token_accuracy": 0.7599811553955078,
       "step": 110
     },
     {
+      "epoch": 0.46835443037974683,
+      "grad_norm": 1.288739562034607,
+      "learning_rate": 6.839982273552651e-06,
+      "loss": 1.1493,
+      "mean_token_accuracy": 0.7389063835144043,
       "step": 111
     },
     {
+      "epoch": 0.47257383966244726,
+      "grad_norm": 1.377466082572937,
+      "learning_rate": 6.776478002504335e-06,
+      "loss": 1.0465,
+      "mean_token_accuracy": 0.7633302211761475,
       "step": 112
     },
     {
+      "epoch": 0.4767932489451477,
+      "grad_norm": 1.2997636795043945,
+      "learning_rate": 6.712696050561014e-06,
+      "loss": 1.129,
+      "mean_token_accuracy": 0.7459065914154053,
       "step": 113
     },
     {
+      "epoch": 0.4810126582278481,
+      "grad_norm": 1.320365071296692,
+      "learning_rate": 6.648650292642166e-06,
+      "loss": 1.1049,
+      "mean_token_accuracy": 0.7416779398918152,
       "step": 114
     },
     {
+      "epoch": 0.48523206751054854,
+      "grad_norm": 1.377439260482788,
+      "learning_rate": 6.584354661054765e-06,
+      "loss": 1.004,
+      "mean_token_accuracy": 0.7778915166854858,
       "step": 115
     },
     {
+      "epoch": 0.48945147679324896,
+      "grad_norm": 1.2823392152786255,
+      "learning_rate": 6.519823142462501e-06,
+      "loss": 1.0903,
+      "mean_token_accuracy": 0.7483987808227539,
       "step": 116
     },
     {
+      "epoch": 0.4936708860759494,
+      "grad_norm": 1.3214064836502075,
+      "learning_rate": 6.4550697748431545e-06,
+      "loss": 1.1488,
+      "mean_token_accuracy": 0.7386626601219177,
       "step": 117
     },
     {
+      "epoch": 0.4978902953586498,
+      "grad_norm": 1.4070407152175903,
+      "learning_rate": 6.390108644434828e-06,
+      "loss": 1.1147,
+      "mean_token_accuracy": 0.7577263712882996,
       "step": 118
     },
     {
+      "epoch": 0.5021097046413502,
+      "grad_norm": 1.3729873895645142,
+      "learning_rate": 6.32495388267167e-06,
+      "loss": 1.1647,
+      "mean_token_accuracy": 0.7341417670249939,
       "step": 119
     },
+    {
+      "epoch": 0.5063291139240507,
+      "grad_norm": 1.3975082635879517,
+      "learning_rate": 6.259619663109762e-06,
+      "loss": 1.0578,
+      "mean_token_accuracy": 0.7666885852813721,
+      "step": 120
+    },
+    {
+      "epoch": 0.510548523206751,
+      "grad_norm": 1.3510339260101318,
+      "learning_rate": 6.19412019834386e-06,
+      "loss": 1.0236,
+      "mean_token_accuracy": 0.7666836380958557,
+      "step": 121
+    },
+    {
+      "epoch": 0.5147679324894515,
+      "grad_norm": 1.2858039140701294,
+      "learning_rate": 6.1284697369156276e-06,
+      "loss": 1.1033,
+      "mean_token_accuracy": 0.7595654726028442,
+      "step": 122
+    },
+    {
+      "epoch": 0.5189873417721519,
+      "grad_norm": 1.325225830078125,
+      "learning_rate": 6.062682560214053e-06,
+      "loss": 1.0949,
+      "mean_token_accuracy": 0.749600350856781,
+      "step": 123
+    },
+    {
+      "epoch": 0.5232067510548524,
+      "grad_norm": 1.3359731435775757,
+      "learning_rate": 5.996772979368715e-06,
+      "loss": 1.0567,
+      "mean_token_accuracy": 0.7532724738121033,
+      "step": 124
+    },
+    {
+      "epoch": 0.5274261603375527,
+      "grad_norm": 1.315093755722046,
+      "learning_rate": 5.930755332136604e-06,
+      "loss": 1.0807,
+      "mean_token_accuracy": 0.7582170367240906,
+      "step": 125
+    },
+    {
+      "epoch": 0.5316455696202531,
+      "grad_norm": 1.3243067264556885,
+      "learning_rate": 5.86464397978312e-06,
+      "loss": 1.1816,
+      "mean_token_accuracy": 0.7343863248825073,
+      "step": 126
+    },
+    {
+      "epoch": 0.5358649789029536,
+      "grad_norm": 1.2779967784881592,
+      "learning_rate": 5.798453303957968e-06,
+      "loss": 1.2504,
+      "mean_token_accuracy": 0.7217909097671509,
+      "step": 127
+    },
+    {
+      "epoch": 0.540084388185654,
+      "grad_norm": 1.363757848739624,
+      "learning_rate": 5.73219770356663e-06,
+      "loss": 1.1925,
+      "mean_token_accuracy": 0.7341822981834412,
+      "step": 128
+    },
+    {
+      "epoch": 0.5443037974683544,
+      "grad_norm": 1.3086532354354858,
+      "learning_rate": 5.665891591638063e-06,
+      "loss": 1.1309,
+      "mean_token_accuracy": 0.7532561421394348,
+      "step": 129
+    },
+    {
+      "epoch": 0.5485232067510548,
+      "grad_norm": 1.367034673690796,
+      "learning_rate": 5.5995493921893415e-06,
+      "loss": 0.9554,
+      "mean_token_accuracy": 0.7872604727745056,
+      "step": 130
+    },
+    {
+      "epoch": 0.5527426160337553,
+      "grad_norm": 1.3385508060455322,
+      "learning_rate": 5.533185537087906e-06,
+      "loss": 1.0339,
+      "mean_token_accuracy": 0.76613849401474,
+      "step": 131
+    },
+    {
+      "epoch": 0.5569620253164557,
+      "grad_norm": 1.315830945968628,
+      "learning_rate": 5.4668144629120945e-06,
+      "loss": 1.1457,
+      "mean_token_accuracy": 0.7451325058937073,
+      "step": 132
+    },
+    {
+      "epoch": 0.5611814345991561,
+      "grad_norm": 1.4468579292297363,
+      "learning_rate": 5.40045060781066e-06,
+      "loss": 1.0689,
+      "mean_token_accuracy": 0.7672370076179504,
+      "step": 133
+    },
+    {
+      "epoch": 0.5654008438818565,
+      "grad_norm": 1.419268250465393,
+      "learning_rate": 5.33410840836194e-06,
+      "loss": 1.0781,
+      "mean_token_accuracy": 0.7676616907119751,
+      "step": 134
+    },
+    {
+      "epoch": 0.569620253164557,
+      "grad_norm": 1.3178187608718872,
+      "learning_rate": 5.267802296433372e-06,
+      "loss": 1.0813,
+      "mean_token_accuracy": 0.7537773847579956,
+      "step": 135
+    },
+    {
+      "epoch": 0.5738396624472574,
+      "grad_norm": 1.352331280708313,
+      "learning_rate": 5.201546696042033e-06,
+      "loss": 1.1175,
+      "mean_token_accuracy": 0.74346524477005,
+      "step": 136
+    },
+    {
+      "epoch": 0.5780590717299579,
+      "grad_norm": 1.2893943786621094,
+      "learning_rate": 5.13535602021688e-06,
+      "loss": 1.146,
+      "mean_token_accuracy": 0.7399700880050659,
+      "step": 137
+    },
+    {
+      "epoch": 0.5822784810126582,
+      "grad_norm": 1.373579978942871,
+      "learning_rate": 5.069244667863397e-06,
+      "loss": 1.0754,
+      "mean_token_accuracy": 0.747799277305603,
+      "step": 138
+    },
+    {
+      "epoch": 0.5864978902953587,
+      "grad_norm": 1.3490039110183716,
+      "learning_rate": 5.003227020631287e-06,
+      "loss": 1.064,
+      "mean_token_accuracy": 0.764332115650177,
+      "step": 139
+    },
+    {
+      "epoch": 0.5907172995780591,
+      "grad_norm": 1.341293454170227,
+      "learning_rate": 4.937317439785949e-06,
+      "loss": 1.16,
+      "mean_token_accuracy": 0.7380607724189758,
+      "step": 140
+    },
+    {
+      "epoch": 0.5949367088607594,
+      "grad_norm": 1.2629183530807495,
+      "learning_rate": 4.871530263084373e-06,
+      "loss": 1.0139,
+      "mean_token_accuracy": 0.7695739269256592,
+      "step": 141
+    },
+    {
+      "epoch": 0.5991561181434599,
+      "grad_norm": 1.3168911933898926,
+      "learning_rate": 4.80587980165614e-06,
+      "loss": 1.1634,
+      "mean_token_accuracy": 0.7377873659133911,
+      "step": 142
+    },
+    {
+      "epoch": 0.6033755274261603,
+      "grad_norm": 1.3361846208572388,
+      "learning_rate": 4.74038033689024e-06,
+      "loss": 1.126,
+      "mean_token_accuracy": 0.7410577535629272,
+      "step": 143
+    },
+    {
+      "epoch": 0.6075949367088608,
+      "grad_norm": 1.3500585556030273,
+      "learning_rate": 4.675046117328333e-06,
+      "loss": 1.0654,
+      "mean_token_accuracy": 0.7601693868637085,
+      "step": 144
+    },
+    {
+      "epoch": 0.6118143459915611,
+      "grad_norm": 1.4159785509109497,
+      "learning_rate": 4.609891355565172e-06,
+      "loss": 1.0892,
+      "mean_token_accuracy": 0.7582122683525085,
+      "step": 145
+    },
+    {
+      "epoch": 0.6160337552742616,
+      "grad_norm": 1.3257557153701782,
+      "learning_rate": 4.544930225156847e-06,
+      "loss": 1.0994,
+      "mean_token_accuracy": 0.7577795386314392,
+      "step": 146
+    },
+    {
+      "epoch": 0.620253164556962,
+      "grad_norm": 1.3204015493392944,
+      "learning_rate": 4.480176857537499e-06,
+      "loss": 1.1573,
+      "mean_token_accuracy": 0.7304109334945679,
+      "step": 147
+    },
+    {
+      "epoch": 0.6244725738396625,
+      "grad_norm": 1.2947508096694946,
+      "learning_rate": 4.415645338945236e-06,
+      "loss": 1.1672,
+      "mean_token_accuracy": 0.7346352934837341,
+      "step": 148
+    },
+    {
+      "epoch": 0.6286919831223629,
+      "grad_norm": 1.4755604267120361,
+      "learning_rate": 4.351349707357836e-06,
+      "loss": 1.0376,
+      "mean_token_accuracy": 0.7728136777877808,
+      "step": 149
+    },
+    {
+      "epoch": 0.6329113924050633,
+      "grad_norm": 1.375398874282837,
+      "learning_rate": 4.287303949438987e-06,
+      "loss": 1.1152,
+      "mean_token_accuracy": 0.751935601234436,
+      "step": 150
+    },
+    {
+      "epoch": 0.6371308016877637,
+      "grad_norm": 1.297082543373108,
+      "learning_rate": 4.223521997495665e-06,
+      "loss": 1.1076,
+      "mean_token_accuracy": 0.7536709904670715,
+      "step": 151
+    },
+    {
+      "epoch": 0.6413502109704642,
+      "grad_norm": 1.289937138557434,
+      "learning_rate": 4.160017726447352e-06,
+      "loss": 1.0683,
+      "mean_token_accuracy": 0.7612445950508118,
+      "step": 152
+    },
+    {
+      "epoch": 0.6455696202531646,
+      "grad_norm": 1.3394392728805542,
+      "learning_rate": 4.096804950807717e-06,
+      "loss": 1.1548,
+      "mean_token_accuracy": 0.7326341271400452,
+      "step": 153
+    },
+    {
+      "epoch": 0.6497890295358649,
+      "grad_norm": 1.3397821187973022,
+      "learning_rate": 4.033897421679472e-06,
+      "loss": 1.0725,
+      "mean_token_accuracy": 0.7469461560249329,
+      "step": 154
+    },
+    {
+      "epoch": 0.6540084388185654,
+      "grad_norm": 1.314746379852295,
+      "learning_rate": 3.971308823762983e-06,
+      "loss": 1.021,
+      "mean_token_accuracy": 0.7617459893226624,
+      "step": 155
+    },
+    {
+      "epoch": 0.6582278481012658,
+      "grad_norm": 1.3997515439987183,
+      "learning_rate": 3.9090527723793545e-06,
+      "loss": 0.9554,
+      "mean_token_accuracy": 0.783367931842804,
+      "step": 156
+    },
+    {
+      "epoch": 0.6624472573839663,
+      "grad_norm": 1.3897455930709839,
+      "learning_rate": 3.847142810508596e-06,
+      "loss": 1.0588,
+      "mean_token_accuracy": 0.7604950666427612,
+      "step": 157
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 1.29047429561615,
+      "learning_rate": 3.785592405843518e-06,
+      "loss": 0.9476,
+      "mean_token_accuracy": 0.7861513495445251,
+      "step": 158
+    },
+    {
+      "epoch": 0.6708860759493671,
+      "grad_norm": 1.3335379362106323,
+      "learning_rate": 3.724414947860027e-06,
+      "loss": 1.1159,
+      "mean_token_accuracy": 0.7479957938194275,
+      "step": 159
+    },
+    {
+      "epoch": 0.6751054852320675,
+      "grad_norm": 1.3141283988952637,
+      "learning_rate": 3.6636237449044077e-06,
+      "loss": 1.0423,
+      "mean_token_accuracy": 0.7584823966026306,
+      "step": 160
+    },
+    {
+      "epoch": 0.679324894514768,
+      "grad_norm": 1.2607753276824951,
+      "learning_rate": 3.603232021298284e-06,
+      "loss": 1.3062,
+      "mean_token_accuracy": 0.704585075378418,
+      "step": 161
+    },
+    {
+      "epoch": 0.6835443037974683,
+      "grad_norm": 1.414121150970459,
+      "learning_rate": 3.5432529144618287e-06,
+      "loss": 1.1291,
+      "mean_token_accuracy": 0.7416020631790161,
+      "step": 162
+    },
+    {
+      "epoch": 0.6877637130801688,
+      "grad_norm": 1.4330233335494995,
+      "learning_rate": 3.483699472055897e-06,
+      "loss": 1.0693,
+      "mean_token_accuracy": 0.7502612471580505,
+      "step": 163
+    },
+    {
+      "epoch": 0.6919831223628692,
+      "grad_norm": 1.2901924848556519,
+      "learning_rate": 3.424584649143685e-06,
+      "loss": 1.0724,
+      "mean_token_accuracy": 0.7590579986572266,
+      "step": 164
+    },
+    {
+      "epoch": 0.6962025316455697,
+      "grad_norm": 1.3194284439086914,
+      "learning_rate": 3.365921305372519e-06,
+      "loss": 1.0791,
+      "mean_token_accuracy": 0.755479633808136,
+      "step": 165
+    },
+    {
+      "epoch": 0.70042194092827,
+      "grad_norm": 1.3910928964614868,
+      "learning_rate": 3.307722202176417e-06,
+      "loss": 1.0845,
+      "mean_token_accuracy": 0.7579113841056824,
+      "step": 166
+    },
+    {
+      "epoch": 0.7046413502109705,
+      "grad_norm": 1.3976861238479614,
+      "learning_rate": 3.2500000000000015e-06,
+      "loss": 0.9902,
+      "mean_token_accuracy": 0.7839325666427612,
+      "step": 167
+    },
+    {
+      "epoch": 0.7088607594936709,
+      "grad_norm": 1.344634771347046,
+      "learning_rate": 3.19276725554439e-06,
+      "loss": 1.004,
+      "mean_token_accuracy": 0.7765747904777527,
+      "step": 168
+    },
+    {
+      "epoch": 0.7130801687763713,
+      "grad_norm": 1.4013010263442993,
+      "learning_rate": 3.136036419035656e-06,
+      "loss": 0.9893,
+      "mean_token_accuracy": 0.7824804782867432,
+      "step": 169
+    },
+    {
+      "epoch": 0.7172995780590717,
+      "grad_norm": 1.2817473411560059,
+      "learning_rate": 3.0798198315164345e-06,
+      "loss": 1.0701,
+      "mean_token_accuracy": 0.7619868516921997,
+      "step": 170
+    },
+    {
+      "epoch": 0.7215189873417721,
+      "grad_norm": 1.3074806928634644,
+      "learning_rate": 3.024129722161305e-06,
+      "loss": 1.1384,
+      "mean_token_accuracy": 0.7425307631492615,
+      "step": 171
+    },
+    {
+      "epoch": 0.7257383966244726,
+      "grad_norm": 1.3982939720153809,
+      "learning_rate": 2.9689782056164874e-06,
+      "loss": 1.1811,
+      "mean_token_accuracy": 0.7242642045021057,
+      "step": 172
+    },
+    {
+      "epoch": 0.729957805907173,
+      "grad_norm": 1.3266452550888062,
+      "learning_rate": 2.914377279364464e-06,
+      "loss": 1.1075,
+      "mean_token_accuracy": 0.739130437374115,
+      "step": 173
+    },
+    {
+      "epoch": 0.7341772151898734,
+      "grad_norm": 1.354162573814392,
+      "learning_rate": 2.8603388211140886e-06,
+      "loss": 1.0977,
+      "mean_token_accuracy": 0.7508479952812195,
+      "step": 174
+    },
+    {
+      "epoch": 0.7383966244725738,
+      "grad_norm": 1.3136208057403564,
+      "learning_rate": 2.8068745862167423e-06,
+      "loss": 1.0426,
+      "mean_token_accuracy": 0.7577039003372192,
+      "step": 175
+    },
+    {
+      "epoch": 0.7426160337552743,
+      "grad_norm": 1.264014720916748,
+      "learning_rate": 2.7539962051091185e-06,
+      "loss": 1.1094,
+      "mean_token_accuracy": 0.7489492893218994,
+      "step": 176
+    },
+    {
+      "epoch": 0.7468354430379747,
+      "grad_norm": 1.2856388092041016,
+      "learning_rate": 2.70171518078317e-06,
+      "loss": 0.9631,
+      "mean_token_accuracy": 0.7795804738998413,
+      "step": 177
+    },
+    {
+      "epoch": 0.7510548523206751,
+      "grad_norm": 1.2878668308258057,
+      "learning_rate": 2.6500428862837878e-06,
+      "loss": 1.1275,
+      "mean_token_accuracy": 0.7491475343704224,
+      "step": 178
+    },
+    {
+      "epoch": 0.7552742616033755,
+      "grad_norm": 1.2011187076568604,
+      "learning_rate": 2.5989905622347538e-06,
+      "loss": 1.0777,
+      "mean_token_accuracy": 0.7586644291877747,
+      "step": 179
+    },
+    {
+      "epoch": 0.759493670886076,
+      "grad_norm": 1.2956939935684204,
+      "learning_rate": 2.5485693143934704e-06,
+      "loss": 1.078,
+      "mean_token_accuracy": 0.7640592455863953,
+      "step": 180
+    },
+    {
+      "epoch": 0.7637130801687764,
+      "grad_norm": 1.278355598449707,
+      "learning_rate": 2.498790111235072e-06,
+      "loss": 1.0595,
+      "mean_token_accuracy": 0.7603550553321838,
+      "step": 181
+    },
+    {
+      "epoch": 0.7679324894514767,
+      "grad_norm": 1.3742746114730835,
+      "learning_rate": 2.4496637815663697e-06,
+      "loss": 0.9225,
+      "mean_token_accuracy": 0.7922610640525818,
+      "step": 182
+    },
+    {
+      "epoch": 0.7721518987341772,
+      "grad_norm": 1.2835192680358887,
+      "learning_rate": 2.4012010121701853e-06,
+      "loss": 1.2256,
+      "mean_token_accuracy": 0.7330555319786072,
+      "step": 183
+    },
+    {
+      "epoch": 0.7763713080168776,
+      "grad_norm": 1.303166389465332,
+      "learning_rate": 2.353412345480587e-06,
+      "loss": 1.0578,
+      "mean_token_accuracy": 0.7578330039978027,
+      "step": 184
+    },
+    {
+      "epoch": 0.7805907172995781,
+      "grad_norm": 1.3752117156982422,
+      "learning_rate": 2.3063081772895203e-06,
+      "loss": 1.0769,
+      "mean_token_accuracy": 0.761528730392456,
+      "step": 185
+    },
+    {
+      "epoch": 0.7848101265822784,
+      "grad_norm": 1.3514289855957031,
+      "learning_rate": 2.2598987544853428e-06,
+      "loss": 1.1491,
+      "mean_token_accuracy": 0.7445311546325684,
+      "step": 186
+    },
+    {
+      "epoch": 0.7890295358649789,
+      "grad_norm": 1.342996597290039,
+      "learning_rate": 2.2141941728237467e-06,
+      "loss": 1.1003,
+      "mean_token_accuracy": 0.7531036734580994,
+      "step": 187
+    },
+    {
+      "epoch": 0.7932489451476793,
+      "grad_norm": 1.3291714191436768,
+      "learning_rate": 2.1692043747315628e-06,
+      "loss": 1.0323,
+      "mean_token_accuracy": 0.7538182139396667,
+      "step": 188
+    },
+    {
+      "epoch": 0.7974683544303798,
+      "grad_norm": 1.3257864713668823,
+      "learning_rate": 2.1249391471439206e-06,
+      "loss": 0.9746,
+      "mean_token_accuracy": 0.7849647402763367,
+      "step": 189
+    },
+    {
+      "epoch": 0.8016877637130801,
+      "grad_norm": 1.2531793117523193,
+      "learning_rate": 2.081408119375219e-06,
+      "loss": 1.0839,
+      "mean_token_accuracy": 0.7478733062744141,
+      "step": 190
+    },
+    {
+      "epoch": 0.8059071729957806,
+      "grad_norm": 1.3834004402160645,
+      "learning_rate": 2.0386207610244073e-06,
+      "loss": 1.1095,
+      "mean_token_accuracy": 0.7386733889579773,
+      "step": 191
+    },
+    {
+      "epoch": 0.810126582278481,
+      "grad_norm": 1.2729295492172241,
+      "learning_rate": 1.9965863799149988e-06,
+      "loss": 1.0797,
+      "mean_token_accuracy": 0.7641941905021667,
+      "step": 192
+    },
+    {
+      "epoch": 0.8143459915611815,
+      "grad_norm": 1.3292949199676514,
+      "learning_rate": 1.955314120070269e-06,
+      "loss": 1.0022,
+      "mean_token_accuracy": 0.7704975605010986,
+      "step": 193
+    },
+    {
+      "epoch": 0.8185654008438819,
+      "grad_norm": 1.3078043460845947,
+      "learning_rate": 1.9148129597240984e-06,
+      "loss": 1.1246,
+      "mean_token_accuracy": 0.7446621656417847,
+      "step": 194
+    },
+    {
+      "epoch": 0.8227848101265823,
+      "grad_norm": 1.3361434936523438,
+      "learning_rate": 1.8750917093678824e-06,
+      "loss": 1.1086,
+      "mean_token_accuracy": 0.7590915560722351,
+      "step": 195
+    },
+    {
+      "epoch": 0.8270042194092827,
+      "grad_norm": 1.3019007444381714,
+      "learning_rate": 1.8361590098339168e-06,
+      "loss": 1.1935,
+      "mean_token_accuracy": 0.7272245287895203,
+      "step": 196
+    },
+    {
+      "epoch": 0.8312236286919831,
+      "grad_norm": 1.2692325115203857,
+      "learning_rate": 1.7980233304157025e-06,
+      "loss": 1.0738,
+      "mean_token_accuracy": 0.7482107281684875,
+      "step": 197
+    },
+    {
+      "epoch": 0.8354430379746836,
+      "grad_norm": 1.2975091934204102,
+      "learning_rate": 1.760692967025564e-06,
+      "loss": 1.1519,
+      "mean_token_accuracy": 0.7438170313835144,
+      "step": 198
+    },
+    {
+      "epoch": 0.8396624472573839,
+      "grad_norm": 1.3825592994689941,
+      "learning_rate": 1.724176040389982e-06,
+      "loss": 1.0687,
+      "mean_token_accuracy": 0.7617847323417664,
+      "step": 199
+    },
+    {
+      "epoch": 0.8438818565400844,
+      "grad_norm": 1.2977200746536255,
+      "learning_rate": 1.6884804942830373e-06,
+      "loss": 1.0253,
+      "mean_token_accuracy": 0.7679784893989563,
+      "step": 200
+    },
+    {
+      "epoch": 0.8481012658227848,
+      "grad_norm": 1.2826578617095947,
+      "learning_rate": 1.6536140937983469e-06,
+      "loss": 0.9576,
+      "mean_token_accuracy": 0.7874261736869812,
+      "step": 201
+    },
+    {
+      "epoch": 0.8523206751054853,
+      "grad_norm": 1.2712202072143555,
+      "learning_rate": 1.619584423659875e-06,
+      "loss": 1.1153,
+      "mean_token_accuracy": 0.7474706768989563,
+      "step": 202
+    },
+    {
+      "epoch": 0.8565400843881856,
+      "grad_norm": 1.3052817583084106,
+      "learning_rate": 1.5863988865719702e-06,
+      "loss": 1.1858,
+      "mean_token_accuracy": 0.7376619577407837,
+      "step": 203
+    },
+    {
+      "epoch": 0.8607594936708861,
+      "grad_norm": 1.2947852611541748,
+      "learning_rate": 1.5540647016090066e-06,
+      "loss": 1.1035,
+      "mean_token_accuracy": 0.7478904724121094,
+      "step": 204
+    },
+    {
+      "epoch": 0.8649789029535865,
+      "grad_norm": 1.3773938417434692,
+      "learning_rate": 1.5225889026449754e-06,
+      "loss": 1.0303,
+      "mean_token_accuracy": 0.7679511308670044,
+      "step": 205
+    },
+    {
+      "epoch": 0.869198312236287,
+      "grad_norm": 1.3938205242156982,
+      "learning_rate": 1.4919783368233525e-06,
+      "loss": 1.0553,
+      "mean_token_accuracy": 0.7651947140693665,
+      "step": 206
+    },
+    {
+      "epoch": 0.8734177215189873,
+      "grad_norm": 1.3168855905532837,
+      "learning_rate": 1.462239663067596e-06,
+      "loss": 1.1293,
+      "mean_token_accuracy": 0.7346562743186951,
+      "step": 207
+    },
+    {
+      "epoch": 0.8776371308016878,
+      "grad_norm": 1.2759041786193848,
+      "learning_rate": 1.4333793506325832e-06,
+      "loss": 1.1841,
+      "mean_token_accuracy": 0.7245597243309021,
+      "step": 208
+    },
+    {
+      "epoch": 0.8818565400843882,
+      "grad_norm": 1.2906190156936646,
+      "learning_rate": 1.4054036776973123e-06,
+      "loss": 1.1123,
+      "mean_token_accuracy": 0.7488489747047424,
+      "step": 209
+    },
+    {
+      "epoch": 0.8860759493670886,
+      "grad_norm": 1.3179748058319092,
+      "learning_rate": 1.378318729999169e-06,
+      "loss": 1.1058,
+      "mean_token_accuracy": 0.7502433657646179,
+      "step": 210
+    },
+    {
+      "epoch": 0.890295358649789,
+      "grad_norm": 1.3706414699554443,
+      "learning_rate": 1.3521303995100479e-06,
+      "loss": 0.9837,
+      "mean_token_accuracy": 0.7637858986854553,
+      "step": 211
+    },
+    {
+      "epoch": 0.8945147679324894,
+      "grad_norm": 1.302856683731079,
+      "learning_rate": 1.32684438315464e-06,
+      "loss": 1.0673,
+      "mean_token_accuracy": 0.7459544539451599,
+      "step": 212
+    },
+    {
+      "epoch": 0.8987341772151899,
+      "grad_norm": 1.2482903003692627,
+      "learning_rate": 1.3024661815711387e-06,
+      "loss": 1.1662,
+      "mean_token_accuracy": 0.7322877049446106,
+      "step": 213
+    },
+    {
+      "epoch": 0.9029535864978903,
+      "grad_norm": 1.2914732694625854,
+      "learning_rate": 1.2790010979146467e-06,
+      "loss": 0.984,
+      "mean_token_accuracy": 0.7709949016571045,
+      "step": 214
+    },
+    {
+      "epoch": 0.9071729957805907,
+      "grad_norm": 1.3376529216766357,
+      "learning_rate": 1.2564542367035502e-06,
+      "loss": 1.1432,
+      "mean_token_accuracy": 0.7400686144828796,
+      "step": 215
+    },
+    {
+      "epoch": 0.9113924050632911,
+      "grad_norm": 1.3194866180419922,
+      "learning_rate": 1.2348305027090923e-06,
+      "loss": 1.1384,
+      "mean_token_accuracy": 0.7444621324539185,
+      "step": 216
+    },
+    {
+      "epoch": 0.9156118143459916,
+      "grad_norm": 1.2742234468460083,
+      "learning_rate": 1.2141345998884092e-06,
+      "loss": 1.1669,
+      "mean_token_accuracy": 0.7380778789520264,
+      "step": 217
+    },
+    {
+      "epoch": 0.919831223628692,
+      "grad_norm": 1.3064154386520386,
+      "learning_rate": 1.1943710303612459e-06,
+      "loss": 1.0964,
+      "mean_token_accuracy": 0.7555238604545593,
+      "step": 218
+    },
+    {
+      "epoch": 0.9240506329113924,
+      "grad_norm": 1.261291742324829,
+      "learning_rate": 1.175544093430577e-06,
+      "loss": 1.107,
+      "mean_token_accuracy": 0.751292884349823,
+      "step": 219
+    },
+    {
+      "epoch": 0.9282700421940928,
+      "grad_norm": 1.2909098863601685,
+      "learning_rate": 1.1576578846473558e-06,
+      "loss": 1.0531,
+      "mean_token_accuracy": 0.7663896679878235,
+      "step": 220
+    },
+    {
+      "epoch": 0.9324894514767933,
+      "grad_norm": 1.3752104043960571,
+      "learning_rate": 1.1407162949195732e-06,
+      "loss": 1.0887,
+      "mean_token_accuracy": 0.7531322240829468,
+      "step": 221
+    },
+    {
+      "epoch": 0.9367088607594937,
+      "grad_norm": 1.297967791557312,
+      "learning_rate": 1.1247230096658498e-06,
+      "loss": 1.0218,
+      "mean_token_accuracy": 0.7693407535552979,
+      "step": 222
+    },
+    {
+      "epoch": 0.9409282700421941,
+      "grad_norm": 1.298868179321289,
+      "learning_rate": 1.1096815080137196e-06,
+      "loss": 0.9778,
+      "mean_token_accuracy": 0.7718530297279358,
+      "step": 223
+    },
+    {
+      "epoch": 0.9451476793248945,
+      "grad_norm": 1.3202515840530396,
+      "learning_rate": 1.0955950620427883e-06,
+      "loss": 1.0321,
+      "mean_token_accuracy": 0.7685170769691467,
+      "step": 224
+    },
+    {
+      "epoch": 0.9493670886075949,
+      "grad_norm": 1.2280904054641724,
+      "learning_rate": 1.0824667360729408e-06,
+      "loss": 1.2625,
+      "mean_token_accuracy": 0.7183030843734741,
+      "step": 225
+    },
+    {
+      "epoch": 0.9535864978902954,
+      "grad_norm": 1.2865333557128906,
+      "learning_rate": 1.070299385997735e-06,
+      "loss": 1.1937,
+      "mean_token_accuracy": 0.7263870239257812,
+      "step": 226
+    },
+    {
+      "epoch": 0.9578059071729957,
+      "grad_norm": 1.3348139524459839,
+      "learning_rate": 1.0590956586631432e-06,
+      "loss": 1.1109,
+      "mean_token_accuracy": 0.743833601474762,
+      "step": 227
+    },
+    {
+      "epoch": 0.9620253164556962,
+      "grad_norm": 1.3875958919525146,
+      "learning_rate": 1.0488579912917633e-06,
+      "loss": 1.017,
+      "mean_token_accuracy": 0.7680346369743347,
+      "step": 228
+    },
+    {
+      "epoch": 0.9662447257383966,
+      "grad_norm": 1.3476899862289429,
+      "learning_rate": 1.0395886109526346e-06,
+      "loss": 1.0319,
+      "mean_token_accuracy": 0.7578980922698975,
+      "step": 229
+    },
+    {
+      "epoch": 0.9704641350210971,
+      "grad_norm": 1.4462693929672241,
+      "learning_rate": 1.0312895340767674e-06,
+      "loss": 1.1329,
+      "mean_token_accuracy": 0.761381208896637,
+      "step": 230
+    },
+    {
+      "epoch": 0.9746835443037974,
+      "grad_norm": 1.2707955837249756,
+      "learning_rate": 1.0239625660184965e-06,
+      "loss": 1.2035,
+      "mean_token_accuracy": 0.7266802787780762,
+      "step": 231
+    },
+    {
+      "epoch": 0.9789029535864979,
+      "grad_norm": 1.331416368484497,
+      "learning_rate": 1.0176093006627485e-06,
+      "loss": 1.1598,
+      "mean_token_accuracy": 0.7420715689659119,
+      "step": 232
+    },
+    {
+      "epoch": 0.9831223628691983,
+      "grad_norm": 1.3013097047805786,
+      "learning_rate": 1.0122311200783154e-06,
+      "loss": 0.9994,
+      "mean_token_accuracy": 0.7827889323234558,
+      "step": 233
+    },
+    {
+      "epoch": 0.9873417721518988,
+      "grad_norm": 1.3347793817520142,
+      "learning_rate": 1.0078291942172018e-06,
+      "loss": 1.0984,
+      "mean_token_accuracy": 0.7526082992553711,
+      "step": 234
+    },
+    {
+      "epoch": 0.9915611814345991,
+      "grad_norm": 1.4117809534072876,
+      "learning_rate": 1.0044044806601188e-06,
+      "loss": 0.9413,
+      "mean_token_accuracy": 0.7868911623954773,
+      "step": 235
+    },
+    {
+      "epoch": 0.9957805907172996,
+      "grad_norm": 1.3429399728775024,
+      "learning_rate": 1.0019577244081736e-06,
+      "loss": 1.0494,
+      "mean_token_accuracy": 0.7685214877128601,
+      "step": 236
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.2474669218063354,
+      "learning_rate": 1.0004894577208057e-06,
+      "loss": 1.0154,
+      "mean_token_accuracy": 0.7552247643470764,
+      "step": 237
+    },
     {
       "epoch": 1.0,
+      "step": 237,
+      "total_flos": 1.3663861802532864e+17,
+      "train_loss": 1.2117820017448457,
+      "train_runtime": 1211.3807,
+      "train_samples_per_second": 12.481,
+      "train_steps_per_second": 0.196
     }
   ],
   "logging_steps": 1,
+  "max_steps": 237,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1.3663861802532864e+17,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

training.log CHANGED Viewed

@@ -188,3 +188,40 @@ weight_decay=0.0,
   )
   (lm_head): Linear(in_features=2048, out_features=50304, bias=False)
 )

   )
   (lm_head): Linear(in_features=2048, out_features=50304, bias=False)
 )
+2025-09-23 18:18:04 - INFO - __main__ - *** Save model ***
+2025-09-23 18:18:04 - INFO - __main__ - 💾 Saving MoE bias states...
+2025-09-23 18:18:04 - INFO - __main__ - 🔍 Searching for MoE layers with bias states...
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.0.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.1.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.2.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.3.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.4.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.5.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.6.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.7.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.8.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.9.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.10.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.11.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.12.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.13.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.14.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - ✅ Saved bias from model.layers.15.mlp: 64 experts, update_speed=0.000100
+2025-09-23 18:18:04 - INFO - __main__ - 🎉 Successfully saved 16 MoE bias states to /tmp/data/OLMoE-1B-7B-0125/aux_free_sft/commonsense15k/moe_bias_states.json
+2025-09-23 18:18:04 - INFO - __main__ - 📊 Bias States Summary:
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.0.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.1.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.2.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.3.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.4.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.5.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.6.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.7.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.8.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.9.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.10.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.11.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.12.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.13.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.14.mlp: 64 experts, range=[0.0000, 0.0000]
+2025-09-23 18:18:04 - INFO - __main__ -   model.layers.15.mlp: 64 experts, range=[0.0000, 0.0000]