Uploading checkpoint-98500 for mbert - uzn-latn

Browse files

Files changed (14) hide show

README.md +67 -0
config.json +37 -0
generation_config.json +5 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +55 -0
trainer_state.json +3185 -0
training_args.bin +3 -0
vocab.txt +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,67 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: google-bert/bert-base-multilingual-cased
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: uzn-Latn
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# uzn-Latn
+This model is a fine-tuned version of [google-bert/bert-base-multilingual-cased](https://huggingface.co/google-bert/bert-base-multilingual-cased) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4191
+- Accuracy: 0.9085
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- training_steps: 100000
+    ### Citation Information
+    If you use this model in your work, please cite the following paper. Additionally, if you require more details on training and performance, refer to the paper:
+    @misc{gurgurov2025smallmodelsbigimpact,
+        title={Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages},
+        author={Daniil Gurgurov and Ivan Vykopal and Josef van Genabith and Simon Ostermann},
+        year={2025},
+        eprint={2502.10140},
+        archivePrefix={arXiv},
+        primaryClass={cs.CL},
+        url={https://arxiv.org/abs/2502.10140},
+    }

config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "_name_or_path": "google-bert/bert-base-multilingual-cased",
+  "adapters": {
+    "adapters": {},
+    "config_map": {},
+    "fusion_config_map": {},
+    "fusions": {}
+  },
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "_from_model_config": true,
+  "pad_token_id": 0,
+  "transformers_version": "4.45.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27757e9145101eeb4eed501e01cd00f90057cbf066b8ed052d3c6b7942bac427
+size 711921812

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16cd77838594f2d9b9a6c13e52ac3de766d1b12dc33e5e5f9e7fa1880efaff5f
+size 1423965114

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd98828ef391a9bd7d7f37e992ed5cd1e01071bff64e614960e47dc7c38f3f1a
+size 14512

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54e4dc8cb5bda128de11b31af58dc4443a5faadde8b602fc3ef875e446d3ac98
+size 14512

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b72c24b8eeac82a0d428f6aaf2686dbda50deecaee6ca497e01bfbb1a32f05c
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3185 @@

+{
+  "best_metric": 0.4168604016304016,
+  "best_model_checkpoint": "./model_fine-tune/glot/mbert/uzn-Latn/checkpoint-98500",
+  "epoch": 41.684299619128225,
+  "eval_steps": 500,
+  "global_step": 98500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.21159542953872196,
+      "grad_norm": 2.921497344970703,
+      "learning_rate": 9.95e-05,
+      "loss": 1.4276,
+      "step": 500
+    },
+    {
+      "epoch": 0.21159542953872196,
+      "eval_accuracy": 0.7739727645766222,
+      "eval_loss": 1.1149295568466187,
+      "eval_runtime": 56.3131,
+      "eval_samples_per_second": 335.57,
+      "eval_steps_per_second": 10.495,
+      "step": 500
+    },
+    {
+      "epoch": 0.4231908590774439,
+      "grad_norm": 2.887310743331909,
+      "learning_rate": 9.900000000000001e-05,
+      "loss": 1.1534,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4231908590774439,
+      "eval_accuracy": 0.796249290534149,
+      "eval_loss": 1.0010449886322021,
+      "eval_runtime": 56.6477,
+      "eval_samples_per_second": 333.588,
+      "eval_steps_per_second": 10.433,
+      "step": 1000
+    },
+    {
+      "epoch": 0.6347862886161659,
+      "grad_norm": 2.78161883354187,
+      "learning_rate": 9.850000000000001e-05,
+      "loss": 1.052,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6347862886161659,
+      "eval_accuracy": 0.8080684952757127,
+      "eval_loss": 0.9241422414779663,
+      "eval_runtime": 56.6749,
+      "eval_samples_per_second": 333.428,
+      "eval_steps_per_second": 10.428,
+      "step": 1500
+    },
+    {
+      "epoch": 0.8463817181548878,
+      "grad_norm": 3.055419921875,
+      "learning_rate": 9.8e-05,
+      "loss": 0.9862,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8463817181548878,
+      "eval_accuracy": 0.8152558855004783,
+      "eval_loss": 0.8904742002487183,
+      "eval_runtime": 56.6659,
+      "eval_samples_per_second": 333.481,
+      "eval_steps_per_second": 10.43,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0579771476936097,
+      "grad_norm": 2.547567367553711,
+      "learning_rate": 9.75e-05,
+      "loss": 0.9386,
+      "step": 2500
+    },
+    {
+      "epoch": 1.0579771476936097,
+      "eval_accuracy": 0.8231659750971954,
+      "eval_loss": 0.8489812016487122,
+      "eval_runtime": 56.6994,
+      "eval_samples_per_second": 333.284,
+      "eval_steps_per_second": 10.423,
+      "step": 2500
+    },
+    {
+      "epoch": 1.2695725772323319,
+      "grad_norm": 2.394988536834717,
+      "learning_rate": 9.7e-05,
+      "loss": 0.9015,
+      "step": 3000
+    },
+    {
+      "epoch": 1.2695725772323319,
+      "eval_accuracy": 0.828950558445466,
+      "eval_loss": 0.8159027695655823,
+      "eval_runtime": 56.819,
+      "eval_samples_per_second": 332.582,
+      "eval_steps_per_second": 10.401,
+      "step": 3000
+    },
+    {
+      "epoch": 1.4811680067710538,
+      "grad_norm": 2.5777626037597656,
+      "learning_rate": 9.65e-05,
+      "loss": 0.8766,
+      "step": 3500
+    },
+    {
+      "epoch": 1.4811680067710538,
+      "eval_accuracy": 0.8325975068653477,
+      "eval_loss": 0.8011560440063477,
+      "eval_runtime": 56.6442,
+      "eval_samples_per_second": 333.609,
+      "eval_steps_per_second": 10.434,
+      "step": 3500
+    },
+    {
+      "epoch": 1.6927634363097757,
+      "grad_norm": 2.2821884155273438,
+      "learning_rate": 9.6e-05,
+      "loss": 0.8577,
+      "step": 4000
+    },
+    {
+      "epoch": 1.6927634363097757,
+      "eval_accuracy": 0.8376275083743905,
+      "eval_loss": 0.7690746784210205,
+      "eval_runtime": 56.6871,
+      "eval_samples_per_second": 333.356,
+      "eval_steps_per_second": 10.426,
+      "step": 4000
+    },
+    {
+      "epoch": 1.9043588658484976,
+      "grad_norm": 2.3086235523223877,
+      "learning_rate": 9.55e-05,
+      "loss": 0.8333,
+      "step": 4500
+    },
+    {
+      "epoch": 1.9043588658484976,
+      "eval_accuracy": 0.8403614576449804,
+      "eval_loss": 0.7538630366325378,
+      "eval_runtime": 56.6299,
+      "eval_samples_per_second": 333.693,
+      "eval_steps_per_second": 10.436,
+      "step": 4500
+    },
+    {
+      "epoch": 2.1159542953872195,
+      "grad_norm": 2.47580885887146,
+      "learning_rate": 9.5e-05,
+      "loss": 0.8086,
+      "step": 5000
+    },
+    {
+      "epoch": 2.1159542953872195,
+      "eval_accuracy": 0.8421322737662698,
+      "eval_loss": 0.7495782375335693,
+      "eval_runtime": 56.7249,
+      "eval_samples_per_second": 333.134,
+      "eval_steps_per_second": 10.419,
+      "step": 5000
+    },
+    {
+      "epoch": 2.327549724925942,
+      "grad_norm": 2.1193575859069824,
+      "learning_rate": 9.449999999999999e-05,
+      "loss": 0.7915,
+      "step": 5500
+    },
+    {
+      "epoch": 2.327549724925942,
+      "eval_accuracy": 0.8444147387701536,
+      "eval_loss": 0.7350887656211853,
+      "eval_runtime": 56.6712,
+      "eval_samples_per_second": 333.45,
+      "eval_steps_per_second": 10.429,
+      "step": 5500
+    },
+    {
+      "epoch": 2.5391451544646637,
+      "grad_norm": 2.541102409362793,
+      "learning_rate": 9.4e-05,
+      "loss": 0.7833,
+      "step": 6000
+    },
+    {
+      "epoch": 2.5391451544646637,
+      "eval_accuracy": 0.8466142754406873,
+      "eval_loss": 0.7291632294654846,
+      "eval_runtime": 56.6678,
+      "eval_samples_per_second": 333.47,
+      "eval_steps_per_second": 10.429,
+      "step": 6000
+    },
+    {
+      "epoch": 2.7507405840033856,
+      "grad_norm": 2.231060028076172,
+      "learning_rate": 9.350000000000001e-05,
+      "loss": 0.772,
+      "step": 6500
+    },
+    {
+      "epoch": 2.7507405840033856,
+      "eval_accuracy": 0.8490486197954219,
+      "eval_loss": 0.711447536945343,
+      "eval_runtime": 56.6668,
+      "eval_samples_per_second": 333.476,
+      "eval_steps_per_second": 10.429,
+      "step": 6500
+    },
+    {
+      "epoch": 2.9623360135421075,
+      "grad_norm": 2.1715972423553467,
+      "learning_rate": 9.300000000000001e-05,
+      "loss": 0.7581,
+      "step": 7000
+    },
+    {
+      "epoch": 2.9623360135421075,
+      "eval_accuracy": 0.8519245359125641,
+      "eval_loss": 0.6959145069122314,
+      "eval_runtime": 56.6787,
+      "eval_samples_per_second": 333.406,
+      "eval_steps_per_second": 10.427,
+      "step": 7000
+    },
+    {
+      "epoch": 3.1739314430808294,
+      "grad_norm": 2.2937397956848145,
+      "learning_rate": 9.250000000000001e-05,
+      "loss": 0.7415,
+      "step": 7500
+    },
+    {
+      "epoch": 3.1739314430808294,
+      "eval_accuracy": 0.8529956231046303,
+      "eval_loss": 0.6926664113998413,
+      "eval_runtime": 56.6521,
+      "eval_samples_per_second": 333.562,
+      "eval_steps_per_second": 10.432,
+      "step": 7500
+    },
+    {
+      "epoch": 3.3855268726195513,
+      "grad_norm": 2.5523250102996826,
+      "learning_rate": 9.200000000000001e-05,
+      "loss": 0.736,
+      "step": 8000
+    },
+    {
+      "epoch": 3.3855268726195513,
+      "eval_accuracy": 0.8532365311483308,
+      "eval_loss": 0.6907092332839966,
+      "eval_runtime": 56.7139,
+      "eval_samples_per_second": 333.199,
+      "eval_steps_per_second": 10.421,
+      "step": 8000
+    },
+    {
+      "epoch": 3.597122302158273,
+      "grad_norm": 2.0444934368133545,
+      "learning_rate": 9.15e-05,
+      "loss": 0.7296,
+      "step": 8500
+    },
+    {
+      "epoch": 3.597122302158273,
+      "eval_accuracy": 0.8552509198450057,
+      "eval_loss": 0.6779365539550781,
+      "eval_runtime": 56.7215,
+      "eval_samples_per_second": 333.154,
+      "eval_steps_per_second": 10.419,
+      "step": 8500
+    },
+    {
+      "epoch": 3.808717731696995,
+      "grad_norm": 2.0448098182678223,
+      "learning_rate": 9.1e-05,
+      "loss": 0.7205,
+      "step": 9000
+    },
+    {
+      "epoch": 3.808717731696995,
+      "eval_accuracy": 0.8566500457200734,
+      "eval_loss": 0.6696876883506775,
+      "eval_runtime": 56.6572,
+      "eval_samples_per_second": 333.532,
+      "eval_steps_per_second": 10.431,
+      "step": 9000
+    },
+    {
+      "epoch": 4.020313161235717,
+      "grad_norm": 2.0469236373901367,
+      "learning_rate": 9.05e-05,
+      "loss": 0.7188,
+      "step": 9500
+    },
+    {
+      "epoch": 4.020313161235717,
+      "eval_accuracy": 0.8580638342011417,
+      "eval_loss": 0.6623690724372864,
+      "eval_runtime": 56.6848,
+      "eval_samples_per_second": 333.37,
+      "eval_steps_per_second": 10.426,
+      "step": 9500
+    },
+    {
+      "epoch": 4.231908590774439,
+      "grad_norm": 2.1119368076324463,
+      "learning_rate": 9e-05,
+      "loss": 0.6982,
+      "step": 10000
+    },
+    {
+      "epoch": 4.231908590774439,
+      "eval_accuracy": 0.8593053877130069,
+      "eval_loss": 0.659415602684021,
+      "eval_runtime": 56.6748,
+      "eval_samples_per_second": 333.429,
+      "eval_steps_per_second": 10.428,
+      "step": 10000
+    },
+    {
+      "epoch": 4.443504020313161,
+      "grad_norm": 2.189457654953003,
+      "learning_rate": 8.950000000000001e-05,
+      "loss": 0.6959,
+      "step": 10500
+    },
+    {
+      "epoch": 4.443504020313161,
+      "eval_accuracy": 0.8603594080338266,
+      "eval_loss": 0.657759428024292,
+      "eval_runtime": 56.6831,
+      "eval_samples_per_second": 333.38,
+      "eval_steps_per_second": 10.426,
+      "step": 10500
+    },
+    {
+      "epoch": 4.655099449851884,
+      "grad_norm": 1.929677963256836,
+      "learning_rate": 8.900000000000001e-05,
+      "loss": 0.6929,
+      "step": 11000
+    },
+    {
+      "epoch": 4.655099449851884,
+      "eval_accuracy": 0.8612637514250079,
+      "eval_loss": 0.6502240300178528,
+      "eval_runtime": 56.7024,
+      "eval_samples_per_second": 333.266,
+      "eval_steps_per_second": 10.423,
+      "step": 11000
+    },
+    {
+      "epoch": 4.8666948793906055,
+      "grad_norm": 1.8653119802474976,
+      "learning_rate": 8.850000000000001e-05,
+      "loss": 0.6822,
+      "step": 11500
+    },
+    {
+      "epoch": 4.8666948793906055,
+      "eval_accuracy": 0.8619526948014083,
+      "eval_loss": 0.6439126133918762,
+      "eval_runtime": 56.6628,
+      "eval_samples_per_second": 333.499,
+      "eval_steps_per_second": 10.43,
+      "step": 11500
+    },
+    {
+      "epoch": 5.078290308929327,
+      "grad_norm": 2.043660879135132,
+      "learning_rate": 8.800000000000001e-05,
+      "loss": 0.6791,
+      "step": 12000
+    },
+    {
+      "epoch": 5.078290308929327,
+      "eval_accuracy": 0.8633964837614313,
+      "eval_loss": 0.6387478709220886,
+      "eval_runtime": 56.6638,
+      "eval_samples_per_second": 333.493,
+      "eval_steps_per_second": 10.43,
+      "step": 12000
+    },
+    {
+      "epoch": 5.289885738468049,
+      "grad_norm": 2.096825361251831,
+      "learning_rate": 8.75e-05,
+      "loss": 0.6651,
+      "step": 12500
+    },
+    {
+      "epoch": 5.289885738468049,
+      "eval_accuracy": 0.8642863103795229,
+      "eval_loss": 0.6335816383361816,
+      "eval_runtime": 56.6782,
+      "eval_samples_per_second": 333.408,
+      "eval_steps_per_second": 10.427,
+      "step": 12500
+    },
+    {
+      "epoch": 5.501481168006771,
+      "grad_norm": 1.928902268409729,
+      "learning_rate": 8.7e-05,
+      "loss": 0.6619,
+      "step": 13000
+    },
+    {
+      "epoch": 5.501481168006771,
+      "eval_accuracy": 0.8654069776602684,
+      "eval_loss": 0.6258506774902344,
+      "eval_runtime": 56.6693,
+      "eval_samples_per_second": 333.461,
+      "eval_steps_per_second": 10.429,
+      "step": 13000
+    },
+    {
+      "epoch": 5.713076597545493,
+      "grad_norm": 2.0632073879241943,
+      "learning_rate": 8.65e-05,
+      "loss": 0.6682,
+      "step": 13500
+    },
+    {
+      "epoch": 5.713076597545493,
+      "eval_accuracy": 0.8657809739996617,
+      "eval_loss": 0.6195570230484009,
+      "eval_runtime": 56.731,
+      "eval_samples_per_second": 333.098,
+      "eval_steps_per_second": 10.418,
+      "step": 13500
+    },
+    {
+      "epoch": 5.924672027084215,
+      "grad_norm": 1.9731072187423706,
+      "learning_rate": 8.6e-05,
+      "loss": 0.6565,
+      "step": 14000
+    },
+    {
+      "epoch": 5.924672027084215,
+      "eval_accuracy": 0.8663846700592414,
+      "eval_loss": 0.6176990866661072,
+      "eval_runtime": 56.6314,
+      "eval_samples_per_second": 333.684,
+      "eval_steps_per_second": 10.436,
+      "step": 14000
+    },
+    {
+      "epoch": 6.136267456622937,
+      "grad_norm": 1.908463954925537,
+      "learning_rate": 8.55e-05,
+      "loss": 0.6435,
+      "step": 14500
+    },
+    {
+      "epoch": 6.136267456622937,
+      "eval_accuracy": 0.8674512611356094,
+      "eval_loss": 0.6195366978645325,
+      "eval_runtime": 56.655,
+      "eval_samples_per_second": 333.545,
+      "eval_steps_per_second": 10.432,
+      "step": 14500
+    },
+    {
+      "epoch": 6.347862886161659,
+      "grad_norm": 1.9294794797897339,
+      "learning_rate": 8.5e-05,
+      "loss": 0.6473,
+      "step": 15000
+    },
+    {
+      "epoch": 6.347862886161659,
+      "eval_accuracy": 0.8688036504176064,
+      "eval_loss": 0.6084388494491577,
+      "eval_runtime": 56.7044,
+      "eval_samples_per_second": 333.255,
+      "eval_steps_per_second": 10.422,
+      "step": 15000
+    },
+    {
+      "epoch": 6.559458315700381,
+      "grad_norm": 1.822090983390808,
+      "learning_rate": 8.450000000000001e-05,
+      "loss": 0.6405,
+      "step": 15500
+    },
+    {
+      "epoch": 6.559458315700381,
+      "eval_accuracy": 0.8688105679087649,
+      "eval_loss": 0.6102983951568604,
+      "eval_runtime": 56.6909,
+      "eval_samples_per_second": 333.334,
+      "eval_steps_per_second": 10.425,
+      "step": 15500
+    },
+    {
+      "epoch": 6.771053745239103,
+      "grad_norm": 1.8274174928665161,
+      "learning_rate": 8.4e-05,
+      "loss": 0.6394,
+      "step": 16000
+    },
+    {
+      "epoch": 6.771053745239103,
+      "eval_accuracy": 0.8696247275715319,
+      "eval_loss": 0.6044107675552368,
+      "eval_runtime": 56.6909,
+      "eval_samples_per_second": 333.334,
+      "eval_steps_per_second": 10.425,
+      "step": 16000
+    },
+    {
+      "epoch": 6.9826491747778245,
+      "grad_norm": 1.957808256149292,
+      "learning_rate": 8.35e-05,
+      "loss": 0.6323,
+      "step": 16500
+    },
+    {
+      "epoch": 6.9826491747778245,
+      "eval_accuracy": 0.8709820384830048,
+      "eval_loss": 0.6035895347595215,
+      "eval_runtime": 56.7516,
+      "eval_samples_per_second": 332.978,
+      "eval_steps_per_second": 10.414,
+      "step": 16500
+    },
+    {
+      "epoch": 7.194244604316546,
+      "grad_norm": 2.1266331672668457,
+      "learning_rate": 8.3e-05,
+      "loss": 0.6242,
+      "step": 17000
+    },
+    {
+      "epoch": 7.194244604316546,
+      "eval_accuracy": 0.8710693061823496,
+      "eval_loss": 0.5997599363327026,
+      "eval_runtime": 56.6612,
+      "eval_samples_per_second": 333.509,
+      "eval_steps_per_second": 10.43,
+      "step": 17000
+    },
+    {
+      "epoch": 7.405840033855268,
+      "grad_norm": 2.0006179809570312,
+      "learning_rate": 8.25e-05,
+      "loss": 0.6203,
+      "step": 17500
+    },
+    {
+      "epoch": 7.405840033855268,
+      "eval_accuracy": 0.871826703965482,
+      "eval_loss": 0.593313455581665,
+      "eval_runtime": 56.7083,
+      "eval_samples_per_second": 333.232,
+      "eval_steps_per_second": 10.422,
+      "step": 17500
+    },
+    {
+      "epoch": 7.61743546339399,
+      "grad_norm": 1.9261244535446167,
+      "learning_rate": 8.2e-05,
+      "loss": 0.6188,
+      "step": 18000
+    },
+    {
+      "epoch": 7.61743546339399,
+      "eval_accuracy": 0.8720450520950311,
+      "eval_loss": 0.5938737392425537,
+      "eval_runtime": 56.6704,
+      "eval_samples_per_second": 333.454,
+      "eval_steps_per_second": 10.429,
+      "step": 18000
+    },
+    {
+      "epoch": 7.829030892932713,
+      "grad_norm": 2.1938488483428955,
+      "learning_rate": 8.15e-05,
+      "loss": 0.6208,
+      "step": 18500
+    },
+    {
+      "epoch": 7.829030892932713,
+      "eval_accuracy": 0.8725229150021704,
+      "eval_loss": 0.5889946222305298,
+      "eval_runtime": 56.7137,
+      "eval_samples_per_second": 333.2,
+      "eval_steps_per_second": 10.421,
+      "step": 18500
+    },
+    {
+      "epoch": 8.040626322471434,
+      "grad_norm": 2.1036553382873535,
+      "learning_rate": 8.1e-05,
+      "loss": 0.613,
+      "step": 19000
+    },
+    {
+      "epoch": 8.040626322471434,
+      "eval_accuracy": 0.8735021854184964,
+      "eval_loss": 0.588358461856842,
+      "eval_runtime": 56.6871,
+      "eval_samples_per_second": 333.356,
+      "eval_steps_per_second": 10.426,
+      "step": 19000
+    },
+    {
+      "epoch": 8.252221752010156,
+      "grad_norm": 1.9046729803085327,
+      "learning_rate": 8.05e-05,
+      "loss": 0.603,
+      "step": 19500
+    },
+    {
+      "epoch": 8.252221752010156,
+      "eval_accuracy": 0.8738945036710153,
+      "eval_loss": 0.5827779769897461,
+      "eval_runtime": 56.6965,
+      "eval_samples_per_second": 333.301,
+      "eval_steps_per_second": 10.424,
+      "step": 19500
+    },
+    {
+      "epoch": 8.463817181548878,
+      "grad_norm": 1.9339730739593506,
+      "learning_rate": 8e-05,
+      "loss": 0.5994,
+      "step": 20000
+    },
+    {
+      "epoch": 8.463817181548878,
+      "eval_accuracy": 0.875056937375979,
+      "eval_loss": 0.5773849487304688,
+      "eval_runtime": 56.7994,
+      "eval_samples_per_second": 332.697,
+      "eval_steps_per_second": 10.405,
+      "step": 20000
+    },
+    {
+      "epoch": 8.6754126110876,
+      "grad_norm": 2.686779737472534,
+      "learning_rate": 7.950000000000001e-05,
+      "loss": 0.6069,
+      "step": 20500
+    },
+    {
+      "epoch": 8.6754126110876,
+      "eval_accuracy": 0.8750560557996572,
+      "eval_loss": 0.5813719630241394,
+      "eval_runtime": 56.6685,
+      "eval_samples_per_second": 333.465,
+      "eval_steps_per_second": 10.429,
+      "step": 20500
+    },
+    {
+      "epoch": 8.887008040626322,
+      "grad_norm": 1.8793710470199585,
+      "learning_rate": 7.900000000000001e-05,
+      "loss": 0.5978,
+      "step": 21000
+    },
+    {
+      "epoch": 8.887008040626322,
+      "eval_accuracy": 0.8751772357288334,
+      "eval_loss": 0.573668360710144,
+      "eval_runtime": 56.7394,
+      "eval_samples_per_second": 333.049,
+      "eval_steps_per_second": 10.416,
+      "step": 21000
+    },
+    {
+      "epoch": 9.098603470165044,
+      "grad_norm": 2.0106098651885986,
+      "learning_rate": 7.850000000000001e-05,
+      "loss": 0.5949,
+      "step": 21500
+    },
+    {
+      "epoch": 9.098603470165044,
+      "eval_accuracy": 0.8763350356219658,
+      "eval_loss": 0.5748294591903687,
+      "eval_runtime": 56.7185,
+      "eval_samples_per_second": 333.172,
+      "eval_steps_per_second": 10.42,
+      "step": 21500
+    },
+    {
+      "epoch": 9.310198899703767,
+      "grad_norm": 2.0075221061706543,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 0.5882,
+      "step": 22000
+    },
+    {
+      "epoch": 9.310198899703767,
+      "eval_accuracy": 0.8762109209507963,
+      "eval_loss": 0.5719663500785828,
+      "eval_runtime": 56.7186,
+      "eval_samples_per_second": 333.171,
+      "eval_steps_per_second": 10.42,
+      "step": 22000
+    },
+    {
+      "epoch": 9.52179432924249,
+      "grad_norm": 2.142890453338623,
+      "learning_rate": 7.75e-05,
+      "loss": 0.5851,
+      "step": 22500
+    },
+    {
+      "epoch": 9.52179432924249,
+      "eval_accuracy": 0.8763193666724947,
+      "eval_loss": 0.5695766806602478,
+      "eval_runtime": 56.7021,
+      "eval_samples_per_second": 333.268,
+      "eval_steps_per_second": 10.423,
+      "step": 22500
+    },
+    {
+      "epoch": 9.733389758781211,
+      "grad_norm": 1.9425110816955566,
+      "learning_rate": 7.7e-05,
+      "loss": 0.5919,
+      "step": 23000
+    },
+    {
+      "epoch": 9.733389758781211,
+      "eval_accuracy": 0.8773136748614612,
+      "eval_loss": 0.5677768588066101,
+      "eval_runtime": 56.7063,
+      "eval_samples_per_second": 333.243,
+      "eval_steps_per_second": 10.422,
+      "step": 23000
+    },
+    {
+      "epoch": 9.944985188319933,
+      "grad_norm": 1.9026435613632202,
+      "learning_rate": 7.65e-05,
+      "loss": 0.5816,
+      "step": 23500
+    },
+    {
+      "epoch": 9.944985188319933,
+      "eval_accuracy": 0.8777507496950493,
+      "eval_loss": 0.5624855160713196,
+      "eval_runtime": 56.7191,
+      "eval_samples_per_second": 333.168,
+      "eval_steps_per_second": 10.42,
+      "step": 23500
+    },
+    {
+      "epoch": 10.156580617858655,
+      "grad_norm": 1.9598579406738281,
+      "learning_rate": 7.6e-05,
+      "loss": 0.5756,
+      "step": 24000
+    },
+    {
+      "epoch": 10.156580617858655,
+      "eval_accuracy": 0.8792867643467259,
+      "eval_loss": 0.5589098930358887,
+      "eval_runtime": 56.7351,
+      "eval_samples_per_second": 333.074,
+      "eval_steps_per_second": 10.417,
+      "step": 24000
+    },
+    {
+      "epoch": 10.368176047397377,
+      "grad_norm": 1.8479692935943604,
+      "learning_rate": 7.55e-05,
+      "loss": 0.5748,
+      "step": 24500
+    },
+    {
+      "epoch": 10.368176047397377,
+      "eval_accuracy": 0.8791260366030839,
+      "eval_loss": 0.5566587448120117,
+      "eval_runtime": 56.6949,
+      "eval_samples_per_second": 333.31,
+      "eval_steps_per_second": 10.424,
+      "step": 24500
+    },
+    {
+      "epoch": 10.579771476936099,
+      "grad_norm": 1.5431069135665894,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.58,
+      "step": 25000
+    },
+    {
+      "epoch": 10.579771476936099,
+      "eval_accuracy": 0.8793816874556923,
+      "eval_loss": 0.5564578175544739,
+      "eval_runtime": 56.6656,
+      "eval_samples_per_second": 333.483,
+      "eval_steps_per_second": 10.43,
+      "step": 25000
+    },
+    {
+      "epoch": 10.79136690647482,
+      "grad_norm": 1.6908243894577026,
+      "learning_rate": 7.450000000000001e-05,
+      "loss": 0.5697,
+      "step": 25500
+    },
+    {
+      "epoch": 10.79136690647482,
+      "eval_accuracy": 0.8798802132166955,
+      "eval_loss": 0.5517674684524536,
+      "eval_runtime": 56.7133,
+      "eval_samples_per_second": 333.202,
+      "eval_steps_per_second": 10.421,
+      "step": 25500
+    },
+    {
+      "epoch": 11.002962336013542,
+      "grad_norm": 1.613221287727356,
+      "learning_rate": 7.4e-05,
+      "loss": 0.5677,
+      "step": 26000
+    },
+    {
+      "epoch": 11.002962336013542,
+      "eval_accuracy": 0.8803581109191997,
+      "eval_loss": 0.5512924790382385,
+      "eval_runtime": 56.6592,
+      "eval_samples_per_second": 333.521,
+      "eval_steps_per_second": 10.431,
+      "step": 26000
+    },
+    {
+      "epoch": 11.214557765552264,
+      "grad_norm": 1.9331544637680054,
+      "learning_rate": 7.35e-05,
+      "loss": 0.5638,
+      "step": 26500
+    },
+    {
+      "epoch": 11.214557765552264,
+      "eval_accuracy": 0.8803611347658262,
+      "eval_loss": 0.5520021319389343,
+      "eval_runtime": 56.7111,
+      "eval_samples_per_second": 333.215,
+      "eval_steps_per_second": 10.421,
+      "step": 26500
+    },
+    {
+      "epoch": 11.426153195090986,
+      "grad_norm": 1.776992678642273,
+      "learning_rate": 7.3e-05,
+      "loss": 0.5559,
+      "step": 27000
+    },
+    {
+      "epoch": 11.426153195090986,
+      "eval_accuracy": 0.8818474868190084,
+      "eval_loss": 0.5454077124595642,
+      "eval_runtime": 56.6928,
+      "eval_samples_per_second": 333.323,
+      "eval_steps_per_second": 10.425,
+      "step": 27000
+    },
+    {
+      "epoch": 11.637748624629708,
+      "grad_norm": 1.8591481447219849,
+      "learning_rate": 7.25e-05,
+      "loss": 0.5588,
+      "step": 27500
+    },
+    {
+      "epoch": 11.637748624629708,
+      "eval_accuracy": 0.8813020083937573,
+      "eval_loss": 0.5480958223342896,
+      "eval_runtime": 56.6926,
+      "eval_samples_per_second": 333.324,
+      "eval_steps_per_second": 10.425,
+      "step": 27500
+    },
+    {
+      "epoch": 11.84934405416843,
+      "grad_norm": 2.0454280376434326,
+      "learning_rate": 7.2e-05,
+      "loss": 0.5601,
+      "step": 28000
+    },
+    {
+      "epoch": 11.84934405416843,
+      "eval_accuracy": 0.8815235988618855,
+      "eval_loss": 0.5503857731819153,
+      "eval_runtime": 56.6829,
+      "eval_samples_per_second": 333.381,
+      "eval_steps_per_second": 10.426,
+      "step": 28000
+    },
+    {
+      "epoch": 12.060939483707152,
+      "grad_norm": 1.7857919931411743,
+      "learning_rate": 7.15e-05,
+      "loss": 0.5602,
+      "step": 28500
+    },
+    {
+      "epoch": 12.060939483707152,
+      "eval_accuracy": 0.8822896243277506,
+      "eval_loss": 0.5415288805961609,
+      "eval_runtime": 56.7189,
+      "eval_samples_per_second": 333.169,
+      "eval_steps_per_second": 10.42,
+      "step": 28500
+    },
+    {
+      "epoch": 12.272534913245874,
+      "grad_norm": 1.8363231420516968,
+      "learning_rate": 7.1e-05,
+      "loss": 0.5495,
+      "step": 29000
+    },
+    {
+      "epoch": 12.272534913245874,
+      "eval_accuracy": 0.8819665084878122,
+      "eval_loss": 0.5420069098472595,
+      "eval_runtime": 56.7641,
+      "eval_samples_per_second": 332.904,
+      "eval_steps_per_second": 10.412,
+      "step": 29000
+    },
+    {
+      "epoch": 12.484130342784596,
+      "grad_norm": 1.8736658096313477,
+      "learning_rate": 7.05e-05,
+      "loss": 0.5504,
+      "step": 29500
+    },
+    {
+      "epoch": 12.484130342784596,
+      "eval_accuracy": 0.8835764719980574,
+      "eval_loss": 0.5378038287162781,
+      "eval_runtime": 56.7267,
+      "eval_samples_per_second": 333.123,
+      "eval_steps_per_second": 10.418,
+      "step": 29500
+    },
+    {
+      "epoch": 12.695725772323318,
+      "grad_norm": 1.8123923540115356,
+      "learning_rate": 7e-05,
+      "loss": 0.5437,
+      "step": 30000
+    },
+    {
+      "epoch": 12.695725772323318,
+      "eval_accuracy": 0.8830367484137376,
+      "eval_loss": 0.5415025949478149,
+      "eval_runtime": 56.7723,
+      "eval_samples_per_second": 332.856,
+      "eval_steps_per_second": 10.41,
+      "step": 30000
+    },
+    {
+      "epoch": 12.90732120186204,
+      "grad_norm": 1.7283321619033813,
+      "learning_rate": 6.95e-05,
+      "loss": 0.547,
+      "step": 30500
+    },
+    {
+      "epoch": 12.90732120186204,
+      "eval_accuracy": 0.8831898301210944,
+      "eval_loss": 0.5370810627937317,
+      "eval_runtime": 56.7048,
+      "eval_samples_per_second": 333.252,
+      "eval_steps_per_second": 10.422,
+      "step": 30500
+    },
+    {
+      "epoch": 13.118916631400761,
+      "grad_norm": 1.7546370029449463,
+      "learning_rate": 6.9e-05,
+      "loss": 0.5421,
+      "step": 31000
+    },
+    {
+      "epoch": 13.118916631400761,
+      "eval_accuracy": 0.8843731246662792,
+      "eval_loss": 0.5339444875717163,
+      "eval_runtime": 56.7512,
+      "eval_samples_per_second": 332.98,
+      "eval_steps_per_second": 10.414,
+      "step": 31000
+    },
+    {
+      "epoch": 13.330512060939483,
+      "grad_norm": 1.7105295658111572,
+      "learning_rate": 6.850000000000001e-05,
+      "loss": 0.5292,
+      "step": 31500
+    },
+    {
+      "epoch": 13.330512060939483,
+      "eval_accuracy": 0.8839966938446517,
+      "eval_loss": 0.5369998216629028,
+      "eval_runtime": 56.7122,
+      "eval_samples_per_second": 333.209,
+      "eval_steps_per_second": 10.421,
+      "step": 31500
+    },
+    {
+      "epoch": 13.542107490478205,
+      "grad_norm": 1.981752872467041,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 0.5377,
+      "step": 32000
+    },
+    {
+      "epoch": 13.542107490478205,
+      "eval_accuracy": 0.8838718555622833,
+      "eval_loss": 0.5359402298927307,
+      "eval_runtime": 56.7175,
+      "eval_samples_per_second": 333.178,
+      "eval_steps_per_second": 10.42,
+      "step": 32000
+    },
+    {
+      "epoch": 13.753702920016927,
+      "grad_norm": 1.7901474237442017,
+      "learning_rate": 6.750000000000001e-05,
+      "loss": 0.5368,
+      "step": 32500
+    },
+    {
+      "epoch": 13.753702920016927,
+      "eval_accuracy": 0.8842674042668678,
+      "eval_loss": 0.5329333543777466,
+      "eval_runtime": 56.7544,
+      "eval_samples_per_second": 332.961,
+      "eval_steps_per_second": 10.413,
+      "step": 32500
+    },
+    {
+      "epoch": 13.965298349555649,
+      "grad_norm": 1.7780423164367676,
+      "learning_rate": 6.7e-05,
+      "loss": 0.5382,
+      "step": 33000
+    },
+    {
+      "epoch": 13.965298349555649,
+      "eval_accuracy": 0.8849782989799418,
+      "eval_loss": 0.5288933515548706,
+      "eval_runtime": 56.7497,
+      "eval_samples_per_second": 332.989,
+      "eval_steps_per_second": 10.414,
+      "step": 33000
+    },
+    {
+      "epoch": 14.176893779094371,
+      "grad_norm": 1.8220763206481934,
+      "learning_rate": 6.65e-05,
+      "loss": 0.5246,
+      "step": 33500
+    },
+    {
+      "epoch": 14.176893779094371,
+      "eval_accuracy": 0.8849070057358006,
+      "eval_loss": 0.5291073322296143,
+      "eval_runtime": 56.71,
+      "eval_samples_per_second": 333.221,
+      "eval_steps_per_second": 10.421,
+      "step": 33500
+    },
+    {
+      "epoch": 14.388489208633093,
+      "grad_norm": 2.090221881866455,
+      "learning_rate": 6.6e-05,
+      "loss": 0.5286,
+      "step": 34000
+    },
+    {
+      "epoch": 14.388489208633093,
+      "eval_accuracy": 0.8858641979191566,
+      "eval_loss": 0.5264419913291931,
+      "eval_runtime": 56.7389,
+      "eval_samples_per_second": 333.052,
+      "eval_steps_per_second": 10.416,
+      "step": 34000
+    },
+    {
+      "epoch": 14.600084638171815,
+      "grad_norm": 1.922879934310913,
+      "learning_rate": 6.55e-05,
+      "loss": 0.5276,
+      "step": 34500
+    },
+    {
+      "epoch": 14.600084638171815,
+      "eval_accuracy": 0.8861009981828277,
+      "eval_loss": 0.5238984227180481,
+      "eval_runtime": 56.7406,
+      "eval_samples_per_second": 333.042,
+      "eval_steps_per_second": 10.416,
+      "step": 34500
+    },
+    {
+      "epoch": 14.811680067710537,
+      "grad_norm": 1.8558276891708374,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 0.5257,
+      "step": 35000
+    },
+    {
+      "epoch": 14.811680067710537,
+      "eval_accuracy": 0.887035860204965,
+      "eval_loss": 0.5183533430099487,
+      "eval_runtime": 56.8885,
+      "eval_samples_per_second": 332.176,
+      "eval_steps_per_second": 10.389,
+      "step": 35000
+    },
+    {
+      "epoch": 15.023275497249259,
+      "grad_norm": 1.7486469745635986,
+      "learning_rate": 6.450000000000001e-05,
+      "loss": 0.5222,
+      "step": 35500
+    },
+    {
+      "epoch": 15.023275497249259,
+      "eval_accuracy": 0.8865300123397599,
+      "eval_loss": 0.5189926028251648,
+      "eval_runtime": 56.7647,
+      "eval_samples_per_second": 332.9,
+      "eval_steps_per_second": 10.411,
+      "step": 35500
+    },
+    {
+      "epoch": 15.23487092678798,
+      "grad_norm": 1.915968894958496,
+      "learning_rate": 6.400000000000001e-05,
+      "loss": 0.5154,
+      "step": 36000
+    },
+    {
+      "epoch": 15.23487092678798,
+      "eval_accuracy": 0.8869442531931956,
+      "eval_loss": 0.5159398913383484,
+      "eval_runtime": 56.758,
+      "eval_samples_per_second": 332.94,
+      "eval_steps_per_second": 10.413,
+      "step": 36000
+    },
+    {
+      "epoch": 15.446466356326704,
+      "grad_norm": 1.8159475326538086,
+      "learning_rate": 6.35e-05,
+      "loss": 0.5167,
+      "step": 36500
+    },
+    {
+      "epoch": 15.446466356326704,
+      "eval_accuracy": 0.8873171814419585,
+      "eval_loss": 0.5236589312553406,
+      "eval_runtime": 56.7868,
+      "eval_samples_per_second": 332.771,
+      "eval_steps_per_second": 10.407,
+      "step": 36500
+    },
+    {
+      "epoch": 15.658061785865426,
+      "grad_norm": 1.8895494937896729,
+      "learning_rate": 6.3e-05,
+      "loss": 0.5162,
+      "step": 37000
+    },
+    {
+      "epoch": 15.658061785865426,
+      "eval_accuracy": 0.8873685835536078,
+      "eval_loss": 0.5180982947349548,
+      "eval_runtime": 56.8307,
+      "eval_samples_per_second": 332.514,
+      "eval_steps_per_second": 10.399,
+      "step": 37000
+    },
+    {
+      "epoch": 15.869657215404148,
+      "grad_norm": 1.7780749797821045,
+      "learning_rate": 6.25e-05,
+      "loss": 0.5123,
+      "step": 37500
+    },
+    {
+      "epoch": 15.869657215404148,
+      "eval_accuracy": 0.888074019743635,
+      "eval_loss": 0.513282299041748,
+      "eval_runtime": 56.7636,
+      "eval_samples_per_second": 332.907,
+      "eval_steps_per_second": 10.412,
+      "step": 37500
+    },
+    {
+      "epoch": 16.081252644942868,
+      "grad_norm": 1.983821988105774,
+      "learning_rate": 6.2e-05,
+      "loss": 0.5152,
+      "step": 38000
+    },
+    {
+      "epoch": 16.081252644942868,
+      "eval_accuracy": 0.8880291621546753,
+      "eval_loss": 0.5154702663421631,
+      "eval_runtime": 56.7842,
+      "eval_samples_per_second": 332.786,
+      "eval_steps_per_second": 10.408,
+      "step": 38000
+    },
+    {
+      "epoch": 16.29284807448159,
+      "grad_norm": 1.695178747177124,
+      "learning_rate": 6.15e-05,
+      "loss": 0.5081,
+      "step": 38500
+    },
+    {
+      "epoch": 16.29284807448159,
+      "eval_accuracy": 0.888959056609865,
+      "eval_loss": 0.5113677382469177,
+      "eval_runtime": 56.7684,
+      "eval_samples_per_second": 332.879,
+      "eval_steps_per_second": 10.411,
+      "step": 38500
+    },
+    {
+      "epoch": 16.504443504020312,
+      "grad_norm": 1.6058467626571655,
+      "learning_rate": 6.1e-05,
+      "loss": 0.5078,
+      "step": 39000
+    },
+    {
+      "epoch": 16.504443504020312,
+      "eval_accuracy": 0.8894830336569707,
+      "eval_loss": 0.5070997476577759,
+      "eval_runtime": 56.7413,
+      "eval_samples_per_second": 333.038,
+      "eval_steps_per_second": 10.416,
+      "step": 39000
+    },
+    {
+      "epoch": 16.716038933559034,
+      "grad_norm": 1.764651894569397,
+      "learning_rate": 6.05e-05,
+      "loss": 0.5057,
+      "step": 39500
+    },
+    {
+      "epoch": 16.716038933559034,
+      "eval_accuracy": 0.8894720089251245,
+      "eval_loss": 0.5076988339424133,
+      "eval_runtime": 56.7503,
+      "eval_samples_per_second": 332.985,
+      "eval_steps_per_second": 10.414,
+      "step": 39500
+    },
+    {
+      "epoch": 16.927634363097756,
+      "grad_norm": 1.7007386684417725,
+      "learning_rate": 6e-05,
+      "loss": 0.512,
+      "step": 40000
+    },
+    {
+      "epoch": 16.927634363097756,
+      "eval_accuracy": 0.8894052307731025,
+      "eval_loss": 0.5073001384735107,
+      "eval_runtime": 56.7848,
+      "eval_samples_per_second": 332.783,
+      "eval_steps_per_second": 10.408,
+      "step": 40000
+    },
+    {
+      "epoch": 17.139229792636478,
+      "grad_norm": 1.8018271923065186,
+      "learning_rate": 5.95e-05,
+      "loss": 0.4984,
+      "step": 40500
+    },
+    {
+      "epoch": 17.139229792636478,
+      "eval_accuracy": 0.8894733688436443,
+      "eval_loss": 0.5062060952186584,
+      "eval_runtime": 56.761,
+      "eval_samples_per_second": 332.922,
+      "eval_steps_per_second": 10.412,
+      "step": 40500
+    },
+    {
+      "epoch": 17.3508252221752,
+      "grad_norm": 3.568917989730835,
+      "learning_rate": 5.9e-05,
+      "loss": 0.4954,
+      "step": 41000
+    },
+    {
+      "epoch": 17.3508252221752,
+      "eval_accuracy": 0.8895164200933968,
+      "eval_loss": 0.5070956349372864,
+      "eval_runtime": 56.7457,
+      "eval_samples_per_second": 333.012,
+      "eval_steps_per_second": 10.415,
+      "step": 41000
+    },
+    {
+      "epoch": 17.56242065171392,
+      "grad_norm": 1.7108345031738281,
+      "learning_rate": 5.85e-05,
+      "loss": 0.5003,
+      "step": 41500
+    },
+    {
+      "epoch": 17.56242065171392,
+      "eval_accuracy": 0.8900638264840111,
+      "eval_loss": 0.5031208395957947,
+      "eval_runtime": 56.9117,
+      "eval_samples_per_second": 332.041,
+      "eval_steps_per_second": 10.385,
+      "step": 41500
+    },
+    {
+      "epoch": 17.774016081252643,
+      "grad_norm": 1.6684004068374634,
+      "learning_rate": 5.8e-05,
+      "loss": 0.4979,
+      "step": 42000
+    },
+    {
+      "epoch": 17.774016081252643,
+      "eval_accuracy": 0.8903730588680121,
+      "eval_loss": 0.5011306405067444,
+      "eval_runtime": 56.7247,
+      "eval_samples_per_second": 333.135,
+      "eval_steps_per_second": 10.419,
+      "step": 42000
+    },
+    {
+      "epoch": 17.985611510791365,
+      "grad_norm": 2.0416200160980225,
+      "learning_rate": 5.7499999999999995e-05,
+      "loss": 0.4979,
+      "step": 42500
+    },
+    {
+      "epoch": 17.985611510791365,
+      "eval_accuracy": 0.8908411743071768,
+      "eval_loss": 0.5000495910644531,
+      "eval_runtime": 56.736,
+      "eval_samples_per_second": 333.069,
+      "eval_steps_per_second": 10.417,
+      "step": 42500
+    },
+    {
+      "epoch": 18.197206940330087,
+      "grad_norm": 1.7811120748519897,
+      "learning_rate": 5.6999999999999996e-05,
+      "loss": 0.49,
+      "step": 43000
+    },
+    {
+      "epoch": 18.197206940330087,
+      "eval_accuracy": 0.8909345525264201,
+      "eval_loss": 0.4998834729194641,
+      "eval_runtime": 56.8954,
+      "eval_samples_per_second": 332.136,
+      "eval_steps_per_second": 10.387,
+      "step": 43000
+    },
+    {
+      "epoch": 18.408802369868813,
+      "grad_norm": 1.8053951263427734,
+      "learning_rate": 5.65e-05,
+      "loss": 0.4885,
+      "step": 43500
+    },
+    {
+      "epoch": 18.408802369868813,
+      "eval_accuracy": 0.8916438090401059,
+      "eval_loss": 0.49805203080177307,
+      "eval_runtime": 56.7641,
+      "eval_samples_per_second": 332.904,
+      "eval_steps_per_second": 10.412,
+      "step": 43500
+    },
+    {
+      "epoch": 18.620397799407534,
+      "grad_norm": 1.7072595357894897,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 0.4927,
+      "step": 44000
+    },
+    {
+      "epoch": 18.620397799407534,
+      "eval_accuracy": 0.8907857895790036,
+      "eval_loss": 0.5022043585777283,
+      "eval_runtime": 56.7625,
+      "eval_samples_per_second": 332.914,
+      "eval_steps_per_second": 10.412,
+      "step": 44000
+    },
+    {
+      "epoch": 18.831993228946256,
+      "grad_norm": 1.6289252042770386,
+      "learning_rate": 5.550000000000001e-05,
+      "loss": 0.4837,
+      "step": 44500
+    },
+    {
+      "epoch": 18.831993228946256,
+      "eval_accuracy": 0.8920152847579453,
+      "eval_loss": 0.49153533577919006,
+      "eval_runtime": 56.7452,
+      "eval_samples_per_second": 333.015,
+      "eval_steps_per_second": 10.415,
+      "step": 44500
+    },
+    {
+      "epoch": 19.04358865848498,
+      "grad_norm": 1.8188107013702393,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.4837,
+      "step": 45000
+    },
+    {
+      "epoch": 19.04358865848498,
+      "eval_accuracy": 0.8912697247648497,
+      "eval_loss": 0.5010623335838318,
+      "eval_runtime": 56.7313,
+      "eval_samples_per_second": 333.097,
+      "eval_steps_per_second": 10.418,
+      "step": 45000
+    },
+    {
+      "epoch": 19.2551840880237,
+      "grad_norm": 1.9126912355422974,
+      "learning_rate": 5.45e-05,
+      "loss": 0.4859,
+      "step": 45500
+    },
+    {
+      "epoch": 19.2551840880237,
+      "eval_accuracy": 0.8923426689616218,
+      "eval_loss": 0.49420884251594543,
+      "eval_runtime": 56.7991,
+      "eval_samples_per_second": 332.699,
+      "eval_steps_per_second": 10.405,
+      "step": 45500
+    },
+    {
+      "epoch": 19.466779517562422,
+      "grad_norm": 2.0371763706207275,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 0.4805,
+      "step": 46000
+    },
+    {
+      "epoch": 19.466779517562422,
+      "eval_accuracy": 0.8919669118661465,
+      "eval_loss": 0.49629610776901245,
+      "eval_runtime": 56.7198,
+      "eval_samples_per_second": 333.164,
+      "eval_steps_per_second": 10.42,
+      "step": 46000
+    },
+    {
+      "epoch": 19.678374947101144,
+      "grad_norm": 1.6247458457946777,
+      "learning_rate": 5.3500000000000006e-05,
+      "loss": 0.482,
+      "step": 46500
+    },
+    {
+      "epoch": 19.678374947101144,
+      "eval_accuracy": 0.8925763545595373,
+      "eval_loss": 0.4910178780555725,
+      "eval_runtime": 56.7594,
+      "eval_samples_per_second": 332.931,
+      "eval_steps_per_second": 10.412,
+      "step": 46500
+    },
+    {
+      "epoch": 19.889970376639866,
+      "grad_norm": 1.7761908769607544,
+      "learning_rate": 5.300000000000001e-05,
+      "loss": 0.4795,
+      "step": 47000
+    },
+    {
+      "epoch": 19.889970376639866,
+      "eval_accuracy": 0.8927224378040853,
+      "eval_loss": 0.49156272411346436,
+      "eval_runtime": 56.7677,
+      "eval_samples_per_second": 332.883,
+      "eval_steps_per_second": 10.411,
+      "step": 47000
+    },
+    {
+      "epoch": 20.101565806178588,
+      "grad_norm": 1.7788410186767578,
+      "learning_rate": 5.25e-05,
+      "loss": 0.4768,
+      "step": 47500
+    },
+    {
+      "epoch": 20.101565806178588,
+      "eval_accuracy": 0.8934505144730001,
+      "eval_loss": 0.49061286449432373,
+      "eval_runtime": 56.7712,
+      "eval_samples_per_second": 332.863,
+      "eval_steps_per_second": 10.41,
+      "step": 47500
+    },
+    {
+      "epoch": 20.31316123571731,
+      "grad_norm": 1.5896297693252563,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 0.4742,
+      "step": 48000
+    },
+    {
+      "epoch": 20.31316123571731,
+      "eval_accuracy": 0.8928689756013872,
+      "eval_loss": 0.48972323536872864,
+      "eval_runtime": 56.8531,
+      "eval_samples_per_second": 332.383,
+      "eval_steps_per_second": 10.395,
+      "step": 48000
+    },
+    {
+      "epoch": 20.52475666525603,
+      "grad_norm": 1.7268341779708862,
+      "learning_rate": 5.1500000000000005e-05,
+      "loss": 0.4745,
+      "step": 48500
+    },
+    {
+      "epoch": 20.52475666525603,
+      "eval_accuracy": 0.8931779879053388,
+      "eval_loss": 0.48947346210479736,
+      "eval_runtime": 56.7482,
+      "eval_samples_per_second": 332.997,
+      "eval_steps_per_second": 10.414,
+      "step": 48500
+    },
+    {
+      "epoch": 20.736352094794753,
+      "grad_norm": 1.5962858200073242,
+      "learning_rate": 5.1000000000000006e-05,
+      "loss": 0.4762,
+      "step": 49000
+    },
+    {
+      "epoch": 20.736352094794753,
+      "eval_accuracy": 0.8939185209075733,
+      "eval_loss": 0.48672759532928467,
+      "eval_runtime": 56.7164,
+      "eval_samples_per_second": 333.184,
+      "eval_steps_per_second": 10.42,
+      "step": 49000
+    },
+    {
+      "epoch": 20.947947524333475,
+      "grad_norm": 1.7846648693084717,
+      "learning_rate": 5.05e-05,
+      "loss": 0.4762,
+      "step": 49500
+    },
+    {
+      "epoch": 20.947947524333475,
+      "eval_accuracy": 0.8931934715783109,
+      "eval_loss": 0.48964911699295044,
+      "eval_runtime": 56.7779,
+      "eval_samples_per_second": 332.823,
+      "eval_steps_per_second": 10.409,
+      "step": 49500
+    },
+    {
+      "epoch": 21.159542953872197,
+      "grad_norm": 1.8739550113677979,
+      "learning_rate": 5e-05,
+      "loss": 0.4697,
+      "step": 50000
+    },
+    {
+      "epoch": 21.159542953872197,
+      "eval_accuracy": 0.8942228433369652,
+      "eval_loss": 0.4863516390323639,
+      "eval_runtime": 56.7879,
+      "eval_samples_per_second": 332.765,
+      "eval_steps_per_second": 10.407,
+      "step": 50000
+    },
+    {
+      "epoch": 21.37113838341092,
+      "grad_norm": 1.6317665576934814,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.4676,
+      "step": 50500
+    },
+    {
+      "epoch": 21.37113838341092,
+      "eval_accuracy": 0.8943121055442946,
+      "eval_loss": 0.48264408111572266,
+      "eval_runtime": 56.7499,
+      "eval_samples_per_second": 332.987,
+      "eval_steps_per_second": 10.414,
+      "step": 50500
+    },
+    {
+      "epoch": 21.58273381294964,
+      "grad_norm": 1.8186049461364746,
+      "learning_rate": 4.9e-05,
+      "loss": 0.4691,
+      "step": 51000
+    },
+    {
+      "epoch": 21.58273381294964,
+      "eval_accuracy": 0.8941176840592336,
+      "eval_loss": 0.48747971653938293,
+      "eval_runtime": 56.7807,
+      "eval_samples_per_second": 332.806,
+      "eval_steps_per_second": 10.408,
+      "step": 51000
+    },
+    {
+      "epoch": 21.794329242488363,
+      "grad_norm": 1.67414128780365,
+      "learning_rate": 4.85e-05,
+      "loss": 0.4662,
+      "step": 51500
+    },
+    {
+      "epoch": 21.794329242488363,
+      "eval_accuracy": 0.8945745628903783,
+      "eval_loss": 0.48337647318840027,
+      "eval_runtime": 55.7176,
+      "eval_samples_per_second": 339.156,
+      "eval_steps_per_second": 10.607,
+      "step": 51500
+    },
+    {
+      "epoch": 22.005924672027085,
+      "grad_norm": 1.4717955589294434,
+      "learning_rate": 4.8e-05,
+      "loss": 0.4634,
+      "step": 52000
+    },
+    {
+      "epoch": 22.005924672027085,
+      "eval_accuracy": 0.8949934626709839,
+      "eval_loss": 0.4821498394012451,
+      "eval_runtime": 56.7634,
+      "eval_samples_per_second": 332.908,
+      "eval_steps_per_second": 10.412,
+      "step": 52000
+    },
+    {
+      "epoch": 22.217520101565807,
+      "grad_norm": 1.7725749015808105,
+      "learning_rate": 4.75e-05,
+      "loss": 0.4547,
+      "step": 52500
+    },
+    {
+      "epoch": 22.217520101565807,
+      "eval_accuracy": 0.8948994692290997,
+      "eval_loss": 0.4810987114906311,
+      "eval_runtime": 56.7441,
+      "eval_samples_per_second": 333.021,
+      "eval_steps_per_second": 10.415,
+      "step": 52500
+    },
+    {
+      "epoch": 22.42911553110453,
+      "grad_norm": 1.669144630432129,
+      "learning_rate": 4.7e-05,
+      "loss": 0.4558,
+      "step": 53000
+    },
+    {
+      "epoch": 22.42911553110453,
+      "eval_accuracy": 0.8952562835440645,
+      "eval_loss": 0.4825162887573242,
+      "eval_runtime": 56.8582,
+      "eval_samples_per_second": 332.353,
+      "eval_steps_per_second": 10.394,
+      "step": 53000
+    },
+    {
+      "epoch": 22.64071096064325,
+      "grad_norm": 1.6026239395141602,
+      "learning_rate": 4.6500000000000005e-05,
+      "loss": 0.4621,
+      "step": 53500
+    },
+    {
+      "epoch": 22.64071096064325,
+      "eval_accuracy": 0.8955995271171235,
+      "eval_loss": 0.47604426741600037,
+      "eval_runtime": 56.7769,
+      "eval_samples_per_second": 332.829,
+      "eval_steps_per_second": 10.409,
+      "step": 53500
+    },
+    {
+      "epoch": 22.852306390181973,
+      "grad_norm": 2.0116236209869385,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.4617,
+      "step": 54000
+    },
+    {
+      "epoch": 22.852306390181973,
+      "eval_accuracy": 0.8959320153668214,
+      "eval_loss": 0.4762740433216095,
+      "eval_runtime": 56.7895,
+      "eval_samples_per_second": 332.755,
+      "eval_steps_per_second": 10.407,
+      "step": 54000
+    },
+    {
+      "epoch": 23.063901819720694,
+      "grad_norm": 1.9537534713745117,
+      "learning_rate": 4.55e-05,
+      "loss": 0.4547,
+      "step": 54500
+    },
+    {
+      "epoch": 23.063901819720694,
+      "eval_accuracy": 0.8956957929057274,
+      "eval_loss": 0.4776069223880768,
+      "eval_runtime": 56.7746,
+      "eval_samples_per_second": 332.842,
+      "eval_steps_per_second": 10.41,
+      "step": 54500
+    },
+    {
+      "epoch": 23.275497249259416,
+      "grad_norm": 1.838956594467163,
+      "learning_rate": 4.5e-05,
+      "loss": 0.4499,
+      "step": 55000
+    },
+    {
+      "epoch": 23.275497249259416,
+      "eval_accuracy": 0.8959442254178052,
+      "eval_loss": 0.4744105637073517,
+      "eval_runtime": 56.7338,
+      "eval_samples_per_second": 333.082,
+      "eval_steps_per_second": 10.417,
+      "step": 55000
+    },
+    {
+      "epoch": 23.487092678798138,
+      "grad_norm": 1.6302268505096436,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 0.4561,
+      "step": 55500
+    },
+    {
+      "epoch": 23.487092678798138,
+      "eval_accuracy": 0.8958769277243019,
+      "eval_loss": 0.4771183431148529,
+      "eval_runtime": 56.7479,
+      "eval_samples_per_second": 332.999,
+      "eval_steps_per_second": 10.414,
+      "step": 55500
+    },
+    {
+      "epoch": 23.69868810833686,
+      "grad_norm": 1.8881497383117676,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.452,
+      "step": 56000
+    },
+    {
+      "epoch": 23.69868810833686,
+      "eval_accuracy": 0.8964990723620592,
+      "eval_loss": 0.4719561040401459,
+      "eval_runtime": 56.7228,
+      "eval_samples_per_second": 333.147,
+      "eval_steps_per_second": 10.419,
+      "step": 56000
+    },
+    {
+      "epoch": 23.910283537875582,
+      "grad_norm": 1.4877843856811523,
+      "learning_rate": 4.35e-05,
+      "loss": 0.4501,
+      "step": 56500
+    },
+    {
+      "epoch": 23.910283537875582,
+      "eval_accuracy": 0.897199972583508,
+      "eval_loss": 0.471039742231369,
+      "eval_runtime": 56.7779,
+      "eval_samples_per_second": 332.823,
+      "eval_steps_per_second": 10.409,
+      "step": 56500
+    },
+    {
+      "epoch": 24.121878967414304,
+      "grad_norm": 1.7829620838165283,
+      "learning_rate": 4.3e-05,
+      "loss": 0.4455,
+      "step": 57000
+    },
+    {
+      "epoch": 24.121878967414304,
+      "eval_accuracy": 0.8968278913027552,
+      "eval_loss": 0.4751090109348297,
+      "eval_runtime": 56.7642,
+      "eval_samples_per_second": 332.904,
+      "eval_steps_per_second": 10.411,
+      "step": 57000
+    },
+    {
+      "epoch": 24.333474396953026,
+      "grad_norm": 1.576822280883789,
+      "learning_rate": 4.25e-05,
+      "loss": 0.4435,
+      "step": 57500
+    },
+    {
+      "epoch": 24.333474396953026,
+      "eval_accuracy": 0.8976774423621006,
+      "eval_loss": 0.46997109055519104,
+      "eval_runtime": 56.7564,
+      "eval_samples_per_second": 332.949,
+      "eval_steps_per_second": 10.413,
+      "step": 57500
+    },
+    {
+      "epoch": 24.545069826491748,
+      "grad_norm": 1.5602706670761108,
+      "learning_rate": 4.2e-05,
+      "loss": 0.4474,
+      "step": 58000
+    },
+    {
+      "epoch": 24.545069826491748,
+      "eval_accuracy": 0.8972810308423196,
+      "eval_loss": 0.4720916152000427,
+      "eval_runtime": 56.7869,
+      "eval_samples_per_second": 332.77,
+      "eval_steps_per_second": 10.407,
+      "step": 58000
+    },
+    {
+      "epoch": 24.75666525603047,
+      "grad_norm": 1.9054083824157715,
+      "learning_rate": 4.15e-05,
+      "loss": 0.4444,
+      "step": 58500
+    },
+    {
+      "epoch": 24.75666525603047,
+      "eval_accuracy": 0.8969371251644085,
+      "eval_loss": 0.47275567054748535,
+      "eval_runtime": 56.7839,
+      "eval_samples_per_second": 332.788,
+      "eval_steps_per_second": 10.408,
+      "step": 58500
+    },
+    {
+      "epoch": 24.96826068556919,
+      "grad_norm": 1.5889158248901367,
+      "learning_rate": 4.1e-05,
+      "loss": 0.4505,
+      "step": 59000
+    },
+    {
+      "epoch": 24.96826068556919,
+      "eval_accuracy": 0.8973650392195069,
+      "eval_loss": 0.4704943597316742,
+      "eval_runtime": 56.8826,
+      "eval_samples_per_second": 332.211,
+      "eval_steps_per_second": 10.39,
+      "step": 59000
+    },
+    {
+      "epoch": 25.179856115107913,
+      "grad_norm": 1.7696033716201782,
+      "learning_rate": 4.05e-05,
+      "loss": 0.4385,
+      "step": 59500
+    },
+    {
+      "epoch": 25.179856115107913,
+      "eval_accuracy": 0.8985368520733181,
+      "eval_loss": 0.4653254449367523,
+      "eval_runtime": 56.7868,
+      "eval_samples_per_second": 332.771,
+      "eval_steps_per_second": 10.407,
+      "step": 59500
+    },
+    {
+      "epoch": 25.391451544646635,
+      "grad_norm": 1.7337836027145386,
+      "learning_rate": 4e-05,
+      "loss": 0.4402,
+      "step": 60000
+    },
+    {
+      "epoch": 25.391451544646635,
+      "eval_accuracy": 0.8977789289543835,
+      "eval_loss": 0.4724612236022949,
+      "eval_runtime": 56.7658,
+      "eval_samples_per_second": 332.894,
+      "eval_steps_per_second": 10.411,
+      "step": 60000
+    },
+    {
+      "epoch": 25.603046974185357,
+      "grad_norm": 1.5213319063186646,
+      "learning_rate": 3.9500000000000005e-05,
+      "loss": 0.4377,
+      "step": 60500
+    },
+    {
+      "epoch": 25.603046974185357,
+      "eval_accuracy": 0.8985293051778416,
+      "eval_loss": 0.4643355906009674,
+      "eval_runtime": 56.7771,
+      "eval_samples_per_second": 332.828,
+      "eval_steps_per_second": 10.409,
+      "step": 60500
+    },
+    {
+      "epoch": 25.81464240372408,
+      "grad_norm": 1.6032094955444336,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.4408,
+      "step": 61000
+    },
+    {
+      "epoch": 25.81464240372408,
+      "eval_accuracy": 0.8980092011578702,
+      "eval_loss": 0.4661051034927368,
+      "eval_runtime": 56.7636,
+      "eval_samples_per_second": 332.907,
+      "eval_steps_per_second": 10.412,
+      "step": 61000
+    },
+    {
+      "epoch": 26.0262378332628,
+      "grad_norm": 1.5952712297439575,
+      "learning_rate": 3.85e-05,
+      "loss": 0.4402,
+      "step": 61500
+    },
+    {
+      "epoch": 26.0262378332628,
+      "eval_accuracy": 0.8991291446824378,
+      "eval_loss": 0.45936518907546997,
+      "eval_runtime": 56.7912,
+      "eval_samples_per_second": 332.745,
+      "eval_steps_per_second": 10.407,
+      "step": 61500
+    },
+    {
+      "epoch": 26.237833262801523,
+      "grad_norm": 1.7169263362884521,
+      "learning_rate": 3.8e-05,
+      "loss": 0.4359,
+      "step": 62000
+    },
+    {
+      "epoch": 26.237833262801523,
+      "eval_accuracy": 0.8993624862013838,
+      "eval_loss": 0.4599079191684723,
+      "eval_runtime": 56.7617,
+      "eval_samples_per_second": 332.918,
+      "eval_steps_per_second": 10.412,
+      "step": 62000
+    },
+    {
+      "epoch": 26.449428692340245,
+      "grad_norm": 1.5549594163894653,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.434,
+      "step": 62500
+    },
+    {
+      "epoch": 26.449428692340245,
+      "eval_accuracy": 0.898992199555206,
+      "eval_loss": 0.4616684913635254,
+      "eval_runtime": 56.7929,
+      "eval_samples_per_second": 332.735,
+      "eval_steps_per_second": 10.406,
+      "step": 62500
+    },
+    {
+      "epoch": 26.661024121878967,
+      "grad_norm": 1.5618722438812256,
+      "learning_rate": 3.7e-05,
+      "loss": 0.4322,
+      "step": 63000
+    },
+    {
+      "epoch": 26.661024121878967,
+      "eval_accuracy": 0.8992191360919601,
+      "eval_loss": 0.4595487415790558,
+      "eval_runtime": 56.7516,
+      "eval_samples_per_second": 332.978,
+      "eval_steps_per_second": 10.414,
+      "step": 63000
+    },
+    {
+      "epoch": 26.87261955141769,
+      "grad_norm": 1.4580327272415161,
+      "learning_rate": 3.65e-05,
+      "loss": 0.4326,
+      "step": 63500
+    },
+    {
+      "epoch": 26.87261955141769,
+      "eval_accuracy": 0.8998144186324953,
+      "eval_loss": 0.45802512764930725,
+      "eval_runtime": 56.7668,
+      "eval_samples_per_second": 332.888,
+      "eval_steps_per_second": 10.411,
+      "step": 63500
+    },
+    {
+      "epoch": 27.08421498095641,
+      "grad_norm": 1.5803847312927246,
+      "learning_rate": 3.6e-05,
+      "loss": 0.4292,
+      "step": 64000
+    },
+    {
+      "epoch": 27.08421498095641,
+      "eval_accuracy": 0.9003762227238525,
+      "eval_loss": 0.45433345437049866,
+      "eval_runtime": 56.8145,
+      "eval_samples_per_second": 332.609,
+      "eval_steps_per_second": 10.402,
+      "step": 64000
+    },
+    {
+      "epoch": 27.295810410495132,
+      "grad_norm": 1.7439405918121338,
+      "learning_rate": 3.55e-05,
+      "loss": 0.4273,
+      "step": 64500
+    },
+    {
+      "epoch": 27.295810410495132,
+      "eval_accuracy": 0.8997829988720355,
+      "eval_loss": 0.4542884826660156,
+      "eval_runtime": 56.757,
+      "eval_samples_per_second": 332.946,
+      "eval_steps_per_second": 10.413,
+      "step": 64500
+    },
+    {
+      "epoch": 27.507405840033854,
+      "grad_norm": 1.5799704790115356,
+      "learning_rate": 3.5e-05,
+      "loss": 0.4271,
+      "step": 65000
+    },
+    {
+      "epoch": 27.507405840033854,
+      "eval_accuracy": 0.9005278512106127,
+      "eval_loss": 0.4549398720264435,
+      "eval_runtime": 56.7761,
+      "eval_samples_per_second": 332.834,
+      "eval_steps_per_second": 10.409,
+      "step": 65000
+    },
+    {
+      "epoch": 27.719001269572576,
+      "grad_norm": 1.671703815460205,
+      "learning_rate": 3.45e-05,
+      "loss": 0.4225,
+      "step": 65500
+    },
+    {
+      "epoch": 27.719001269572576,
+      "eval_accuracy": 0.9003234757377444,
+      "eval_loss": 0.4551466405391693,
+      "eval_runtime": 56.7802,
+      "eval_samples_per_second": 332.81,
+      "eval_steps_per_second": 10.409,
+      "step": 65500
+    },
+    {
+      "epoch": 27.930596699111298,
+      "grad_norm": 1.6339532136917114,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.4265,
+      "step": 66000
+    },
+    {
+      "epoch": 27.930596699111298,
+      "eval_accuracy": 0.9002172699273693,
+      "eval_loss": 0.4552587866783142,
+      "eval_runtime": 56.7694,
+      "eval_samples_per_second": 332.873,
+      "eval_steps_per_second": 10.411,
+      "step": 66000
+    },
+    {
+      "epoch": 28.14219212865002,
+      "grad_norm": 1.8030368089675903,
+      "learning_rate": 3.35e-05,
+      "loss": 0.4244,
+      "step": 66500
+    },
+    {
+      "epoch": 28.14219212865002,
+      "eval_accuracy": 0.9006673602396534,
+      "eval_loss": 0.4554223418235779,
+      "eval_runtime": 56.7481,
+      "eval_samples_per_second": 332.998,
+      "eval_steps_per_second": 10.414,
+      "step": 66500
+    },
+    {
+      "epoch": 28.353787558188742,
+      "grad_norm": 1.6583260297775269,
+      "learning_rate": 3.3e-05,
+      "loss": 0.422,
+      "step": 67000
+    },
+    {
+      "epoch": 28.353787558188742,
+      "eval_accuracy": 0.9013144719641863,
+      "eval_loss": 0.45334717631340027,
+      "eval_runtime": 56.7592,
+      "eval_samples_per_second": 332.933,
+      "eval_steps_per_second": 10.412,
+      "step": 67000
+    },
+    {
+      "epoch": 28.565382987727464,
+      "grad_norm": 1.6311790943145752,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.4188,
+      "step": 67500
+    },
+    {
+      "epoch": 28.565382987727464,
+      "eval_accuracy": 0.9004746460616811,
+      "eval_loss": 0.4538644254207611,
+      "eval_runtime": 56.7734,
+      "eval_samples_per_second": 332.85,
+      "eval_steps_per_second": 10.41,
+      "step": 67500
+    },
+    {
+      "epoch": 28.776978417266186,
+      "grad_norm": 1.8188596963882446,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.4236,
+      "step": 68000
+    },
+    {
+      "epoch": 28.776978417266186,
+      "eval_accuracy": 0.9012951971056801,
+      "eval_loss": 0.4524097144603729,
+      "eval_runtime": 56.7821,
+      "eval_samples_per_second": 332.799,
+      "eval_steps_per_second": 10.408,
+      "step": 68000
+    },
+    {
+      "epoch": 28.988573846804908,
+      "grad_norm": 1.7251187562942505,
+      "learning_rate": 3.15e-05,
+      "loss": 0.4202,
+      "step": 68500
+    },
+    {
+      "epoch": 28.988573846804908,
+      "eval_accuracy": 0.9014573223974446,
+      "eval_loss": 0.44895613193511963,
+      "eval_runtime": 56.8737,
+      "eval_samples_per_second": 332.263,
+      "eval_steps_per_second": 10.391,
+      "step": 68500
+    },
+    {
+      "epoch": 29.20016927634363,
+      "grad_norm": 1.7557555437088013,
+      "learning_rate": 3.1e-05,
+      "loss": 0.419,
+      "step": 69000
+    },
+    {
+      "epoch": 29.20016927634363,
+      "eval_accuracy": 0.9017764579643729,
+      "eval_loss": 0.4491879940032959,
+      "eval_runtime": 56.7246,
+      "eval_samples_per_second": 333.136,
+      "eval_steps_per_second": 10.419,
+      "step": 69000
+    },
+    {
+      "epoch": 29.41176470588235,
+      "grad_norm": 1.68495774269104,
+      "learning_rate": 3.05e-05,
+      "loss": 0.4159,
+      "step": 69500
+    },
+    {
+      "epoch": 29.41176470588235,
+      "eval_accuracy": 0.9013985887304796,
+      "eval_loss": 0.45250919461250305,
+      "eval_runtime": 56.8205,
+      "eval_samples_per_second": 332.574,
+      "eval_steps_per_second": 10.401,
+      "step": 69500
+    },
+    {
+      "epoch": 29.623360135421073,
+      "grad_norm": 1.6274399757385254,
+      "learning_rate": 3e-05,
+      "loss": 0.416,
+      "step": 70000
+    },
+    {
+      "epoch": 29.623360135421073,
+      "eval_accuracy": 0.9011979465572715,
+      "eval_loss": 0.45176440477371216,
+      "eval_runtime": 56.7549,
+      "eval_samples_per_second": 332.958,
+      "eval_steps_per_second": 10.413,
+      "step": 70000
+    },
+    {
+      "epoch": 29.834955564959795,
+      "grad_norm": 1.6035505533218384,
+      "learning_rate": 2.95e-05,
+      "loss": 0.4152,
+      "step": 70500
+    },
+    {
+      "epoch": 29.834955564959795,
+      "eval_accuracy": 0.9019880801849817,
+      "eval_loss": 0.4507512152194977,
+      "eval_runtime": 56.8264,
+      "eval_samples_per_second": 332.539,
+      "eval_steps_per_second": 10.4,
+      "step": 70500
+    },
+    {
+      "epoch": 30.046550994498517,
+      "grad_norm": 1.8008580207824707,
+      "learning_rate": 2.9e-05,
+      "loss": 0.4172,
+      "step": 71000
+    },
+    {
+      "epoch": 30.046550994498517,
+      "eval_accuracy": 0.9021050974217674,
+      "eval_loss": 0.4502410888671875,
+      "eval_runtime": 56.7561,
+      "eval_samples_per_second": 332.951,
+      "eval_steps_per_second": 10.413,
+      "step": 71000
+    },
+    {
+      "epoch": 30.25814642403724,
+      "grad_norm": 2.0598397254943848,
+      "learning_rate": 2.8499999999999998e-05,
+      "loss": 0.4118,
+      "step": 71500
+    },
+    {
+      "epoch": 30.25814642403724,
+      "eval_accuracy": 0.9019547233430508,
+      "eval_loss": 0.4497910439968109,
+      "eval_runtime": 56.7678,
+      "eval_samples_per_second": 332.882,
+      "eval_steps_per_second": 10.411,
+      "step": 71500
+    },
+    {
+      "epoch": 30.46974185357596,
+      "grad_norm": 1.6746747493743896,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.4081,
+      "step": 72000
+    },
+    {
+      "epoch": 30.46974185357596,
+      "eval_accuracy": 0.9026417566458294,
+      "eval_loss": 0.4457666575908661,
+      "eval_runtime": 56.7772,
+      "eval_samples_per_second": 332.827,
+      "eval_steps_per_second": 10.409,
+      "step": 72000
+    },
+    {
+      "epoch": 30.681337283114686,
+      "grad_norm": 1.6497710943222046,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.411,
+      "step": 72500
+    },
+    {
+      "epoch": 30.681337283114686,
+      "eval_accuracy": 0.9021046343620955,
+      "eval_loss": 0.4476597309112549,
+      "eval_runtime": 56.7788,
+      "eval_samples_per_second": 332.818,
+      "eval_steps_per_second": 10.409,
+      "step": 72500
+    },
+    {
+      "epoch": 30.89293271265341,
+      "grad_norm": 1.8102821111679077,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 0.409,
+      "step": 73000
+    },
+    {
+      "epoch": 30.89293271265341,
+      "eval_accuracy": 0.9025454516766531,
+      "eval_loss": 0.4461187422275543,
+      "eval_runtime": 56.7848,
+      "eval_samples_per_second": 332.783,
+      "eval_steps_per_second": 10.408,
+      "step": 73000
+    },
+    {
+      "epoch": 31.10452814219213,
+      "grad_norm": 1.58904230594635,
+      "learning_rate": 2.6500000000000004e-05,
+      "loss": 0.4118,
+      "step": 73500
+    },
+    {
+      "epoch": 31.10452814219213,
+      "eval_accuracy": 0.90234226951983,
+      "eval_loss": 0.4481985569000244,
+      "eval_runtime": 56.7757,
+      "eval_samples_per_second": 332.836,
+      "eval_steps_per_second": 10.409,
+      "step": 73500
+    },
+    {
+      "epoch": 31.316123571730852,
+      "grad_norm": 1.7424213886260986,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.4022,
+      "step": 74000
+    },
+    {
+      "epoch": 31.316123571730852,
+      "eval_accuracy": 0.9033274732451086,
+      "eval_loss": 0.4427095651626587,
+      "eval_runtime": 56.7818,
+      "eval_samples_per_second": 332.8,
+      "eval_steps_per_second": 10.408,
+      "step": 74000
+    },
+    {
+      "epoch": 31.527719001269574,
+      "grad_norm": 1.766745686531067,
+      "learning_rate": 2.5500000000000003e-05,
+      "loss": 0.4083,
+      "step": 74500
+    },
+    {
+      "epoch": 31.527719001269574,
+      "eval_accuracy": 0.9030700219715095,
+      "eval_loss": 0.4428587257862091,
+      "eval_runtime": 56.7713,
+      "eval_samples_per_second": 332.862,
+      "eval_steps_per_second": 10.41,
+      "step": 74500
+    },
+    {
+      "epoch": 31.739314430808296,
+      "grad_norm": 1.920547604560852,
+      "learning_rate": 2.5e-05,
+      "loss": 0.4084,
+      "step": 75000
+    },
+    {
+      "epoch": 31.739314430808296,
+      "eval_accuracy": 0.9029642025071578,
+      "eval_loss": 0.4436880350112915,
+      "eval_runtime": 56.7524,
+      "eval_samples_per_second": 332.973,
+      "eval_steps_per_second": 10.414,
+      "step": 75000
+    },
+    {
+      "epoch": 31.950909860347018,
+      "grad_norm": 1.5884405374526978,
+      "learning_rate": 2.45e-05,
+      "loss": 0.4029,
+      "step": 75500
+    },
+    {
+      "epoch": 31.950909860347018,
+      "eval_accuracy": 0.9039806372927507,
+      "eval_loss": 0.438906729221344,
+      "eval_runtime": 56.7528,
+      "eval_samples_per_second": 332.97,
+      "eval_steps_per_second": 10.414,
+      "step": 75500
+    },
+    {
+      "epoch": 32.162505289885736,
+      "grad_norm": 1.8102740049362183,
+      "learning_rate": 2.4e-05,
+      "loss": 0.4031,
+      "step": 76000
+    },
+    {
+      "epoch": 32.162505289885736,
+      "eval_accuracy": 0.9035506519558676,
+      "eval_loss": 0.4416000545024872,
+      "eval_runtime": 56.7957,
+      "eval_samples_per_second": 332.719,
+      "eval_steps_per_second": 10.406,
+      "step": 76000
+    },
+    {
+      "epoch": 32.37410071942446,
+      "grad_norm": 1.5819768905639648,
+      "learning_rate": 2.35e-05,
+      "loss": 0.403,
+      "step": 76500
+    },
+    {
+      "epoch": 32.37410071942446,
+      "eval_accuracy": 0.9042462224232761,
+      "eval_loss": 0.43676483631134033,
+      "eval_runtime": 56.7531,
+      "eval_samples_per_second": 332.969,
+      "eval_steps_per_second": 10.414,
+      "step": 76500
+    },
+    {
+      "epoch": 32.58569614896318,
+      "grad_norm": 1.566695213317871,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.4006,
+      "step": 77000
+    },
+    {
+      "epoch": 32.58569614896318,
+      "eval_accuracy": 0.9042393613749178,
+      "eval_loss": 0.4374808669090271,
+      "eval_runtime": 56.7895,
+      "eval_samples_per_second": 332.755,
+      "eval_steps_per_second": 10.407,
+      "step": 77000
+    },
+    {
+      "epoch": 32.797291578501905,
+      "grad_norm": 1.7661139965057373,
+      "learning_rate": 2.25e-05,
+      "loss": 0.402,
+      "step": 77500
+    },
+    {
+      "epoch": 32.797291578501905,
+      "eval_accuracy": 0.903702221238192,
+      "eval_loss": 0.4417952299118042,
+      "eval_runtime": 56.7647,
+      "eval_samples_per_second": 332.9,
+      "eval_steps_per_second": 10.411,
+      "step": 77500
+    },
+    {
+      "epoch": 33.008887008040624,
+      "grad_norm": 1.7405301332473755,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.4012,
+      "step": 78000
+    },
+    {
+      "epoch": 33.008887008040624,
+      "eval_accuracy": 0.904089089850285,
+      "eval_loss": 0.44198983907699585,
+      "eval_runtime": 56.7736,
+      "eval_samples_per_second": 332.848,
+      "eval_steps_per_second": 10.41,
+      "step": 78000
+    },
+    {
+      "epoch": 33.22048243757935,
+      "grad_norm": 1.682528018951416,
+      "learning_rate": 2.15e-05,
+      "loss": 0.3935,
+      "step": 78500
+    },
+    {
+      "epoch": 33.22048243757935,
+      "eval_accuracy": 0.9044004264348643,
+      "eval_loss": 0.43821093440055847,
+      "eval_runtime": 56.78,
+      "eval_samples_per_second": 332.811,
+      "eval_steps_per_second": 10.409,
+      "step": 78500
+    },
+    {
+      "epoch": 33.43207786711807,
+      "grad_norm": 1.7806745767593384,
+      "learning_rate": 2.1e-05,
+      "loss": 0.3935,
+      "step": 79000
+    },
+    {
+      "epoch": 33.43207786711807,
+      "eval_accuracy": 0.904705222086893,
+      "eval_loss": 0.43635934591293335,
+      "eval_runtime": 56.7716,
+      "eval_samples_per_second": 332.86,
+      "eval_steps_per_second": 10.41,
+      "step": 79000
+    },
+    {
+      "epoch": 33.64367329665679,
+      "grad_norm": 1.7414941787719727,
+      "learning_rate": 2.05e-05,
+      "loss": 0.3944,
+      "step": 79500
+    },
+    {
+      "epoch": 33.64367329665679,
+      "eval_accuracy": 0.9044635372679648,
+      "eval_loss": 0.436748743057251,
+      "eval_runtime": 56.8872,
+      "eval_samples_per_second": 332.184,
+      "eval_steps_per_second": 10.389,
+      "step": 79500
+    },
+    {
+      "epoch": 33.85526872619551,
+      "grad_norm": 1.5406990051269531,
+      "learning_rate": 2e-05,
+      "loss": 0.3974,
+      "step": 80000
+    },
+    {
+      "epoch": 33.85526872619551,
+      "eval_accuracy": 0.9042456122364483,
+      "eval_loss": 0.4392504394054413,
+      "eval_runtime": 56.7872,
+      "eval_samples_per_second": 332.769,
+      "eval_steps_per_second": 10.407,
+      "step": 80000
+    },
+    {
+      "epoch": 34.06686415573424,
+      "grad_norm": 1.705238938331604,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 0.3943,
+      "step": 80500
+    },
+    {
+      "epoch": 34.06686415573424,
+      "eval_accuracy": 0.9046601613087342,
+      "eval_loss": 0.43598660826683044,
+      "eval_runtime": 56.8084,
+      "eval_samples_per_second": 332.644,
+      "eval_steps_per_second": 10.403,
+      "step": 80500
+    },
+    {
+      "epoch": 34.278459585272955,
+      "grad_norm": 1.7163870334625244,
+      "learning_rate": 1.9e-05,
+      "loss": 0.3945,
+      "step": 81000
+    },
+    {
+      "epoch": 34.278459585272955,
+      "eval_accuracy": 0.9047847765427016,
+      "eval_loss": 0.4343646764755249,
+      "eval_runtime": 56.8202,
+      "eval_samples_per_second": 332.575,
+      "eval_steps_per_second": 10.401,
+      "step": 81000
+    },
+    {
+      "epoch": 34.49005501481168,
+      "grad_norm": 1.6511443853378296,
+      "learning_rate": 1.85e-05,
+      "loss": 0.3875,
+      "step": 81500
+    },
+    {
+      "epoch": 34.49005501481168,
+      "eval_accuracy": 0.9054521754941371,
+      "eval_loss": 0.43327948451042175,
+      "eval_runtime": 56.8074,
+      "eval_samples_per_second": 332.65,
+      "eval_steps_per_second": 10.404,
+      "step": 81500
+    },
+    {
+      "epoch": 34.7016504443504,
+      "grad_norm": 1.6507718563079834,
+      "learning_rate": 1.8e-05,
+      "loss": 0.3914,
+      "step": 82000
+    },
+    {
+      "epoch": 34.7016504443504,
+      "eval_accuracy": 0.9054627570063298,
+      "eval_loss": 0.43327319622039795,
+      "eval_runtime": 56.7623,
+      "eval_samples_per_second": 332.914,
+      "eval_steps_per_second": 10.412,
+      "step": 82000
+    },
+    {
+      "epoch": 34.913245873889124,
+      "grad_norm": 1.5144648551940918,
+      "learning_rate": 1.75e-05,
+      "loss": 0.3826,
+      "step": 82500
+    },
+    {
+      "epoch": 34.913245873889124,
+      "eval_accuracy": 0.905242186429115,
+      "eval_loss": 0.4331113398075104,
+      "eval_runtime": 56.7962,
+      "eval_samples_per_second": 332.716,
+      "eval_steps_per_second": 10.406,
+      "step": 82500
+    },
+    {
+      "epoch": 35.12484130342784,
+      "grad_norm": 1.760556697845459,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.3919,
+      "step": 83000
+    },
+    {
+      "epoch": 35.12484130342784,
+      "eval_accuracy": 0.9060222399218201,
+      "eval_loss": 0.429587721824646,
+      "eval_runtime": 56.7833,
+      "eval_samples_per_second": 332.792,
+      "eval_steps_per_second": 10.408,
+      "step": 83000
+    },
+    {
+      "epoch": 35.33643673296657,
+      "grad_norm": 1.6940340995788574,
+      "learning_rate": 1.65e-05,
+      "loss": 0.386,
+      "step": 83500
+    },
+    {
+      "epoch": 35.33643673296657,
+      "eval_accuracy": 0.9054011321122799,
+      "eval_loss": 0.43167829513549805,
+      "eval_runtime": 56.7945,
+      "eval_samples_per_second": 332.726,
+      "eval_steps_per_second": 10.406,
+      "step": 83500
+    },
+    {
+      "epoch": 35.54803216250529,
+      "grad_norm": 1.6332502365112305,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.3868,
+      "step": 84000
+    },
+    {
+      "epoch": 35.54803216250529,
+      "eval_accuracy": 0.9057828270899271,
+      "eval_loss": 0.4301559627056122,
+      "eval_runtime": 56.7482,
+      "eval_samples_per_second": 332.997,
+      "eval_steps_per_second": 10.414,
+      "step": 84000
+    },
+    {
+      "epoch": 35.75962759204401,
+      "grad_norm": 1.5488901138305664,
+      "learning_rate": 1.55e-05,
+      "loss": 0.3895,
+      "step": 84500
+    },
+    {
+      "epoch": 35.75962759204401,
+      "eval_accuracy": 0.9057984295149871,
+      "eval_loss": 0.43114641308784485,
+      "eval_runtime": 56.9082,
+      "eval_samples_per_second": 332.061,
+      "eval_steps_per_second": 10.385,
+      "step": 84500
+    },
+    {
+      "epoch": 35.97122302158273,
+      "grad_norm": 1.74102783203125,
+      "learning_rate": 1.5e-05,
+      "loss": 0.3835,
+      "step": 85000
+    },
+    {
+      "epoch": 35.97122302158273,
+      "eval_accuracy": 0.9061342667345084,
+      "eval_loss": 0.4316621720790863,
+      "eval_runtime": 56.8198,
+      "eval_samples_per_second": 332.578,
+      "eval_steps_per_second": 10.401,
+      "step": 85000
+    },
+    {
+      "epoch": 36.182818451121456,
+      "grad_norm": 1.9937413930892944,
+      "learning_rate": 1.45e-05,
+      "loss": 0.3866,
+      "step": 85500
+    },
+    {
+      "epoch": 36.182818451121456,
+      "eval_accuracy": 0.9058441609643859,
+      "eval_loss": 0.43131837248802185,
+      "eval_runtime": 56.8234,
+      "eval_samples_per_second": 332.557,
+      "eval_steps_per_second": 10.401,
+      "step": 85500
+    },
+    {
+      "epoch": 36.394413880660174,
+      "grad_norm": 1.7854551076889038,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.3782,
+      "step": 86000
+    },
+    {
+      "epoch": 36.394413880660174,
+      "eval_accuracy": 0.9063865664190446,
+      "eval_loss": 0.4299083948135376,
+      "eval_runtime": 56.7713,
+      "eval_samples_per_second": 332.862,
+      "eval_steps_per_second": 10.41,
+      "step": 86000
+    },
+    {
+      "epoch": 36.6060093101989,
+      "grad_norm": 1.811729907989502,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 0.3824,
+      "step": 86500
+    },
+    {
+      "epoch": 36.6060093101989,
+      "eval_accuracy": 0.9066919797149291,
+      "eval_loss": 0.42806556820869446,
+      "eval_runtime": 56.8409,
+      "eval_samples_per_second": 332.454,
+      "eval_steps_per_second": 10.397,
+      "step": 86500
+    },
+    {
+      "epoch": 36.817604739737625,
+      "grad_norm": 1.794323205947876,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.3809,
+      "step": 87000
+    },
+    {
+      "epoch": 36.817604739737625,
+      "eval_accuracy": 0.9066849391543508,
+      "eval_loss": 0.4274926483631134,
+      "eval_runtime": 56.7903,
+      "eval_samples_per_second": 332.75,
+      "eval_steps_per_second": 10.407,
+      "step": 87000
+    },
+    {
+      "epoch": 37.02920016927634,
+      "grad_norm": 1.833765983581543,
+      "learning_rate": 1.25e-05,
+      "loss": 0.3816,
+      "step": 87500
+    },
+    {
+      "epoch": 37.02920016927634,
+      "eval_accuracy": 0.9067738678587011,
+      "eval_loss": 0.42850610613822937,
+      "eval_runtime": 56.8173,
+      "eval_samples_per_second": 332.592,
+      "eval_steps_per_second": 10.402,
+      "step": 87500
+    },
+    {
+      "epoch": 37.24079559881507,
+      "grad_norm": 1.4756935834884644,
+      "learning_rate": 1.2e-05,
+      "loss": 0.3748,
+      "step": 88000
+    },
+    {
+      "epoch": 37.24079559881507,
+      "eval_accuracy": 0.9064180322306237,
+      "eval_loss": 0.4284866154193878,
+      "eval_runtime": 56.7602,
+      "eval_samples_per_second": 332.927,
+      "eval_steps_per_second": 10.412,
+      "step": 88000
+    },
+    {
+      "epoch": 37.45239102835379,
+      "grad_norm": 1.8428268432617188,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.3777,
+      "step": 88500
+    },
+    {
+      "epoch": 37.45239102835379,
+      "eval_accuracy": 0.9065104011022369,
+      "eval_loss": 0.428924560546875,
+      "eval_runtime": 56.7924,
+      "eval_samples_per_second": 332.738,
+      "eval_steps_per_second": 10.406,
+      "step": 88500
+    },
+    {
+      "epoch": 37.66398645789251,
+      "grad_norm": 1.6545451879501343,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.3803,
+      "step": 89000
+    },
+    {
+      "epoch": 37.66398645789251,
+      "eval_accuracy": 0.9070098926985761,
+      "eval_loss": 0.4258217215538025,
+      "eval_runtime": 56.7499,
+      "eval_samples_per_second": 332.987,
+      "eval_steps_per_second": 10.414,
+      "step": 89000
+    },
+    {
+      "epoch": 37.87558188743123,
+      "grad_norm": 1.4074724912643433,
+      "learning_rate": 1.05e-05,
+      "loss": 0.3765,
+      "step": 89500
+    },
+    {
+      "epoch": 37.87558188743123,
+      "eval_accuracy": 0.9070845757199019,
+      "eval_loss": 0.4270836114883423,
+      "eval_runtime": 56.7862,
+      "eval_samples_per_second": 332.774,
+      "eval_steps_per_second": 10.407,
+      "step": 89500
+    },
+    {
+      "epoch": 38.08717731696996,
+      "grad_norm": 1.6752023696899414,
+      "learning_rate": 1e-05,
+      "loss": 0.3773,
+      "step": 90000
+    },
+    {
+      "epoch": 38.08717731696996,
+      "eval_accuracy": 0.9067767506632135,
+      "eval_loss": 0.426782488822937,
+      "eval_runtime": 56.924,
+      "eval_samples_per_second": 331.969,
+      "eval_steps_per_second": 10.382,
+      "step": 90000
+    },
+    {
+      "epoch": 38.298772746508675,
+      "grad_norm": 1.8480374813079834,
+      "learning_rate": 9.5e-06,
+      "loss": 0.3771,
+      "step": 90500
+    },
+    {
+      "epoch": 38.298772746508675,
+      "eval_accuracy": 0.9071141309699655,
+      "eval_loss": 0.4255100190639496,
+      "eval_runtime": 57.0102,
+      "eval_samples_per_second": 331.467,
+      "eval_steps_per_second": 10.367,
+      "step": 90500
+    },
+    {
+      "epoch": 38.5103681760474,
+      "grad_norm": 1.9985958337783813,
+      "learning_rate": 9e-06,
+      "loss": 0.3706,
+      "step": 91000
+    },
+    {
+      "epoch": 38.5103681760474,
+      "eval_accuracy": 0.9076251641060213,
+      "eval_loss": 0.4240247309207916,
+      "eval_runtime": 56.894,
+      "eval_samples_per_second": 332.144,
+      "eval_steps_per_second": 10.388,
+      "step": 91000
+    },
+    {
+      "epoch": 38.72196360558612,
+      "grad_norm": 1.5752030611038208,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.3734,
+      "step": 91500
+    },
+    {
+      "epoch": 38.72196360558612,
+      "eval_accuracy": 0.9080514414097821,
+      "eval_loss": 0.42054280638694763,
+      "eval_runtime": 56.8695,
+      "eval_samples_per_second": 332.287,
+      "eval_steps_per_second": 10.392,
+      "step": 91500
+    },
+    {
+      "epoch": 38.933559035124844,
+      "grad_norm": 1.8178997039794922,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.3707,
+      "step": 92000
+    },
+    {
+      "epoch": 38.933559035124844,
+      "eval_accuracy": 0.9077427484564671,
+      "eval_loss": 0.4216785132884979,
+      "eval_runtime": 56.8577,
+      "eval_samples_per_second": 332.356,
+      "eval_steps_per_second": 10.394,
+      "step": 92000
+    },
+    {
+      "epoch": 39.14515446466356,
+      "grad_norm": 1.4444594383239746,
+      "learning_rate": 7.5e-06,
+      "loss": 0.3702,
+      "step": 92500
+    },
+    {
+      "epoch": 39.14515446466356,
+      "eval_accuracy": 0.9075348793326441,
+      "eval_loss": 0.42147237062454224,
+      "eval_runtime": 57.0156,
+      "eval_samples_per_second": 331.436,
+      "eval_steps_per_second": 10.366,
+      "step": 92500
+    },
+    {
+      "epoch": 39.35674989420229,
+      "grad_norm": 1.6367250680923462,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.3761,
+      "step": 93000
+    },
+    {
+      "epoch": 39.35674989420229,
+      "eval_accuracy": 0.9075161822246184,
+      "eval_loss": 0.424545556306839,
+      "eval_runtime": 56.8731,
+      "eval_samples_per_second": 332.266,
+      "eval_steps_per_second": 10.392,
+      "step": 93000
+    },
+    {
+      "epoch": 39.568345323741006,
+      "grad_norm": 1.672502875328064,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.3706,
+      "step": 93500
+    },
+    {
+      "epoch": 39.568345323741006,
+      "eval_accuracy": 0.9074108582464906,
+      "eval_loss": 0.4237205684185028,
+      "eval_runtime": 56.9521,
+      "eval_samples_per_second": 331.805,
+      "eval_steps_per_second": 10.377,
+      "step": 93500
+    },
+    {
+      "epoch": 39.77994075327973,
+      "grad_norm": 1.776159644126892,
+      "learning_rate": 6e-06,
+      "loss": 0.3716,
+      "step": 94000
+    },
+    {
+      "epoch": 39.77994075327973,
+      "eval_accuracy": 0.9079466305982884,
+      "eval_loss": 0.42235279083251953,
+      "eval_runtime": 56.8969,
+      "eval_samples_per_second": 332.127,
+      "eval_steps_per_second": 10.387,
+      "step": 94000
+    },
+    {
+      "epoch": 39.99153618281845,
+      "grad_norm": 1.527785062789917,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.3678,
+      "step": 94500
+    },
+    {
+      "epoch": 39.99153618281845,
+      "eval_accuracy": 0.9078065496456583,
+      "eval_loss": 0.42145270109176636,
+      "eval_runtime": 56.9082,
+      "eval_samples_per_second": 332.061,
+      "eval_steps_per_second": 10.385,
+      "step": 94500
+    },
+    {
+      "epoch": 40.203131612357176,
+      "grad_norm": 1.7030891180038452,
+      "learning_rate": 5e-06,
+      "loss": 0.3747,
+      "step": 95000
+    },
+    {
+      "epoch": 40.203131612357176,
+      "eval_accuracy": 0.9082217566630962,
+      "eval_loss": 0.42225930094718933,
+      "eval_runtime": 56.9229,
+      "eval_samples_per_second": 331.976,
+      "eval_steps_per_second": 10.382,
+      "step": 95000
+    },
+    {
+      "epoch": 40.414727041895894,
+      "grad_norm": 1.7826294898986816,
+      "learning_rate": 4.5e-06,
+      "loss": 0.3737,
+      "step": 95500
+    },
+    {
+      "epoch": 40.414727041895894,
+      "eval_accuracy": 0.9080339951390424,
+      "eval_loss": 0.4210836589336395,
+      "eval_runtime": 56.9513,
+      "eval_samples_per_second": 331.81,
+      "eval_steps_per_second": 10.377,
+      "step": 95500
+    },
+    {
+      "epoch": 40.62632247143462,
+      "grad_norm": 1.5348705053329468,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.3679,
+      "step": 96000
+    },
+    {
+      "epoch": 40.62632247143462,
+      "eval_accuracy": 0.9078710265315678,
+      "eval_loss": 0.42169785499572754,
+      "eval_runtime": 56.9465,
+      "eval_samples_per_second": 331.838,
+      "eval_steps_per_second": 10.378,
+      "step": 96000
+    },
+    {
+      "epoch": 40.83791790097334,
+      "grad_norm": 1.6769896745681763,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.3642,
+      "step": 96500
+    },
+    {
+      "epoch": 40.83791790097334,
+      "eval_accuracy": 0.9081198632994205,
+      "eval_loss": 0.42042461037635803,
+      "eval_runtime": 56.8975,
+      "eval_samples_per_second": 332.124,
+      "eval_steps_per_second": 10.387,
+      "step": 96500
+    },
+    {
+      "epoch": 41.04951333051206,
+      "grad_norm": 1.506687879562378,
+      "learning_rate": 3e-06,
+      "loss": 0.3646,
+      "step": 97000
+    },
+    {
+      "epoch": 41.04951333051206,
+      "eval_accuracy": 0.9083935195759528,
+      "eval_loss": 0.4203515648841858,
+      "eval_runtime": 56.9549,
+      "eval_samples_per_second": 331.789,
+      "eval_steps_per_second": 10.377,
+      "step": 97000
+    },
+    {
+      "epoch": 41.26110876005078,
+      "grad_norm": 1.5605355501174927,
+      "learning_rate": 2.5e-06,
+      "loss": 0.3663,
+      "step": 97500
+    },
+    {
+      "epoch": 41.26110876005078,
+      "eval_accuracy": 0.9083660447561517,
+      "eval_loss": 0.41981303691864014,
+      "eval_runtime": 56.9268,
+      "eval_samples_per_second": 331.953,
+      "eval_steps_per_second": 10.382,
+      "step": 97500
+    },
+    {
+      "epoch": 41.47270418958951,
+      "grad_norm": 1.7838058471679688,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.3719,
+      "step": 98000
+    },
+    {
+      "epoch": 41.47270418958951,
+      "eval_accuracy": 0.9090116466984204,
+      "eval_loss": 0.4177597463130951,
+      "eval_runtime": 56.8615,
+      "eval_samples_per_second": 332.334,
+      "eval_steps_per_second": 10.394,
+      "step": 98000
+    },
+    {
+      "epoch": 41.684299619128225,
+      "grad_norm": 1.6036288738250732,
+      "learning_rate": 1.5e-06,
+      "loss": 0.3663,
+      "step": 98500
+    },
+    {
+      "epoch": 41.684299619128225,
+      "eval_accuracy": 0.9089590262822165,
+      "eval_loss": 0.4168604016304016,
+      "eval_runtime": 56.9476,
+      "eval_samples_per_second": 331.831,
+      "eval_steps_per_second": 10.378,
+      "step": 98500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 100000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 43,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.30483576347689e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5818128b17da2198b1a8e5bcd6295a8ad959e513f5068b532394bb02f8e28721
+size 5176

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff