Uploading checkpoint-98500 for mbert - dan-latn

Browse files

Files changed (14) hide show

README.md +67 -0
config.json +37 -0
generation_config.json +5 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +55 -0
trainer_state.json +3185 -0
training_args.bin +3 -0
vocab.txt +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,67 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: google-bert/bert-base-multilingual-cased
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: dan-Latn
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# dan-Latn
+This model is a fine-tuned version of [google-bert/bert-base-multilingual-cased](https://huggingface.co/google-bert/bert-base-multilingual-cased) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.8587
+- Accuracy: 0.8314
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- training_steps: 100000
+    ### Citation Information
+    If you use this model in your work, please cite the following paper. Additionally, if you require more details on training and performance, refer to the paper:
+    @misc{gurgurov2025smallmodelsbigimpact,
+        title={Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages},
+        author={Daniil Gurgurov and Ivan Vykopal and Josef van Genabith and Simon Ostermann},
+        year={2025},
+        eprint={2502.10140},
+        archivePrefix={arXiv},
+        primaryClass={cs.CL},
+        url={https://arxiv.org/abs/2502.10140},
+    }

config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "_name_or_path": "google-bert/bert-base-multilingual-cased",
+  "adapters": {
+    "adapters": {},
+    "config_map": {},
+    "fusion_config_map": {},
+    "fusions": {}
+  },
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "_from_model_config": true,
+  "pad_token_id": 0,
+  "transformers_version": "4.45.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79154287316b17931e036caf7e0f1635bb31fa01eb7bbc176c4a5ca1d4095930
+size 711921812

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef69dac806b386b29c83cad902ef57c7b1e883fde3a5e0fa86856a93fcd9a23c
+size 1423965114

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f47184ea54687edf3e39d0b33ef40829288b7eaaaa94d64cb04c5026c1ecd46
+size 14512

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4865d036cb39d59fcb9d85e66b1cd332b371a459551ea3835f0bbd2f80971c3
+size 14512

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b72c24b8eeac82a0d428f6aaf2686dbda50deecaee6ca497e01bfbb1a32f05c
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3185 @@

+{
+  "best_metric": 0.8528650403022766,
+  "best_model_checkpoint": "./model_fine-tune/glot/mbert/dan-Latn/checkpoint-98500",
+  "epoch": 10.286131996658312,
+  "eval_steps": 500,
+  "global_step": 98500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.052213868003341685,
+      "grad_norm": 4.64046049118042,
+      "learning_rate": 9.95e-05,
+      "loss": 1.7666,
+      "step": 500
+    },
+    {
+      "epoch": 0.052213868003341685,
+      "eval_accuracy": 0.6961985245587479,
+      "eval_loss": 1.741060733795166,
+      "eval_runtime": 361.3155,
+      "eval_samples_per_second": 175.589,
+      "eval_steps_per_second": 5.488,
+      "step": 500
+    },
+    {
+      "epoch": 0.10442773600668337,
+      "grad_norm": 3.5290920734405518,
+      "learning_rate": 9.900000000000001e-05,
+      "loss": 1.6122,
+      "step": 1000
+    },
+    {
+      "epoch": 0.10442773600668337,
+      "eval_accuracy": 0.7084748820521898,
+      "eval_loss": 1.6247525215148926,
+      "eval_runtime": 360.2132,
+      "eval_samples_per_second": 176.126,
+      "eval_steps_per_second": 5.505,
+      "step": 1000
+    },
+    {
+      "epoch": 0.15664160401002505,
+      "grad_norm": 3.951317071914673,
+      "learning_rate": 9.850000000000001e-05,
+      "loss": 1.5487,
+      "step": 1500
+    },
+    {
+      "epoch": 0.15664160401002505,
+      "eval_accuracy": 0.718550082660156,
+      "eval_loss": 1.553884506225586,
+      "eval_runtime": 361.2942,
+      "eval_samples_per_second": 175.599,
+      "eval_steps_per_second": 5.489,
+      "step": 1500
+    },
+    {
+      "epoch": 0.20885547201336674,
+      "grad_norm": 3.799274444580078,
+      "learning_rate": 9.8e-05,
+      "loss": 1.4946,
+      "step": 2000
+    },
+    {
+      "epoch": 0.20885547201336674,
+      "eval_accuracy": 0.723134633812131,
+      "eval_loss": 1.5116215944290161,
+      "eval_runtime": 360.3813,
+      "eval_samples_per_second": 176.044,
+      "eval_steps_per_second": 5.503,
+      "step": 2000
+    },
+    {
+      "epoch": 0.26106934001670845,
+      "grad_norm": 3.499929428100586,
+      "learning_rate": 9.75e-05,
+      "loss": 1.4573,
+      "step": 2500
+    },
+    {
+      "epoch": 0.26106934001670845,
+      "eval_accuracy": 0.7287729394802086,
+      "eval_loss": 1.4748759269714355,
+      "eval_runtime": 362.14,
+      "eval_samples_per_second": 175.189,
+      "eval_steps_per_second": 5.476,
+      "step": 2500
+    },
+    {
+      "epoch": 0.3132832080200501,
+      "grad_norm": 3.6163783073425293,
+      "learning_rate": 9.7e-05,
+      "loss": 1.4332,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3132832080200501,
+      "eval_accuracy": 0.7334675822291515,
+      "eval_loss": 1.4382221698760986,
+      "eval_runtime": 362.0967,
+      "eval_samples_per_second": 175.21,
+      "eval_steps_per_second": 5.476,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3654970760233918,
+      "grad_norm": 3.382498264312744,
+      "learning_rate": 9.65e-05,
+      "loss": 1.3914,
+      "step": 3500
+    },
+    {
+      "epoch": 0.3654970760233918,
+      "eval_accuracy": 0.7367988898749408,
+      "eval_loss": 1.4078316688537598,
+      "eval_runtime": 362.0182,
+      "eval_samples_per_second": 175.248,
+      "eval_steps_per_second": 5.478,
+      "step": 3500
+    },
+    {
+      "epoch": 0.4177109440267335,
+      "grad_norm": 3.2594001293182373,
+      "learning_rate": 9.6e-05,
+      "loss": 1.3843,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4177109440267335,
+      "eval_accuracy": 0.7404781561454725,
+      "eval_loss": 1.37874174118042,
+      "eval_runtime": 362.2257,
+      "eval_samples_per_second": 175.148,
+      "eval_steps_per_second": 5.474,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4699248120300752,
+      "grad_norm": 3.717684268951416,
+      "learning_rate": 9.55e-05,
+      "loss": 1.3628,
+      "step": 4500
+    },
+    {
+      "epoch": 0.4699248120300752,
+      "eval_accuracy": 0.7430362394212798,
+      "eval_loss": 1.373829960823059,
+      "eval_runtime": 362.0885,
+      "eval_samples_per_second": 175.214,
+      "eval_steps_per_second": 5.477,
+      "step": 4500
+    },
+    {
+      "epoch": 0.5221386800334169,
+      "grad_norm": 3.67509126663208,
+      "learning_rate": 9.5e-05,
+      "loss": 1.356,
+      "step": 5000
+    },
+    {
+      "epoch": 0.5221386800334169,
+      "eval_accuracy": 0.7465132147816155,
+      "eval_loss": 1.343856930732727,
+      "eval_runtime": 362.013,
+      "eval_samples_per_second": 175.251,
+      "eval_steps_per_second": 5.478,
+      "step": 5000
+    },
+    {
+      "epoch": 0.5743525480367586,
+      "grad_norm": 2.995349407196045,
+      "learning_rate": 9.449999999999999e-05,
+      "loss": 1.3275,
+      "step": 5500
+    },
+    {
+      "epoch": 0.5743525480367586,
+      "eval_accuracy": 0.747906382026035,
+      "eval_loss": 1.3185055255889893,
+      "eval_runtime": 363.6082,
+      "eval_samples_per_second": 174.482,
+      "eval_steps_per_second": 5.454,
+      "step": 5500
+    },
+    {
+      "epoch": 0.6265664160401002,
+      "grad_norm": 3.0733938217163086,
+      "learning_rate": 9.4e-05,
+      "loss": 1.3192,
+      "step": 6000
+    },
+    {
+      "epoch": 0.6265664160401002,
+      "eval_accuracy": 0.7498967127579244,
+      "eval_loss": 1.3267806768417358,
+      "eval_runtime": 362.4596,
+      "eval_samples_per_second": 175.035,
+      "eval_steps_per_second": 5.471,
+      "step": 6000
+    },
+    {
+      "epoch": 0.6787802840434419,
+      "grad_norm": 3.0954840183258057,
+      "learning_rate": 9.350000000000001e-05,
+      "loss": 1.3123,
+      "step": 6500
+    },
+    {
+      "epoch": 0.6787802840434419,
+      "eval_accuracy": 0.7517548935891929,
+      "eval_loss": 1.3006523847579956,
+      "eval_runtime": 363.2093,
+      "eval_samples_per_second": 174.673,
+      "eval_steps_per_second": 5.46,
+      "step": 6500
+    },
+    {
+      "epoch": 0.7309941520467836,
+      "grad_norm": 3.1289381980895996,
+      "learning_rate": 9.300000000000001e-05,
+      "loss": 1.2942,
+      "step": 7000
+    },
+    {
+      "epoch": 0.7309941520467836,
+      "eval_accuracy": 0.7542296938604579,
+      "eval_loss": 1.2929292917251587,
+      "eval_runtime": 362.9614,
+      "eval_samples_per_second": 174.793,
+      "eval_steps_per_second": 5.463,
+      "step": 7000
+    },
+    {
+      "epoch": 0.7832080200501254,
+      "grad_norm": 3.440656900405884,
+      "learning_rate": 9.250000000000001e-05,
+      "loss": 1.2812,
+      "step": 7500
+    },
+    {
+      "epoch": 0.7832080200501254,
+      "eval_accuracy": 0.756235706841684,
+      "eval_loss": 1.2668538093566895,
+      "eval_runtime": 362.1254,
+      "eval_samples_per_second": 175.196,
+      "eval_steps_per_second": 5.476,
+      "step": 7500
+    },
+    {
+      "epoch": 0.835421888053467,
+      "grad_norm": 4.0889458656311035,
+      "learning_rate": 9.200000000000001e-05,
+      "loss": 1.2708,
+      "step": 8000
+    },
+    {
+      "epoch": 0.835421888053467,
+      "eval_accuracy": 0.7571290622439745,
+      "eval_loss": 1.283825159072876,
+      "eval_runtime": 362.2084,
+      "eval_samples_per_second": 175.156,
+      "eval_steps_per_second": 5.475,
+      "step": 8000
+    },
+    {
+      "epoch": 0.8876357560568087,
+      "grad_norm": 2.77811598777771,
+      "learning_rate": 9.15e-05,
+      "loss": 1.2759,
+      "step": 8500
+    },
+    {
+      "epoch": 0.8876357560568087,
+      "eval_accuracy": 0.7586107082301347,
+      "eval_loss": 1.2615000009536743,
+      "eval_runtime": 362.3765,
+      "eval_samples_per_second": 175.075,
+      "eval_steps_per_second": 5.472,
+      "step": 8500
+    },
+    {
+      "epoch": 0.9398496240601504,
+      "grad_norm": 3.350158929824829,
+      "learning_rate": 9.1e-05,
+      "loss": 1.257,
+      "step": 9000
+    },
+    {
+      "epoch": 0.9398496240601504,
+      "eval_accuracy": 0.7595859575845869,
+      "eval_loss": 1.250738501548767,
+      "eval_runtime": 362.5674,
+      "eval_samples_per_second": 174.983,
+      "eval_steps_per_second": 5.469,
+      "step": 9000
+    },
+    {
+      "epoch": 0.9920634920634921,
+      "grad_norm": 3.2566370964050293,
+      "learning_rate": 9.05e-05,
+      "loss": 1.2437,
+      "step": 9500
+    },
+    {
+      "epoch": 0.9920634920634921,
+      "eval_accuracy": 0.7619539601093824,
+      "eval_loss": 1.248534083366394,
+      "eval_runtime": 362.5746,
+      "eval_samples_per_second": 174.979,
+      "eval_steps_per_second": 5.469,
+      "step": 9500
+    },
+    {
+      "epoch": 1.0442773600668338,
+      "grad_norm": 3.279320001602173,
+      "learning_rate": 9e-05,
+      "loss": 1.2333,
+      "step": 10000
+    },
+    {
+      "epoch": 1.0442773600668338,
+      "eval_accuracy": 0.762933591347759,
+      "eval_loss": 1.2348397970199585,
+      "eval_runtime": 362.8313,
+      "eval_samples_per_second": 174.855,
+      "eval_steps_per_second": 5.465,
+      "step": 10000
+    },
+    {
+      "epoch": 1.0964912280701755,
+      "grad_norm": 3.002204418182373,
+      "learning_rate": 8.950000000000001e-05,
+      "loss": 1.2204,
+      "step": 10500
+    },
+    {
+      "epoch": 1.0964912280701755,
+      "eval_accuracy": 0.7645752968362766,
+      "eval_loss": 1.2361088991165161,
+      "eval_runtime": 362.7427,
+      "eval_samples_per_second": 174.898,
+      "eval_steps_per_second": 5.467,
+      "step": 10500
+    },
+    {
+      "epoch": 1.1487050960735172,
+      "grad_norm": 4.058037281036377,
+      "learning_rate": 8.900000000000001e-05,
+      "loss": 1.2116,
+      "step": 11000
+    },
+    {
+      "epoch": 1.1487050960735172,
+      "eval_accuracy": 0.7654839256801539,
+      "eval_loss": 1.2149455547332764,
+      "eval_runtime": 362.0743,
+      "eval_samples_per_second": 175.221,
+      "eval_steps_per_second": 5.477,
+      "step": 11000
+    },
+    {
+      "epoch": 1.2009189640768587,
+      "grad_norm": 3.364161968231201,
+      "learning_rate": 8.850000000000001e-05,
+      "loss": 1.2083,
+      "step": 11500
+    },
+    {
+      "epoch": 1.2009189640768587,
+      "eval_accuracy": 0.7664035053683952,
+      "eval_loss": 1.2015998363494873,
+      "eval_runtime": 362.482,
+      "eval_samples_per_second": 175.024,
+      "eval_steps_per_second": 5.471,
+      "step": 11500
+    },
+    {
+      "epoch": 1.2531328320802004,
+      "grad_norm": 2.995591402053833,
+      "learning_rate": 8.800000000000001e-05,
+      "loss": 1.2056,
+      "step": 12000
+    },
+    {
+      "epoch": 1.2531328320802004,
+      "eval_accuracy": 0.76765140727518,
+      "eval_loss": 1.1961411237716675,
+      "eval_runtime": 363.557,
+      "eval_samples_per_second": 174.506,
+      "eval_steps_per_second": 5.454,
+      "step": 12000
+    },
+    {
+      "epoch": 1.3053467000835421,
+      "grad_norm": 3.010730028152466,
+      "learning_rate": 8.75e-05,
+      "loss": 1.1917,
+      "step": 12500
+    },
+    {
+      "epoch": 1.3053467000835421,
+      "eval_accuracy": 0.7685342108740758,
+      "eval_loss": 1.1992570161819458,
+      "eval_runtime": 362.5156,
+      "eval_samples_per_second": 175.008,
+      "eval_steps_per_second": 5.47,
+      "step": 12500
+    },
+    {
+      "epoch": 1.3575605680868839,
+      "grad_norm": 3.052395820617676,
+      "learning_rate": 8.7e-05,
+      "loss": 1.1905,
+      "step": 13000
+    },
+    {
+      "epoch": 1.3575605680868839,
+      "eval_accuracy": 0.7699597470201401,
+      "eval_loss": 1.2011651992797852,
+      "eval_runtime": 361.326,
+      "eval_samples_per_second": 175.584,
+      "eval_steps_per_second": 5.488,
+      "step": 13000
+    },
+    {
+      "epoch": 1.4097744360902256,
+      "grad_norm": 2.883955717086792,
+      "learning_rate": 8.65e-05,
+      "loss": 1.1839,
+      "step": 13500
+    },
+    {
+      "epoch": 1.4097744360902256,
+      "eval_accuracy": 0.7708384570352297,
+      "eval_loss": 1.1753507852554321,
+      "eval_runtime": 362.9321,
+      "eval_samples_per_second": 174.807,
+      "eval_steps_per_second": 5.464,
+      "step": 13500
+    },
+    {
+      "epoch": 1.4619883040935673,
+      "grad_norm": 2.7026546001434326,
+      "learning_rate": 8.6e-05,
+      "loss": 1.1724,
+      "step": 14000
+    },
+    {
+      "epoch": 1.4619883040935673,
+      "eval_accuracy": 0.7709277011489558,
+      "eval_loss": 1.168317198753357,
+      "eval_runtime": 362.8518,
+      "eval_samples_per_second": 174.845,
+      "eval_steps_per_second": 5.465,
+      "step": 14000
+    },
+    {
+      "epoch": 1.514202172096909,
+      "grad_norm": 2.8576297760009766,
+      "learning_rate": 8.55e-05,
+      "loss": 1.1758,
+      "step": 14500
+    },
+    {
+      "epoch": 1.514202172096909,
+      "eval_accuracy": 0.7720082438542706,
+      "eval_loss": 1.1711252927780151,
+      "eval_runtime": 362.6486,
+      "eval_samples_per_second": 174.943,
+      "eval_steps_per_second": 5.468,
+      "step": 14500
+    },
+    {
+      "epoch": 1.5664160401002505,
+      "grad_norm": 3.314800500869751,
+      "learning_rate": 8.5e-05,
+      "loss": 1.1656,
+      "step": 15000
+    },
+    {
+      "epoch": 1.5664160401002505,
+      "eval_accuracy": 0.7731014057112545,
+      "eval_loss": NaN,
+      "eval_runtime": 362.4489,
+      "eval_samples_per_second": 175.04,
+      "eval_steps_per_second": 5.471,
+      "step": 15000
+    },
+    {
+      "epoch": 1.6186299081035922,
+      "grad_norm": 2.740029811859131,
+      "learning_rate": 8.450000000000001e-05,
+      "loss": 1.1659,
+      "step": 15500
+    },
+    {
+      "epoch": 1.6186299081035922,
+      "eval_accuracy": 0.7745773535784676,
+      "eval_loss": 1.1655621528625488,
+      "eval_runtime": 362.0759,
+      "eval_samples_per_second": 175.22,
+      "eval_steps_per_second": 5.477,
+      "step": 15500
+    },
+    {
+      "epoch": 1.670843776106934,
+      "grad_norm": 2.9377198219299316,
+      "learning_rate": 8.4e-05,
+      "loss": 1.1512,
+      "step": 16000
+    },
+    {
+      "epoch": 1.670843776106934,
+      "eval_accuracy": 0.7745256599790964,
+      "eval_loss": 1.1678109169006348,
+      "eval_runtime": 362.3938,
+      "eval_samples_per_second": 175.066,
+      "eval_steps_per_second": 5.472,
+      "step": 16000
+    },
+    {
+      "epoch": 1.7230576441102756,
+      "grad_norm": 3.2804691791534424,
+      "learning_rate": 8.35e-05,
+      "loss": 1.1394,
+      "step": 16500
+    },
+    {
+      "epoch": 1.7230576441102756,
+      "eval_accuracy": 0.7751363378115868,
+      "eval_loss": 1.1540894508361816,
+      "eval_runtime": 362.0672,
+      "eval_samples_per_second": 175.224,
+      "eval_steps_per_second": 5.477,
+      "step": 16500
+    },
+    {
+      "epoch": 1.7752715121136173,
+      "grad_norm": 3.486011028289795,
+      "learning_rate": 8.3e-05,
+      "loss": 1.1382,
+      "step": 17000
+    },
+    {
+      "epoch": 1.7752715121136173,
+      "eval_accuracy": 0.7765838022142181,
+      "eval_loss": 1.1509926319122314,
+      "eval_runtime": 362.2521,
+      "eval_samples_per_second": 175.135,
+      "eval_steps_per_second": 5.474,
+      "step": 17000
+    },
+    {
+      "epoch": 1.827485380116959,
+      "grad_norm": 2.56192684173584,
+      "learning_rate": 8.25e-05,
+      "loss": 1.1448,
+      "step": 17500
+    },
+    {
+      "epoch": 1.827485380116959,
+      "eval_accuracy": 0.7774433499499322,
+      "eval_loss": 1.150856375694275,
+      "eval_runtime": 361.437,
+      "eval_samples_per_second": 175.53,
+      "eval_steps_per_second": 5.486,
+      "step": 17500
+    },
+    {
+      "epoch": 1.8796992481203008,
+      "grad_norm": 2.9113447666168213,
+      "learning_rate": 8.2e-05,
+      "loss": 1.1376,
+      "step": 18000
+    },
+    {
+      "epoch": 1.8796992481203008,
+      "eval_accuracy": 0.7779668095978695,
+      "eval_loss": 1.1359950304031372,
+      "eval_runtime": 362.1516,
+      "eval_samples_per_second": 175.184,
+      "eval_steps_per_second": 5.476,
+      "step": 18000
+    },
+    {
+      "epoch": 1.9319131161236425,
+      "grad_norm": 2.8685195446014404,
+      "learning_rate": 8.15e-05,
+      "loss": 1.1306,
+      "step": 18500
+    },
+    {
+      "epoch": 1.9319131161236425,
+      "eval_accuracy": 0.7786356827454954,
+      "eval_loss": 1.1356443166732788,
+      "eval_runtime": 367.0737,
+      "eval_samples_per_second": 172.835,
+      "eval_steps_per_second": 5.402,
+      "step": 18500
+    },
+    {
+      "epoch": 1.9841269841269842,
+      "grad_norm": 3.4618313312530518,
+      "learning_rate": 8.1e-05,
+      "loss": 1.1379,
+      "step": 19000
+    },
+    {
+      "epoch": 1.9841269841269842,
+      "eval_accuracy": 0.7796485696787286,
+      "eval_loss": 1.1357932090759277,
+      "eval_runtime": 367.2471,
+      "eval_samples_per_second": 172.753,
+      "eval_steps_per_second": 5.4,
+      "step": 19000
+    },
+    {
+      "epoch": 2.036340852130326,
+      "grad_norm": 3.1010448932647705,
+      "learning_rate": 8.05e-05,
+      "loss": 1.109,
+      "step": 19500
+    },
+    {
+      "epoch": 2.036340852130326,
+      "eval_accuracy": 0.7807163576099158,
+      "eval_loss": 1.1260879039764404,
+      "eval_runtime": 367.0489,
+      "eval_samples_per_second": 172.846,
+      "eval_steps_per_second": 5.403,
+      "step": 19500
+    },
+    {
+      "epoch": 2.0885547201336676,
+      "grad_norm": 3.1995084285736084,
+      "learning_rate": 8e-05,
+      "loss": 1.1047,
+      "step": 20000
+    },
+    {
+      "epoch": 2.0885547201336676,
+      "eval_accuracy": 0.7806008208598338,
+      "eval_loss": 1.1227824687957764,
+      "eval_runtime": 367.4627,
+      "eval_samples_per_second": 172.652,
+      "eval_steps_per_second": 5.396,
+      "step": 20000
+    },
+    {
+      "epoch": 2.1407685881370093,
+      "grad_norm": 2.741629123687744,
+      "learning_rate": 7.950000000000001e-05,
+      "loss": 1.1042,
+      "step": 20500
+    },
+    {
+      "epoch": 2.1407685881370093,
+      "eval_accuracy": 0.7819552122122398,
+      "eval_loss": 1.1106891632080078,
+      "eval_runtime": 369.2375,
+      "eval_samples_per_second": 171.822,
+      "eval_steps_per_second": 5.371,
+      "step": 20500
+    },
+    {
+      "epoch": 2.192982456140351,
+      "grad_norm": 3.0432229042053223,
+      "learning_rate": 7.900000000000001e-05,
+      "loss": 1.1071,
+      "step": 21000
+    },
+    {
+      "epoch": 2.192982456140351,
+      "eval_accuracy": 0.7825761226202902,
+      "eval_loss": 1.105894923210144,
+      "eval_runtime": 368.3863,
+      "eval_samples_per_second": 172.219,
+      "eval_steps_per_second": 5.383,
+      "step": 21000
+    },
+    {
+      "epoch": 2.2451963241436927,
+      "grad_norm": 2.60355806350708,
+      "learning_rate": 7.850000000000001e-05,
+      "loss": 1.1,
+      "step": 21500
+    },
+    {
+      "epoch": 2.2451963241436927,
+      "eval_accuracy": 0.7824829036453502,
+      "eval_loss": 1.1067482233047485,
+      "eval_runtime": 369.3294,
+      "eval_samples_per_second": 171.779,
+      "eval_steps_per_second": 5.369,
+      "step": 21500
+    },
+    {
+      "epoch": 2.2974101921470345,
+      "grad_norm": 3.290499448776245,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 1.094,
+      "step": 22000
+    },
+    {
+      "epoch": 2.2974101921470345,
+      "eval_accuracy": 0.7835772317290801,
+      "eval_loss": 1.1064658164978027,
+      "eval_runtime": 371.2345,
+      "eval_samples_per_second": 170.897,
+      "eval_steps_per_second": 5.342,
+      "step": 22000
+    },
+    {
+      "epoch": 2.3496240601503757,
+      "grad_norm": 2.749668598175049,
+      "learning_rate": 7.75e-05,
+      "loss": 1.0868,
+      "step": 22500
+    },
+    {
+      "epoch": 2.3496240601503757,
+      "eval_accuracy": 0.7844280402341692,
+      "eval_loss": 1.1136114597320557,
+      "eval_runtime": 370.2159,
+      "eval_samples_per_second": 171.368,
+      "eval_steps_per_second": 5.356,
+      "step": 22500
+    },
+    {
+      "epoch": 2.4018379281537174,
+      "grad_norm": 2.553410768508911,
+      "learning_rate": 7.7e-05,
+      "loss": 1.0938,
+      "step": 23000
+    },
+    {
+      "epoch": 2.4018379281537174,
+      "eval_accuracy": 0.7854044343476029,
+      "eval_loss": 1.0965579748153687,
+      "eval_runtime": 370.6834,
+      "eval_samples_per_second": 171.151,
+      "eval_steps_per_second": 5.35,
+      "step": 23000
+    },
+    {
+      "epoch": 2.454051796157059,
+      "grad_norm": 2.7348687648773193,
+      "learning_rate": 7.65e-05,
+      "loss": 1.0881,
+      "step": 23500
+    },
+    {
+      "epoch": 2.454051796157059,
+      "eval_accuracy": 0.7850364727467058,
+      "eval_loss": 1.1107020378112793,
+      "eval_runtime": 369.6648,
+      "eval_samples_per_second": 171.623,
+      "eval_steps_per_second": 5.364,
+      "step": 23500
+    },
+    {
+      "epoch": 2.506265664160401,
+      "grad_norm": 2.639407157897949,
+      "learning_rate": 7.6e-05,
+      "loss": 1.0885,
+      "step": 24000
+    },
+    {
+      "epoch": 2.506265664160401,
+      "eval_accuracy": 0.7867807742632953,
+      "eval_loss": 1.0890835523605347,
+      "eval_runtime": 369.0693,
+      "eval_samples_per_second": 171.9,
+      "eval_steps_per_second": 5.373,
+      "step": 24000
+    },
+    {
+      "epoch": 2.5584795321637426,
+      "grad_norm": 3.1823441982269287,
+      "learning_rate": 7.55e-05,
+      "loss": 1.077,
+      "step": 24500
+    },
+    {
+      "epoch": 2.5584795321637426,
+      "eval_accuracy": 0.7863467916817448,
+      "eval_loss": 1.0876108407974243,
+      "eval_runtime": 368.1359,
+      "eval_samples_per_second": 172.336,
+      "eval_steps_per_second": 5.387,
+      "step": 24500
+    },
+    {
+      "epoch": 2.6106934001670843,
+      "grad_norm": 2.6731505393981934,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.078,
+      "step": 25000
+    },
+    {
+      "epoch": 2.6106934001670843,
+      "eval_accuracy": 0.7872558672911878,
+      "eval_loss": 1.0856846570968628,
+      "eval_runtime": 367.5868,
+      "eval_samples_per_second": 172.593,
+      "eval_steps_per_second": 5.395,
+      "step": 25000
+    },
+    {
+      "epoch": 2.662907268170426,
+      "grad_norm": 2.8799052238464355,
+      "learning_rate": 7.450000000000001e-05,
+      "loss": 1.0759,
+      "step": 25500
+    },
+    {
+      "epoch": 2.662907268170426,
+      "eval_accuracy": 0.788363306685935,
+      "eval_loss": 1.080370545387268,
+      "eval_runtime": 368.0395,
+      "eval_samples_per_second": 172.381,
+      "eval_steps_per_second": 5.388,
+      "step": 25500
+    },
+    {
+      "epoch": 2.7151211361737677,
+      "grad_norm": 4.7506208419799805,
+      "learning_rate": 7.4e-05,
+      "loss": 1.072,
+      "step": 26000
+    },
+    {
+      "epoch": 2.7151211361737677,
+      "eval_accuracy": 0.7885482778687157,
+      "eval_loss": 1.08516526222229,
+      "eval_runtime": 366.0953,
+      "eval_samples_per_second": 173.296,
+      "eval_steps_per_second": 5.417,
+      "step": 26000
+    },
+    {
+      "epoch": 2.7673350041771094,
+      "grad_norm": 2.411212682723999,
+      "learning_rate": 7.35e-05,
+      "loss": 1.0655,
+      "step": 26500
+    },
+    {
+      "epoch": 2.7673350041771094,
+      "eval_accuracy": 0.7889261779231521,
+      "eval_loss": 1.0773206949234009,
+      "eval_runtime": 366.4448,
+      "eval_samples_per_second": 173.131,
+      "eval_steps_per_second": 5.411,
+      "step": 26500
+    },
+    {
+      "epoch": 2.819548872180451,
+      "grad_norm": 2.6230037212371826,
+      "learning_rate": 7.3e-05,
+      "loss": 1.0747,
+      "step": 27000
+    },
+    {
+      "epoch": 2.819548872180451,
+      "eval_accuracy": 0.7891164707308205,
+      "eval_loss": 1.0783028602600098,
+      "eval_runtime": 367.8248,
+      "eval_samples_per_second": 172.482,
+      "eval_steps_per_second": 5.391,
+      "step": 27000
+    },
+    {
+      "epoch": 2.871762740183793,
+      "grad_norm": 2.9123287200927734,
+      "learning_rate": 7.25e-05,
+      "loss": 1.0691,
+      "step": 27500
+    },
+    {
+      "epoch": 2.871762740183793,
+      "eval_accuracy": 0.7904697432780537,
+      "eval_loss": 1.0683778524398804,
+      "eval_runtime": 365.814,
+      "eval_samples_per_second": 173.43,
+      "eval_steps_per_second": 5.421,
+      "step": 27500
+    },
+    {
+      "epoch": 2.9239766081871346,
+      "grad_norm": 2.716794967651367,
+      "learning_rate": 7.2e-05,
+      "loss": 1.0581,
+      "step": 28000
+    },
+    {
+      "epoch": 2.9239766081871346,
+      "eval_accuracy": 0.7907833141699024,
+      "eval_loss": 1.0698238611221313,
+      "eval_runtime": 368.4835,
+      "eval_samples_per_second": 172.173,
+      "eval_steps_per_second": 5.382,
+      "step": 28000
+    },
+    {
+      "epoch": 2.9761904761904763,
+      "grad_norm": 2.900315761566162,
+      "learning_rate": 7.15e-05,
+      "loss": 1.0576,
+      "step": 28500
+    },
+    {
+      "epoch": 2.9761904761904763,
+      "eval_accuracy": 0.7912189924393805,
+      "eval_loss": 1.0527312755584717,
+      "eval_runtime": 367.3342,
+      "eval_samples_per_second": 172.712,
+      "eval_steps_per_second": 5.398,
+      "step": 28500
+    },
+    {
+      "epoch": 3.028404344193818,
+      "grad_norm": 2.733102321624756,
+      "learning_rate": 7.1e-05,
+      "loss": 1.0491,
+      "step": 29000
+    },
+    {
+      "epoch": 3.028404344193818,
+      "eval_accuracy": 0.7912027755966868,
+      "eval_loss": 1.0649120807647705,
+      "eval_runtime": 367.5821,
+      "eval_samples_per_second": 172.595,
+      "eval_steps_per_second": 5.395,
+      "step": 29000
+    },
+    {
+      "epoch": 3.0806182121971597,
+      "grad_norm": 2.990572452545166,
+      "learning_rate": 7.05e-05,
+      "loss": 1.0429,
+      "step": 29500
+    },
+    {
+      "epoch": 3.0806182121971597,
+      "eval_accuracy": 0.791866931892446,
+      "eval_loss": 1.065590262413025,
+      "eval_runtime": 367.6583,
+      "eval_samples_per_second": 172.56,
+      "eval_steps_per_second": 5.394,
+      "step": 29500
+    },
+    {
+      "epoch": 3.1328320802005014,
+      "grad_norm": 2.6242377758026123,
+      "learning_rate": 7e-05,
+      "loss": 1.0416,
+      "step": 30000
+    },
+    {
+      "epoch": 3.1328320802005014,
+      "eval_accuracy": 0.793420728495659,
+      "eval_loss": 1.056522250175476,
+      "eval_runtime": 367.1286,
+      "eval_samples_per_second": 172.809,
+      "eval_steps_per_second": 5.401,
+      "step": 30000
+    },
+    {
+      "epoch": 3.185045948203843,
+      "grad_norm": 2.6089892387390137,
+      "learning_rate": 6.95e-05,
+      "loss": 1.0388,
+      "step": 30500
+    },
+    {
+      "epoch": 3.185045948203843,
+      "eval_accuracy": 0.792953820707681,
+      "eval_loss": 1.0602775812149048,
+      "eval_runtime": 367.5358,
+      "eval_samples_per_second": 172.617,
+      "eval_steps_per_second": 5.395,
+      "step": 30500
+    },
+    {
+      "epoch": 3.2372598162071844,
+      "grad_norm": 2.6940767765045166,
+      "learning_rate": 6.9e-05,
+      "loss": 1.0351,
+      "step": 31000
+    },
+    {
+      "epoch": 3.2372598162071844,
+      "eval_accuracy": 0.7933434972497504,
+      "eval_loss": 1.0466923713684082,
+      "eval_runtime": 367.3002,
+      "eval_samples_per_second": 172.728,
+      "eval_steps_per_second": 5.399,
+      "step": 31000
+    },
+    {
+      "epoch": 3.2894736842105265,
+      "grad_norm": 2.5024611949920654,
+      "learning_rate": 6.850000000000001e-05,
+      "loss": 1.0364,
+      "step": 31500
+    },
+    {
+      "epoch": 3.2894736842105265,
+      "eval_accuracy": 0.7938457165216277,
+      "eval_loss": 1.0515408515930176,
+      "eval_runtime": 367.3309,
+      "eval_samples_per_second": 172.713,
+      "eval_steps_per_second": 5.398,
+      "step": 31500
+    },
+    {
+      "epoch": 3.341687552213868,
+      "grad_norm": 2.594076156616211,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 1.0352,
+      "step": 32000
+    },
+    {
+      "epoch": 3.341687552213868,
+      "eval_accuracy": 0.7949145678709858,
+      "eval_loss": 1.0443620681762695,
+      "eval_runtime": 367.752,
+      "eval_samples_per_second": 172.516,
+      "eval_steps_per_second": 5.392,
+      "step": 32000
+    },
+    {
+      "epoch": 3.3939014202172095,
+      "grad_norm": 4.887377738952637,
+      "learning_rate": 6.750000000000001e-05,
+      "loss": 1.0269,
+      "step": 32500
+    },
+    {
+      "epoch": 3.3939014202172095,
+      "eval_accuracy": 0.7945826018068661,
+      "eval_loss": 1.0488784313201904,
+      "eval_runtime": 368.3885,
+      "eval_samples_per_second": 172.218,
+      "eval_steps_per_second": 5.383,
+      "step": 32500
+    },
+    {
+      "epoch": 3.4461152882205512,
+      "grad_norm": 3.1437246799468994,
+      "learning_rate": 6.7e-05,
+      "loss": 1.0293,
+      "step": 33000
+    },
+    {
+      "epoch": 3.4461152882205512,
+      "eval_accuracy": 0.795481144785727,
+      "eval_loss": 1.0364991426467896,
+      "eval_runtime": 366.6755,
+      "eval_samples_per_second": 173.022,
+      "eval_steps_per_second": 5.408,
+      "step": 33000
+    },
+    {
+      "epoch": 3.498329156223893,
+      "grad_norm": 2.490694761276245,
+      "learning_rate": 6.65e-05,
+      "loss": 1.0179,
+      "step": 33500
+    },
+    {
+      "epoch": 3.498329156223893,
+      "eval_accuracy": 0.7964686907750312,
+      "eval_loss": 1.043065071105957,
+      "eval_runtime": 367.4767,
+      "eval_samples_per_second": 172.645,
+      "eval_steps_per_second": 5.396,
+      "step": 33500
+    },
+    {
+      "epoch": 3.5505430242272347,
+      "grad_norm": 2.9056098461151123,
+      "learning_rate": 6.6e-05,
+      "loss": 1.0147,
+      "step": 34000
+    },
+    {
+      "epoch": 3.5505430242272347,
+      "eval_accuracy": 0.7962407550483477,
+      "eval_loss": NaN,
+      "eval_runtime": 367.3507,
+      "eval_samples_per_second": 172.704,
+      "eval_steps_per_second": 5.398,
+      "step": 34000
+    },
+    {
+      "epoch": 3.6027568922305764,
+      "grad_norm": 2.655351161956787,
+      "learning_rate": 6.55e-05,
+      "loss": 1.0112,
+      "step": 34500
+    },
+    {
+      "epoch": 3.6027568922305764,
+      "eval_accuracy": 0.7970424400295055,
+      "eval_loss": 1.033272624015808,
+      "eval_runtime": 367.4604,
+      "eval_samples_per_second": 172.653,
+      "eval_steps_per_second": 5.397,
+      "step": 34500
+    },
+    {
+      "epoch": 3.654970760233918,
+      "grad_norm": 2.922175168991089,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 1.0145,
+      "step": 35000
+    },
+    {
+      "epoch": 3.654970760233918,
+      "eval_accuracy": 0.7967277004610398,
+      "eval_loss": 1.0407856702804565,
+      "eval_runtime": 367.6311,
+      "eval_samples_per_second": 172.572,
+      "eval_steps_per_second": 5.394,
+      "step": 35000
+    },
+    {
+      "epoch": 3.70718462823726,
+      "grad_norm": 2.7691986560821533,
+      "learning_rate": 6.450000000000001e-05,
+      "loss": 1.0133,
+      "step": 35500
+    },
+    {
+      "epoch": 3.70718462823726,
+      "eval_accuracy": 0.7978057552609327,
+      "eval_loss": 1.0315524339675903,
+      "eval_runtime": 368.5127,
+      "eval_samples_per_second": 172.16,
+      "eval_steps_per_second": 5.381,
+      "step": 35500
+    },
+    {
+      "epoch": 3.7593984962406015,
+      "grad_norm": 2.718721389770508,
+      "learning_rate": 6.400000000000001e-05,
+      "loss": 1.0123,
+      "step": 36000
+    },
+    {
+      "epoch": 3.7593984962406015,
+      "eval_accuracy": 0.7984869599976302,
+      "eval_loss": 1.0284632444381714,
+      "eval_runtime": 367.5592,
+      "eval_samples_per_second": 172.606,
+      "eval_steps_per_second": 5.395,
+      "step": 36000
+    },
+    {
+      "epoch": 3.8116123642439432,
+      "grad_norm": 2.4457788467407227,
+      "learning_rate": 6.35e-05,
+      "loss": 1.008,
+      "step": 36500
+    },
+    {
+      "epoch": 3.8116123642439432,
+      "eval_accuracy": 0.7985738639575599,
+      "eval_loss": 1.0290788412094116,
+      "eval_runtime": 367.5585,
+      "eval_samples_per_second": 172.607,
+      "eval_steps_per_second": 5.395,
+      "step": 36500
+    },
+    {
+      "epoch": 3.863826232247285,
+      "grad_norm": 3.0719549655914307,
+      "learning_rate": 6.3e-05,
+      "loss": 0.9995,
+      "step": 37000
+    },
+    {
+      "epoch": 3.863826232247285,
+      "eval_accuracy": 0.7990341348986376,
+      "eval_loss": 1.0225682258605957,
+      "eval_runtime": 367.5861,
+      "eval_samples_per_second": 172.594,
+      "eval_steps_per_second": 5.395,
+      "step": 37000
+    },
+    {
+      "epoch": 3.9160401002506267,
+      "grad_norm": 2.502732038497925,
+      "learning_rate": 6.25e-05,
+      "loss": 1.0059,
+      "step": 37500
+    },
+    {
+      "epoch": 3.9160401002506267,
+      "eval_accuracy": 0.7990824767003194,
+      "eval_loss": 1.0225658416748047,
+      "eval_runtime": 368.4364,
+      "eval_samples_per_second": 172.195,
+      "eval_steps_per_second": 5.382,
+      "step": 37500
+    },
+    {
+      "epoch": 3.9682539682539684,
+      "grad_norm": 2.615722894668579,
+      "learning_rate": 6.2e-05,
+      "loss": 0.9908,
+      "step": 38000
+    },
+    {
+      "epoch": 3.9682539682539684,
+      "eval_accuracy": 0.8004074602540703,
+      "eval_loss": NaN,
+      "eval_runtime": 367.3504,
+      "eval_samples_per_second": 172.704,
+      "eval_steps_per_second": 5.398,
+      "step": 38000
+    },
+    {
+      "epoch": 4.02046783625731,
+      "grad_norm": 2.6223480701446533,
+      "learning_rate": 6.15e-05,
+      "loss": 1.0019,
+      "step": 38500
+    },
+    {
+      "epoch": 4.02046783625731,
+      "eval_accuracy": 0.8002175287186218,
+      "eval_loss": 1.0221267938613892,
+      "eval_runtime": 367.5886,
+      "eval_samples_per_second": 172.592,
+      "eval_steps_per_second": 5.395,
+      "step": 38500
+    },
+    {
+      "epoch": 4.072681704260652,
+      "grad_norm": 7.730719089508057,
+      "learning_rate": 6.1e-05,
+      "loss": 0.9859,
+      "step": 39000
+    },
+    {
+      "epoch": 4.072681704260652,
+      "eval_accuracy": 0.8004946972174642,
+      "eval_loss": 1.0225615501403809,
+      "eval_runtime": 367.5118,
+      "eval_samples_per_second": 172.628,
+      "eval_steps_per_second": 5.396,
+      "step": 39000
+    },
+    {
+      "epoch": 4.124895572263993,
+      "grad_norm": 2.6854565143585205,
+      "learning_rate": 6.05e-05,
+      "loss": 0.9899,
+      "step": 39500
+    },
+    {
+      "epoch": 4.124895572263993,
+      "eval_accuracy": 0.8006603707418583,
+      "eval_loss": 1.0182828903198242,
+      "eval_runtime": 367.2006,
+      "eval_samples_per_second": 172.775,
+      "eval_steps_per_second": 5.4,
+      "step": 39500
+    },
+    {
+      "epoch": 4.177109440267335,
+      "grad_norm": 2.871232509613037,
+      "learning_rate": 6e-05,
+      "loss": 0.9769,
+      "step": 40000
+    },
+    {
+      "epoch": 4.177109440267335,
+      "eval_accuracy": 0.8012399052534226,
+      "eval_loss": 1.007629632949829,
+      "eval_runtime": 367.698,
+      "eval_samples_per_second": 172.541,
+      "eval_steps_per_second": 5.393,
+      "step": 40000
+    },
+    {
+      "epoch": 4.2293233082706765,
+      "grad_norm": 2.7055728435516357,
+      "learning_rate": 5.95e-05,
+      "loss": 0.9862,
+      "step": 40500
+    },
+    {
+      "epoch": 4.2293233082706765,
+      "eval_accuracy": 0.8023664324313652,
+      "eval_loss": 1.0073480606079102,
+      "eval_runtime": 367.5166,
+      "eval_samples_per_second": 172.626,
+      "eval_steps_per_second": 5.396,
+      "step": 40500
+    },
+    {
+      "epoch": 4.281537176274019,
+      "grad_norm": 2.628458261489868,
+      "learning_rate": 5.9e-05,
+      "loss": 0.9784,
+      "step": 41000
+    },
+    {
+      "epoch": 4.281537176274019,
+      "eval_accuracy": 0.8022199523230344,
+      "eval_loss": 1.0004937648773193,
+      "eval_runtime": 368.0641,
+      "eval_samples_per_second": 172.369,
+      "eval_steps_per_second": 5.388,
+      "step": 41000
+    },
+    {
+      "epoch": 4.33375104427736,
+      "grad_norm": 2.5863466262817383,
+      "learning_rate": 5.85e-05,
+      "loss": 0.974,
+      "step": 41500
+    },
+    {
+      "epoch": 4.33375104427736,
+      "eval_accuracy": 0.8025649357830319,
+      "eval_loss": 1.0010262727737427,
+      "eval_runtime": 367.7203,
+      "eval_samples_per_second": 172.531,
+      "eval_steps_per_second": 5.393,
+      "step": 41500
+    },
+    {
+      "epoch": 4.385964912280702,
+      "grad_norm": 2.748701333999634,
+      "learning_rate": 5.8e-05,
+      "loss": 0.9828,
+      "step": 42000
+    },
+    {
+      "epoch": 4.385964912280702,
+      "eval_accuracy": 0.8030370401871146,
+      "eval_loss": 0.998631477355957,
+      "eval_runtime": 367.8751,
+      "eval_samples_per_second": 172.458,
+      "eval_steps_per_second": 5.39,
+      "step": 42000
+    },
+    {
+      "epoch": 4.438178780284043,
+      "grad_norm": 2.7004311084747314,
+      "learning_rate": 5.7499999999999995e-05,
+      "loss": 0.9863,
+      "step": 42500
+    },
+    {
+      "epoch": 4.438178780284043,
+      "eval_accuracy": 0.8032171565331311,
+      "eval_loss": 1.0026530027389526,
+      "eval_runtime": 367.6912,
+      "eval_samples_per_second": 172.544,
+      "eval_steps_per_second": 5.393,
+      "step": 42500
+    },
+    {
+      "epoch": 4.4903926482873855,
+      "grad_norm": 2.4777750968933105,
+      "learning_rate": 5.6999999999999996e-05,
+      "loss": 0.9725,
+      "step": 43000
+    },
+    {
+      "epoch": 4.4903926482873855,
+      "eval_accuracy": 0.8036803447902678,
+      "eval_loss": 0.9949015378952026,
+      "eval_runtime": 367.6755,
+      "eval_samples_per_second": 172.552,
+      "eval_steps_per_second": 5.393,
+      "step": 43000
+    },
+    {
+      "epoch": 4.542606516290727,
+      "grad_norm": 2.6259942054748535,
+      "learning_rate": 5.65e-05,
+      "loss": 0.9685,
+      "step": 43500
+    },
+    {
+      "epoch": 4.542606516290727,
+      "eval_accuracy": 0.8042554828282609,
+      "eval_loss": 0.9936387538909912,
+      "eval_runtime": 368.1053,
+      "eval_samples_per_second": 172.35,
+      "eval_steps_per_second": 5.387,
+      "step": 43500
+    },
+    {
+      "epoch": 4.594820384294069,
+      "grad_norm": 3.246826648712158,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 0.9736,
+      "step": 44000
+    },
+    {
+      "epoch": 4.594820384294069,
+      "eval_accuracy": 0.8043477668789687,
+      "eval_loss": 0.9914335608482361,
+      "eval_runtime": 367.7482,
+      "eval_samples_per_second": 172.518,
+      "eval_steps_per_second": 5.392,
+      "step": 44000
+    },
+    {
+      "epoch": 4.64703425229741,
+      "grad_norm": 2.689743995666504,
+      "learning_rate": 5.550000000000001e-05,
+      "loss": 0.9695,
+      "step": 44500
+    },
+    {
+      "epoch": 4.64703425229741,
+      "eval_accuracy": 0.8044957424284033,
+      "eval_loss": 1.0012022256851196,
+      "eval_runtime": 367.8322,
+      "eval_samples_per_second": 172.478,
+      "eval_steps_per_second": 5.391,
+      "step": 44500
+    },
+    {
+      "epoch": 4.6992481203007515,
+      "grad_norm": 2.6002440452575684,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.9632,
+      "step": 45000
+    },
+    {
+      "epoch": 4.6992481203007515,
+      "eval_accuracy": 0.8053408897805091,
+      "eval_loss": 0.9931978583335876,
+      "eval_runtime": 367.8417,
+      "eval_samples_per_second": 172.474,
+      "eval_steps_per_second": 5.391,
+      "step": 45000
+    },
+    {
+      "epoch": 4.751461988304094,
+      "grad_norm": 2.720722198486328,
+      "learning_rate": 5.45e-05,
+      "loss": 0.9683,
+      "step": 45500
+    },
+    {
+      "epoch": 4.751461988304094,
+      "eval_accuracy": 0.8055148927829874,
+      "eval_loss": 0.9913645386695862,
+      "eval_runtime": 367.8141,
+      "eval_samples_per_second": 172.487,
+      "eval_steps_per_second": 5.391,
+      "step": 45500
+    },
+    {
+      "epoch": 4.803675856307435,
+      "grad_norm": 2.6984803676605225,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 0.9559,
+      "step": 46000
+    },
+    {
+      "epoch": 4.803675856307435,
+      "eval_accuracy": 0.8059522006843057,
+      "eval_loss": 0.9891652464866638,
+      "eval_runtime": 368.2454,
+      "eval_samples_per_second": 172.285,
+      "eval_steps_per_second": 5.385,
+      "step": 46000
+    },
+    {
+      "epoch": 4.855889724310777,
+      "grad_norm": 2.4419870376586914,
+      "learning_rate": 5.3500000000000006e-05,
+      "loss": 0.9592,
+      "step": 46500
+    },
+    {
+      "epoch": 4.855889724310777,
+      "eval_accuracy": 0.805452993603716,
+      "eval_loss": 0.9957113862037659,
+      "eval_runtime": 368.2591,
+      "eval_samples_per_second": 172.278,
+      "eval_steps_per_second": 5.385,
+      "step": 46500
+    },
+    {
+      "epoch": 4.908103592314118,
+      "grad_norm": 2.915653944015503,
+      "learning_rate": 5.300000000000001e-05,
+      "loss": 0.9593,
+      "step": 47000
+    },
+    {
+      "epoch": 4.908103592314118,
+      "eval_accuracy": 0.8068829182930286,
+      "eval_loss": 0.987449049949646,
+      "eval_runtime": 367.9346,
+      "eval_samples_per_second": 172.43,
+      "eval_steps_per_second": 5.39,
+      "step": 47000
+    },
+    {
+      "epoch": 4.9603174603174605,
+      "grad_norm": 2.3721494674682617,
+      "learning_rate": 5.25e-05,
+      "loss": 0.9521,
+      "step": 47500
+    },
+    {
+      "epoch": 4.9603174603174605,
+      "eval_accuracy": 0.8072047578358524,
+      "eval_loss": 0.9854400157928467,
+      "eval_runtime": 368.1441,
+      "eval_samples_per_second": 172.332,
+      "eval_steps_per_second": 5.386,
+      "step": 47500
+    },
+    {
+      "epoch": 5.012531328320802,
+      "grad_norm": 2.7081363201141357,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 0.9516,
+      "step": 48000
+    },
+    {
+      "epoch": 5.012531328320802,
+      "eval_accuracy": 0.8074420340361171,
+      "eval_loss": 0.9737870097160339,
+      "eval_runtime": 367.5696,
+      "eval_samples_per_second": 172.601,
+      "eval_steps_per_second": 5.395,
+      "step": 48000
+    },
+    {
+      "epoch": 5.064745196324144,
+      "grad_norm": 2.834805965423584,
+      "learning_rate": 5.1500000000000005e-05,
+      "loss": 0.9361,
+      "step": 48500
+    },
+    {
+      "epoch": 5.064745196324144,
+      "eval_accuracy": 0.807780889243512,
+      "eval_loss": NaN,
+      "eval_runtime": 366.5337,
+      "eval_samples_per_second": 173.089,
+      "eval_steps_per_second": 5.41,
+      "step": 48500
+    },
+    {
+      "epoch": 5.116959064327485,
+      "grad_norm": 2.5488121509552,
+      "learning_rate": 5.1000000000000006e-05,
+      "loss": 0.9472,
+      "step": 49000
+    },
+    {
+      "epoch": 5.116959064327485,
+      "eval_accuracy": 0.8083244761680142,
+      "eval_loss": 0.9714484214782715,
+      "eval_runtime": 364.0778,
+      "eval_samples_per_second": 174.257,
+      "eval_steps_per_second": 5.447,
+      "step": 49000
+    },
+    {
+      "epoch": 5.169172932330827,
+      "grad_norm": 2.5738179683685303,
+      "learning_rate": 5.05e-05,
+      "loss": 0.9387,
+      "step": 49500
+    },
+    {
+      "epoch": 5.169172932330827,
+      "eval_accuracy": 0.8083237627586395,
+      "eval_loss": NaN,
+      "eval_runtime": 366.0302,
+      "eval_samples_per_second": 173.327,
+      "eval_steps_per_second": 5.418,
+      "step": 49500
+    },
+    {
+      "epoch": 5.221386800334169,
+      "grad_norm": 2.578078508377075,
+      "learning_rate": 5e-05,
+      "loss": 0.9405,
+      "step": 50000
+    },
+    {
+      "epoch": 5.221386800334169,
+      "eval_accuracy": 0.8092523232767513,
+      "eval_loss": 0.9723265767097473,
+      "eval_runtime": 365.9623,
+      "eval_samples_per_second": 173.359,
+      "eval_steps_per_second": 5.419,
+      "step": 50000
+    },
+    {
+      "epoch": 5.273600668337511,
+      "grad_norm": 3.3929808139801025,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.9386,
+      "step": 50500
+    },
+    {
+      "epoch": 5.273600668337511,
+      "eval_accuracy": 0.8091146550523858,
+      "eval_loss": 0.9661393761634827,
+      "eval_runtime": 365.1784,
+      "eval_samples_per_second": 173.732,
+      "eval_steps_per_second": 5.43,
+      "step": 50500
+    },
+    {
+      "epoch": 5.325814536340852,
+      "grad_norm": 2.3634896278381348,
+      "learning_rate": 4.9e-05,
+      "loss": 0.933,
+      "step": 51000
+    },
+    {
+      "epoch": 5.325814536340852,
+      "eval_accuracy": 0.808835748295871,
+      "eval_loss": 0.9813971519470215,
+      "eval_runtime": 381.116,
+      "eval_samples_per_second": 166.466,
+      "eval_steps_per_second": 5.203,
+      "step": 51000
+    },
+    {
+      "epoch": 5.378028404344194,
+      "grad_norm": 2.9042844772338867,
+      "learning_rate": 4.85e-05,
+      "loss": 0.9295,
+      "step": 51500
+    },
+    {
+      "epoch": 5.378028404344194,
+      "eval_accuracy": 0.8103665776447174,
+      "eval_loss": 0.9754624366760254,
+      "eval_runtime": 396.2254,
+      "eval_samples_per_second": 160.118,
+      "eval_steps_per_second": 5.005,
+      "step": 51500
+    },
+    {
+      "epoch": 5.430242272347535,
+      "grad_norm": 2.7546634674072266,
+      "learning_rate": 4.8e-05,
+      "loss": 0.9367,
+      "step": 52000
+    },
+    {
+      "epoch": 5.430242272347535,
+      "eval_accuracy": 0.8098531380075188,
+      "eval_loss": 0.9821533560752869,
+      "eval_runtime": 400.7427,
+      "eval_samples_per_second": 158.314,
+      "eval_steps_per_second": 4.948,
+      "step": 52000
+    },
+    {
+      "epoch": 5.482456140350878,
+      "grad_norm": 2.8839492797851562,
+      "learning_rate": 4.75e-05,
+      "loss": 0.9292,
+      "step": 52500
+    },
+    {
+      "epoch": 5.482456140350878,
+      "eval_accuracy": 0.8099045387069566,
+      "eval_loss": 0.974047064781189,
+      "eval_runtime": 399.7171,
+      "eval_samples_per_second": 158.72,
+      "eval_steps_per_second": 4.961,
+      "step": 52500
+    },
+    {
+      "epoch": 5.534670008354219,
+      "grad_norm": 2.3632848262786865,
+      "learning_rate": 4.7e-05,
+      "loss": 0.9217,
+      "step": 53000
+    },
+    {
+      "epoch": 5.534670008354219,
+      "eval_accuracy": 0.8100555138007703,
+      "eval_loss": 0.9726797938346863,
+      "eval_runtime": 398.2666,
+      "eval_samples_per_second": 159.298,
+      "eval_steps_per_second": 4.979,
+      "step": 53000
+    },
+    {
+      "epoch": 5.586883876357561,
+      "grad_norm": 3.127169609069824,
+      "learning_rate": 4.6500000000000005e-05,
+      "loss": 0.9294,
+      "step": 53500
+    },
+    {
+      "epoch": 5.586883876357561,
+      "eval_accuracy": 0.8108817419721464,
+      "eval_loss": 0.9585431218147278,
+      "eval_runtime": 399.6498,
+      "eval_samples_per_second": 158.746,
+      "eval_steps_per_second": 4.962,
+      "step": 53500
+    },
+    {
+      "epoch": 5.639097744360902,
+      "grad_norm": 2.53694748878479,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.9195,
+      "step": 54000
+    },
+    {
+      "epoch": 5.639097744360902,
+      "eval_accuracy": 0.8119484709549883,
+      "eval_loss": 0.957590639591217,
+      "eval_runtime": 394.1783,
+      "eval_samples_per_second": 160.95,
+      "eval_steps_per_second": 5.031,
+      "step": 54000
+    },
+    {
+      "epoch": 5.6913116123642435,
+      "grad_norm": 2.6188199520111084,
+      "learning_rate": 4.55e-05,
+      "loss": 0.9233,
+      "step": 54500
+    },
+    {
+      "epoch": 5.6913116123642435,
+      "eval_accuracy": 0.8120400051070349,
+      "eval_loss": 0.9545953273773193,
+      "eval_runtime": 395.9182,
+      "eval_samples_per_second": 160.243,
+      "eval_steps_per_second": 5.009,
+      "step": 54500
+    },
+    {
+      "epoch": 5.743525480367586,
+      "grad_norm": 2.502518653869629,
+      "learning_rate": 4.5e-05,
+      "loss": 0.9272,
+      "step": 55000
+    },
+    {
+      "epoch": 5.743525480367586,
+      "eval_accuracy": 0.8122659898359591,
+      "eval_loss": 0.95594322681427,
+      "eval_runtime": 396.2822,
+      "eval_samples_per_second": 160.096,
+      "eval_steps_per_second": 5.004,
+      "step": 55000
+    },
+    {
+      "epoch": 5.795739348370927,
+      "grad_norm": 2.527303457260132,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 0.9163,
+      "step": 55500
+    },
+    {
+      "epoch": 5.795739348370927,
+      "eval_accuracy": 0.8124216614631093,
+      "eval_loss": 0.9586062431335449,
+      "eval_runtime": 402.0755,
+      "eval_samples_per_second": 157.789,
+      "eval_steps_per_second": 4.932,
+      "step": 55500
+    },
+    {
+      "epoch": 5.847953216374269,
+      "grad_norm": 2.5056955814361572,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.9249,
+      "step": 56000
+    },
+    {
+      "epoch": 5.847953216374269,
+      "eval_accuracy": 0.8123958167743631,
+      "eval_loss": 0.9501298069953918,
+      "eval_runtime": 397.3012,
+      "eval_samples_per_second": 159.685,
+      "eval_steps_per_second": 4.991,
+      "step": 56000
+    },
+    {
+      "epoch": 5.90016708437761,
+      "grad_norm": 2.876765727996826,
+      "learning_rate": 4.35e-05,
+      "loss": 0.9167,
+      "step": 56500
+    },
+    {
+      "epoch": 5.90016708437761,
+      "eval_accuracy": 0.8123634219518265,
+      "eval_loss": 0.958740770816803,
+      "eval_runtime": 393.8274,
+      "eval_samples_per_second": 161.093,
+      "eval_steps_per_second": 5.035,
+      "step": 56500
+    },
+    {
+      "epoch": 5.9523809523809526,
+      "grad_norm": 2.457308769226074,
+      "learning_rate": 4.3e-05,
+      "loss": 0.9191,
+      "step": 57000
+    },
+    {
+      "epoch": 5.9523809523809526,
+      "eval_accuracy": 0.8134356064347583,
+      "eval_loss": 0.9526042938232422,
+      "eval_runtime": 393.3254,
+      "eval_samples_per_second": 161.299,
+      "eval_steps_per_second": 5.042,
+      "step": 57000
+    },
+    {
+      "epoch": 6.004594820384294,
+      "grad_norm": 2.489978075027466,
+      "learning_rate": 4.25e-05,
+      "loss": 0.9176,
+      "step": 57500
+    },
+    {
+      "epoch": 6.004594820384294,
+      "eval_accuracy": 0.8137190312134606,
+      "eval_loss": 0.9511122703552246,
+      "eval_runtime": 398.7282,
+      "eval_samples_per_second": 159.113,
+      "eval_steps_per_second": 4.973,
+      "step": 57500
+    },
+    {
+      "epoch": 6.056808688387636,
+      "grad_norm": 2.7550694942474365,
+      "learning_rate": 4.2e-05,
+      "loss": 0.9034,
+      "step": 58000
+    },
+    {
+      "epoch": 6.056808688387636,
+      "eval_accuracy": 0.8137725525224172,
+      "eval_loss": 0.9519580006599426,
+      "eval_runtime": 397.3745,
+      "eval_samples_per_second": 159.655,
+      "eval_steps_per_second": 4.99,
+      "step": 58000
+    },
+    {
+      "epoch": 6.109022556390977,
+      "grad_norm": 2.820486068725586,
+      "learning_rate": 4.15e-05,
+      "loss": 0.905,
+      "step": 58500
+    },
+    {
+      "epoch": 6.109022556390977,
+      "eval_accuracy": 0.8139618722177003,
+      "eval_loss": 0.9513248801231384,
+      "eval_runtime": 401.2273,
+      "eval_samples_per_second": 158.122,
+      "eval_steps_per_second": 4.942,
+      "step": 58500
+    },
+    {
+      "epoch": 6.161236424394319,
+      "grad_norm": 2.634119749069214,
+      "learning_rate": 4.1e-05,
+      "loss": 0.902,
+      "step": 59000
+    },
+    {
+      "epoch": 6.161236424394319,
+      "eval_accuracy": 0.8135963134645056,
+      "eval_loss": 0.9465650916099548,
+      "eval_runtime": 402.0909,
+      "eval_samples_per_second": 157.783,
+      "eval_steps_per_second": 4.932,
+      "step": 59000
+    },
+    {
+      "epoch": 6.213450292397661,
+      "grad_norm": 2.8152124881744385,
+      "learning_rate": 4.05e-05,
+      "loss": 0.9016,
+      "step": 59500
+    },
+    {
+      "epoch": 6.213450292397661,
+      "eval_accuracy": 0.8144102857826985,
+      "eval_loss": 0.9431130886077881,
+      "eval_runtime": 399.633,
+      "eval_samples_per_second": 158.753,
+      "eval_steps_per_second": 4.962,
+      "step": 59500
+    },
+    {
+      "epoch": 6.265664160401003,
+      "grad_norm": 2.478999137878418,
+      "learning_rate": 4e-05,
+      "loss": 0.9018,
+      "step": 60000
+    },
+    {
+      "epoch": 6.265664160401003,
+      "eval_accuracy": 0.8148281916671716,
+      "eval_loss": 0.9465348124504089,
+      "eval_runtime": 401.047,
+      "eval_samples_per_second": 158.193,
+      "eval_steps_per_second": 4.945,
+      "step": 60000
+    },
+    {
+      "epoch": 6.317878028404344,
+      "grad_norm": 2.4472334384918213,
+      "learning_rate": 3.9500000000000005e-05,
+      "loss": 0.8894,
+      "step": 60500
+    },
+    {
+      "epoch": 6.317878028404344,
+      "eval_accuracy": 0.8152884197022962,
+      "eval_loss": 0.9336789846420288,
+      "eval_runtime": 399.7265,
+      "eval_samples_per_second": 158.716,
+      "eval_steps_per_second": 4.961,
+      "step": 60500
+    },
+    {
+      "epoch": 6.370091896407686,
+      "grad_norm": 2.6032795906066895,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.8861,
+      "step": 61000
+    },
+    {
+      "epoch": 6.370091896407686,
+      "eval_accuracy": 0.8158878972595904,
+      "eval_loss": 0.9414376616477966,
+      "eval_runtime": 403.8156,
+      "eval_samples_per_second": 157.109,
+      "eval_steps_per_second": 4.911,
+      "step": 61000
+    },
+    {
+      "epoch": 6.4223057644110275,
+      "grad_norm": 2.5782527923583984,
+      "learning_rate": 3.85e-05,
+      "loss": 0.8929,
+      "step": 61500
+    },
+    {
+      "epoch": 6.4223057644110275,
+      "eval_accuracy": 0.8158353407843104,
+      "eval_loss": 0.9369956254959106,
+      "eval_runtime": 403.5486,
+      "eval_samples_per_second": 157.213,
+      "eval_steps_per_second": 4.914,
+      "step": 61500
+    },
+    {
+      "epoch": 6.474519632414369,
+      "grad_norm": 2.3801369667053223,
+      "learning_rate": 3.8e-05,
+      "loss": 0.8869,
+      "step": 62000
+    },
+    {
+      "epoch": 6.474519632414369,
+      "eval_accuracy": 0.8156502533666622,
+      "eval_loss": 0.9334683418273926,
+      "eval_runtime": 401.7901,
+      "eval_samples_per_second": 157.901,
+      "eval_steps_per_second": 4.935,
+      "step": 62000
+    },
+    {
+      "epoch": 6.526733500417711,
+      "grad_norm": 2.44163179397583,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.8933,
+      "step": 62500
+    },
+    {
+      "epoch": 6.526733500417711,
+      "eval_accuracy": 0.8168851117616432,
+      "eval_loss": 0.9306558966636658,
+      "eval_runtime": 397.9786,
+      "eval_samples_per_second": 159.413,
+      "eval_steps_per_second": 4.983,
+      "step": 62500
+    },
+    {
+      "epoch": 6.578947368421053,
+      "grad_norm": 2.2924203872680664,
+      "learning_rate": 3.7e-05,
+      "loss": 0.8862,
+      "step": 63000
+    },
+    {
+      "epoch": 6.578947368421053,
+      "eval_accuracy": 0.8162968497056878,
+      "eval_loss": 0.9353703856468201,
+      "eval_runtime": 394.7488,
+      "eval_samples_per_second": 160.717,
+      "eval_steps_per_second": 5.023,
+      "step": 63000
+    },
+    {
+      "epoch": 6.631161236424394,
+      "grad_norm": 2.552828550338745,
+      "learning_rate": 3.65e-05,
+      "loss": 0.8948,
+      "step": 63500
+    },
+    {
+      "epoch": 6.631161236424394,
+      "eval_accuracy": 0.8177748484660532,
+      "eval_loss": 0.9219902157783508,
+      "eval_runtime": 393.8065,
+      "eval_samples_per_second": 161.102,
+      "eval_steps_per_second": 5.035,
+      "step": 63500
+    },
+    {
+      "epoch": 6.683375104427736,
+      "grad_norm": 2.423050880432129,
+      "learning_rate": 3.6e-05,
+      "loss": 0.8889,
+      "step": 64000
+    },
+    {
+      "epoch": 6.683375104427736,
+      "eval_accuracy": 0.8173146779439671,
+      "eval_loss": 0.9342746138572693,
+      "eval_runtime": 393.0912,
+      "eval_samples_per_second": 161.395,
+      "eval_steps_per_second": 5.045,
+      "step": 64000
+    },
+    {
+      "epoch": 6.735588972431078,
+      "grad_norm": 2.796268939971924,
+      "learning_rate": 3.55e-05,
+      "loss": 0.8885,
+      "step": 64500
+    },
+    {
+      "epoch": 6.735588972431078,
+      "eval_accuracy": 0.817551689369001,
+      "eval_loss": 0.9292306303977966,
+      "eval_runtime": 394.1087,
+      "eval_samples_per_second": 160.978,
+      "eval_steps_per_second": 5.032,
+      "step": 64500
+    },
+    {
+      "epoch": 6.787802840434419,
+      "grad_norm": 2.8128762245178223,
+      "learning_rate": 3.5e-05,
+      "loss": 0.8854,
+      "step": 65000
+    },
+    {
+      "epoch": 6.787802840434419,
+      "eval_accuracy": 0.8176226440260885,
+      "eval_loss": 0.9265376925468445,
+      "eval_runtime": 394.2997,
+      "eval_samples_per_second": 160.9,
+      "eval_steps_per_second": 5.029,
+      "step": 65000
+    },
+    {
+      "epoch": 6.840016708437761,
+      "grad_norm": 2.8697590827941895,
+      "learning_rate": 3.45e-05,
+      "loss": 0.88,
+      "step": 65500
+    },
+    {
+      "epoch": 6.840016708437761,
+      "eval_accuracy": 0.8185052265994757,
+      "eval_loss": 0.928463876247406,
+      "eval_runtime": 394.323,
+      "eval_samples_per_second": 160.891,
+      "eval_steps_per_second": 5.029,
+      "step": 65500
+    },
+    {
+      "epoch": 6.8922305764411025,
+      "grad_norm": 2.6351752281188965,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.8841,
+      "step": 66000
+    },
+    {
+      "epoch": 6.8922305764411025,
+      "eval_accuracy": 0.8183555493481675,
+      "eval_loss": 0.9194802045822144,
+      "eval_runtime": 400.5152,
+      "eval_samples_per_second": 158.403,
+      "eval_steps_per_second": 4.951,
+      "step": 66000
+    },
+    {
+      "epoch": 6.944444444444445,
+      "grad_norm": 2.2477810382843018,
+      "learning_rate": 3.35e-05,
+      "loss": 0.8807,
+      "step": 66500
+    },
+    {
+      "epoch": 6.944444444444445,
+      "eval_accuracy": 0.8187747090050445,
+      "eval_loss": 0.9138378500938416,
+      "eval_runtime": 394.4731,
+      "eval_samples_per_second": 160.83,
+      "eval_steps_per_second": 5.027,
+      "step": 66500
+    },
+    {
+      "epoch": 6.996658312447786,
+      "grad_norm": 2.1748201847076416,
+      "learning_rate": 3.3e-05,
+      "loss": 0.8836,
+      "step": 67000
+    },
+    {
+      "epoch": 6.996658312447786,
+      "eval_accuracy": 0.8190003355856446,
+      "eval_loss": 0.9168543815612793,
+      "eval_runtime": 394.6502,
+      "eval_samples_per_second": 160.758,
+      "eval_steps_per_second": 5.025,
+      "step": 67000
+    },
+    {
+      "epoch": 7.048872180451128,
+      "grad_norm": 2.7435665130615234,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.8707,
+      "step": 67500
+    },
+    {
+      "epoch": 7.048872180451128,
+      "eval_accuracy": 0.8191917867246192,
+      "eval_loss": 0.9231117367744446,
+      "eval_runtime": 392.3745,
+      "eval_samples_per_second": 161.69,
+      "eval_steps_per_second": 5.054,
+      "step": 67500
+    },
+    {
+      "epoch": 7.101086048454469,
+      "grad_norm": 2.569931745529175,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.8701,
+      "step": 68000
+    },
+    {
+      "epoch": 7.101086048454469,
+      "eval_accuracy": 0.819969121038317,
+      "eval_loss": 0.9153112173080444,
+      "eval_runtime": 393.0875,
+      "eval_samples_per_second": 161.397,
+      "eval_steps_per_second": 5.045,
+      "step": 68000
+    },
+    {
+      "epoch": 7.1532999164578115,
+      "grad_norm": 2.819972515106201,
+      "learning_rate": 3.15e-05,
+      "loss": 0.8656,
+      "step": 68500
+    },
+    {
+      "epoch": 7.1532999164578115,
+      "eval_accuracy": 0.8194268014568229,
+      "eval_loss": 0.9146177768707275,
+      "eval_runtime": 394.2167,
+      "eval_samples_per_second": 160.934,
+      "eval_steps_per_second": 5.03,
+      "step": 68500
+    },
+    {
+      "epoch": 7.205513784461153,
+      "grad_norm": 2.415208578109741,
+      "learning_rate": 3.1e-05,
+      "loss": 0.871,
+      "step": 69000
+    },
+    {
+      "epoch": 7.205513784461153,
+      "eval_accuracy": 0.8198532803574815,
+      "eval_loss": NaN,
+      "eval_runtime": 395.7273,
+      "eval_samples_per_second": 160.32,
+      "eval_steps_per_second": 5.011,
+      "step": 69000
+    },
+    {
+      "epoch": 7.257727652464495,
+      "grad_norm": 2.7900257110595703,
+      "learning_rate": 3.05e-05,
+      "loss": 0.8685,
+      "step": 69500
+    },
+    {
+      "epoch": 7.257727652464495,
+      "eval_accuracy": 0.8207157152692325,
+      "eval_loss": 0.9127238392829895,
+      "eval_runtime": 392.7333,
+      "eval_samples_per_second": 161.542,
+      "eval_steps_per_second": 5.049,
+      "step": 69500
+    },
+    {
+      "epoch": 7.309941520467836,
+      "grad_norm": 2.643833637237549,
+      "learning_rate": 3e-05,
+      "loss": 0.8623,
+      "step": 70000
+    },
+    {
+      "epoch": 7.309941520467836,
+      "eval_accuracy": 0.8202351749773661,
+      "eval_loss": 0.9171856045722961,
+      "eval_runtime": 393.097,
+      "eval_samples_per_second": 161.393,
+      "eval_steps_per_second": 5.045,
+      "step": 70000
+    },
+    {
+      "epoch": 7.362155388471178,
+      "grad_norm": 2.5037946701049805,
+      "learning_rate": 2.95e-05,
+      "loss": 0.8601,
+      "step": 70500
+    },
+    {
+      "epoch": 7.362155388471178,
+      "eval_accuracy": 0.8211525544791177,
+      "eval_loss": 0.903904139995575,
+      "eval_runtime": 394.3466,
+      "eval_samples_per_second": 160.881,
+      "eval_steps_per_second": 5.029,
+      "step": 70500
+    },
+    {
+      "epoch": 7.41436925647452,
+      "grad_norm": 2.7093377113342285,
+      "learning_rate": 2.9e-05,
+      "loss": 0.8573,
+      "step": 71000
+    },
+    {
+      "epoch": 7.41436925647452,
+      "eval_accuracy": 0.8214304681574243,
+      "eval_loss": 0.9036524891853333,
+      "eval_runtime": 393.5778,
+      "eval_samples_per_second": 161.196,
+      "eval_steps_per_second": 5.038,
+      "step": 71000
+    },
+    {
+      "epoch": 7.466583124477861,
+      "grad_norm": 2.760674476623535,
+      "learning_rate": 2.8499999999999998e-05,
+      "loss": 0.8633,
+      "step": 71500
+    },
+    {
+      "epoch": 7.466583124477861,
+      "eval_accuracy": 0.8217283854693812,
+      "eval_loss": 0.9000177979469299,
+      "eval_runtime": 396.5628,
+      "eval_samples_per_second": 159.982,
+      "eval_steps_per_second": 5.0,
+      "step": 71500
+    },
+    {
+      "epoch": 7.518796992481203,
+      "grad_norm": 2.831023693084717,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.8576,
+      "step": 72000
+    },
+    {
+      "epoch": 7.518796992481203,
+      "eval_accuracy": 0.8211579127032714,
+      "eval_loss": 0.918953001499176,
+      "eval_runtime": 400.5863,
+      "eval_samples_per_second": 158.375,
+      "eval_steps_per_second": 4.95,
+      "step": 72000
+    },
+    {
+      "epoch": 7.571010860484545,
+      "grad_norm": 2.453390598297119,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.854,
+      "step": 72500
+    },
+    {
+      "epoch": 7.571010860484545,
+      "eval_accuracy": 0.8220418032437955,
+      "eval_loss": 0.9041558504104614,
+      "eval_runtime": 399.249,
+      "eval_samples_per_second": 158.906,
+      "eval_steps_per_second": 4.967,
+      "step": 72500
+    },
+    {
+      "epoch": 7.6232247284878865,
+      "grad_norm": 2.6029062271118164,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 0.8615,
+      "step": 73000
+    },
+    {
+      "epoch": 7.6232247284878865,
+      "eval_accuracy": 0.8223261586980396,
+      "eval_loss": 0.8994259834289551,
+      "eval_runtime": 387.0421,
+      "eval_samples_per_second": 163.918,
+      "eval_steps_per_second": 5.123,
+      "step": 73000
+    },
+    {
+      "epoch": 7.675438596491228,
+      "grad_norm": 2.3841817378997803,
+      "learning_rate": 2.6500000000000004e-05,
+      "loss": 0.8632,
+      "step": 73500
+    },
+    {
+      "epoch": 7.675438596491228,
+      "eval_accuracy": 0.8218723618637837,
+      "eval_loss": 0.9080346822738647,
+      "eval_runtime": 368.6926,
+      "eval_samples_per_second": 172.076,
+      "eval_steps_per_second": 5.378,
+      "step": 73500
+    },
+    {
+      "epoch": 7.72765246449457,
+      "grad_norm": 3.8187203407287598,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.8519,
+      "step": 74000
+    },
+    {
+      "epoch": 7.72765246449457,
+      "eval_accuracy": 0.8223824804514319,
+      "eval_loss": 0.9071189761161804,
+      "eval_runtime": 367.458,
+      "eval_samples_per_second": 172.654,
+      "eval_steps_per_second": 5.397,
+      "step": 74000
+    },
+    {
+      "epoch": 7.779866332497911,
+      "grad_norm": 2.744349241256714,
+      "learning_rate": 2.5500000000000003e-05,
+      "loss": 0.8569,
+      "step": 74500
+    },
+    {
+      "epoch": 7.779866332497911,
+      "eval_accuracy": 0.8229439133116854,
+      "eval_loss": 0.9003260731697083,
+      "eval_runtime": 369.188,
+      "eval_samples_per_second": 171.845,
+      "eval_steps_per_second": 5.371,
+      "step": 74500
+    },
+    {
+      "epoch": 7.832080200501253,
+      "grad_norm": 2.3172342777252197,
+      "learning_rate": 2.5e-05,
+      "loss": 0.8502,
+      "step": 75000
+    },
+    {
+      "epoch": 7.832080200501253,
+      "eval_accuracy": 0.8229715307093431,
+      "eval_loss": 0.9045436382293701,
+      "eval_runtime": 368.1168,
+      "eval_samples_per_second": 172.345,
+      "eval_steps_per_second": 5.387,
+      "step": 75000
+    },
+    {
+      "epoch": 7.884294068504595,
+      "grad_norm": 2.6108663082122803,
+      "learning_rate": 2.45e-05,
+      "loss": 0.8536,
+      "step": 75500
+    },
+    {
+      "epoch": 7.884294068504595,
+      "eval_accuracy": 0.8234089591247552,
+      "eval_loss": 0.9026762247085571,
+      "eval_runtime": 366.8391,
+      "eval_samples_per_second": 172.945,
+      "eval_steps_per_second": 5.406,
+      "step": 75500
+    },
+    {
+      "epoch": 7.936507936507937,
+      "grad_norm": 2.315197467803955,
+      "learning_rate": 2.4e-05,
+      "loss": 0.85,
+      "step": 76000
+    },
+    {
+      "epoch": 7.936507936507937,
+      "eval_accuracy": 0.8232359994242249,
+      "eval_loss": 0.8995440006256104,
+      "eval_runtime": 367.8582,
+      "eval_samples_per_second": 172.466,
+      "eval_steps_per_second": 5.391,
+      "step": 76000
+    },
+    {
+      "epoch": 7.988721804511278,
+      "grad_norm": 2.611060380935669,
+      "learning_rate": 2.35e-05,
+      "loss": 0.8453,
+      "step": 76500
+    },
+    {
+      "epoch": 7.988721804511278,
+      "eval_accuracy": 0.8234605237364002,
+      "eval_loss": 0.8912914395332336,
+      "eval_runtime": 367.6079,
+      "eval_samples_per_second": 172.583,
+      "eval_steps_per_second": 5.394,
+      "step": 76500
+    },
+    {
+      "epoch": 8.04093567251462,
+      "grad_norm": 2.4672865867614746,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.8294,
+      "step": 77000
+    },
+    {
+      "epoch": 8.04093567251462,
+      "eval_accuracy": 0.8244379262655704,
+      "eval_loss": 0.896998405456543,
+      "eval_runtime": 367.8054,
+      "eval_samples_per_second": 172.491,
+      "eval_steps_per_second": 5.391,
+      "step": 77000
+    },
+    {
+      "epoch": 8.093149540517961,
+      "grad_norm": 2.645519495010376,
+      "learning_rate": 2.25e-05,
+      "loss": 0.849,
+      "step": 77500
+    },
+    {
+      "epoch": 8.093149540517961,
+      "eval_accuracy": 0.8244201499571945,
+      "eval_loss": 0.8957926034927368,
+      "eval_runtime": 369.9508,
+      "eval_samples_per_second": 171.49,
+      "eval_steps_per_second": 5.36,
+      "step": 77500
+    },
+    {
+      "epoch": 8.145363408521304,
+      "grad_norm": 2.7964978218078613,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.8363,
+      "step": 78000
+    },
+    {
+      "epoch": 8.145363408521304,
+      "eval_accuracy": 0.8244232177017738,
+      "eval_loss": 0.8884155750274658,
+      "eval_runtime": 367.358,
+      "eval_samples_per_second": 172.701,
+      "eval_steps_per_second": 5.398,
+      "step": 78000
+    },
+    {
+      "epoch": 8.197577276524646,
+      "grad_norm": 2.48044490814209,
+      "learning_rate": 2.15e-05,
+      "loss": 0.8355,
+      "step": 78500
+    },
+    {
+      "epoch": 8.197577276524646,
+      "eval_accuracy": 0.82532828384256,
+      "eval_loss": 0.8786827325820923,
+      "eval_runtime": 366.707,
+      "eval_samples_per_second": 173.007,
+      "eval_steps_per_second": 5.408,
+      "step": 78500
+    },
+    {
+      "epoch": 8.249791144527986,
+      "grad_norm": 2.6931161880493164,
+      "learning_rate": 2.1e-05,
+      "loss": 0.8439,
+      "step": 79000
+    },
+    {
+      "epoch": 8.249791144527986,
+      "eval_accuracy": 0.8246382720646043,
+      "eval_loss": 0.8848527073860168,
+      "eval_runtime": 366.9894,
+      "eval_samples_per_second": 172.874,
+      "eval_steps_per_second": 5.403,
+      "step": 79000
+    },
+    {
+      "epoch": 8.302005012531328,
+      "grad_norm": 2.607593297958374,
+      "learning_rate": 2.05e-05,
+      "loss": 0.8378,
+      "step": 79500
+    },
+    {
+      "epoch": 8.302005012531328,
+      "eval_accuracy": 0.8252490751457086,
+      "eval_loss": NaN,
+      "eval_runtime": 366.5162,
+      "eval_samples_per_second": 173.097,
+      "eval_steps_per_second": 5.41,
+      "step": 79500
+    },
+    {
+      "epoch": 8.35421888053467,
+      "grad_norm": 2.4364349842071533,
+      "learning_rate": 2e-05,
+      "loss": 0.8322,
+      "step": 80000
+    },
+    {
+      "epoch": 8.35421888053467,
+      "eval_accuracy": 0.8252812537780041,
+      "eval_loss": NaN,
+      "eval_runtime": 367.8653,
+      "eval_samples_per_second": 172.463,
+      "eval_steps_per_second": 5.391,
+      "step": 80000
+    },
+    {
+      "epoch": 8.406432748538013,
+      "grad_norm": 2.541379928588867,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 0.8366,
+      "step": 80500
+    },
+    {
+      "epoch": 8.406432748538013,
+      "eval_accuracy": 0.8252309925385912,
+      "eval_loss": 0.9011866450309753,
+      "eval_runtime": 367.843,
+      "eval_samples_per_second": 172.473,
+      "eval_steps_per_second": 5.391,
+      "step": 80500
+    },
+    {
+      "epoch": 8.458646616541353,
+      "grad_norm": 2.3451640605926514,
+      "learning_rate": 1.9e-05,
+      "loss": 0.8313,
+      "step": 81000
+    },
+    {
+      "epoch": 8.458646616541353,
+      "eval_accuracy": 0.8259800217048817,
+      "eval_loss": 0.8837263584136963,
+      "eval_runtime": 367.6187,
+      "eval_samples_per_second": 172.578,
+      "eval_steps_per_second": 5.394,
+      "step": 81000
+    },
+    {
+      "epoch": 8.510860484544695,
+      "grad_norm": 2.6211562156677246,
+      "learning_rate": 1.85e-05,
+      "loss": 0.8289,
+      "step": 81500
+    },
+    {
+      "epoch": 8.510860484544695,
+      "eval_accuracy": 0.8257132907861338,
+      "eval_loss": 0.8861507773399353,
+      "eval_runtime": 367.3072,
+      "eval_samples_per_second": 172.725,
+      "eval_steps_per_second": 5.399,
+      "step": 81500
+    },
+    {
+      "epoch": 8.563074352548037,
+      "grad_norm": 2.1193125247955322,
+      "learning_rate": 1.8e-05,
+      "loss": 0.8337,
+      "step": 82000
+    },
+    {
+      "epoch": 8.563074352548037,
+      "eval_accuracy": 0.8263971078151469,
+      "eval_loss": 0.8711854815483093,
+      "eval_runtime": 366.8982,
+      "eval_samples_per_second": 172.917,
+      "eval_steps_per_second": 5.405,
+      "step": 82000
+    },
+    {
+      "epoch": 8.615288220551378,
+      "grad_norm": 2.5682766437530518,
+      "learning_rate": 1.75e-05,
+      "loss": 0.8207,
+      "step": 82500
+    },
+    {
+      "epoch": 8.615288220551378,
+      "eval_accuracy": 0.8263459457288101,
+      "eval_loss": 0.8814241886138916,
+      "eval_runtime": 366.9346,
+      "eval_samples_per_second": 172.9,
+      "eval_steps_per_second": 5.404,
+      "step": 82500
+    },
+    {
+      "epoch": 8.66750208855472,
+      "grad_norm": 2.460284471511841,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.8273,
+      "step": 83000
+    },
+    {
+      "epoch": 8.66750208855472,
+      "eval_accuracy": 0.8265486834185438,
+      "eval_loss": 0.8726556301116943,
+      "eval_runtime": 367.479,
+      "eval_samples_per_second": 172.644,
+      "eval_steps_per_second": 5.396,
+      "step": 83000
+    },
+    {
+      "epoch": 8.719715956558062,
+      "grad_norm": 2.519878625869751,
+      "learning_rate": 1.65e-05,
+      "loss": 0.8212,
+      "step": 83500
+    },
+    {
+      "epoch": 8.719715956558062,
+      "eval_accuracy": 0.8265830712467154,
+      "eval_loss": 0.8803038001060486,
+      "eval_runtime": 368.0421,
+      "eval_samples_per_second": 172.38,
+      "eval_steps_per_second": 5.388,
+      "step": 83500
+    },
+    {
+      "epoch": 8.771929824561404,
+      "grad_norm": 2.9779090881347656,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.8267,
+      "step": 84000
+    },
+    {
+      "epoch": 8.771929824561404,
+      "eval_accuracy": 0.8266352426703358,
+      "eval_loss": NaN,
+      "eval_runtime": 370.1684,
+      "eval_samples_per_second": 171.39,
+      "eval_steps_per_second": 5.357,
+      "step": 84000
+    },
+    {
+      "epoch": 8.824143692564745,
+      "grad_norm": 2.5584726333618164,
+      "learning_rate": 1.55e-05,
+      "loss": 0.8236,
+      "step": 84500
+    },
+    {
+      "epoch": 8.824143692564745,
+      "eval_accuracy": 0.8272979799699072,
+      "eval_loss": 0.8709605932235718,
+      "eval_runtime": 367.2687,
+      "eval_samples_per_second": 172.743,
+      "eval_steps_per_second": 5.399,
+      "step": 84500
+    },
+    {
+      "epoch": 8.876357560568087,
+      "grad_norm": 2.8752248287200928,
+      "learning_rate": 1.5e-05,
+      "loss": 0.8284,
+      "step": 85000
+    },
+    {
+      "epoch": 8.876357560568087,
+      "eval_accuracy": 0.8270593176674245,
+      "eval_loss": 0.8703105449676514,
+      "eval_runtime": 367.121,
+      "eval_samples_per_second": 172.812,
+      "eval_steps_per_second": 5.401,
+      "step": 85000
+    },
+    {
+      "epoch": 8.928571428571429,
+      "grad_norm": 2.441423177719116,
+      "learning_rate": 1.45e-05,
+      "loss": 0.8305,
+      "step": 85500
+    },
+    {
+      "epoch": 8.928571428571429,
+      "eval_accuracy": 0.8273055974821587,
+      "eval_loss": 0.8782740831375122,
+      "eval_runtime": 367.2074,
+      "eval_samples_per_second": 172.772,
+      "eval_steps_per_second": 5.4,
+      "step": 85500
+    },
+    {
+      "epoch": 8.980785296574771,
+      "grad_norm": 2.5627357959747314,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.824,
+      "step": 86000
+    },
+    {
+      "epoch": 8.980785296574771,
+      "eval_accuracy": 0.8278787560948533,
+      "eval_loss": 0.8767423033714294,
+      "eval_runtime": 367.8162,
+      "eval_samples_per_second": 172.486,
+      "eval_steps_per_second": 5.391,
+      "step": 86000
+    },
+    {
+      "epoch": 9.032999164578111,
+      "grad_norm": 2.9659039974212646,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 0.8111,
+      "step": 86500
+    },
+    {
+      "epoch": 9.032999164578111,
+      "eval_accuracy": 0.8281429418603345,
+      "eval_loss": NaN,
+      "eval_runtime": 365.8491,
+      "eval_samples_per_second": 173.413,
+      "eval_steps_per_second": 5.42,
+      "step": 86500
+    },
+    {
+      "epoch": 9.085213032581454,
+      "grad_norm": 2.6677966117858887,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.8114,
+      "step": 87000
+    },
+    {
+      "epoch": 9.085213032581454,
+      "eval_accuracy": 0.8280896401382127,
+      "eval_loss": 0.8696718215942383,
+      "eval_runtime": 368.939,
+      "eval_samples_per_second": 171.961,
+      "eval_steps_per_second": 5.375,
+      "step": 87000
+    },
+    {
+      "epoch": 9.137426900584796,
+      "grad_norm": 2.8159141540527344,
+      "learning_rate": 1.25e-05,
+      "loss": 0.8214,
+      "step": 87500
+    },
+    {
+      "epoch": 9.137426900584796,
+      "eval_accuracy": 0.8287721660611849,
+      "eval_loss": 0.865568995475769,
+      "eval_runtime": 367.5282,
+      "eval_samples_per_second": 172.621,
+      "eval_steps_per_second": 5.396,
+      "step": 87500
+    },
+    {
+      "epoch": 9.189640768588138,
+      "grad_norm": 2.44439959526062,
+      "learning_rate": 1.2e-05,
+      "loss": 0.8117,
+      "step": 88000
+    },
+    {
+      "epoch": 9.189640768588138,
+      "eval_accuracy": 0.8286521507089889,
+      "eval_loss": 0.8658538460731506,
+      "eval_runtime": 365.9254,
+      "eval_samples_per_second": 173.377,
+      "eval_steps_per_second": 5.419,
+      "step": 88000
+    },
+    {
+      "epoch": 9.241854636591478,
+      "grad_norm": 2.686903953552246,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.8176,
+      "step": 88500
+    },
+    {
+      "epoch": 9.241854636591478,
+      "eval_accuracy": 0.8286974413686677,
+      "eval_loss": 0.8724528551101685,
+      "eval_runtime": 366.9175,
+      "eval_samples_per_second": 172.908,
+      "eval_steps_per_second": 5.404,
+      "step": 88500
+    },
+    {
+      "epoch": 9.29406850459482,
+      "grad_norm": 2.9780402183532715,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.8098,
+      "step": 89000
+    },
+    {
+      "epoch": 9.29406850459482,
+      "eval_accuracy": 0.8288113105821936,
+      "eval_loss": 0.8693479895591736,
+      "eval_runtime": 366.5706,
+      "eval_samples_per_second": 173.072,
+      "eval_steps_per_second": 5.41,
+      "step": 89000
+    },
+    {
+      "epoch": 9.346282372598163,
+      "grad_norm": 2.3616678714752197,
+      "learning_rate": 1.05e-05,
+      "loss": 0.8101,
+      "step": 89500
+    },
+    {
+      "epoch": 9.346282372598163,
+      "eval_accuracy": 0.8288534544077049,
+      "eval_loss": 0.8676702380180359,
+      "eval_runtime": 367.6956,
+      "eval_samples_per_second": 172.542,
+      "eval_steps_per_second": 5.393,
+      "step": 89500
+    },
+    {
+      "epoch": 9.398496240601503,
+      "grad_norm": 2.4607014656066895,
+      "learning_rate": 1e-05,
+      "loss": 0.8074,
+      "step": 90000
+    },
+    {
+      "epoch": 9.398496240601503,
+      "eval_accuracy": 0.8293368416792034,
+      "eval_loss": 0.868602454662323,
+      "eval_runtime": 370.3428,
+      "eval_samples_per_second": 171.309,
+      "eval_steps_per_second": 5.354,
+      "step": 90000
+    },
+    {
+      "epoch": 9.450710108604845,
+      "grad_norm": 2.303865432739258,
+      "learning_rate": 9.5e-06,
+      "loss": 0.8075,
+      "step": 90500
+    },
+    {
+      "epoch": 9.450710108604845,
+      "eval_accuracy": 0.829557819292624,
+      "eval_loss": 0.8760720491409302,
+      "eval_runtime": 366.9515,
+      "eval_samples_per_second": 172.892,
+      "eval_steps_per_second": 5.404,
+      "step": 90500
+    },
+    {
+      "epoch": 9.502923976608187,
+      "grad_norm": 3.1800107955932617,
+      "learning_rate": 9e-06,
+      "loss": 0.813,
+      "step": 91000
+    },
+    {
+      "epoch": 9.502923976608187,
+      "eval_accuracy": 0.8293719470428488,
+      "eval_loss": 0.8725053668022156,
+      "eval_runtime": 366.7268,
+      "eval_samples_per_second": 172.998,
+      "eval_steps_per_second": 5.407,
+      "step": 91000
+    },
+    {
+      "epoch": 9.55513784461153,
+      "grad_norm": 2.895458698272705,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.8142,
+      "step": 91500
+    },
+    {
+      "epoch": 9.55513784461153,
+      "eval_accuracy": 0.8299493767535929,
+      "eval_loss": 0.8597660660743713,
+      "eval_runtime": 366.9591,
+      "eval_samples_per_second": 172.888,
+      "eval_steps_per_second": 5.404,
+      "step": 91500
+    },
+    {
+      "epoch": 9.60735171261487,
+      "grad_norm": 2.494898796081543,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.8028,
+      "step": 92000
+    },
+    {
+      "epoch": 9.60735171261487,
+      "eval_accuracy": 0.8296925250842329,
+      "eval_loss": 0.8663123250007629,
+      "eval_runtime": 366.9071,
+      "eval_samples_per_second": 172.913,
+      "eval_steps_per_second": 5.405,
+      "step": 92000
+    },
+    {
+      "epoch": 9.659565580618212,
+      "grad_norm": 2.6649532318115234,
+      "learning_rate": 7.5e-06,
+      "loss": 0.8051,
+      "step": 92500
+    },
+    {
+      "epoch": 9.659565580618212,
+      "eval_accuracy": 0.8297183234153672,
+      "eval_loss": 0.8609718084335327,
+      "eval_runtime": 369.3381,
+      "eval_samples_per_second": 171.775,
+      "eval_steps_per_second": 5.369,
+      "step": 92500
+    },
+    {
+      "epoch": 9.711779448621554,
+      "grad_norm": 2.708948850631714,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.7982,
+      "step": 93000
+    },
+    {
+      "epoch": 9.711779448621554,
+      "eval_accuracy": 0.8295886536989987,
+      "eval_loss": 0.8697434067726135,
+      "eval_runtime": 367.9632,
+      "eval_samples_per_second": 172.417,
+      "eval_steps_per_second": 5.389,
+      "step": 93000
+    },
+    {
+      "epoch": 9.763993316624896,
+      "grad_norm": 2.320215940475464,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.7985,
+      "step": 93500
+    },
+    {
+      "epoch": 9.763993316624896,
+      "eval_accuracy": 0.8301079266760504,
+      "eval_loss": 0.8655940890312195,
+      "eval_runtime": 366.2895,
+      "eval_samples_per_second": 173.205,
+      "eval_steps_per_second": 5.414,
+      "step": 93500
+    },
+    {
+      "epoch": 9.816207184628237,
+      "grad_norm": 2.776233673095703,
+      "learning_rate": 6e-06,
+      "loss": 0.8016,
+      "step": 94000
+    },
+    {
+      "epoch": 9.816207184628237,
+      "eval_accuracy": 0.8302324108540118,
+      "eval_loss": 0.8625151515007019,
+      "eval_runtime": 367.8541,
+      "eval_samples_per_second": 172.468,
+      "eval_steps_per_second": 5.391,
+      "step": 94000
+    },
+    {
+      "epoch": 9.868421052631579,
+      "grad_norm": 2.461749792098999,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.8044,
+      "step": 94500
+    },
+    {
+      "epoch": 9.868421052631579,
+      "eval_accuracy": 0.8303814560823992,
+      "eval_loss": NaN,
+      "eval_runtime": 366.9598,
+      "eval_samples_per_second": 172.888,
+      "eval_steps_per_second": 5.404,
+      "step": 94500
+    },
+    {
+      "epoch": 9.920634920634921,
+      "grad_norm": 2.611931085586548,
+      "learning_rate": 5e-06,
+      "loss": 0.8,
+      "step": 95000
+    },
+    {
+      "epoch": 9.920634920634921,
+      "eval_accuracy": 0.8306366115947627,
+      "eval_loss": 0.8623033165931702,
+      "eval_runtime": 368.1962,
+      "eval_samples_per_second": 172.308,
+      "eval_steps_per_second": 5.386,
+      "step": 95000
+    },
+    {
+      "epoch": 9.972848788638263,
+      "grad_norm": 2.500162363052368,
+      "learning_rate": 4.5e-06,
+      "loss": 0.7972,
+      "step": 95500
+    },
+    {
+      "epoch": 9.972848788638263,
+      "eval_accuracy": 0.8306005889087491,
+      "eval_loss": 0.8600591421127319,
+      "eval_runtime": 369.0733,
+      "eval_samples_per_second": 171.898,
+      "eval_steps_per_second": 5.373,
+      "step": 95500
+    },
+    {
+      "epoch": 10.025062656641603,
+      "grad_norm": 3.495044231414795,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.7929,
+      "step": 96000
+    },
+    {
+      "epoch": 10.025062656641603,
+      "eval_accuracy": 0.8308683319034997,
+      "eval_loss": 0.8547109961509705,
+      "eval_runtime": 368.4222,
+      "eval_samples_per_second": 172.202,
+      "eval_steps_per_second": 5.382,
+      "step": 96000
+    },
+    {
+      "epoch": 10.077276524644946,
+      "grad_norm": 2.7070469856262207,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.7903,
+      "step": 96500
+    },
+    {
+      "epoch": 10.077276524644946,
+      "eval_accuracy": 0.8307715292279126,
+      "eval_loss": 0.8600655198097229,
+      "eval_runtime": 366.9772,
+      "eval_samples_per_second": 172.88,
+      "eval_steps_per_second": 5.404,
+      "step": 96500
+    },
+    {
+      "epoch": 10.129490392648288,
+      "grad_norm": 3.4624171257019043,
+      "learning_rate": 3e-06,
+      "loss": 0.7898,
+      "step": 97000
+    },
+    {
+      "epoch": 10.129490392648288,
+      "eval_accuracy": 0.831032096060647,
+      "eval_loss": 0.853934109210968,
+      "eval_runtime": 368.4043,
+      "eval_samples_per_second": 172.21,
+      "eval_steps_per_second": 5.383,
+      "step": 97000
+    },
+    {
+      "epoch": 10.18170426065163,
+      "grad_norm": 2.6027026176452637,
+      "learning_rate": 2.5e-06,
+      "loss": 0.7994,
+      "step": 97500
+    },
+    {
+      "epoch": 10.18170426065163,
+      "eval_accuracy": 0.8308584971832438,
+      "eval_loss": 0.8530024886131287,
+      "eval_runtime": 366.5565,
+      "eval_samples_per_second": 173.078,
+      "eval_steps_per_second": 5.41,
+      "step": 97500
+    },
+    {
+      "epoch": 10.23391812865497,
+      "grad_norm": 2.5377743244171143,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.7926,
+      "step": 98000
+    },
+    {
+      "epoch": 10.23391812865497,
+      "eval_accuracy": 0.8310957564926591,
+      "eval_loss": 0.8588021993637085,
+      "eval_runtime": 366.0793,
+      "eval_samples_per_second": 173.304,
+      "eval_steps_per_second": 5.417,
+      "step": 98000
+    },
+    {
+      "epoch": 10.286131996658312,
+      "grad_norm": 2.9179139137268066,
+      "learning_rate": 1.5e-06,
+      "loss": 0.785,
+      "step": 98500
+    },
+    {
+      "epoch": 10.286131996658312,
+      "eval_accuracy": 0.8314594660073593,
+      "eval_loss": 0.8528650403022766,
+      "eval_runtime": 366.8402,
+      "eval_samples_per_second": 172.945,
+      "eval_steps_per_second": 5.406,
+      "step": 98500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 100000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 11,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.304812876669911e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71160b812b1ac68a1cc3d833569a3f1f519d777db07a56cf7f682d12dff9f302
+size 5176

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff