Uploading checkpoint-99000 for mbert - mlt-latn

Browse files

Files changed (14) hide show

README.md +67 -0
config.json +37 -0
generation_config.json +5 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +55 -0
trainer_state.json +3201 -0
training_args.bin +3 -0
vocab.txt +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,67 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: google-bert/bert-base-multilingual-cased
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: mlt-Latn
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# mlt-Latn
+This model is a fine-tuned version of [google-bert/bert-base-multilingual-cased](https://huggingface.co/google-bert/bert-base-multilingual-cased) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4921
+- Accuracy: 0.9162
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- training_steps: 100000
+    ### Citation Information
+    If you use this model in your work, please cite the following paper. Additionally, if you require more details on training and performance, refer to the paper:
+    @misc{gurgurov2025smallmodelsbigimpact,
+        title={Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages},
+        author={Daniil Gurgurov and Ivan Vykopal and Josef van Genabith and Simon Ostermann},
+        year={2025},
+        eprint={2502.10140},
+        archivePrefix={arXiv},
+        primaryClass={cs.CL},
+        url={https://arxiv.org/abs/2502.10140},
+    }

config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "_name_or_path": "google-bert/bert-base-multilingual-cased",
+  "adapters": {
+    "adapters": {},
+    "config_map": {},
+    "fusion_config_map": {},
+    "fusions": {}
+  },
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "_from_model_config": true,
+  "pad_token_id": 0,
+  "transformers_version": "4.45.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd5ce4c7f4ce475dbd538d3d2c516e48ea6814521011907557b3f979ed29221e
+size 711921812

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:554f5a49e355fffcac910b7f7c20036778023a111eee673676095a6d93f8b28d
+size 1423965114

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7bc31a03758ad3846bd5d8236bd270fa8c9867a7295108ec04a7d4a7f3121c7b
+size 14512

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9cfd84d77c6613698767788df6e08b5d768bf445bf48de23936380752473535c
+size 14512

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4415404b182ca8f419ce636856a8efa57ef9cce9de682e39e40579cf7bbd5cfa
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3201 @@

+{
+  "best_metric": 0.4882655441761017,
+  "best_model_checkpoint": "./model_fine-tune/glot/mbert/mlt-Latn/checkpoint-99000",
+  "epoch": 45.020463847203274,
+  "eval_steps": 500,
+  "global_step": 99000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.22737608003638018,
+      "grad_norm": 3.6456298828125,
+      "learning_rate": 9.95e-05,
+      "loss": 1.6262,
+      "step": 500
+    },
+    {
+      "epoch": 0.22737608003638018,
+      "eval_accuracy": 0.7730853426906609,
+      "eval_loss": 1.2649915218353271,
+      "eval_runtime": 31.6229,
+      "eval_samples_per_second": 481.866,
+      "eval_steps_per_second": 15.084,
+      "step": 500
+    },
+    {
+      "epoch": 0.45475216007276037,
+      "grad_norm": 4.187455177307129,
+      "learning_rate": 9.900000000000001e-05,
+      "loss": 1.1501,
+      "step": 1000
+    },
+    {
+      "epoch": 0.45475216007276037,
+      "eval_accuracy": 0.8055056158054477,
+      "eval_loss": 1.071039080619812,
+      "eval_runtime": 32.4866,
+      "eval_samples_per_second": 469.055,
+      "eval_steps_per_second": 14.683,
+      "step": 1000
+    },
+    {
+      "epoch": 0.6821282401091405,
+      "grad_norm": 2.9080049991607666,
+      "learning_rate": 9.850000000000001e-05,
+      "loss": 1.0315,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6821282401091405,
+      "eval_accuracy": 0.8201615883225247,
+      "eval_loss": 0.9629034399986267,
+      "eval_runtime": 31.5078,
+      "eval_samples_per_second": 483.626,
+      "eval_steps_per_second": 15.139,
+      "step": 1500
+    },
+    {
+      "epoch": 0.9095043201455207,
+      "grad_norm": 3.5534873008728027,
+      "learning_rate": 9.8e-05,
+      "loss": 0.9623,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9095043201455207,
+      "eval_accuracy": 0.827454282848158,
+      "eval_loss": 0.9285168647766113,
+      "eval_runtime": 32.5186,
+      "eval_samples_per_second": 468.593,
+      "eval_steps_per_second": 14.669,
+      "step": 2000
+    },
+    {
+      "epoch": 1.1368804001819008,
+      "grad_norm": 3.041624069213867,
+      "learning_rate": 9.75e-05,
+      "loss": 0.9065,
+      "step": 2500
+    },
+    {
+      "epoch": 1.1368804001819008,
+      "eval_accuracy": 0.8343589346646799,
+      "eval_loss": 0.9026671051979065,
+      "eval_runtime": 31.4985,
+      "eval_samples_per_second": 483.769,
+      "eval_steps_per_second": 15.144,
+      "step": 2500
+    },
+    {
+      "epoch": 1.364256480218281,
+      "grad_norm": 3.3451454639434814,
+      "learning_rate": 9.7e-05,
+      "loss": 0.8696,
+      "step": 3000
+    },
+    {
+      "epoch": 1.364256480218281,
+      "eval_accuracy": 0.8405979632481596,
+      "eval_loss": 0.8512313365936279,
+      "eval_runtime": 32.5429,
+      "eval_samples_per_second": 468.243,
+      "eval_steps_per_second": 14.658,
+      "step": 3000
+    },
+    {
+      "epoch": 1.591632560254661,
+      "grad_norm": 3.4678544998168945,
+      "learning_rate": 9.65e-05,
+      "loss": 0.8436,
+      "step": 3500
+    },
+    {
+      "epoch": 1.591632560254661,
+      "eval_accuracy": 0.8461289597261696,
+      "eval_loss": 0.8300595879554749,
+      "eval_runtime": 32.5964,
+      "eval_samples_per_second": 467.475,
+      "eval_steps_per_second": 14.634,
+      "step": 3500
+    },
+    {
+      "epoch": 1.8190086402910413,
+      "grad_norm": 21.780845642089844,
+      "learning_rate": 9.6e-05,
+      "loss": 0.8104,
+      "step": 4000
+    },
+    {
+      "epoch": 1.8190086402910413,
+      "eval_accuracy": 0.8489302505624955,
+      "eval_loss": 0.798919141292572,
+      "eval_runtime": 32.5392,
+      "eval_samples_per_second": 468.297,
+      "eval_steps_per_second": 14.659,
+      "step": 4000
+    },
+    {
+      "epoch": 2.0463847203274215,
+      "grad_norm": 3.599536895751953,
+      "learning_rate": 9.55e-05,
+      "loss": 0.7908,
+      "step": 4500
+    },
+    {
+      "epoch": 2.0463847203274215,
+      "eval_accuracy": 0.8513218275815332,
+      "eval_loss": 0.8141258955001831,
+      "eval_runtime": 34.7129,
+      "eval_samples_per_second": 438.972,
+      "eval_steps_per_second": 13.741,
+      "step": 4500
+    },
+    {
+      "epoch": 2.2737608003638017,
+      "grad_norm": 3.653501272201538,
+      "learning_rate": 9.5e-05,
+      "loss": 0.764,
+      "step": 5000
+    },
+    {
+      "epoch": 2.2737608003638017,
+      "eval_accuracy": 0.8543282540646533,
+      "eval_loss": 0.797082781791687,
+      "eval_runtime": 34.8873,
+      "eval_samples_per_second": 436.778,
+      "eval_steps_per_second": 13.673,
+      "step": 5000
+    },
+    {
+      "epoch": 2.501136880400182,
+      "grad_norm": 3.659949541091919,
+      "learning_rate": 9.449999999999999e-05,
+      "loss": 0.7593,
+      "step": 5500
+    },
+    {
+      "epoch": 2.501136880400182,
+      "eval_accuracy": 0.856360096585786,
+      "eval_loss": 0.7725093960762024,
+      "eval_runtime": 34.9858,
+      "eval_samples_per_second": 435.548,
+      "eval_steps_per_second": 13.634,
+      "step": 5500
+    },
+    {
+      "epoch": 2.728512960436562,
+      "grad_norm": 2.9741833209991455,
+      "learning_rate": 9.4e-05,
+      "loss": 0.746,
+      "step": 6000
+    },
+    {
+      "epoch": 2.728512960436562,
+      "eval_accuracy": 0.858914082355649,
+      "eval_loss": 0.7522701621055603,
+      "eval_runtime": 34.645,
+      "eval_samples_per_second": 439.832,
+      "eval_steps_per_second": 13.768,
+      "step": 6000
+    },
+    {
+      "epoch": 2.9558890404729423,
+      "grad_norm": 4.469085216522217,
+      "learning_rate": 9.350000000000001e-05,
+      "loss": 0.7375,
+      "step": 6500
+    },
+    {
+      "epoch": 2.9558890404729423,
+      "eval_accuracy": 0.859327207247945,
+      "eval_loss": 0.7622689008712769,
+      "eval_runtime": 34.9525,
+      "eval_samples_per_second": 435.963,
+      "eval_steps_per_second": 13.647,
+      "step": 6500
+    },
+    {
+      "epoch": 3.1832651205093225,
+      "grad_norm": 2.7395009994506836,
+      "learning_rate": 9.300000000000001e-05,
+      "loss": 0.7097,
+      "step": 7000
+    },
+    {
+      "epoch": 3.1832651205093225,
+      "eval_accuracy": 0.8622033171867798,
+      "eval_loss": 0.747955858707428,
+      "eval_runtime": 34.3537,
+      "eval_samples_per_second": 443.562,
+      "eval_steps_per_second": 13.885,
+      "step": 7000
+    },
+    {
+      "epoch": 3.4106412005457027,
+      "grad_norm": 2.673288106918335,
+      "learning_rate": 9.250000000000001e-05,
+      "loss": 0.7099,
+      "step": 7500
+    },
+    {
+      "epoch": 3.4106412005457027,
+      "eval_accuracy": 0.865153606791071,
+      "eval_loss": 0.7201125025749207,
+      "eval_runtime": 34.8864,
+      "eval_samples_per_second": 436.789,
+      "eval_steps_per_second": 13.673,
+      "step": 7500
+    },
+    {
+      "epoch": 3.6380172805820825,
+      "grad_norm": 3.1898393630981445,
+      "learning_rate": 9.200000000000001e-05,
+      "loss": 0.696,
+      "step": 8000
+    },
+    {
+      "epoch": 3.6380172805820825,
+      "eval_accuracy": 0.8656054006196005,
+      "eval_loss": 0.7262857556343079,
+      "eval_runtime": 33.8112,
+      "eval_samples_per_second": 450.679,
+      "eval_steps_per_second": 14.108,
+      "step": 8000
+    },
+    {
+      "epoch": 3.865393360618463,
+      "grad_norm": 4.6935529708862305,
+      "learning_rate": 9.15e-05,
+      "loss": 0.6999,
+      "step": 8500
+    },
+    {
+      "epoch": 3.865393360618463,
+      "eval_accuracy": 0.8663027154541763,
+      "eval_loss": 0.7238621115684509,
+      "eval_runtime": 34.0689,
+      "eval_samples_per_second": 447.271,
+      "eval_steps_per_second": 14.001,
+      "step": 8500
+    },
+    {
+      "epoch": 4.092769440654843,
+      "grad_norm": 3.132990598678589,
+      "learning_rate": 9.1e-05,
+      "loss": 0.6801,
+      "step": 9000
+    },
+    {
+      "epoch": 4.092769440654843,
+      "eval_accuracy": 0.8682838161725674,
+      "eval_loss": 0.7101739048957825,
+      "eval_runtime": 33.8325,
+      "eval_samples_per_second": 450.395,
+      "eval_steps_per_second": 14.099,
+      "step": 9000
+    },
+    {
+      "epoch": 4.320145520691224,
+      "grad_norm": 3.1149518489837646,
+      "learning_rate": 9.05e-05,
+      "loss": 0.6675,
+      "step": 9500
+    },
+    {
+      "epoch": 4.320145520691224,
+      "eval_accuracy": 0.8696700816141866,
+      "eval_loss": 0.7028376460075378,
+      "eval_runtime": 34.8653,
+      "eval_samples_per_second": 437.054,
+      "eval_steps_per_second": 13.681,
+      "step": 9500
+    },
+    {
+      "epoch": 4.547521600727603,
+      "grad_norm": 3.1896743774414062,
+      "learning_rate": 9e-05,
+      "loss": 0.6587,
+      "step": 10000
+    },
+    {
+      "epoch": 4.547521600727603,
+      "eval_accuracy": 0.8709308192931519,
+      "eval_loss": 0.6970449686050415,
+      "eval_runtime": 34.1547,
+      "eval_samples_per_second": 446.147,
+      "eval_steps_per_second": 13.966,
+      "step": 10000
+    },
+    {
+      "epoch": 4.774897680763983,
+      "grad_norm": 2.4510085582733154,
+      "learning_rate": 8.950000000000001e-05,
+      "loss": 0.6565,
+      "step": 10500
+    },
+    {
+      "epoch": 4.774897680763983,
+      "eval_accuracy": 0.8713051922493725,
+      "eval_loss": 0.6987766623497009,
+      "eval_runtime": 34.6354,
+      "eval_samples_per_second": 439.955,
+      "eval_steps_per_second": 13.772,
+      "step": 10500
+    },
+    {
+      "epoch": 5.002273760800364,
+      "grad_norm": 2.4753236770629883,
+      "learning_rate": 8.900000000000001e-05,
+      "loss": 0.6564,
+      "step": 11000
+    },
+    {
+      "epoch": 5.002273760800364,
+      "eval_accuracy": 0.8719450544496751,
+      "eval_loss": 0.6877201795578003,
+      "eval_runtime": 34.9052,
+      "eval_samples_per_second": 436.553,
+      "eval_steps_per_second": 13.666,
+      "step": 11000
+    },
+    {
+      "epoch": 5.229649840836744,
+      "grad_norm": 2.689784526824951,
+      "learning_rate": 8.850000000000001e-05,
+      "loss": 0.6294,
+      "step": 11500
+    },
+    {
+      "epoch": 5.229649840836744,
+      "eval_accuracy": 0.8725466807654614,
+      "eval_loss": 0.7016832828521729,
+      "eval_runtime": 34.9443,
+      "eval_samples_per_second": 436.065,
+      "eval_steps_per_second": 13.65,
+      "step": 11500
+    },
+    {
+      "epoch": 5.457025920873124,
+      "grad_norm": 2.5944247245788574,
+      "learning_rate": 8.800000000000001e-05,
+      "loss": 0.6438,
+      "step": 12000
+    },
+    {
+      "epoch": 5.457025920873124,
+      "eval_accuracy": 0.8738853010432599,
+      "eval_loss": 0.6746038198471069,
+      "eval_runtime": 34.8136,
+      "eval_samples_per_second": 437.702,
+      "eval_steps_per_second": 13.702,
+      "step": 12000
+    },
+    {
+      "epoch": 5.684402000909504,
+      "grad_norm": 2.799015760421753,
+      "learning_rate": 8.75e-05,
+      "loss": 0.6266,
+      "step": 12500
+    },
+    {
+      "epoch": 5.684402000909504,
+      "eval_accuracy": 0.8748976288586665,
+      "eval_loss": 0.6804702877998352,
+      "eval_runtime": 34.9715,
+      "eval_samples_per_second": 435.726,
+      "eval_steps_per_second": 13.64,
+      "step": 12500
+    },
+    {
+      "epoch": 5.911778080945885,
+      "grad_norm": 3.0050463676452637,
+      "learning_rate": 8.7e-05,
+      "loss": 0.6332,
+      "step": 13000
+    },
+    {
+      "epoch": 5.911778080945885,
+      "eval_accuracy": 0.8750289806538035,
+      "eval_loss": 0.6853229403495789,
+      "eval_runtime": 34.0102,
+      "eval_samples_per_second": 448.041,
+      "eval_steps_per_second": 14.025,
+      "step": 13000
+    },
+    {
+      "epoch": 6.139154160982264,
+      "grad_norm": 3.1468307971954346,
+      "learning_rate": 8.65e-05,
+      "loss": 0.6257,
+      "step": 13500
+    },
+    {
+      "epoch": 6.139154160982264,
+      "eval_accuracy": 0.8770626280480457,
+      "eval_loss": 0.6783130764961243,
+      "eval_runtime": 34.8957,
+      "eval_samples_per_second": 436.672,
+      "eval_steps_per_second": 13.669,
+      "step": 13500
+    },
+    {
+      "epoch": 6.366530241018645,
+      "grad_norm": 2.485469102859497,
+      "learning_rate": 8.6e-05,
+      "loss": 0.6112,
+      "step": 14000
+    },
+    {
+      "epoch": 6.366530241018645,
+      "eval_accuracy": 0.8774595335900176,
+      "eval_loss": 0.6619518399238586,
+      "eval_runtime": 32.7824,
+      "eval_samples_per_second": 464.822,
+      "eval_steps_per_second": 14.55,
+      "step": 14000
+    },
+    {
+      "epoch": 6.593906321055025,
+      "grad_norm": 2.2372210025787354,
+      "learning_rate": 8.55e-05,
+      "loss": 0.6064,
+      "step": 14500
+    },
+    {
+      "epoch": 6.593906321055025,
+      "eval_accuracy": 0.8783262916018086,
+      "eval_loss": 0.660144567489624,
+      "eval_runtime": 32.8384,
+      "eval_samples_per_second": 464.03,
+      "eval_steps_per_second": 14.526,
+      "step": 14500
+    },
+    {
+      "epoch": 6.8212824010914055,
+      "grad_norm": 2.4045872688293457,
+      "learning_rate": 8.5e-05,
+      "loss": 0.6049,
+      "step": 15000
+    },
+    {
+      "epoch": 6.8212824010914055,
+      "eval_accuracy": 0.8777994369334928,
+      "eval_loss": 0.6703624129295349,
+      "eval_runtime": 31.88,
+      "eval_samples_per_second": 477.981,
+      "eval_steps_per_second": 14.962,
+      "step": 15000
+    },
+    {
+      "epoch": 7.048658481127785,
+      "grad_norm": 4.930024147033691,
+      "learning_rate": 8.450000000000001e-05,
+      "loss": 0.6001,
+      "step": 15500
+    },
+    {
+      "epoch": 7.048658481127785,
+      "eval_accuracy": 0.8787791891870121,
+      "eval_loss": 0.6632522344589233,
+      "eval_runtime": 32.8472,
+      "eval_samples_per_second": 463.906,
+      "eval_steps_per_second": 14.522,
+      "step": 15500
+    },
+    {
+      "epoch": 7.276034561164166,
+      "grad_norm": 2.33658504486084,
+      "learning_rate": 8.4e-05,
+      "loss": 0.5889,
+      "step": 16000
+    },
+    {
+      "epoch": 7.276034561164166,
+      "eval_accuracy": 0.8800836374204799,
+      "eval_loss": 0.6591240763664246,
+      "eval_runtime": 32.827,
+      "eval_samples_per_second": 464.191,
+      "eval_steps_per_second": 14.531,
+      "step": 16000
+    },
+    {
+      "epoch": 7.503410641200546,
+      "grad_norm": 3.9054555892944336,
+      "learning_rate": 8.35e-05,
+      "loss": 0.5913,
+      "step": 16500
+    },
+    {
+      "epoch": 7.503410641200546,
+      "eval_accuracy": 0.8811457687938868,
+      "eval_loss": 0.6544212102890015,
+      "eval_runtime": 32.8466,
+      "eval_samples_per_second": 463.914,
+      "eval_steps_per_second": 14.522,
+      "step": 16500
+    },
+    {
+      "epoch": 7.730786721236926,
+      "grad_norm": 3.578624963760376,
+      "learning_rate": 8.3e-05,
+      "loss": 0.5884,
+      "step": 17000
+    },
+    {
+      "epoch": 7.730786721236926,
+      "eval_accuracy": 0.8811873686111147,
+      "eval_loss": 0.662954568862915,
+      "eval_runtime": 32.8583,
+      "eval_samples_per_second": 463.749,
+      "eval_steps_per_second": 14.517,
+      "step": 17000
+    },
+    {
+      "epoch": 7.958162801273306,
+      "grad_norm": 2.392240047454834,
+      "learning_rate": 8.25e-05,
+      "loss": 0.5821,
+      "step": 17500
+    },
+    {
+      "epoch": 7.958162801273306,
+      "eval_accuracy": 0.8821286707334374,
+      "eval_loss": 0.6414864659309387,
+      "eval_runtime": 31.9212,
+      "eval_samples_per_second": 477.363,
+      "eval_steps_per_second": 14.943,
+      "step": 17500
+    },
+    {
+      "epoch": 8.185538881309686,
+      "grad_norm": 2.8014936447143555,
+      "learning_rate": 8.2e-05,
+      "loss": 0.5725,
+      "step": 18000
+    },
+    {
+      "epoch": 8.185538881309686,
+      "eval_accuracy": 0.8820199658271615,
+      "eval_loss": 0.641411304473877,
+      "eval_runtime": 32.9027,
+      "eval_samples_per_second": 463.123,
+      "eval_steps_per_second": 14.497,
+      "step": 18000
+    },
+    {
+      "epoch": 8.412914961346067,
+      "grad_norm": 2.3196864128112793,
+      "learning_rate": 8.15e-05,
+      "loss": 0.5687,
+      "step": 18500
+    },
+    {
+      "epoch": 8.412914961346067,
+      "eval_accuracy": 0.882977694843806,
+      "eval_loss": 0.6500121355056763,
+      "eval_runtime": 35.1075,
+      "eval_samples_per_second": 434.039,
+      "eval_steps_per_second": 13.587,
+      "step": 18500
+    },
+    {
+      "epoch": 8.640291041382447,
+      "grad_norm": 2.0959160327911377,
+      "learning_rate": 8.1e-05,
+      "loss": 0.5716,
+      "step": 19000
+    },
+    {
+      "epoch": 8.640291041382447,
+      "eval_accuracy": 0.8830600846698087,
+      "eval_loss": 0.6408029198646545,
+      "eval_runtime": 34.9312,
+      "eval_samples_per_second": 436.229,
+      "eval_steps_per_second": 13.655,
+      "step": 19000
+    },
+    {
+      "epoch": 8.867667121418826,
+      "grad_norm": 2.594998598098755,
+      "learning_rate": 8.05e-05,
+      "loss": 0.5718,
+      "step": 19500
+    },
+    {
+      "epoch": 8.867667121418826,
+      "eval_accuracy": 0.8842278415688298,
+      "eval_loss": 0.6326043605804443,
+      "eval_runtime": 34.6336,
+      "eval_samples_per_second": 439.978,
+      "eval_steps_per_second": 13.773,
+      "step": 19500
+    },
+    {
+      "epoch": 9.095043201455207,
+      "grad_norm": 2.946044445037842,
+      "learning_rate": 8e-05,
+      "loss": 0.5599,
+      "step": 20000
+    },
+    {
+      "epoch": 9.095043201455207,
+      "eval_accuracy": 0.8860304024345182,
+      "eval_loss": 0.6145840287208557,
+      "eval_runtime": 35.1787,
+      "eval_samples_per_second": 433.159,
+      "eval_steps_per_second": 13.559,
+      "step": 20000
+    },
+    {
+      "epoch": 9.322419281491587,
+      "grad_norm": 2.285879373550415,
+      "learning_rate": 7.950000000000001e-05,
+      "loss": 0.5566,
+      "step": 20500
+    },
+    {
+      "epoch": 9.322419281491587,
+      "eval_accuracy": 0.8854829698666589,
+      "eval_loss": 0.6315300464630127,
+      "eval_runtime": 35.0994,
+      "eval_samples_per_second": 434.138,
+      "eval_steps_per_second": 13.59,
+      "step": 20500
+    },
+    {
+      "epoch": 9.549795361527968,
+      "grad_norm": 3.60970401763916,
+      "learning_rate": 7.900000000000001e-05,
+      "loss": 0.5507,
+      "step": 21000
+    },
+    {
+      "epoch": 9.549795361527968,
+      "eval_accuracy": 0.8851466600459794,
+      "eval_loss": 0.6236722469329834,
+      "eval_runtime": 35.2227,
+      "eval_samples_per_second": 432.619,
+      "eval_steps_per_second": 13.542,
+      "step": 21000
+    },
+    {
+      "epoch": 9.777171441564347,
+      "grad_norm": 2.406843423843384,
+      "learning_rate": 7.850000000000001e-05,
+      "loss": 0.5529,
+      "step": 21500
+    },
+    {
+      "epoch": 9.777171441564347,
+      "eval_accuracy": 0.8858670546746865,
+      "eval_loss": 0.6286270618438721,
+      "eval_runtime": 34.99,
+      "eval_samples_per_second": 435.496,
+      "eval_steps_per_second": 13.632,
+      "step": 21500
+    },
+    {
+      "epoch": 10.004547521600728,
+      "grad_norm": 2.198061466217041,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 0.5535,
+      "step": 22000
+    },
+    {
+      "epoch": 10.004547521600728,
+      "eval_accuracy": 0.8862023923992121,
+      "eval_loss": 0.6447569131851196,
+      "eval_runtime": 34.6457,
+      "eval_samples_per_second": 439.824,
+      "eval_steps_per_second": 13.768,
+      "step": 22000
+    },
+    {
+      "epoch": 10.231923601637108,
+      "grad_norm": 2.630204439163208,
+      "learning_rate": 7.75e-05,
+      "loss": 0.5462,
+      "step": 22500
+    },
+    {
+      "epoch": 10.231923601637108,
+      "eval_accuracy": 0.8875203016662285,
+      "eval_loss": 0.6208702921867371,
+      "eval_runtime": 34.9263,
+      "eval_samples_per_second": 436.29,
+      "eval_steps_per_second": 13.657,
+      "step": 22500
+    },
+    {
+      "epoch": 10.459299681673487,
+      "grad_norm": 2.8386332988739014,
+      "learning_rate": 7.7e-05,
+      "loss": 0.5338,
+      "step": 23000
+    },
+    {
+      "epoch": 10.459299681673487,
+      "eval_accuracy": 0.8869479591228265,
+      "eval_loss": 0.6332632899284363,
+      "eval_runtime": 35.2831,
+      "eval_samples_per_second": 431.879,
+      "eval_steps_per_second": 13.519,
+      "step": 23000
+    },
+    {
+      "epoch": 10.686675761709868,
+      "grad_norm": 1.9988718032836914,
+      "learning_rate": 7.65e-05,
+      "loss": 0.5388,
+      "step": 23500
+    },
+    {
+      "epoch": 10.686675761709868,
+      "eval_accuracy": 0.8874601901854517,
+      "eval_loss": 0.6201009750366211,
+      "eval_runtime": 33.9197,
+      "eval_samples_per_second": 449.238,
+      "eval_steps_per_second": 14.063,
+      "step": 23500
+    },
+    {
+      "epoch": 10.914051841746248,
+      "grad_norm": 1.991021752357483,
+      "learning_rate": 7.6e-05,
+      "loss": 0.538,
+      "step": 24000
+    },
+    {
+      "epoch": 10.914051841746248,
+      "eval_accuracy": 0.8874614337385308,
+      "eval_loss": 0.6168850064277649,
+      "eval_runtime": 34.762,
+      "eval_samples_per_second": 438.352,
+      "eval_steps_per_second": 13.722,
+      "step": 24000
+    },
+    {
+      "epoch": 11.141427921782629,
+      "grad_norm": 4.4386491775512695,
+      "learning_rate": 7.55e-05,
+      "loss": 0.523,
+      "step": 24500
+    },
+    {
+      "epoch": 11.141427921782629,
+      "eval_accuracy": 0.8893534276348779,
+      "eval_loss": 0.6048386693000793,
+      "eval_runtime": 33.7984,
+      "eval_samples_per_second": 450.85,
+      "eval_steps_per_second": 14.113,
+      "step": 24500
+    },
+    {
+      "epoch": 11.368804001819008,
+      "grad_norm": 2.1188158988952637,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.5253,
+      "step": 25000
+    },
+    {
+      "epoch": 11.368804001819008,
+      "eval_accuracy": 0.8884587041459525,
+      "eval_loss": 0.6149581074714661,
+      "eval_runtime": 34.1221,
+      "eval_samples_per_second": 446.573,
+      "eval_steps_per_second": 13.979,
+      "step": 25000
+    },
+    {
+      "epoch": 11.596180081855389,
+      "grad_norm": 4.15702486038208,
+      "learning_rate": 7.450000000000001e-05,
+      "loss": 0.5236,
+      "step": 25500
+    },
+    {
+      "epoch": 11.596180081855389,
+      "eval_accuracy": 0.8888612674680825,
+      "eval_loss": 0.6105242371559143,
+      "eval_runtime": 34.117,
+      "eval_samples_per_second": 446.64,
+      "eval_steps_per_second": 13.981,
+      "step": 25500
+    },
+    {
+      "epoch": 11.82355616189177,
+      "grad_norm": 2.6360466480255127,
+      "learning_rate": 7.4e-05,
+      "loss": 0.5291,
+      "step": 26000
+    },
+    {
+      "epoch": 11.82355616189177,
+      "eval_accuracy": 0.8889885381772583,
+      "eval_loss": 0.599651038646698,
+      "eval_runtime": 34.8897,
+      "eval_samples_per_second": 436.748,
+      "eval_steps_per_second": 13.672,
+      "step": 26000
+    },
+    {
+      "epoch": 12.05093224192815,
+      "grad_norm": 2.299792766571045,
+      "learning_rate": 7.35e-05,
+      "loss": 0.5247,
+      "step": 26500
+    },
+    {
+      "epoch": 12.05093224192815,
+      "eval_accuracy": 0.8902245874882583,
+      "eval_loss": 0.6177428960800171,
+      "eval_runtime": 34.0027,
+      "eval_samples_per_second": 448.14,
+      "eval_steps_per_second": 14.028,
+      "step": 26500
+    },
+    {
+      "epoch": 12.278308321964529,
+      "grad_norm": 2.4829318523406982,
+      "learning_rate": 7.3e-05,
+      "loss": 0.5198,
+      "step": 27000
+    },
+    {
+      "epoch": 12.278308321964529,
+      "eval_accuracy": 0.8909571680788114,
+      "eval_loss": 0.598882794380188,
+      "eval_runtime": 34.9771,
+      "eval_samples_per_second": 435.657,
+      "eval_steps_per_second": 13.638,
+      "step": 27000
+    },
+    {
+      "epoch": 12.50568440200091,
+      "grad_norm": 2.246245861053467,
+      "learning_rate": 7.25e-05,
+      "loss": 0.5093,
+      "step": 27500
+    },
+    {
+      "epoch": 12.50568440200091,
+      "eval_accuracy": 0.8902146740400594,
+      "eval_loss": 0.61558598279953,
+      "eval_runtime": 35.4475,
+      "eval_samples_per_second": 429.876,
+      "eval_steps_per_second": 13.457,
+      "step": 27500
+    },
+    {
+      "epoch": 12.73306048203729,
+      "grad_norm": 1.9135738611221313,
+      "learning_rate": 7.2e-05,
+      "loss": 0.5154,
+      "step": 28000
+    },
+    {
+      "epoch": 12.73306048203729,
+      "eval_accuracy": 0.8906471410400878,
+      "eval_loss": 0.6031416654586792,
+      "eval_runtime": 34.9333,
+      "eval_samples_per_second": 436.202,
+      "eval_steps_per_second": 13.655,
+      "step": 28000
+    },
+    {
+      "epoch": 12.96043656207367,
+      "grad_norm": 2.1967339515686035,
+      "learning_rate": 7.15e-05,
+      "loss": 0.5152,
+      "step": 28500
+    },
+    {
+      "epoch": 12.96043656207367,
+      "eval_accuracy": 0.8918997358924995,
+      "eval_loss": 0.5982460379600525,
+      "eval_runtime": 31.8164,
+      "eval_samples_per_second": 478.936,
+      "eval_steps_per_second": 14.992,
+      "step": 28500
+    },
+    {
+      "epoch": 13.18781264211005,
+      "grad_norm": 2.4718329906463623,
+      "learning_rate": 7.1e-05,
+      "loss": 0.5045,
+      "step": 29000
+    },
+    {
+      "epoch": 13.18781264211005,
+      "eval_accuracy": 0.8919957486399525,
+      "eval_loss": 0.6041545271873474,
+      "eval_runtime": 31.911,
+      "eval_samples_per_second": 477.516,
+      "eval_steps_per_second": 14.948,
+      "step": 29000
+    },
+    {
+      "epoch": 13.41518872214643,
+      "grad_norm": 3.0977680683135986,
+      "learning_rate": 7.05e-05,
+      "loss": 0.4962,
+      "step": 29500
+    },
+    {
+      "epoch": 13.41518872214643,
+      "eval_accuracy": 0.8928370594159114,
+      "eval_loss": 0.6065428256988525,
+      "eval_runtime": 32.8507,
+      "eval_samples_per_second": 463.856,
+      "eval_steps_per_second": 14.52,
+      "step": 29500
+    },
+    {
+      "epoch": 13.642564802182811,
+      "grad_norm": 2.383577823638916,
+      "learning_rate": 7e-05,
+      "loss": 0.5073,
+      "step": 30000
+    },
+    {
+      "epoch": 13.642564802182811,
+      "eval_accuracy": 0.8931591356868318,
+      "eval_loss": 0.5860170722007751,
+      "eval_runtime": 32.8261,
+      "eval_samples_per_second": 464.204,
+      "eval_steps_per_second": 14.531,
+      "step": 30000
+    },
+    {
+      "epoch": 13.86994088221919,
+      "grad_norm": 2.574179172515869,
+      "learning_rate": 6.95e-05,
+      "loss": 0.5017,
+      "step": 30500
+    },
+    {
+      "epoch": 13.86994088221919,
+      "eval_accuracy": 0.8917129707220854,
+      "eval_loss": 0.6073939204216003,
+      "eval_runtime": 33.5273,
+      "eval_samples_per_second": 454.495,
+      "eval_steps_per_second": 14.227,
+      "step": 30500
+    },
+    {
+      "epoch": 14.09731696225557,
+      "grad_norm": 2.23626971244812,
+      "learning_rate": 6.9e-05,
+      "loss": 0.4962,
+      "step": 31000
+    },
+    {
+      "epoch": 14.09731696225557,
+      "eval_accuracy": 0.893840474578457,
+      "eval_loss": 0.5841050148010254,
+      "eval_runtime": 32.8556,
+      "eval_samples_per_second": 463.787,
+      "eval_steps_per_second": 14.518,
+      "step": 31000
+    },
+    {
+      "epoch": 14.324693042291951,
+      "grad_norm": 2.4161667823791504,
+      "learning_rate": 6.850000000000001e-05,
+      "loss": 0.486,
+      "step": 31500
+    },
+    {
+      "epoch": 14.324693042291951,
+      "eval_accuracy": 0.8939059785072527,
+      "eval_loss": 0.5856323838233948,
+      "eval_runtime": 32.8398,
+      "eval_samples_per_second": 464.01,
+      "eval_steps_per_second": 14.525,
+      "step": 31500
+    },
+    {
+      "epoch": 14.552069122328332,
+      "grad_norm": 2.15714168548584,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 0.4869,
+      "step": 32000
+    },
+    {
+      "epoch": 14.552069122328332,
+      "eval_accuracy": 0.8940220938383814,
+      "eval_loss": 0.6009542942047119,
+      "eval_runtime": 32.8417,
+      "eval_samples_per_second": 463.984,
+      "eval_steps_per_second": 14.524,
+      "step": 32000
+    },
+    {
+      "epoch": 14.77944520236471,
+      "grad_norm": 1.9148741960525513,
+      "learning_rate": 6.750000000000001e-05,
+      "loss": 0.493,
+      "step": 32500
+    },
+    {
+      "epoch": 14.77944520236471,
+      "eval_accuracy": 0.8946031326671489,
+      "eval_loss": 0.5846772789955139,
+      "eval_runtime": 32.8804,
+      "eval_samples_per_second": 463.437,
+      "eval_steps_per_second": 14.507,
+      "step": 32500
+    },
+    {
+      "epoch": 15.006821282401091,
+      "grad_norm": 2.6363611221313477,
+      "learning_rate": 6.7e-05,
+      "loss": 0.4936,
+      "step": 33000
+    },
+    {
+      "epoch": 15.006821282401091,
+      "eval_accuracy": 0.8942726579365797,
+      "eval_loss": 0.5807018280029297,
+      "eval_runtime": 32.8612,
+      "eval_samples_per_second": 463.708,
+      "eval_steps_per_second": 14.516,
+      "step": 33000
+    },
+    {
+      "epoch": 15.234197362437472,
+      "grad_norm": 17.104581832885742,
+      "learning_rate": 6.65e-05,
+      "loss": 0.4822,
+      "step": 33500
+    },
+    {
+      "epoch": 15.234197362437472,
+      "eval_accuracy": 0.8951333112695042,
+      "eval_loss": 0.6010898947715759,
+      "eval_runtime": 32.7805,
+      "eval_samples_per_second": 464.85,
+      "eval_steps_per_second": 14.551,
+      "step": 33500
+    },
+    {
+      "epoch": 15.461573442473851,
+      "grad_norm": 8.868905067443848,
+      "learning_rate": 6.6e-05,
+      "loss": 0.4753,
+      "step": 34000
+    },
+    {
+      "epoch": 15.461573442473851,
+      "eval_accuracy": 0.8953953162756035,
+      "eval_loss": 0.5800424218177795,
+      "eval_runtime": 32.8475,
+      "eval_samples_per_second": 463.901,
+      "eval_steps_per_second": 14.522,
+      "step": 34000
+    },
+    {
+      "epoch": 15.688949522510232,
+      "grad_norm": 2.4379146099090576,
+      "learning_rate": 6.55e-05,
+      "loss": 0.4803,
+      "step": 34500
+    },
+    {
+      "epoch": 15.688949522510232,
+      "eval_accuracy": 0.8953750241639281,
+      "eval_loss": 0.5949987173080444,
+      "eval_runtime": 32.8126,
+      "eval_samples_per_second": 464.395,
+      "eval_steps_per_second": 14.537,
+      "step": 34500
+    },
+    {
+      "epoch": 15.916325602546612,
+      "grad_norm": 2.3858790397644043,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 0.4814,
+      "step": 35000
+    },
+    {
+      "epoch": 15.916325602546612,
+      "eval_accuracy": 0.8949742932247506,
+      "eval_loss": 0.5942074656486511,
+      "eval_runtime": 32.8031,
+      "eval_samples_per_second": 464.53,
+      "eval_steps_per_second": 14.541,
+      "step": 35000
+    },
+    {
+      "epoch": 16.143701682582993,
+      "grad_norm": 2.6405398845672607,
+      "learning_rate": 6.450000000000001e-05,
+      "loss": 0.4768,
+      "step": 35500
+    },
+    {
+      "epoch": 16.143701682582993,
+      "eval_accuracy": 0.8950228228780206,
+      "eval_loss": 0.5859512686729431,
+      "eval_runtime": 32.8072,
+      "eval_samples_per_second": 464.472,
+      "eval_steps_per_second": 14.54,
+      "step": 35500
+    },
+    {
+      "epoch": 16.37107776261937,
+      "grad_norm": 2.724952459335327,
+      "learning_rate": 6.400000000000001e-05,
+      "loss": 0.4761,
+      "step": 36000
+    },
+    {
+      "epoch": 16.37107776261937,
+      "eval_accuracy": 0.8954512637706197,
+      "eval_loss": 0.5882732272148132,
+      "eval_runtime": 32.8081,
+      "eval_samples_per_second": 464.458,
+      "eval_steps_per_second": 14.539,
+      "step": 36000
+    },
+    {
+      "epoch": 16.598453842655754,
+      "grad_norm": 2.3671963214874268,
+      "learning_rate": 6.35e-05,
+      "loss": 0.4707,
+      "step": 36500
+    },
+    {
+      "epoch": 16.598453842655754,
+      "eval_accuracy": 0.8970677263125354,
+      "eval_loss": 0.5809994339942932,
+      "eval_runtime": 32.6484,
+      "eval_samples_per_second": 466.73,
+      "eval_steps_per_second": 14.61,
+      "step": 36500
+    },
+    {
+      "epoch": 16.825829922692133,
+      "grad_norm": 2.2515628337860107,
+      "learning_rate": 6.3e-05,
+      "loss": 0.4664,
+      "step": 37000
+    },
+    {
+      "epoch": 16.825829922692133,
+      "eval_accuracy": 0.8963799627266053,
+      "eval_loss": 0.5786083936691284,
+      "eval_runtime": 32.6502,
+      "eval_samples_per_second": 466.704,
+      "eval_steps_per_second": 14.609,
+      "step": 37000
+    },
+    {
+      "epoch": 17.053206002728512,
+      "grad_norm": 2.1204442977905273,
+      "learning_rate": 6.25e-05,
+      "loss": 0.4665,
+      "step": 37500
+    },
+    {
+      "epoch": 17.053206002728512,
+      "eval_accuracy": 0.8963102838280422,
+      "eval_loss": 0.5854199528694153,
+      "eval_runtime": 32.6412,
+      "eval_samples_per_second": 466.833,
+      "eval_steps_per_second": 14.613,
+      "step": 37500
+    },
+    {
+      "epoch": 17.280582082764894,
+      "grad_norm": 2.1250767707824707,
+      "learning_rate": 6.2e-05,
+      "loss": 0.4595,
+      "step": 38000
+    },
+    {
+      "epoch": 17.280582082764894,
+      "eval_accuracy": 0.897797845220715,
+      "eval_loss": 0.57394939661026,
+      "eval_runtime": 32.6446,
+      "eval_samples_per_second": 466.785,
+      "eval_steps_per_second": 14.612,
+      "step": 38000
+    },
+    {
+      "epoch": 17.507958162801273,
+      "grad_norm": 2.5175702571868896,
+      "learning_rate": 6.15e-05,
+      "loss": 0.46,
+      "step": 38500
+    },
+    {
+      "epoch": 17.507958162801273,
+      "eval_accuracy": 0.8982157006082142,
+      "eval_loss": 0.5877761840820312,
+      "eval_runtime": 32.647,
+      "eval_samples_per_second": 466.751,
+      "eval_steps_per_second": 14.611,
+      "step": 38500
+    },
+    {
+      "epoch": 17.735334242837652,
+      "grad_norm": 2.2972216606140137,
+      "learning_rate": 6.1e-05,
+      "loss": 0.4573,
+      "step": 39000
+    },
+    {
+      "epoch": 17.735334242837652,
+      "eval_accuracy": 0.8976428687638632,
+      "eval_loss": 0.5801327228546143,
+      "eval_runtime": 32.6482,
+      "eval_samples_per_second": 466.734,
+      "eval_steps_per_second": 14.61,
+      "step": 39000
+    },
+    {
+      "epoch": 17.962710322874035,
+      "grad_norm": 2.2303497791290283,
+      "learning_rate": 6.05e-05,
+      "loss": 0.4624,
+      "step": 39500
+    },
+    {
+      "epoch": 17.962710322874035,
+      "eval_accuracy": 0.8979596110936581,
+      "eval_loss": 0.5815677642822266,
+      "eval_runtime": 32.6093,
+      "eval_samples_per_second": 467.29,
+      "eval_steps_per_second": 14.628,
+      "step": 39500
+    },
+    {
+      "epoch": 18.190086402910413,
+      "grad_norm": 2.007495641708374,
+      "learning_rate": 6e-05,
+      "loss": 0.4559,
+      "step": 40000
+    },
+    {
+      "epoch": 18.190086402910413,
+      "eval_accuracy": 0.898133907102813,
+      "eval_loss": 0.5681473612785339,
+      "eval_runtime": 32.6186,
+      "eval_samples_per_second": 467.157,
+      "eval_steps_per_second": 14.624,
+      "step": 40000
+    },
+    {
+      "epoch": 18.417462482946792,
+      "grad_norm": 2.1063549518585205,
+      "learning_rate": 5.95e-05,
+      "loss": 0.4518,
+      "step": 40500
+    },
+    {
+      "epoch": 18.417462482946792,
+      "eval_accuracy": 0.8984175993824778,
+      "eval_loss": 0.57720547914505,
+      "eval_runtime": 32.6272,
+      "eval_samples_per_second": 467.033,
+      "eval_steps_per_second": 14.62,
+      "step": 40500
+    },
+    {
+      "epoch": 18.644838562983175,
+      "grad_norm": 2.319910764694214,
+      "learning_rate": 5.9e-05,
+      "loss": 0.4559,
+      "step": 41000
+    },
+    {
+      "epoch": 18.644838562983175,
+      "eval_accuracy": 0.8981402394804274,
+      "eval_loss": 0.5844323635101318,
+      "eval_runtime": 32.6343,
+      "eval_samples_per_second": 466.932,
+      "eval_steps_per_second": 14.617,
+      "step": 41000
+    },
+    {
+      "epoch": 18.872214643019554,
+      "grad_norm": 2.3522610664367676,
+      "learning_rate": 5.85e-05,
+      "loss": 0.4493,
+      "step": 41500
+    },
+    {
+      "epoch": 18.872214643019554,
+      "eval_accuracy": 0.899032918193942,
+      "eval_loss": 0.5796687006950378,
+      "eval_runtime": 32.6461,
+      "eval_samples_per_second": 466.763,
+      "eval_steps_per_second": 14.611,
+      "step": 41500
+    },
+    {
+      "epoch": 19.099590723055936,
+      "grad_norm": 2.322256088256836,
+      "learning_rate": 5.8e-05,
+      "loss": 0.443,
+      "step": 42000
+    },
+    {
+      "epoch": 19.099590723055936,
+      "eval_accuracy": 0.8998881179307944,
+      "eval_loss": 0.569625198841095,
+      "eval_runtime": 32.6352,
+      "eval_samples_per_second": 466.918,
+      "eval_steps_per_second": 14.616,
+      "step": 42000
+    },
+    {
+      "epoch": 19.326966803092315,
+      "grad_norm": 2.148592233657837,
+      "learning_rate": 5.7499999999999995e-05,
+      "loss": 0.4494,
+      "step": 42500
+    },
+    {
+      "epoch": 19.326966803092315,
+      "eval_accuracy": 0.8993213326792998,
+      "eval_loss": 0.56317138671875,
+      "eval_runtime": 32.643,
+      "eval_samples_per_second": 466.807,
+      "eval_steps_per_second": 14.613,
+      "step": 42500
+    },
+    {
+      "epoch": 19.554342883128694,
+      "grad_norm": 2.8056764602661133,
+      "learning_rate": 5.6999999999999996e-05,
+      "loss": 0.4405,
+      "step": 43000
+    },
+    {
+      "epoch": 19.554342883128694,
+      "eval_accuracy": 0.8992730163225374,
+      "eval_loss": 0.5784369111061096,
+      "eval_runtime": 32.6779,
+      "eval_samples_per_second": 466.31,
+      "eval_steps_per_second": 14.597,
+      "step": 43000
+    },
+    {
+      "epoch": 19.781718963165076,
+      "grad_norm": 4.026996612548828,
+      "learning_rate": 5.65e-05,
+      "loss": 0.4456,
+      "step": 43500
+    },
+    {
+      "epoch": 19.781718963165076,
+      "eval_accuracy": 0.8996898687782441,
+      "eval_loss": 0.5666890144348145,
+      "eval_runtime": 32.6164,
+      "eval_samples_per_second": 467.189,
+      "eval_steps_per_second": 14.625,
+      "step": 43500
+    },
+    {
+      "epoch": 20.009095043201455,
+      "grad_norm": 2.2922003269195557,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 0.4413,
+      "step": 44000
+    },
+    {
+      "epoch": 20.009095043201455,
+      "eval_accuracy": 0.9003280188691405,
+      "eval_loss": 0.5622244477272034,
+      "eval_runtime": 32.6479,
+      "eval_samples_per_second": 466.738,
+      "eval_steps_per_second": 14.61,
+      "step": 44000
+    },
+    {
+      "epoch": 20.236471123237834,
+      "grad_norm": 2.7969603538513184,
+      "learning_rate": 5.550000000000001e-05,
+      "loss": 0.4345,
+      "step": 44500
+    },
+    {
+      "epoch": 20.236471123237834,
+      "eval_accuracy": 0.9004365261875368,
+      "eval_loss": 0.5717702507972717,
+      "eval_runtime": 32.6321,
+      "eval_samples_per_second": 466.963,
+      "eval_steps_per_second": 14.618,
+      "step": 44500
+    },
+    {
+      "epoch": 20.463847203274216,
+      "grad_norm": 2.028287887573242,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.4341,
+      "step": 45000
+    },
+    {
+      "epoch": 20.463847203274216,
+      "eval_accuracy": 0.9004377143446534,
+      "eval_loss": 0.5708958506584167,
+      "eval_runtime": 32.6486,
+      "eval_samples_per_second": 466.727,
+      "eval_steps_per_second": 14.61,
+      "step": 45000
+    },
+    {
+      "epoch": 20.691223283310595,
+      "grad_norm": 2.1190261840820312,
+      "learning_rate": 5.45e-05,
+      "loss": 0.4355,
+      "step": 45500
+    },
+    {
+      "epoch": 20.691223283310595,
+      "eval_accuracy": 0.9009621428226079,
+      "eval_loss": 0.548612654209137,
+      "eval_runtime": 32.6093,
+      "eval_samples_per_second": 467.29,
+      "eval_steps_per_second": 14.628,
+      "step": 45500
+    },
+    {
+      "epoch": 20.918599363346974,
+      "grad_norm": 2.1443231105804443,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 0.4348,
+      "step": 46000
+    },
+    {
+      "epoch": 20.918599363346974,
+      "eval_accuracy": 0.9010261908408639,
+      "eval_loss": 0.556687593460083,
+      "eval_runtime": 32.6956,
+      "eval_samples_per_second": 466.057,
+      "eval_steps_per_second": 14.589,
+      "step": 46000
+    },
+    {
+      "epoch": 21.145975443383357,
+      "grad_norm": 1.7599616050720215,
+      "learning_rate": 5.3500000000000006e-05,
+      "loss": 0.429,
+      "step": 46500
+    },
+    {
+      "epoch": 21.145975443383357,
+      "eval_accuracy": 0.9013362827863302,
+      "eval_loss": 0.5656816959381104,
+      "eval_runtime": 32.6749,
+      "eval_samples_per_second": 466.352,
+      "eval_steps_per_second": 14.598,
+      "step": 46500
+    },
+    {
+      "epoch": 21.373351523419736,
+      "grad_norm": 2.0747954845428467,
+      "learning_rate": 5.300000000000001e-05,
+      "loss": 0.4286,
+      "step": 47000
+    },
+    {
+      "epoch": 21.373351523419736,
+      "eval_accuracy": 0.9021677014422286,
+      "eval_loss": 0.5610804557800293,
+      "eval_runtime": 32.6839,
+      "eval_samples_per_second": 466.223,
+      "eval_steps_per_second": 14.594,
+      "step": 47000
+    },
+    {
+      "epoch": 21.600727603456118,
+      "grad_norm": 2.359894275665283,
+      "learning_rate": 5.25e-05,
+      "loss": 0.4286,
+      "step": 47500
+    },
+    {
+      "epoch": 21.600727603456118,
+      "eval_accuracy": 0.9011451398135819,
+      "eval_loss": 0.5557427406311035,
+      "eval_runtime": 32.7147,
+      "eval_samples_per_second": 465.785,
+      "eval_steps_per_second": 14.581,
+      "step": 47500
+    },
+    {
+      "epoch": 21.828103683492497,
+      "grad_norm": 2.622968912124634,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 0.4283,
+      "step": 48000
+    },
+    {
+      "epoch": 21.828103683492497,
+      "eval_accuracy": 0.9020284253331723,
+      "eval_loss": 0.5703328251838684,
+      "eval_runtime": 32.707,
+      "eval_samples_per_second": 465.894,
+      "eval_steps_per_second": 14.584,
+      "step": 48000
+    },
+    {
+      "epoch": 22.055479763528876,
+      "grad_norm": 2.860867738723755,
+      "learning_rate": 5.1500000000000005e-05,
+      "loss": 0.4266,
+      "step": 48500
+    },
+    {
+      "epoch": 22.055479763528876,
+      "eval_accuracy": 0.902576896202834,
+      "eval_loss": 0.5727266669273376,
+      "eval_runtime": 32.7207,
+      "eval_samples_per_second": 465.699,
+      "eval_steps_per_second": 14.578,
+      "step": 48500
+    },
+    {
+      "epoch": 22.282855843565258,
+      "grad_norm": 1.9193904399871826,
+      "learning_rate": 5.1000000000000006e-05,
+      "loss": 0.421,
+      "step": 49000
+    },
+    {
+      "epoch": 22.282855843565258,
+      "eval_accuracy": 0.9023543270239306,
+      "eval_loss": 0.558401346206665,
+      "eval_runtime": 32.7214,
+      "eval_samples_per_second": 465.69,
+      "eval_steps_per_second": 14.578,
+      "step": 49000
+    },
+    {
+      "epoch": 22.510231923601637,
+      "grad_norm": 2.298145055770874,
+      "learning_rate": 5.05e-05,
+      "loss": 0.4177,
+      "step": 49500
+    },
+    {
+      "epoch": 22.510231923601637,
+      "eval_accuracy": 0.9031498029862292,
+      "eval_loss": 0.5540251135826111,
+      "eval_runtime": 32.6923,
+      "eval_samples_per_second": 466.104,
+      "eval_steps_per_second": 14.591,
+      "step": 49500
+    },
+    {
+      "epoch": 22.737608003638016,
+      "grad_norm": 1.8608070611953735,
+      "learning_rate": 5e-05,
+      "loss": 0.416,
+      "step": 50000
+    },
+    {
+      "epoch": 22.737608003638016,
+      "eval_accuracy": 0.902929785480278,
+      "eval_loss": 0.5727468729019165,
+      "eval_runtime": 32.7273,
+      "eval_samples_per_second": 465.604,
+      "eval_steps_per_second": 14.575,
+      "step": 50000
+    },
+    {
+      "epoch": 22.9649840836744,
+      "grad_norm": 1.9308445453643799,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.416,
+      "step": 50500
+    },
+    {
+      "epoch": 22.9649840836744,
+      "eval_accuracy": 0.9035583359641267,
+      "eval_loss": 0.5548630952835083,
+      "eval_runtime": 32.7576,
+      "eval_samples_per_second": 465.175,
+      "eval_steps_per_second": 14.562,
+      "step": 50500
+    },
+    {
+      "epoch": 23.192360163710777,
+      "grad_norm": 2.954545021057129,
+      "learning_rate": 4.9e-05,
+      "loss": 0.4151,
+      "step": 51000
+    },
+    {
+      "epoch": 23.192360163710777,
+      "eval_accuracy": 0.9031502317839712,
+      "eval_loss": 0.5622453093528748,
+      "eval_runtime": 32.7416,
+      "eval_samples_per_second": 465.401,
+      "eval_steps_per_second": 14.569,
+      "step": 51000
+    },
+    {
+      "epoch": 23.419736243747156,
+      "grad_norm": 2.3451988697052,
+      "learning_rate": 4.85e-05,
+      "loss": 0.4108,
+      "step": 51500
+    },
+    {
+      "epoch": 23.419736243747156,
+      "eval_accuracy": 0.9029909941282878,
+      "eval_loss": 0.5615450739860535,
+      "eval_runtime": 32.7353,
+      "eval_samples_per_second": 465.491,
+      "eval_steps_per_second": 14.571,
+      "step": 51500
+    },
+    {
+      "epoch": 23.64711232378354,
+      "grad_norm": 2.289078950881958,
+      "learning_rate": 4.8e-05,
+      "loss": 0.4085,
+      "step": 52000
+    },
+    {
+      "epoch": 23.64711232378354,
+      "eval_accuracy": 0.9037381257773947,
+      "eval_loss": 0.5549082159996033,
+      "eval_runtime": 32.7339,
+      "eval_samples_per_second": 465.511,
+      "eval_steps_per_second": 14.572,
+      "step": 52000
+    },
+    {
+      "epoch": 23.874488403819917,
+      "grad_norm": 2.206704616546631,
+      "learning_rate": 4.75e-05,
+      "loss": 0.4121,
+      "step": 52500
+    },
+    {
+      "epoch": 23.874488403819917,
+      "eval_accuracy": 0.9035641917801583,
+      "eval_loss": 0.5449928641319275,
+      "eval_runtime": 32.7514,
+      "eval_samples_per_second": 465.262,
+      "eval_steps_per_second": 14.564,
+      "step": 52500
+    },
+    {
+      "epoch": 24.1018644838563,
+      "grad_norm": 1.917070984840393,
+      "learning_rate": 4.7e-05,
+      "loss": 0.4068,
+      "step": 53000
+    },
+    {
+      "epoch": 24.1018644838563,
+      "eval_accuracy": 0.9043728588740845,
+      "eval_loss": 0.5453593134880066,
+      "eval_runtime": 32.7564,
+      "eval_samples_per_second": 465.191,
+      "eval_steps_per_second": 14.562,
+      "step": 53000
+    },
+    {
+      "epoch": 24.32924056389268,
+      "grad_norm": 2.2474703788757324,
+      "learning_rate": 4.6500000000000005e-05,
+      "loss": 0.403,
+      "step": 53500
+    },
+    {
+      "epoch": 24.32924056389268,
+      "eval_accuracy": 0.9039751943993605,
+      "eval_loss": 0.5543568730354309,
+      "eval_runtime": 32.7427,
+      "eval_samples_per_second": 465.386,
+      "eval_steps_per_second": 14.568,
+      "step": 53500
+    },
+    {
+      "epoch": 24.556616643929058,
+      "grad_norm": 2.8877437114715576,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.4044,
+      "step": 54000
+    },
+    {
+      "epoch": 24.556616643929058,
+      "eval_accuracy": 0.9040404610755741,
+      "eval_loss": 0.5543816685676575,
+      "eval_runtime": 32.8189,
+      "eval_samples_per_second": 464.306,
+      "eval_steps_per_second": 14.534,
+      "step": 54000
+    },
+    {
+      "epoch": 24.78399272396544,
+      "grad_norm": 2.6778457164764404,
+      "learning_rate": 4.55e-05,
+      "loss": 0.3986,
+      "step": 54500
+    },
+    {
+      "epoch": 24.78399272396544,
+      "eval_accuracy": 0.9051992065338192,
+      "eval_loss": 0.5703139901161194,
+      "eval_runtime": 32.8924,
+      "eval_samples_per_second": 463.268,
+      "eval_steps_per_second": 14.502,
+      "step": 54500
+    },
+    {
+      "epoch": 25.01136880400182,
+      "grad_norm": 1.8749839067459106,
+      "learning_rate": 4.5e-05,
+      "loss": 0.4037,
+      "step": 55000
+    },
+    {
+      "epoch": 25.01136880400182,
+      "eval_accuracy": 0.9054868850104956,
+      "eval_loss": 0.5421493053436279,
+      "eval_runtime": 32.9644,
+      "eval_samples_per_second": 462.256,
+      "eval_steps_per_second": 14.47,
+      "step": 55000
+    },
+    {
+      "epoch": 25.238744884038198,
+      "grad_norm": 2.0783512592315674,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 0.3953,
+      "step": 55500
+    },
+    {
+      "epoch": 25.238744884038198,
+      "eval_accuracy": 0.9047332246864593,
+      "eval_loss": 0.5418171286582947,
+      "eval_runtime": 32.7741,
+      "eval_samples_per_second": 464.94,
+      "eval_steps_per_second": 14.554,
+      "step": 55500
+    },
+    {
+      "epoch": 25.46612096407458,
+      "grad_norm": 2.809805154800415,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.3955,
+      "step": 56000
+    },
+    {
+      "epoch": 25.46612096407458,
+      "eval_accuracy": 0.9053374070652981,
+      "eval_loss": 0.5434351563453674,
+      "eval_runtime": 32.7589,
+      "eval_samples_per_second": 465.156,
+      "eval_steps_per_second": 14.561,
+      "step": 56000
+    },
+    {
+      "epoch": 25.69349704411096,
+      "grad_norm": 1.9876326322555542,
+      "learning_rate": 4.35e-05,
+      "loss": 0.3959,
+      "step": 56500
+    },
+    {
+      "epoch": 25.69349704411096,
+      "eval_accuracy": 0.9050791584361013,
+      "eval_loss": 0.5530513525009155,
+      "eval_runtime": 32.7387,
+      "eval_samples_per_second": 465.443,
+      "eval_steps_per_second": 14.57,
+      "step": 56500
+    },
+    {
+      "epoch": 25.920873124147338,
+      "grad_norm": 2.88883638381958,
+      "learning_rate": 4.3e-05,
+      "loss": 0.3935,
+      "step": 57000
+    },
+    {
+      "epoch": 25.920873124147338,
+      "eval_accuracy": 0.9060817940460243,
+      "eval_loss": 0.5371158719062805,
+      "eval_runtime": 32.7408,
+      "eval_samples_per_second": 465.414,
+      "eval_steps_per_second": 14.569,
+      "step": 57000
+    },
+    {
+      "epoch": 26.14824920418372,
+      "grad_norm": 2.2030739784240723,
+      "learning_rate": 4.25e-05,
+      "loss": 0.3858,
+      "step": 57500
+    },
+    {
+      "epoch": 26.14824920418372,
+      "eval_accuracy": 0.9057486307794966,
+      "eval_loss": 0.5505759119987488,
+      "eval_runtime": 32.7846,
+      "eval_samples_per_second": 464.792,
+      "eval_steps_per_second": 14.55,
+      "step": 57500
+    },
+    {
+      "epoch": 26.3756252842201,
+      "grad_norm": 2.6154465675354004,
+      "learning_rate": 4.2e-05,
+      "loss": 0.3855,
+      "step": 58000
+    },
+    {
+      "epoch": 26.3756252842201,
+      "eval_accuracy": 0.9060594819521951,
+      "eval_loss": 0.5361325144767761,
+      "eval_runtime": 32.7611,
+      "eval_samples_per_second": 465.124,
+      "eval_steps_per_second": 14.56,
+      "step": 58000
+    },
+    {
+      "epoch": 26.60300136425648,
+      "grad_norm": 2.7764670848846436,
+      "learning_rate": 4.15e-05,
+      "loss": 0.3915,
+      "step": 58500
+    },
+    {
+      "epoch": 26.60300136425648,
+      "eval_accuracy": 0.90627844666889,
+      "eval_loss": 0.5417194962501526,
+      "eval_runtime": 32.7608,
+      "eval_samples_per_second": 465.128,
+      "eval_steps_per_second": 14.56,
+      "step": 58500
+    },
+    {
+      "epoch": 26.83037744429286,
+      "grad_norm": 2.538780689239502,
+      "learning_rate": 4.1e-05,
+      "loss": 0.386,
+      "step": 59000
+    },
+    {
+      "epoch": 26.83037744429286,
+      "eval_accuracy": 0.9057192748802404,
+      "eval_loss": 0.5382261872291565,
+      "eval_runtime": 32.7359,
+      "eval_samples_per_second": 465.483,
+      "eval_steps_per_second": 14.571,
+      "step": 59000
+    },
+    {
+      "epoch": 27.05775352432924,
+      "grad_norm": 2.0034031867980957,
+      "learning_rate": 4.05e-05,
+      "loss": 0.3903,
+      "step": 59500
+    },
+    {
+      "epoch": 27.05775352432924,
+      "eval_accuracy": 0.9067839467973896,
+      "eval_loss": 0.5416918992996216,
+      "eval_runtime": 32.7241,
+      "eval_samples_per_second": 465.651,
+      "eval_steps_per_second": 14.576,
+      "step": 59500
+    },
+    {
+      "epoch": 27.285129604365622,
+      "grad_norm": 2.290728807449341,
+      "learning_rate": 4e-05,
+      "loss": 0.3855,
+      "step": 60000
+    },
+    {
+      "epoch": 27.285129604365622,
+      "eval_accuracy": 0.9074836366327094,
+      "eval_loss": 0.5252583622932434,
+      "eval_runtime": 32.7646,
+      "eval_samples_per_second": 465.075,
+      "eval_steps_per_second": 14.558,
+      "step": 60000
+    },
+    {
+      "epoch": 27.512505684402,
+      "grad_norm": 2.7191412448883057,
+      "learning_rate": 3.9500000000000005e-05,
+      "loss": 0.3843,
+      "step": 60500
+    },
+    {
+      "epoch": 27.512505684402,
+      "eval_accuracy": 0.9073820932473238,
+      "eval_loss": 0.5472291707992554,
+      "eval_runtime": 32.7214,
+      "eval_samples_per_second": 465.69,
+      "eval_steps_per_second": 14.578,
+      "step": 60500
+    },
+    {
+      "epoch": 27.73988176443838,
+      "grad_norm": 1.929368019104004,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.3826,
+      "step": 61000
+    },
+    {
+      "epoch": 27.73988176443838,
+      "eval_accuracy": 0.9078339005862959,
+      "eval_loss": 0.5291460156440735,
+      "eval_runtime": 32.743,
+      "eval_samples_per_second": 465.381,
+      "eval_steps_per_second": 14.568,
+      "step": 61000
+    },
+    {
+      "epoch": 27.967257844474762,
+      "grad_norm": 1.5827338695526123,
+      "learning_rate": 3.85e-05,
+      "loss": 0.3815,
+      "step": 61500
+    },
+    {
+      "epoch": 27.967257844474762,
+      "eval_accuracy": 0.9073046459144095,
+      "eval_loss": 0.5335054397583008,
+      "eval_runtime": 32.7633,
+      "eval_samples_per_second": 465.094,
+      "eval_steps_per_second": 14.559,
+      "step": 61500
+    },
+    {
+      "epoch": 28.19463392451114,
+      "grad_norm": 2.0227861404418945,
+      "learning_rate": 3.8e-05,
+      "loss": 0.3718,
+      "step": 62000
+    },
+    {
+      "epoch": 28.19463392451114,
+      "eval_accuracy": 0.9079641018191209,
+      "eval_loss": 0.5228089690208435,
+      "eval_runtime": 32.7482,
+      "eval_samples_per_second": 465.308,
+      "eval_steps_per_second": 14.566,
+      "step": 62000
+    },
+    {
+      "epoch": 28.42201000454752,
+      "grad_norm": 2.1523451805114746,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.3781,
+      "step": 62500
+    },
+    {
+      "epoch": 28.42201000454752,
+      "eval_accuracy": 0.9087774304782733,
+      "eval_loss": 0.5337960720062256,
+      "eval_runtime": 32.7551,
+      "eval_samples_per_second": 465.209,
+      "eval_steps_per_second": 14.563,
+      "step": 62500
+    },
+    {
+      "epoch": 28.649386084583902,
+      "grad_norm": 2.558656930923462,
+      "learning_rate": 3.7e-05,
+      "loss": 0.374,
+      "step": 63000
+    },
+    {
+      "epoch": 28.649386084583902,
+      "eval_accuracy": 0.907944286819706,
+      "eval_loss": 0.5363012552261353,
+      "eval_runtime": 32.751,
+      "eval_samples_per_second": 465.268,
+      "eval_steps_per_second": 14.564,
+      "step": 63000
+    },
+    {
+      "epoch": 28.87676216462028,
+      "grad_norm": 2.0979561805725098,
+      "learning_rate": 3.65e-05,
+      "loss": 0.3844,
+      "step": 63500
+    },
+    {
+      "epoch": 28.87676216462028,
+      "eval_accuracy": 0.9085302920838064,
+      "eval_loss": 0.5352813601493835,
+      "eval_runtime": 32.8469,
+      "eval_samples_per_second": 463.91,
+      "eval_steps_per_second": 14.522,
+      "step": 63500
+    },
+    {
+      "epoch": 29.104138244656664,
+      "grad_norm": 2.1332693099975586,
+      "learning_rate": 3.6e-05,
+      "loss": 0.3718,
+      "step": 64000
+    },
+    {
+      "epoch": 29.104138244656664,
+      "eval_accuracy": 0.9081558247133298,
+      "eval_loss": 0.521395742893219,
+      "eval_runtime": 32.7396,
+      "eval_samples_per_second": 465.43,
+      "eval_steps_per_second": 14.57,
+      "step": 64000
+    },
+    {
+      "epoch": 29.331514324693043,
+      "grad_norm": 2.3449409008026123,
+      "learning_rate": 3.55e-05,
+      "loss": 0.3689,
+      "step": 64500
+    },
+    {
+      "epoch": 29.331514324693043,
+      "eval_accuracy": 0.908818716090388,
+      "eval_loss": 0.5300734639167786,
+      "eval_runtime": 32.7208,
+      "eval_samples_per_second": 465.697,
+      "eval_steps_per_second": 14.578,
+      "step": 64500
+    },
+    {
+      "epoch": 29.55889040472942,
+      "grad_norm": 2.739234685897827,
+      "learning_rate": 3.5e-05,
+      "loss": 0.3659,
+      "step": 65000
+    },
+    {
+      "epoch": 29.55889040472942,
+      "eval_accuracy": 0.9088500085480837,
+      "eval_loss": 0.5266396999359131,
+      "eval_runtime": 32.8245,
+      "eval_samples_per_second": 464.226,
+      "eval_steps_per_second": 14.532,
+      "step": 65000
+    },
+    {
+      "epoch": 29.786266484765804,
+      "grad_norm": 1.9931187629699707,
+      "learning_rate": 3.45e-05,
+      "loss": 0.3699,
+      "step": 65500
+    },
+    {
+      "epoch": 29.786266484765804,
+      "eval_accuracy": 0.9088424483905984,
+      "eval_loss": 0.5349287986755371,
+      "eval_runtime": 32.743,
+      "eval_samples_per_second": 465.382,
+      "eval_steps_per_second": 14.568,
+      "step": 65500
+    },
+    {
+      "epoch": 30.013642564802183,
+      "grad_norm": 2.5198569297790527,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.3722,
+      "step": 66000
+    },
+    {
+      "epoch": 30.013642564802183,
+      "eval_accuracy": 0.9093058727635157,
+      "eval_loss": 0.5210967063903809,
+      "eval_runtime": 32.7556,
+      "eval_samples_per_second": 465.203,
+      "eval_steps_per_second": 14.562,
+      "step": 66000
+    },
+    {
+      "epoch": 30.24101864483856,
+      "grad_norm": 2.4215102195739746,
+      "learning_rate": 3.35e-05,
+      "loss": 0.3642,
+      "step": 66500
+    },
+    {
+      "epoch": 30.24101864483856,
+      "eval_accuracy": 0.9092281735896366,
+      "eval_loss": 0.5404704809188843,
+      "eval_runtime": 32.7782,
+      "eval_samples_per_second": 464.882,
+      "eval_steps_per_second": 14.552,
+      "step": 66500
+    },
+    {
+      "epoch": 30.468394724874944,
+      "grad_norm": 2.2673470973968506,
+      "learning_rate": 3.3e-05,
+      "loss": 0.3622,
+      "step": 67000
+    },
+    {
+      "epoch": 30.468394724874944,
+      "eval_accuracy": 0.9083970080404082,
+      "eval_loss": 0.5448651313781738,
+      "eval_runtime": 32.7637,
+      "eval_samples_per_second": 465.088,
+      "eval_steps_per_second": 14.559,
+      "step": 67000
+    },
+    {
+      "epoch": 30.695770804911323,
+      "grad_norm": 2.9746830463409424,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.3629,
+      "step": 67500
+    },
+    {
+      "epoch": 30.695770804911323,
+      "eval_accuracy": 0.9096486227672552,
+      "eval_loss": 0.5271045565605164,
+      "eval_runtime": 32.7536,
+      "eval_samples_per_second": 465.232,
+      "eval_steps_per_second": 14.563,
+      "step": 67500
+    },
+    {
+      "epoch": 30.923146884947702,
+      "grad_norm": 2.3879144191741943,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.3592,
+      "step": 68000
+    },
+    {
+      "epoch": 30.923146884947702,
+      "eval_accuracy": 0.9106144262759255,
+      "eval_loss": 0.5255327820777893,
+      "eval_runtime": 32.7669,
+      "eval_samples_per_second": 465.043,
+      "eval_steps_per_second": 14.557,
+      "step": 68000
+    },
+    {
+      "epoch": 31.150522964984084,
+      "grad_norm": 2.2848832607269287,
+      "learning_rate": 3.15e-05,
+      "loss": 0.361,
+      "step": 68500
+    },
+    {
+      "epoch": 31.150522964984084,
+      "eval_accuracy": 0.9105147834118348,
+      "eval_loss": 0.5189831256866455,
+      "eval_runtime": 32.733,
+      "eval_samples_per_second": 465.524,
+      "eval_steps_per_second": 14.572,
+      "step": 68500
+    },
+    {
+      "epoch": 31.377899045020463,
+      "grad_norm": 2.483689785003662,
+      "learning_rate": 3.1e-05,
+      "loss": 0.356,
+      "step": 69000
+    },
+    {
+      "epoch": 31.377899045020463,
+      "eval_accuracy": 0.9096528047653679,
+      "eval_loss": 0.5125781893730164,
+      "eval_runtime": 32.7803,
+      "eval_samples_per_second": 464.853,
+      "eval_steps_per_second": 14.551,
+      "step": 69000
+    },
+    {
+      "epoch": 31.605275125056846,
+      "grad_norm": 3.0858843326568604,
+      "learning_rate": 3.05e-05,
+      "loss": 0.3568,
+      "step": 69500
+    },
+    {
+      "epoch": 31.605275125056846,
+      "eval_accuracy": 0.9104613248966942,
+      "eval_loss": 0.5205091238021851,
+      "eval_runtime": 32.764,
+      "eval_samples_per_second": 465.083,
+      "eval_steps_per_second": 14.559,
+      "step": 69500
+    },
+    {
+      "epoch": 31.832651205093224,
+      "grad_norm": 2.596628427505493,
+      "learning_rate": 3e-05,
+      "loss": 0.3599,
+      "step": 70000
+    },
+    {
+      "epoch": 31.832651205093224,
+      "eval_accuracy": 0.9102152749211573,
+      "eval_loss": 0.5163892507553101,
+      "eval_runtime": 32.7518,
+      "eval_samples_per_second": 465.256,
+      "eval_steps_per_second": 14.564,
+      "step": 70000
+    },
+    {
+      "epoch": 32.06002728512961,
+      "grad_norm": 1.727830171585083,
+      "learning_rate": 2.95e-05,
+      "loss": 0.3517,
+      "step": 70500
+    },
+    {
+      "epoch": 32.06002728512961,
+      "eval_accuracy": 0.9108499567185936,
+      "eval_loss": 0.5241507291793823,
+      "eval_runtime": 32.8266,
+      "eval_samples_per_second": 464.197,
+      "eval_steps_per_second": 14.531,
+      "step": 70500
+    },
+    {
+      "epoch": 32.287403365165986,
+      "grad_norm": 2.585827112197876,
+      "learning_rate": 2.9e-05,
+      "loss": 0.3525,
+      "step": 71000
+    },
+    {
+      "epoch": 32.287403365165986,
+      "eval_accuracy": 0.9102041670961757,
+      "eval_loss": 0.5363503694534302,
+      "eval_runtime": 32.7637,
+      "eval_samples_per_second": 465.087,
+      "eval_steps_per_second": 14.559,
+      "step": 71000
+    },
+    {
+      "epoch": 32.514779445202365,
+      "grad_norm": 1.7349563837051392,
+      "learning_rate": 2.8499999999999998e-05,
+      "loss": 0.3519,
+      "step": 71500
+    },
+    {
+      "epoch": 32.514779445202365,
+      "eval_accuracy": 0.9110400082654367,
+      "eval_loss": 0.5117472410202026,
+      "eval_runtime": 32.7979,
+      "eval_samples_per_second": 464.604,
+      "eval_steps_per_second": 14.544,
+      "step": 71500
+    },
+    {
+      "epoch": 32.74215552523874,
+      "grad_norm": 1.795889973640442,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.3477,
+      "step": 72000
+    },
+    {
+      "epoch": 32.74215552523874,
+      "eval_accuracy": 0.9104842102548314,
+      "eval_loss": 0.5326040387153625,
+      "eval_runtime": 32.8076,
+      "eval_samples_per_second": 464.465,
+      "eval_steps_per_second": 14.539,
+      "step": 72000
+    },
+    {
+      "epoch": 32.96953160527512,
+      "grad_norm": 2.50250506401062,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.3521,
+      "step": 72500
+    },
+    {
+      "epoch": 32.96953160527512,
+      "eval_accuracy": 0.910281578904953,
+      "eval_loss": 0.5304139256477356,
+      "eval_runtime": 32.7772,
+      "eval_samples_per_second": 464.896,
+      "eval_steps_per_second": 14.553,
+      "step": 72500
+    },
+    {
+      "epoch": 33.19690768531151,
+      "grad_norm": 1.8461118936538696,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 0.3437,
+      "step": 73000
+    },
+    {
+      "epoch": 33.19690768531151,
+      "eval_accuracy": 0.9116313736371878,
+      "eval_loss": 0.5194041132926941,
+      "eval_runtime": 32.8126,
+      "eval_samples_per_second": 464.394,
+      "eval_steps_per_second": 14.537,
+      "step": 73000
+    },
+    {
+      "epoch": 33.42428376534789,
+      "grad_norm": 2.4689884185791016,
+      "learning_rate": 2.6500000000000004e-05,
+      "loss": 0.3465,
+      "step": 73500
+    },
+    {
+      "epoch": 33.42428376534789,
+      "eval_accuracy": 0.9114267094251479,
+      "eval_loss": 0.520270049571991,
+      "eval_runtime": 32.8405,
+      "eval_samples_per_second": 464.0,
+      "eval_steps_per_second": 14.525,
+      "step": 73500
+    },
+    {
+      "epoch": 33.651659845384266,
+      "grad_norm": 2.235302686691284,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.3415,
+      "step": 74000
+    },
+    {
+      "epoch": 33.651659845384266,
+      "eval_accuracy": 0.9119416643480582,
+      "eval_loss": 0.5329978466033936,
+      "eval_runtime": 32.8284,
+      "eval_samples_per_second": 464.171,
+      "eval_steps_per_second": 14.53,
+      "step": 74000
+    },
+    {
+      "epoch": 33.879035925420645,
+      "grad_norm": 2.2123124599456787,
+      "learning_rate": 2.5500000000000003e-05,
+      "loss": 0.3471,
+      "step": 74500
+    },
+    {
+      "epoch": 33.879035925420645,
+      "eval_accuracy": 0.9120227802759918,
+      "eval_loss": 0.5121181607246399,
+      "eval_runtime": 32.8709,
+      "eval_samples_per_second": 463.571,
+      "eval_steps_per_second": 14.511,
+      "step": 74500
+    },
+    {
+      "epoch": 34.106412005457024,
+      "grad_norm": 2.3932435512542725,
+      "learning_rate": 2.5e-05,
+      "loss": 0.3458,
+      "step": 75000
+    },
+    {
+      "epoch": 34.106412005457024,
+      "eval_accuracy": 0.9118813314037627,
+      "eval_loss": 0.5218396186828613,
+      "eval_runtime": 32.843,
+      "eval_samples_per_second": 463.965,
+      "eval_steps_per_second": 14.524,
+      "step": 75000
+    },
+    {
+      "epoch": 34.3337880854934,
+      "grad_norm": 2.3429479598999023,
+      "learning_rate": 2.45e-05,
+      "loss": 0.3454,
+      "step": 75500
+    },
+    {
+      "epoch": 34.3337880854934,
+      "eval_accuracy": 0.9123750564261301,
+      "eval_loss": 0.5018845200538635,
+      "eval_runtime": 33.1634,
+      "eval_samples_per_second": 459.483,
+      "eval_steps_per_second": 14.383,
+      "step": 75500
+    },
+    {
+      "epoch": 34.56116416552979,
+      "grad_norm": 2.106468915939331,
+      "learning_rate": 2.4e-05,
+      "loss": 0.3437,
+      "step": 76000
+    },
+    {
+      "epoch": 34.56116416552979,
+      "eval_accuracy": 0.9118771285864006,
+      "eval_loss": 0.5132880210876465,
+      "eval_runtime": 33.1566,
+      "eval_samples_per_second": 459.577,
+      "eval_steps_per_second": 14.386,
+      "step": 76000
+    },
+    {
+      "epoch": 34.78854024556617,
+      "grad_norm": 2.7131636142730713,
+      "learning_rate": 2.35e-05,
+      "loss": 0.338,
+      "step": 76500
+    },
+    {
+      "epoch": 34.78854024556617,
+      "eval_accuracy": 0.9125346722433042,
+      "eval_loss": 0.5079774856567383,
+      "eval_runtime": 32.8366,
+      "eval_samples_per_second": 464.056,
+      "eval_steps_per_second": 14.526,
+      "step": 76500
+    },
+    {
+      "epoch": 35.01591632560255,
+      "grad_norm": 2.5895884037017822,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.337,
+      "step": 77000
+    },
+    {
+      "epoch": 35.01591632560255,
+      "eval_accuracy": 0.9124522785288072,
+      "eval_loss": 0.5153793692588806,
+      "eval_runtime": 32.92,
+      "eval_samples_per_second": 462.88,
+      "eval_steps_per_second": 14.49,
+      "step": 77000
+    },
+    {
+      "epoch": 35.243292405638925,
+      "grad_norm": 2.433104991912842,
+      "learning_rate": 2.25e-05,
+      "loss": 0.3315,
+      "step": 77500
+    },
+    {
+      "epoch": 35.243292405638925,
+      "eval_accuracy": 0.9121799303487087,
+      "eval_loss": 0.5197787284851074,
+      "eval_runtime": 32.851,
+      "eval_samples_per_second": 463.852,
+      "eval_steps_per_second": 14.52,
+      "step": 77500
+    },
+    {
+      "epoch": 35.470668485675304,
+      "grad_norm": 1.9214431047439575,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.3296,
+      "step": 78000
+    },
+    {
+      "epoch": 35.470668485675304,
+      "eval_accuracy": 0.9126943544263368,
+      "eval_loss": 0.5254490971565247,
+      "eval_runtime": 32.8244,
+      "eval_samples_per_second": 464.227,
+      "eval_steps_per_second": 14.532,
+      "step": 78000
+    },
+    {
+      "epoch": 35.69804456571169,
+      "grad_norm": 1.761439323425293,
+      "learning_rate": 2.15e-05,
+      "loss": 0.3368,
+      "step": 78500
+    },
+    {
+      "epoch": 35.69804456571169,
+      "eval_accuracy": 0.9131551727198352,
+      "eval_loss": 0.5223947167396545,
+      "eval_runtime": 32.8821,
+      "eval_samples_per_second": 463.413,
+      "eval_steps_per_second": 14.506,
+      "step": 78500
+    },
+    {
+      "epoch": 35.92542064574807,
+      "grad_norm": 2.2380154132843018,
+      "learning_rate": 2.1e-05,
+      "loss": 0.3327,
+      "step": 79000
+    },
+    {
+      "epoch": 35.92542064574807,
+      "eval_accuracy": 0.9136349991769228,
+      "eval_loss": 0.5105540156364441,
+      "eval_runtime": 32.8762,
+      "eval_samples_per_second": 463.496,
+      "eval_steps_per_second": 14.509,
+      "step": 79000
+    },
+    {
+      "epoch": 36.15279672578445,
+      "grad_norm": 3.250119209289551,
+      "learning_rate": 2.05e-05,
+      "loss": 0.3294,
+      "step": 79500
+    },
+    {
+      "epoch": 36.15279672578445,
+      "eval_accuracy": 0.9137865895991087,
+      "eval_loss": 0.5056498646736145,
+      "eval_runtime": 32.8409,
+      "eval_samples_per_second": 463.994,
+      "eval_steps_per_second": 14.525,
+      "step": 79500
+    },
+    {
+      "epoch": 36.38017280582083,
+      "grad_norm": 2.4665050506591797,
+      "learning_rate": 2e-05,
+      "loss": 0.3301,
+      "step": 80000
+    },
+    {
+      "epoch": 36.38017280582083,
+      "eval_accuracy": 0.9142318719455823,
+      "eval_loss": 0.5017902851104736,
+      "eval_runtime": 32.7856,
+      "eval_samples_per_second": 464.778,
+      "eval_steps_per_second": 14.549,
+      "step": 80000
+    },
+    {
+      "epoch": 36.607548885857206,
+      "grad_norm": 1.698752522468567,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 0.3225,
+      "step": 80500
+    },
+    {
+      "epoch": 36.607548885857206,
+      "eval_accuracy": 0.9134595257800349,
+      "eval_loss": 0.5074796080589294,
+      "eval_runtime": 32.818,
+      "eval_samples_per_second": 464.319,
+      "eval_steps_per_second": 14.535,
+      "step": 80500
+    },
+    {
+      "epoch": 36.834924965893585,
+      "grad_norm": 2.2286267280578613,
+      "learning_rate": 1.9e-05,
+      "loss": 0.3317,
+      "step": 81000
+    },
+    {
+      "epoch": 36.834924965893585,
+      "eval_accuracy": 0.913460404731178,
+      "eval_loss": 0.5129342675209045,
+      "eval_runtime": 32.7859,
+      "eval_samples_per_second": 464.772,
+      "eval_steps_per_second": 14.549,
+      "step": 81000
+    },
+    {
+      "epoch": 37.06230104592997,
+      "grad_norm": 2.5110349655151367,
+      "learning_rate": 1.85e-05,
+      "loss": 0.3268,
+      "step": 81500
+    },
+    {
+      "epoch": 37.06230104592997,
+      "eval_accuracy": 0.9128155543200626,
+      "eval_loss": 0.5117501020431519,
+      "eval_runtime": 32.8322,
+      "eval_samples_per_second": 464.118,
+      "eval_steps_per_second": 14.528,
+      "step": 81500
+    },
+    {
+      "epoch": 37.28967712596635,
+      "grad_norm": 2.6086220741271973,
+      "learning_rate": 1.8e-05,
+      "loss": 0.3232,
+      "step": 82000
+    },
+    {
+      "epoch": 37.28967712596635,
+      "eval_accuracy": 0.9136776723576344,
+      "eval_loss": 0.5069320797920227,
+      "eval_runtime": 32.7874,
+      "eval_samples_per_second": 464.751,
+      "eval_steps_per_second": 14.548,
+      "step": 82000
+    },
+    {
+      "epoch": 37.51705320600273,
+      "grad_norm": 2.095896005630493,
+      "learning_rate": 1.75e-05,
+      "loss": 0.3283,
+      "step": 82500
+    },
+    {
+      "epoch": 37.51705320600273,
+      "eval_accuracy": 0.9137518563956867,
+      "eval_loss": 0.5171787142753601,
+      "eval_runtime": 31.7939,
+      "eval_samples_per_second": 479.275,
+      "eval_steps_per_second": 15.003,
+      "step": 82500
+    },
+    {
+      "epoch": 37.74442928603911,
+      "grad_norm": 2.2822511196136475,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.3245,
+      "step": 83000
+    },
+    {
+      "epoch": 37.74442928603911,
+      "eval_accuracy": 0.914121706237009,
+      "eval_loss": 0.5052734613418579,
+      "eval_runtime": 32.7523,
+      "eval_samples_per_second": 465.25,
+      "eval_steps_per_second": 14.564,
+      "step": 83000
+    },
+    {
+      "epoch": 37.971805366075486,
+      "grad_norm": 2.3248562812805176,
+      "learning_rate": 1.65e-05,
+      "loss": 0.3212,
+      "step": 83500
+    },
+    {
+      "epoch": 37.971805366075486,
+      "eval_accuracy": 0.9150295487683712,
+      "eval_loss": 0.5122706890106201,
+      "eval_runtime": 32.7649,
+      "eval_samples_per_second": 465.071,
+      "eval_steps_per_second": 14.558,
+      "step": 83500
+    },
+    {
+      "epoch": 38.19918144611187,
+      "grad_norm": 2.381883382797241,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.3238,
+      "step": 84000
+    },
+    {
+      "epoch": 38.19918144611187,
+      "eval_accuracy": 0.9140306949162653,
+      "eval_loss": 0.5270175933837891,
+      "eval_runtime": 32.7409,
+      "eval_samples_per_second": 465.412,
+      "eval_steps_per_second": 14.569,
+      "step": 84000
+    },
+    {
+      "epoch": 38.42655752614825,
+      "grad_norm": 2.0925965309143066,
+      "learning_rate": 1.55e-05,
+      "loss": 0.3181,
+      "step": 84500
+    },
+    {
+      "epoch": 38.42655752614825,
+      "eval_accuracy": 0.9146817787775174,
+      "eval_loss": 0.5188115239143372,
+      "eval_runtime": 32.7115,
+      "eval_samples_per_second": 465.83,
+      "eval_steps_per_second": 14.582,
+      "step": 84500
+    },
+    {
+      "epoch": 38.65393360618463,
+      "grad_norm": 3.510465621948242,
+      "learning_rate": 1.5e-05,
+      "loss": 0.3235,
+      "step": 85000
+    },
+    {
+      "epoch": 38.65393360618463,
+      "eval_accuracy": 0.9142990278989299,
+      "eval_loss": 0.5162706971168518,
+      "eval_runtime": 32.7411,
+      "eval_samples_per_second": 465.409,
+      "eval_steps_per_second": 14.569,
+      "step": 85000
+    },
+    {
+      "epoch": 38.88130968622101,
+      "grad_norm": 1.8546830415725708,
+      "learning_rate": 1.45e-05,
+      "loss": 0.3202,
+      "step": 85500
+    },
+    {
+      "epoch": 38.88130968622101,
+      "eval_accuracy": 0.9144765537609747,
+      "eval_loss": 0.5259549021720886,
+      "eval_runtime": 32.7768,
+      "eval_samples_per_second": 464.903,
+      "eval_steps_per_second": 14.553,
+      "step": 85500
+    },
+    {
+      "epoch": 39.10868576625739,
+      "grad_norm": 2.1186509132385254,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.32,
+      "step": 86000
+    },
+    {
+      "epoch": 39.10868576625739,
+      "eval_accuracy": 0.9149780487726317,
+      "eval_loss": 0.5091920495033264,
+      "eval_runtime": 32.7494,
+      "eval_samples_per_second": 465.291,
+      "eval_steps_per_second": 14.565,
+      "step": 86000
+    },
+    {
+      "epoch": 39.33606184629377,
+      "grad_norm": 2.336721420288086,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 0.3187,
+      "step": 86500
+    },
+    {
+      "epoch": 39.33606184629377,
+      "eval_accuracy": 0.9153005420364878,
+      "eval_loss": 0.5176430344581604,
+      "eval_runtime": 32.7347,
+      "eval_samples_per_second": 465.5,
+      "eval_steps_per_second": 14.572,
+      "step": 86500
+    },
+    {
+      "epoch": 39.56343792633015,
+      "grad_norm": 2.6106879711151123,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.3091,
+      "step": 87000
+    },
+    {
+      "epoch": 39.56343792633015,
+      "eval_accuracy": 0.9147028147603641,
+      "eval_loss": 0.5056055784225464,
+      "eval_runtime": 32.7536,
+      "eval_samples_per_second": 465.231,
+      "eval_steps_per_second": 14.563,
+      "step": 87000
+    },
+    {
+      "epoch": 39.79081400636653,
+      "grad_norm": 1.6621290445327759,
+      "learning_rate": 1.25e-05,
+      "loss": 0.3226,
+      "step": 87500
+    },
+    {
+      "epoch": 39.79081400636653,
+      "eval_accuracy": 0.9152877205965155,
+      "eval_loss": 0.5065489411354065,
+      "eval_runtime": 32.7739,
+      "eval_samples_per_second": 464.943,
+      "eval_steps_per_second": 14.554,
+      "step": 87500
+    },
+    {
+      "epoch": 40.01819008640291,
+      "grad_norm": 2.2884457111358643,
+      "learning_rate": 1.2e-05,
+      "loss": 0.3154,
+      "step": 88000
+    },
+    {
+      "epoch": 40.01819008640291,
+      "eval_accuracy": 0.9155226436727855,
+      "eval_loss": 0.5103309750556946,
+      "eval_runtime": 32.7346,
+      "eval_samples_per_second": 465.502,
+      "eval_steps_per_second": 14.572,
+      "step": 88000
+    },
+    {
+      "epoch": 40.24556616643929,
+      "grad_norm": 2.1758711338043213,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.3136,
+      "step": 88500
+    },
+    {
+      "epoch": 40.24556616643929,
+      "eval_accuracy": 0.9153148416356733,
+      "eval_loss": 0.5262283682823181,
+      "eval_runtime": 32.7358,
+      "eval_samples_per_second": 465.485,
+      "eval_steps_per_second": 14.571,
+      "step": 88500
+    },
+    {
+      "epoch": 40.47294224647567,
+      "grad_norm": 2.209392547607422,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.3128,
+      "step": 89000
+    },
+    {
+      "epoch": 40.47294224647567,
+      "eval_accuracy": 0.9157102933951855,
+      "eval_loss": 0.5107696056365967,
+      "eval_runtime": 32.7842,
+      "eval_samples_per_second": 464.797,
+      "eval_steps_per_second": 14.55,
+      "step": 89000
+    },
+    {
+      "epoch": 40.700318326512054,
+      "grad_norm": 2.1529698371887207,
+      "learning_rate": 1.05e-05,
+      "loss": 0.3124,
+      "step": 89500
+    },
+    {
+      "epoch": 40.700318326512054,
+      "eval_accuracy": 0.9159379589728691,
+      "eval_loss": 0.5029435753822327,
+      "eval_runtime": 32.7677,
+      "eval_samples_per_second": 465.031,
+      "eval_steps_per_second": 14.557,
+      "step": 89500
+    },
+    {
+      "epoch": 40.92769440654843,
+      "grad_norm": 2.0045878887176514,
+      "learning_rate": 1e-05,
+      "loss": 0.3108,
+      "step": 90000
+    },
+    {
+      "epoch": 40.92769440654843,
+      "eval_accuracy": 0.9157441455389975,
+      "eval_loss": 0.5153588056564331,
+      "eval_runtime": 32.7641,
+      "eval_samples_per_second": 465.082,
+      "eval_steps_per_second": 14.559,
+      "step": 90000
+    },
+    {
+      "epoch": 41.15507048658481,
+      "grad_norm": 2.3361988067626953,
+      "learning_rate": 9.5e-06,
+      "loss": 0.3138,
+      "step": 90500
+    },
+    {
+      "epoch": 41.15507048658481,
+      "eval_accuracy": 0.9159889763449391,
+      "eval_loss": 0.5117628574371338,
+      "eval_runtime": 32.7502,
+      "eval_samples_per_second": 465.28,
+      "eval_steps_per_second": 14.565,
+      "step": 90500
+    },
+    {
+      "epoch": 41.38244656662119,
+      "grad_norm": 2.683246374130249,
+      "learning_rate": 9e-06,
+      "loss": 0.308,
+      "step": 91000
+    },
+    {
+      "epoch": 41.38244656662119,
+      "eval_accuracy": 0.9162369011673905,
+      "eval_loss": 0.49284523725509644,
+      "eval_runtime": 32.7846,
+      "eval_samples_per_second": 464.792,
+      "eval_steps_per_second": 14.55,
+      "step": 91000
+    },
+    {
+      "epoch": 41.60982264665757,
+      "grad_norm": 1.9992194175720215,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.3055,
+      "step": 91500
+    },
+    {
+      "epoch": 41.60982264665757,
+      "eval_accuracy": 0.9158271965730912,
+      "eval_loss": 0.511158287525177,
+      "eval_runtime": 32.8203,
+      "eval_samples_per_second": 464.286,
+      "eval_steps_per_second": 14.534,
+      "step": 91500
+    },
+    {
+      "epoch": 41.83719872669395,
+      "grad_norm": 1.5974903106689453,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.3093,
+      "step": 92000
+    },
+    {
+      "epoch": 41.83719872669395,
+      "eval_accuracy": 0.915716300365121,
+      "eval_loss": 0.512084424495697,
+      "eval_runtime": 32.7946,
+      "eval_samples_per_second": 464.649,
+      "eval_steps_per_second": 14.545,
+      "step": 92000
+    },
+    {
+      "epoch": 42.064574806730334,
+      "grad_norm": 1.9554269313812256,
+      "learning_rate": 7.5e-06,
+      "loss": 0.3074,
+      "step": 92500
+    },
+    {
+      "epoch": 42.064574806730334,
+      "eval_accuracy": 0.9163171022735507,
+      "eval_loss": 0.516119122505188,
+      "eval_runtime": 32.7702,
+      "eval_samples_per_second": 464.996,
+      "eval_steps_per_second": 14.556,
+      "step": 92500
+    },
+    {
+      "epoch": 42.29195088676671,
+      "grad_norm": 1.985527515411377,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.3017,
+      "step": 93000
+    },
+    {
+      "epoch": 42.29195088676671,
+      "eval_accuracy": 0.917118710247863,
+      "eval_loss": 0.5038302540779114,
+      "eval_runtime": 32.8028,
+      "eval_samples_per_second": 464.533,
+      "eval_steps_per_second": 14.541,
+      "step": 93000
+    },
+    {
+      "epoch": 42.51932696680309,
+      "grad_norm": 2.1202027797698975,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.3054,
+      "step": 93500
+    },
+    {
+      "epoch": 42.51932696680309,
+      "eval_accuracy": 0.9161003507505029,
+      "eval_loss": 0.5289775729179382,
+      "eval_runtime": 32.7703,
+      "eval_samples_per_second": 464.994,
+      "eval_steps_per_second": 14.556,
+      "step": 93500
+    },
+    {
+      "epoch": 42.74670304683947,
+      "grad_norm": 2.0218162536621094,
+      "learning_rate": 6e-06,
+      "loss": 0.3031,
+      "step": 94000
+    },
+    {
+      "epoch": 42.74670304683947,
+      "eval_accuracy": 0.9163906164405633,
+      "eval_loss": 0.5164464712142944,
+      "eval_runtime": 32.7881,
+      "eval_samples_per_second": 464.742,
+      "eval_steps_per_second": 14.548,
+      "step": 94000
+    },
+    {
+      "epoch": 42.97407912687585,
+      "grad_norm": 1.9983863830566406,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.3037,
+      "step": 94500
+    },
+    {
+      "epoch": 42.97407912687585,
+      "eval_accuracy": 0.9169610509438041,
+      "eval_loss": 0.5172046422958374,
+      "eval_runtime": 32.7503,
+      "eval_samples_per_second": 465.278,
+      "eval_steps_per_second": 14.565,
+      "step": 94500
+    },
+    {
+      "epoch": 43.201455206912236,
+      "grad_norm": 1.9231362342834473,
+      "learning_rate": 5e-06,
+      "loss": 0.3006,
+      "step": 95000
+    },
+    {
+      "epoch": 43.201455206912236,
+      "eval_accuracy": 0.9164033951579469,
+      "eval_loss": 0.5055718421936035,
+      "eval_runtime": 32.8099,
+      "eval_samples_per_second": 464.432,
+      "eval_steps_per_second": 14.538,
+      "step": 95000
+    },
+    {
+      "epoch": 43.428831286948615,
+      "grad_norm": 1.8182711601257324,
+      "learning_rate": 4.5e-06,
+      "loss": 0.2974,
+      "step": 95500
+    },
+    {
+      "epoch": 43.428831286948615,
+      "eval_accuracy": 0.9165904140837446,
+      "eval_loss": 0.5043260455131531,
+      "eval_runtime": 32.7849,
+      "eval_samples_per_second": 464.787,
+      "eval_steps_per_second": 14.549,
+      "step": 95500
+    },
+    {
+      "epoch": 43.656207366984994,
+      "grad_norm": 1.8277734518051147,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.3018,
+      "step": 96000
+    },
+    {
+      "epoch": 43.656207366984994,
+      "eval_accuracy": 0.9161881058676558,
+      "eval_loss": 0.49245980381965637,
+      "eval_runtime": 32.7344,
+      "eval_samples_per_second": 465.505,
+      "eval_steps_per_second": 14.572,
+      "step": 96000
+    },
+    {
+      "epoch": 43.88358344702137,
+      "grad_norm": 1.9253770112991333,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.3053,
+      "step": 96500
+    },
+    {
+      "epoch": 43.88358344702137,
+      "eval_accuracy": 0.9160392906798216,
+      "eval_loss": 0.5248011350631714,
+      "eval_runtime": 32.7872,
+      "eval_samples_per_second": 464.754,
+      "eval_steps_per_second": 14.548,
+      "step": 96500
+    },
+    {
+      "epoch": 44.11095952705775,
+      "grad_norm": 2.861922264099121,
+      "learning_rate": 3e-06,
+      "loss": 0.2994,
+      "step": 97000
+    },
+    {
+      "epoch": 44.11095952705775,
+      "eval_accuracy": 0.9164925785172533,
+      "eval_loss": 0.5156012177467346,
+      "eval_runtime": 32.7667,
+      "eval_samples_per_second": 465.045,
+      "eval_steps_per_second": 14.557,
+      "step": 97000
+    },
+    {
+      "epoch": 44.33833560709413,
+      "grad_norm": 2.7760884761810303,
+      "learning_rate": 2.5e-06,
+      "loss": 0.3009,
+      "step": 97500
+    },
+    {
+      "epoch": 44.33833560709413,
+      "eval_accuracy": 0.9166317350788379,
+      "eval_loss": 0.5009229183197021,
+      "eval_runtime": 32.7509,
+      "eval_samples_per_second": 465.27,
+      "eval_steps_per_second": 14.565,
+      "step": 97500
+    },
+    {
+      "epoch": 44.565711687130516,
+      "grad_norm": 2.3244969844818115,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.301,
+      "step": 98000
+    },
+    {
+      "epoch": 44.565711687130516,
+      "eval_accuracy": 0.9171028513895522,
+      "eval_loss": 0.5136500000953674,
+      "eval_runtime": 32.7529,
+      "eval_samples_per_second": 465.242,
+      "eval_steps_per_second": 14.564,
+      "step": 98000
+    },
+    {
+      "epoch": 44.793087767166895,
+      "grad_norm": 1.7618470191955566,
+      "learning_rate": 1.5e-06,
+      "loss": 0.3014,
+      "step": 98500
+    },
+    {
+      "epoch": 44.793087767166895,
+      "eval_accuracy": 0.9166436355819753,
+      "eval_loss": 0.5133616924285889,
+      "eval_runtime": 32.7772,
+      "eval_samples_per_second": 464.896,
+      "eval_steps_per_second": 14.553,
+      "step": 98500
+    },
+    {
+      "epoch": 45.020463847203274,
+      "grad_norm": 2.309792995452881,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.2971,
+      "step": 99000
+    },
+    {
+      "epoch": 45.020463847203274,
+      "eval_accuracy": 0.9174242277399804,
+      "eval_loss": 0.4882655441761017,
+      "eval_runtime": 32.7744,
+      "eval_samples_per_second": 464.936,
+      "eval_steps_per_second": 14.554,
+      "step": 99000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 100000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 46,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.346580545102152e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f4d6cbb77dd621f455f5e9a0355b01b8c8d2729f126f54a9bf8cafe1362f509
+size 5176

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff