rootxhacker commited on Apr 25

Commit

db28bb4

verified ·

1 Parent(s): 63533e8

Upload folder using huggingface_hub

Browse files

Files changed (45) hide show

checkpoint-1000/config.json +30 -0
checkpoint-1000/generation_config.json +7 -0
checkpoint-1000/model.safetensors +3 -0
checkpoint-1000/optimizer.pt +3 -0
checkpoint-1000/rng_state.pth +3 -0
checkpoint-1000/scheduler.pt +3 -0
checkpoint-1000/special_tokens_map.json +24 -0
checkpoint-1000/tokenizer.json +0 -0
checkpoint-1000/tokenizer.model +3 -0
checkpoint-1000/tokenizer_config.json +42 -0
checkpoint-1000/trainer_state.json +934 -0
checkpoint-1000/training_args.bin +3 -0
checkpoint-1390/config.json +30 -0
checkpoint-1390/generation_config.json +7 -0
checkpoint-1390/model.safetensors +3 -0
checkpoint-1390/optimizer.pt +3 -0
checkpoint-1390/rng_state.pth +3 -0
checkpoint-1390/scheduler.pt +3 -0
checkpoint-1390/special_tokens_map.json +24 -0
checkpoint-1390/tokenizer.json +0 -0
checkpoint-1390/tokenizer.model +3 -0
checkpoint-1390/tokenizer_config.json +42 -0
checkpoint-1390/trainer_state.json +1285 -0
checkpoint-1390/training_args.bin +3 -0
checkpoint-500/config.json +30 -0
checkpoint-500/generation_config.json +7 -0
checkpoint-500/model.safetensors +3 -0
checkpoint-500/optimizer.pt +3 -0
checkpoint-500/rng_state.pth +3 -0
checkpoint-500/scheduler.pt +3 -0
checkpoint-500/special_tokens_map.json +24 -0
checkpoint-500/tokenizer.json +0 -0
checkpoint-500/tokenizer.model +3 -0
checkpoint-500/tokenizer_config.json +42 -0
checkpoint-500/trainer_state.json +484 -0
checkpoint-500/training_args.bin +3 -0
config.json +30 -0
generation_config.json +7 -0
model.safetensors +3 -0
runs/Apr25_07-50-36_9c18e885a673/events.out.tfevents.1745567454.9c18e885a673.5280.1 +3 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +42 -0
training_args.bin +3 -0

checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 512,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-1000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}

checkpoint-1000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:beca8853285b236f336fbac03ad15ef15f3068e8d208d412d19cbbb9610615d3
+size 309900448

checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ac58bf92c39d95b75004059055dadfa04f7bbb3df354cd096883cf27a74c677
+size 619836730

checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2768285b45b2a0c05f6f50bbb8c0287fca6f62a8cde6d1b1f02151ac72ee8dc
+size 14244

checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:642460467c212070f1c720f41b86ecc22bd81d3103fe011fd8d45c9133d2edc0
+size 1064

checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1000/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,934 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 7.193202146690519,
+  "eval_steps": 500,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07155635062611806,
+      "grad_norm": 3.981292247772217,
+      "learning_rate": 1.9870503597122304e-05,
+      "loss": 6.5969,
+      "mean_token_accuracy": 0.15720859691500663,
+      "num_tokens": 249014.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.14311270125223613,
+      "grad_norm": 6.078427314758301,
+      "learning_rate": 1.9726618705035972e-05,
+      "loss": 6.3047,
+      "mean_token_accuracy": 0.17161023132503034,
+      "num_tokens": 499527.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.2146690518783542,
+      "grad_norm": 3.555305242538452,
+      "learning_rate": 1.958273381294964e-05,
+      "loss": 6.0472,
+      "mean_token_accuracy": 0.19869447350502015,
+      "num_tokens": 755405.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.28622540250447226,
+      "grad_norm": 3.784306764602661,
+      "learning_rate": 1.9438848920863313e-05,
+      "loss": 5.8397,
+      "mean_token_accuracy": 0.22695979550480844,
+      "num_tokens": 1011193.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.35778175313059035,
+      "grad_norm": 3.2327146530151367,
+      "learning_rate": 1.9294964028776978e-05,
+      "loss": 5.6695,
+      "mean_token_accuracy": 0.2401440929621458,
+      "num_tokens": 1258965.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.4293381037567084,
+      "grad_norm": 3.420456647872925,
+      "learning_rate": 1.915107913669065e-05,
+      "loss": 5.4321,
+      "mean_token_accuracy": 0.2521901123225689,
+      "num_tokens": 1512466.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.5008944543828264,
+      "grad_norm": 4.493953227996826,
+      "learning_rate": 1.9007194244604318e-05,
+      "loss": 5.2609,
+      "mean_token_accuracy": 0.26822467111051085,
+      "num_tokens": 1760599.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.5724508050089445,
+      "grad_norm": 2.4932243824005127,
+      "learning_rate": 1.8863309352517986e-05,
+      "loss": 5.1328,
+      "mean_token_accuracy": 0.275511983782053,
+      "num_tokens": 2014670.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.6440071556350626,
+      "grad_norm": 2.402729034423828,
+      "learning_rate": 1.8719424460431658e-05,
+      "loss": 5.0135,
+      "mean_token_accuracy": 0.2811047907918692,
+      "num_tokens": 2264498.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.7155635062611807,
+      "grad_norm": 2.8561453819274902,
+      "learning_rate": 1.8575539568345323e-05,
+      "loss": 4.8244,
+      "mean_token_accuracy": 0.2967699430882931,
+      "num_tokens": 2508975.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.7871198568872988,
+      "grad_norm": 2.222463846206665,
+      "learning_rate": 1.8431654676258995e-05,
+      "loss": 4.7404,
+      "mean_token_accuracy": 0.30234326496720315,
+      "num_tokens": 2760092.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.8586762075134168,
+      "grad_norm": 2.0150718688964844,
+      "learning_rate": 1.8287769784172664e-05,
+      "loss": 4.5925,
+      "mean_token_accuracy": 0.31090952083468437,
+      "num_tokens": 3011643.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.9302325581395349,
+      "grad_norm": 2.499884605407715,
+      "learning_rate": 1.8143884892086332e-05,
+      "loss": 4.484,
+      "mean_token_accuracy": 0.3174323089420795,
+      "num_tokens": 3260597.0,
+      "step": 130
+    },
+    {
+      "epoch": 1.0071556350626119,
+      "grad_norm": 3.81246280670166,
+      "learning_rate": 1.8e-05,
+      "loss": 4.8272,
+      "mean_token_accuracy": 0.32652662367355534,
+      "num_tokens": 3521468.0,
+      "step": 140
+    },
+    {
+      "epoch": 1.07871198568873,
+      "grad_norm": 1.3433386087417603,
+      "learning_rate": 1.785611510791367e-05,
+      "loss": 4.2527,
+      "mean_token_accuracy": 0.3359356351196766,
+      "num_tokens": 3764868.0,
+      "step": 150
+    },
+    {
+      "epoch": 1.150268336314848,
+      "grad_norm": 2.1221790313720703,
+      "learning_rate": 1.771223021582734e-05,
+      "loss": 4.1608,
+      "mean_token_accuracy": 0.33773822858929636,
+      "num_tokens": 4013198.0,
+      "step": 160
+    },
+    {
+      "epoch": 1.2218246869409661,
+      "grad_norm": 1.3530231714248657,
+      "learning_rate": 1.756834532374101e-05,
+      "loss": 4.0771,
+      "mean_token_accuracy": 0.3416416011750698,
+      "num_tokens": 4266761.0,
+      "step": 170
+    },
+    {
+      "epoch": 1.293381037567084,
+      "grad_norm": 8.359506607055664,
+      "learning_rate": 1.7424460431654678e-05,
+      "loss": 3.9872,
+      "mean_token_accuracy": 0.3446764849126339,
+      "num_tokens": 4524185.0,
+      "step": 180
+    },
+    {
+      "epoch": 1.364937388193202,
+      "grad_norm": 0.9995141625404358,
+      "learning_rate": 1.7280575539568346e-05,
+      "loss": 3.8942,
+      "mean_token_accuracy": 0.3535850510001183,
+      "num_tokens": 4775262.0,
+      "step": 190
+    },
+    {
+      "epoch": 1.4364937388193202,
+      "grad_norm": 0.9777733087539673,
+      "learning_rate": 1.7136690647482015e-05,
+      "loss": 3.8149,
+      "mean_token_accuracy": 0.36338763535022733,
+      "num_tokens": 5022677.0,
+      "step": 200
+    },
+    {
+      "epoch": 1.5080500894454383,
+      "grad_norm": 0.9398026466369629,
+      "learning_rate": 1.6992805755395686e-05,
+      "loss": 3.7274,
+      "mean_token_accuracy": 0.37123609259724616,
+      "num_tokens": 5271810.0,
+      "step": 210
+    },
+    {
+      "epoch": 1.5796064400715564,
+      "grad_norm": 3.464630603790283,
+      "learning_rate": 1.6848920863309355e-05,
+      "loss": 3.7154,
+      "mean_token_accuracy": 0.3758062146604061,
+      "num_tokens": 5522408.0,
+      "step": 220
+    },
+    {
+      "epoch": 1.6511627906976745,
+      "grad_norm": 2.104501485824585,
+      "learning_rate": 1.6705035971223023e-05,
+      "loss": 3.6469,
+      "mean_token_accuracy": 0.3832809627056122,
+      "num_tokens": 5769231.0,
+      "step": 230
+    },
+    {
+      "epoch": 1.7227191413237923,
+      "grad_norm": 2.5066070556640625,
+      "learning_rate": 1.656115107913669e-05,
+      "loss": 3.6434,
+      "mean_token_accuracy": 0.38175718635320666,
+      "num_tokens": 6020808.0,
+      "step": 240
+    },
+    {
+      "epoch": 1.7942754919499104,
+      "grad_norm": 0.9507914781570435,
+      "learning_rate": 1.641726618705036e-05,
+      "loss": 3.5866,
+      "mean_token_accuracy": 0.3858716659247875,
+      "num_tokens": 6275383.0,
+      "step": 250
+    },
+    {
+      "epoch": 1.8658318425760285,
+      "grad_norm": 3.4407248497009277,
+      "learning_rate": 1.627338129496403e-05,
+      "loss": 3.5663,
+      "mean_token_accuracy": 0.38949630260467527,
+      "num_tokens": 6525182.0,
+      "step": 260
+    },
+    {
+      "epoch": 1.9373881932021466,
+      "grad_norm": 0.7253276109695435,
+      "learning_rate": 1.61294964028777e-05,
+      "loss": 3.5233,
+      "mean_token_accuracy": 0.391743092238903,
+      "num_tokens": 6779756.0,
+      "step": 270
+    },
+    {
+      "epoch": 2.0143112701252237,
+      "grad_norm": 0.6907745599746704,
+      "learning_rate": 1.598561151079137e-05,
+      "loss": 3.8364,
+      "mean_token_accuracy": 0.395021445140606,
+      "num_tokens": 7043995.0,
+      "step": 280
+    },
+    {
+      "epoch": 2.085867620751342,
+      "grad_norm": 0.9332271218299866,
+      "learning_rate": 1.5841726618705037e-05,
+      "loss": 3.4772,
+      "mean_token_accuracy": 0.3965952657163143,
+      "num_tokens": 7297135.0,
+      "step": 290
+    },
+    {
+      "epoch": 2.15742397137746,
+      "grad_norm": 1.235854983329773,
+      "learning_rate": 1.5697841726618706e-05,
+      "loss": 3.4414,
+      "mean_token_accuracy": 0.3989549733698368,
+      "num_tokens": 7545580.0,
+      "step": 300
+    },
+    {
+      "epoch": 2.228980322003578,
+      "grad_norm": 0.6656942963600159,
+      "learning_rate": 1.5553956834532374e-05,
+      "loss": 3.4114,
+      "mean_token_accuracy": 0.40089740604162216,
+      "num_tokens": 7799266.0,
+      "step": 310
+    },
+    {
+      "epoch": 2.300536672629696,
+      "grad_norm": 0.6185078024864197,
+      "learning_rate": 1.5410071942446046e-05,
+      "loss": 3.395,
+      "mean_token_accuracy": 0.4044420339167118,
+      "num_tokens": 8052210.0,
+      "step": 320
+    },
+    {
+      "epoch": 2.3720930232558137,
+      "grad_norm": 1.1096031665802002,
+      "learning_rate": 1.5266187050359714e-05,
+      "loss": 3.3804,
+      "mean_token_accuracy": 0.40613374635577204,
+      "num_tokens": 8307281.0,
+      "step": 330
+    },
+    {
+      "epoch": 2.4436493738819323,
+      "grad_norm": 0.5653504729270935,
+      "learning_rate": 1.5122302158273383e-05,
+      "loss": 3.3501,
+      "mean_token_accuracy": 0.40836238488554955,
+      "num_tokens": 8557428.0,
+      "step": 340
+    },
+    {
+      "epoch": 2.51520572450805,
+      "grad_norm": 0.5432367920875549,
+      "learning_rate": 1.4978417266187051e-05,
+      "loss": 3.3467,
+      "mean_token_accuracy": 0.40912329107522966,
+      "num_tokens": 8808315.0,
+      "step": 350
+    },
+    {
+      "epoch": 2.586762075134168,
+      "grad_norm": 1.6327078342437744,
+      "learning_rate": 1.4834532374100721e-05,
+      "loss": 3.3258,
+      "mean_token_accuracy": 0.4106706023216248,
+      "num_tokens": 9057886.0,
+      "step": 360
+    },
+    {
+      "epoch": 2.658318425760286,
+      "grad_norm": 0.6323248147964478,
+      "learning_rate": 1.469064748201439e-05,
+      "loss": 3.298,
+      "mean_token_accuracy": 0.41263881102204325,
+      "num_tokens": 9309357.0,
+      "step": 370
+    },
+    {
+      "epoch": 2.729874776386404,
+      "grad_norm": 2.182023525238037,
+      "learning_rate": 1.4546762589928058e-05,
+      "loss": 3.2819,
+      "mean_token_accuracy": 0.4163250602781773,
+      "num_tokens": 9558445.0,
+      "step": 380
+    },
+    {
+      "epoch": 2.8014311270125223,
+      "grad_norm": 0.5517727136611938,
+      "learning_rate": 1.4402877697841728e-05,
+      "loss": 3.2486,
+      "mean_token_accuracy": 0.4189229063689709,
+      "num_tokens": 9813513.0,
+      "step": 390
+    },
+    {
+      "epoch": 2.8729874776386404,
+      "grad_norm": 0.877505362033844,
+      "learning_rate": 1.4258992805755397e-05,
+      "loss": 3.2428,
+      "mean_token_accuracy": 0.4193955764174461,
+      "num_tokens": 10059533.0,
+      "step": 400
+    },
+    {
+      "epoch": 2.9445438282647585,
+      "grad_norm": 0.7058685421943665,
+      "learning_rate": 1.4115107913669065e-05,
+      "loss": 3.2369,
+      "mean_token_accuracy": 0.4203347131609917,
+      "num_tokens": 10309900.0,
+      "step": 410
+    },
+    {
+      "epoch": 3.0214669051878356,
+      "grad_norm": 1.2357401847839355,
+      "learning_rate": 1.3971223021582736e-05,
+      "loss": 3.563,
+      "mean_token_accuracy": 0.4190788792400825,
+      "num_tokens": 10568955.0,
+      "step": 420
+    },
+    {
+      "epoch": 3.0930232558139537,
+      "grad_norm": 0.7918577790260315,
+      "learning_rate": 1.3827338129496404e-05,
+      "loss": 3.2081,
+      "mean_token_accuracy": 0.4243326403200626,
+      "num_tokens": 10818378.0,
+      "step": 430
+    },
+    {
+      "epoch": 3.1645796064400717,
+      "grad_norm": 0.5052043795585632,
+      "learning_rate": 1.3683453237410074e-05,
+      "loss": 3.2022,
+      "mean_token_accuracy": 0.4242256350815296,
+      "num_tokens": 11070954.0,
+      "step": 440
+    },
+    {
+      "epoch": 3.23613595706619,
+      "grad_norm": 0.5182781219482422,
+      "learning_rate": 1.353956834532374e-05,
+      "loss": 3.199,
+      "mean_token_accuracy": 0.4230089582502842,
+      "num_tokens": 11323582.0,
+      "step": 450
+    },
+    {
+      "epoch": 3.3076923076923075,
+      "grad_norm": 1.1913461685180664,
+      "learning_rate": 1.3395683453237411e-05,
+      "loss": 3.1853,
+      "mean_token_accuracy": 0.42622370198369025,
+      "num_tokens": 11574310.0,
+      "step": 460
+    },
+    {
+      "epoch": 3.3792486583184256,
+      "grad_norm": 3.5984549522399902,
+      "learning_rate": 1.3251798561151081e-05,
+      "loss": 3.1743,
+      "mean_token_accuracy": 0.42716887295246125,
+      "num_tokens": 11828106.0,
+      "step": 470
+    },
+    {
+      "epoch": 3.4508050089445437,
+      "grad_norm": 0.8405038118362427,
+      "learning_rate": 1.310791366906475e-05,
+      "loss": 3.1591,
+      "mean_token_accuracy": 0.4280025988817215,
+      "num_tokens": 12078899.0,
+      "step": 480
+    },
+    {
+      "epoch": 3.5223613595706618,
+      "grad_norm": 0.5538778901100159,
+      "learning_rate": 1.296402877697842e-05,
+      "loss": 3.1318,
+      "mean_token_accuracy": 0.43028812259435656,
+      "num_tokens": 12331071.0,
+      "step": 490
+    },
+    {
+      "epoch": 3.59391771019678,
+      "grad_norm": 2.8024959564208984,
+      "learning_rate": 1.2820143884892086e-05,
+      "loss": 3.1394,
+      "mean_token_accuracy": 0.4312668785452843,
+      "num_tokens": 12581208.0,
+      "step": 500
+    },
+    {
+      "epoch": 3.665474060822898,
+      "grad_norm": 0.5277515053749084,
+      "learning_rate": 1.2676258992805757e-05,
+      "loss": 3.17,
+      "mean_token_accuracy": 0.4279266193509102,
+      "num_tokens": 12834894.0,
+      "step": 510
+    },
+    {
+      "epoch": 3.737030411449016,
+      "grad_norm": 0.5472737550735474,
+      "learning_rate": 1.2532374100719425e-05,
+      "loss": 3.1045,
+      "mean_token_accuracy": 0.43450429365038873,
+      "num_tokens": 13084018.0,
+      "step": 520
+    },
+    {
+      "epoch": 3.808586762075134,
+      "grad_norm": 0.5308877229690552,
+      "learning_rate": 1.2388489208633095e-05,
+      "loss": 3.1107,
+      "mean_token_accuracy": 0.43446925580501555,
+      "num_tokens": 13329962.0,
+      "step": 530
+    },
+    {
+      "epoch": 3.8801431127012522,
+      "grad_norm": 0.5113710761070251,
+      "learning_rate": 1.2244604316546764e-05,
+      "loss": 3.1275,
+      "mean_token_accuracy": 0.4315035603940487,
+      "num_tokens": 13579569.0,
+      "step": 540
+    },
+    {
+      "epoch": 3.9516994633273703,
+      "grad_norm": 0.5252534747123718,
+      "learning_rate": 1.2100719424460432e-05,
+      "loss": 3.0685,
+      "mean_token_accuracy": 0.43880158141255377,
+      "num_tokens": 13828657.0,
+      "step": 550
+    },
+    {
+      "epoch": 4.028622540250447,
+      "grad_norm": 1.111735224723816,
+      "learning_rate": 1.1956834532374102e-05,
+      "loss": 3.4198,
+      "mean_token_accuracy": 0.4328605380000138,
+      "num_tokens": 14088119.0,
+      "step": 560
+    },
+    {
+      "epoch": 4.100178890876565,
+      "grad_norm": 1.315172791481018,
+      "learning_rate": 1.1812949640287769e-05,
+      "loss": 3.1038,
+      "mean_token_accuracy": 0.43393718749284743,
+      "num_tokens": 14345645.0,
+      "step": 570
+    },
+    {
+      "epoch": 4.171735241502684,
+      "grad_norm": 5.589102745056152,
+      "learning_rate": 1.1669064748201439e-05,
+      "loss": 3.0984,
+      "mean_token_accuracy": 0.4368622414767742,
+      "num_tokens": 14596528.0,
+      "step": 580
+    },
+    {
+      "epoch": 4.243291592128801,
+      "grad_norm": 0.7761235237121582,
+      "learning_rate": 1.152517985611511e-05,
+      "loss": 3.0556,
+      "mean_token_accuracy": 0.43845293298363686,
+      "num_tokens": 14846676.0,
+      "step": 590
+    },
+    {
+      "epoch": 4.31484794275492,
+      "grad_norm": 0.646345853805542,
+      "learning_rate": 1.1381294964028778e-05,
+      "loss": 3.0742,
+      "mean_token_accuracy": 0.4365877464413643,
+      "num_tokens": 15100337.0,
+      "step": 600
+    },
+    {
+      "epoch": 4.386404293381037,
+      "grad_norm": 0.5311315059661865,
+      "learning_rate": 1.1237410071942448e-05,
+      "loss": 3.068,
+      "mean_token_accuracy": 0.4402126669883728,
+      "num_tokens": 15346095.0,
+      "step": 610
+    },
+    {
+      "epoch": 4.457960644007156,
+      "grad_norm": 0.6322463154792786,
+      "learning_rate": 1.1093525179856115e-05,
+      "loss": 3.0371,
+      "mean_token_accuracy": 0.4426932595670223,
+      "num_tokens": 15596167.0,
+      "step": 620
+    },
+    {
+      "epoch": 4.529516994633274,
+      "grad_norm": 1.5417993068695068,
+      "learning_rate": 1.0949640287769785e-05,
+      "loss": 3.0351,
+      "mean_token_accuracy": 0.44205591902136804,
+      "num_tokens": 15846428.0,
+      "step": 630
+    },
+    {
+      "epoch": 4.601073345259392,
+      "grad_norm": 1.0343070030212402,
+      "learning_rate": 1.0805755395683455e-05,
+      "loss": 3.0414,
+      "mean_token_accuracy": 0.4421232812106609,
+      "num_tokens": 16097718.0,
+      "step": 640
+    },
+    {
+      "epoch": 4.67262969588551,
+      "grad_norm": 1.1514654159545898,
+      "learning_rate": 1.0661870503597123e-05,
+      "loss": 3.0388,
+      "mean_token_accuracy": 0.44131903648376464,
+      "num_tokens": 16346673.0,
+      "step": 650
+    },
+    {
+      "epoch": 4.7441860465116275,
+      "grad_norm": 0.6893991231918335,
+      "learning_rate": 1.0517985611510793e-05,
+      "loss": 3.0303,
+      "mean_token_accuracy": 0.44393994063138964,
+      "num_tokens": 16593174.0,
+      "step": 660
+    },
+    {
+      "epoch": 4.815742397137746,
+      "grad_norm": 0.5472334027290344,
+      "learning_rate": 1.037410071942446e-05,
+      "loss": 3.0426,
+      "mean_token_accuracy": 0.44140187501907346,
+      "num_tokens": 16847713.0,
+      "step": 670
+    },
+    {
+      "epoch": 4.8872987477638645,
+      "grad_norm": 0.5398672223091125,
+      "learning_rate": 1.023021582733813e-05,
+      "loss": 3.013,
+      "mean_token_accuracy": 0.4440676636993885,
+      "num_tokens": 17094603.0,
+      "step": 680
+    },
+    {
+      "epoch": 4.958855098389982,
+      "grad_norm": 0.6706956028938293,
+      "learning_rate": 1.00863309352518e-05,
+      "loss": 3.0106,
+      "mean_token_accuracy": 0.4429888568818569,
+      "num_tokens": 17348923.0,
+      "step": 690
+    },
+    {
+      "epoch": 5.035778175313059,
+      "grad_norm": 0.5257108211517334,
+      "learning_rate": 9.942446043165467e-06,
+      "loss": 3.3038,
+      "mean_token_accuracy": 0.4451724378074088,
+      "num_tokens": 17610256.0,
+      "step": 700
+    },
+    {
+      "epoch": 5.107334525939177,
+      "grad_norm": 1.5951194763183594,
+      "learning_rate": 9.798561151079137e-06,
+      "loss": 3.0097,
+      "mean_token_accuracy": 0.44397315233945844,
+      "num_tokens": 17861102.0,
+      "step": 710
+    },
+    {
+      "epoch": 5.178890876565295,
+      "grad_norm": 0.5681999921798706,
+      "learning_rate": 9.654676258992807e-06,
+      "loss": 3.0288,
+      "mean_token_accuracy": 0.4430039346218109,
+      "num_tokens": 18112854.0,
+      "step": 720
+    },
+    {
+      "epoch": 5.2504472271914135,
+      "grad_norm": 0.506310224533081,
+      "learning_rate": 9.510791366906476e-06,
+      "loss": 2.9882,
+      "mean_token_accuracy": 0.4454295739531517,
+      "num_tokens": 18372210.0,
+      "step": 730
+    },
+    {
+      "epoch": 5.322003577817531,
+      "grad_norm": 1.2095166444778442,
+      "learning_rate": 9.366906474820144e-06,
+      "loss": 2.9867,
+      "mean_token_accuracy": 0.4489475920796394,
+      "num_tokens": 18619825.0,
+      "step": 740
+    },
+    {
+      "epoch": 5.39355992844365,
+      "grad_norm": 2.2138569355010986,
+      "learning_rate": 9.223021582733813e-06,
+      "loss": 3.0184,
+      "mean_token_accuracy": 0.4448120780289173,
+      "num_tokens": 18868814.0,
+      "step": 750
+    },
+    {
+      "epoch": 5.465116279069767,
+      "grad_norm": 0.478185772895813,
+      "learning_rate": 9.079136690647483e-06,
+      "loss": 2.994,
+      "mean_token_accuracy": 0.4470547877252102,
+      "num_tokens": 19119481.0,
+      "step": 760
+    },
+    {
+      "epoch": 5.536672629695886,
+      "grad_norm": 0.5845445990562439,
+      "learning_rate": 8.935251798561151e-06,
+      "loss": 2.9565,
+      "mean_token_accuracy": 0.45172852873802183,
+      "num_tokens": 19365354.0,
+      "step": 770
+    },
+    {
+      "epoch": 5.608228980322004,
+      "grad_norm": 0.5983964800834656,
+      "learning_rate": 8.791366906474822e-06,
+      "loss": 2.9786,
+      "mean_token_accuracy": 0.4476122513413429,
+      "num_tokens": 19614440.0,
+      "step": 780
+    },
+    {
+      "epoch": 5.679785330948121,
+      "grad_norm": 0.515555739402771,
+      "learning_rate": 8.64748201438849e-06,
+      "loss": 2.9384,
+      "mean_token_accuracy": 0.4537165902554989,
+      "num_tokens": 19865631.0,
+      "step": 790
+    },
+    {
+      "epoch": 5.75134168157424,
+      "grad_norm": 0.5007749199867249,
+      "learning_rate": 8.503597122302158e-06,
+      "loss": 2.9727,
+      "mean_token_accuracy": 0.4497027687728405,
+      "num_tokens": 20117880.0,
+      "step": 800
+    },
+    {
+      "epoch": 5.822898032200357,
+      "grad_norm": 0.6489661931991577,
+      "learning_rate": 8.359712230215829e-06,
+      "loss": 2.9992,
+      "mean_token_accuracy": 0.4464651308953762,
+      "num_tokens": 20368274.0,
+      "step": 810
+    },
+    {
+      "epoch": 5.894454382826476,
+      "grad_norm": 0.43792665004730225,
+      "learning_rate": 8.215827338129497e-06,
+      "loss": 2.9629,
+      "mean_token_accuracy": 0.4492500305175781,
+      "num_tokens": 20621574.0,
+      "step": 820
+    },
+    {
+      "epoch": 5.966010733452594,
+      "grad_norm": 4.761158466339111,
+      "learning_rate": 8.071942446043165e-06,
+      "loss": 2.9565,
+      "mean_token_accuracy": 0.45158678814768793,
+      "num_tokens": 20872399.0,
+      "step": 830
+    },
+    {
+      "epoch": 6.042933810375671,
+      "grad_norm": 0.6465599536895752,
+      "learning_rate": 7.928057553956836e-06,
+      "loss": 3.2616,
+      "mean_token_accuracy": 0.44940542665923516,
+      "num_tokens": 21128736.0,
+      "step": 840
+    },
+    {
+      "epoch": 6.114490161001789,
+      "grad_norm": 0.7279312610626221,
+      "learning_rate": 7.784172661870504e-06,
+      "loss": 2.9458,
+      "mean_token_accuracy": 0.4515425696969032,
+      "num_tokens": 21379493.0,
+      "step": 850
+    },
+    {
+      "epoch": 6.186046511627907,
+      "grad_norm": 0.5757459402084351,
+      "learning_rate": 7.640287769784174e-06,
+      "loss": 2.9526,
+      "mean_token_accuracy": 0.45158767998218535,
+      "num_tokens": 21630298.0,
+      "step": 860
+    },
+    {
+      "epoch": 6.257602862254025,
+      "grad_norm": 0.8392621874809265,
+      "learning_rate": 7.496402877697843e-06,
+      "loss": 2.9665,
+      "mean_token_accuracy": 0.44971805810928345,
+      "num_tokens": 21880131.0,
+      "step": 870
+    },
+    {
+      "epoch": 6.3291592128801435,
+      "grad_norm": 1.6503797769546509,
+      "learning_rate": 7.352517985611511e-06,
+      "loss": 2.951,
+      "mean_token_accuracy": 0.4522330954670906,
+      "num_tokens": 22131666.0,
+      "step": 880
+    },
+    {
+      "epoch": 6.400715563506261,
+      "grad_norm": 1.1257638931274414,
+      "learning_rate": 7.20863309352518e-06,
+      "loss": 2.9598,
+      "mean_token_accuracy": 0.4505872465670109,
+      "num_tokens": 22385786.0,
+      "step": 890
+    },
+    {
+      "epoch": 6.47227191413238,
+      "grad_norm": 0.5459461808204651,
+      "learning_rate": 7.064748201438849e-06,
+      "loss": 2.927,
+      "mean_token_accuracy": 0.45370263084769247,
+      "num_tokens": 22638350.0,
+      "step": 900
+    },
+    {
+      "epoch": 6.543828264758497,
+      "grad_norm": 0.5412788987159729,
+      "learning_rate": 6.920863309352519e-06,
+      "loss": 2.9412,
+      "mean_token_accuracy": 0.4531597658991814,
+      "num_tokens": 22891362.0,
+      "step": 910
+    },
+    {
+      "epoch": 6.615384615384615,
+      "grad_norm": 0.7567277550697327,
+      "learning_rate": 6.776978417266188e-06,
+      "loss": 2.9678,
+      "mean_token_accuracy": 0.449733317643404,
+      "num_tokens": 23140429.0,
+      "step": 920
+    },
+    {
+      "epoch": 6.6869409660107335,
+      "grad_norm": 0.5896158814430237,
+      "learning_rate": 6.633093525179857e-06,
+      "loss": 2.9374,
+      "mean_token_accuracy": 0.45310442596673967,
+      "num_tokens": 23390979.0,
+      "step": 930
+    },
+    {
+      "epoch": 6.758497316636851,
+      "grad_norm": 0.6928054690361023,
+      "learning_rate": 6.489208633093526e-06,
+      "loss": 2.9311,
+      "mean_token_accuracy": 0.4540563628077507,
+      "num_tokens": 23643194.0,
+      "step": 940
+    },
+    {
+      "epoch": 6.83005366726297,
+      "grad_norm": 0.5281582474708557,
+      "learning_rate": 6.345323741007194e-06,
+      "loss": 2.931,
+      "mean_token_accuracy": 0.45377019196748736,
+      "num_tokens": 23896338.0,
+      "step": 950
+    },
+    {
+      "epoch": 6.901610017889087,
+      "grad_norm": 0.6179826259613037,
+      "learning_rate": 6.2014388489208645e-06,
+      "loss": 2.9377,
+      "mean_token_accuracy": 0.45448167622089386,
+      "num_tokens": 24143728.0,
+      "step": 960
+    },
+    {
+      "epoch": 6.973166368515206,
+      "grad_norm": 1.0639809370040894,
+      "learning_rate": 6.057553956834533e-06,
+      "loss": 2.9194,
+      "mean_token_accuracy": 0.45466252863407136,
+      "num_tokens": 24394294.0,
+      "step": 970
+    },
+    {
+      "epoch": 7.0500894454382825,
+      "grad_norm": 1.7252315282821655,
+      "learning_rate": 5.913669064748202e-06,
+      "loss": 3.2321,
+      "mean_token_accuracy": 0.4523723830537098,
+      "num_tokens": 24654875.0,
+      "step": 980
+    },
+    {
+      "epoch": 7.121645796064401,
+      "grad_norm": 2.1776368618011475,
+      "learning_rate": 5.769784172661871e-06,
+      "loss": 2.9234,
+      "mean_token_accuracy": 0.4544162482023239,
+      "num_tokens": 24908270.0,
+      "step": 990
+    },
+    {
+      "epoch": 7.193202146690519,
+      "grad_norm": 0.46500054001808167,
+      "learning_rate": 5.62589928057554e-06,
+      "loss": 2.939,
+      "mean_token_accuracy": 0.4552768111228943,
+      "num_tokens": 25154564.0,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1390,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.785681407954125e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d25b53cc47734bcef31e00edf7734c0385193e3d581c4ba0c2cd909723a664bb
+size 5688

checkpoint-1390/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 512,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-1390/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}

checkpoint-1390/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc1ecc51f6ae0b74b7232e22a94a71d7ffb72ce57a924be13dc83c8af25c6af6
+size 309900448

checkpoint-1390/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef64d0c6f725c8933ea81f99776d641518ebfa4ada283bd4241828b5a11868c0
+size 619836730

checkpoint-1390/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b11a10749bfb1630d95eef94125f4590e8610c579d217d1f158e71ce518d72b
+size 14244

checkpoint-1390/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f971ff7c98fc25babdad4c3408fee59c26d66dacede55416e7972c527396e20
+size 1064

checkpoint-1390/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1390/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1390/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-1390/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-1390/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1285 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.994633273703041,
+  "eval_steps": 500,
+  "global_step": 1390,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07155635062611806,
+      "grad_norm": 3.981292247772217,
+      "learning_rate": 1.9870503597122304e-05,
+      "loss": 6.5969,
+      "mean_token_accuracy": 0.15720859691500663,
+      "num_tokens": 249014.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.14311270125223613,
+      "grad_norm": 6.078427314758301,
+      "learning_rate": 1.9726618705035972e-05,
+      "loss": 6.3047,
+      "mean_token_accuracy": 0.17161023132503034,
+      "num_tokens": 499527.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.2146690518783542,
+      "grad_norm": 3.555305242538452,
+      "learning_rate": 1.958273381294964e-05,
+      "loss": 6.0472,
+      "mean_token_accuracy": 0.19869447350502015,
+      "num_tokens": 755405.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.28622540250447226,
+      "grad_norm": 3.784306764602661,
+      "learning_rate": 1.9438848920863313e-05,
+      "loss": 5.8397,
+      "mean_token_accuracy": 0.22695979550480844,
+      "num_tokens": 1011193.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.35778175313059035,
+      "grad_norm": 3.2327146530151367,
+      "learning_rate": 1.9294964028776978e-05,
+      "loss": 5.6695,
+      "mean_token_accuracy": 0.2401440929621458,
+      "num_tokens": 1258965.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.4293381037567084,
+      "grad_norm": 3.420456647872925,
+      "learning_rate": 1.915107913669065e-05,
+      "loss": 5.4321,
+      "mean_token_accuracy": 0.2521901123225689,
+      "num_tokens": 1512466.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.5008944543828264,
+      "grad_norm": 4.493953227996826,
+      "learning_rate": 1.9007194244604318e-05,
+      "loss": 5.2609,
+      "mean_token_accuracy": 0.26822467111051085,
+      "num_tokens": 1760599.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.5724508050089445,
+      "grad_norm": 2.4932243824005127,
+      "learning_rate": 1.8863309352517986e-05,
+      "loss": 5.1328,
+      "mean_token_accuracy": 0.275511983782053,
+      "num_tokens": 2014670.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.6440071556350626,
+      "grad_norm": 2.402729034423828,
+      "learning_rate": 1.8719424460431658e-05,
+      "loss": 5.0135,
+      "mean_token_accuracy": 0.2811047907918692,
+      "num_tokens": 2264498.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.7155635062611807,
+      "grad_norm": 2.8561453819274902,
+      "learning_rate": 1.8575539568345323e-05,
+      "loss": 4.8244,
+      "mean_token_accuracy": 0.2967699430882931,
+      "num_tokens": 2508975.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.7871198568872988,
+      "grad_norm": 2.222463846206665,
+      "learning_rate": 1.8431654676258995e-05,
+      "loss": 4.7404,
+      "mean_token_accuracy": 0.30234326496720315,
+      "num_tokens": 2760092.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.8586762075134168,
+      "grad_norm": 2.0150718688964844,
+      "learning_rate": 1.8287769784172664e-05,
+      "loss": 4.5925,
+      "mean_token_accuracy": 0.31090952083468437,
+      "num_tokens": 3011643.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.9302325581395349,
+      "grad_norm": 2.499884605407715,
+      "learning_rate": 1.8143884892086332e-05,
+      "loss": 4.484,
+      "mean_token_accuracy": 0.3174323089420795,
+      "num_tokens": 3260597.0,
+      "step": 130
+    },
+    {
+      "epoch": 1.0071556350626119,
+      "grad_norm": 3.81246280670166,
+      "learning_rate": 1.8e-05,
+      "loss": 4.8272,
+      "mean_token_accuracy": 0.32652662367355534,
+      "num_tokens": 3521468.0,
+      "step": 140
+    },
+    {
+      "epoch": 1.07871198568873,
+      "grad_norm": 1.3433386087417603,
+      "learning_rate": 1.785611510791367e-05,
+      "loss": 4.2527,
+      "mean_token_accuracy": 0.3359356351196766,
+      "num_tokens": 3764868.0,
+      "step": 150
+    },
+    {
+      "epoch": 1.150268336314848,
+      "grad_norm": 2.1221790313720703,
+      "learning_rate": 1.771223021582734e-05,
+      "loss": 4.1608,
+      "mean_token_accuracy": 0.33773822858929636,
+      "num_tokens": 4013198.0,
+      "step": 160
+    },
+    {
+      "epoch": 1.2218246869409661,
+      "grad_norm": 1.3530231714248657,
+      "learning_rate": 1.756834532374101e-05,
+      "loss": 4.0771,
+      "mean_token_accuracy": 0.3416416011750698,
+      "num_tokens": 4266761.0,
+      "step": 170
+    },
+    {
+      "epoch": 1.293381037567084,
+      "grad_norm": 8.359506607055664,
+      "learning_rate": 1.7424460431654678e-05,
+      "loss": 3.9872,
+      "mean_token_accuracy": 0.3446764849126339,
+      "num_tokens": 4524185.0,
+      "step": 180
+    },
+    {
+      "epoch": 1.364937388193202,
+      "grad_norm": 0.9995141625404358,
+      "learning_rate": 1.7280575539568346e-05,
+      "loss": 3.8942,
+      "mean_token_accuracy": 0.3535850510001183,
+      "num_tokens": 4775262.0,
+      "step": 190
+    },
+    {
+      "epoch": 1.4364937388193202,
+      "grad_norm": 0.9777733087539673,
+      "learning_rate": 1.7136690647482015e-05,
+      "loss": 3.8149,
+      "mean_token_accuracy": 0.36338763535022733,
+      "num_tokens": 5022677.0,
+      "step": 200
+    },
+    {
+      "epoch": 1.5080500894454383,
+      "grad_norm": 0.9398026466369629,
+      "learning_rate": 1.6992805755395686e-05,
+      "loss": 3.7274,
+      "mean_token_accuracy": 0.37123609259724616,
+      "num_tokens": 5271810.0,
+      "step": 210
+    },
+    {
+      "epoch": 1.5796064400715564,
+      "grad_norm": 3.464630603790283,
+      "learning_rate": 1.6848920863309355e-05,
+      "loss": 3.7154,
+      "mean_token_accuracy": 0.3758062146604061,
+      "num_tokens": 5522408.0,
+      "step": 220
+    },
+    {
+      "epoch": 1.6511627906976745,
+      "grad_norm": 2.104501485824585,
+      "learning_rate": 1.6705035971223023e-05,
+      "loss": 3.6469,
+      "mean_token_accuracy": 0.3832809627056122,
+      "num_tokens": 5769231.0,
+      "step": 230
+    },
+    {
+      "epoch": 1.7227191413237923,
+      "grad_norm": 2.5066070556640625,
+      "learning_rate": 1.656115107913669e-05,
+      "loss": 3.6434,
+      "mean_token_accuracy": 0.38175718635320666,
+      "num_tokens": 6020808.0,
+      "step": 240
+    },
+    {
+      "epoch": 1.7942754919499104,
+      "grad_norm": 0.9507914781570435,
+      "learning_rate": 1.641726618705036e-05,
+      "loss": 3.5866,
+      "mean_token_accuracy": 0.3858716659247875,
+      "num_tokens": 6275383.0,
+      "step": 250
+    },
+    {
+      "epoch": 1.8658318425760285,
+      "grad_norm": 3.4407248497009277,
+      "learning_rate": 1.627338129496403e-05,
+      "loss": 3.5663,
+      "mean_token_accuracy": 0.38949630260467527,
+      "num_tokens": 6525182.0,
+      "step": 260
+    },
+    {
+      "epoch": 1.9373881932021466,
+      "grad_norm": 0.7253276109695435,
+      "learning_rate": 1.61294964028777e-05,
+      "loss": 3.5233,
+      "mean_token_accuracy": 0.391743092238903,
+      "num_tokens": 6779756.0,
+      "step": 270
+    },
+    {
+      "epoch": 2.0143112701252237,
+      "grad_norm": 0.6907745599746704,
+      "learning_rate": 1.598561151079137e-05,
+      "loss": 3.8364,
+      "mean_token_accuracy": 0.395021445140606,
+      "num_tokens": 7043995.0,
+      "step": 280
+    },
+    {
+      "epoch": 2.085867620751342,
+      "grad_norm": 0.9332271218299866,
+      "learning_rate": 1.5841726618705037e-05,
+      "loss": 3.4772,
+      "mean_token_accuracy": 0.3965952657163143,
+      "num_tokens": 7297135.0,
+      "step": 290
+    },
+    {
+      "epoch": 2.15742397137746,
+      "grad_norm": 1.235854983329773,
+      "learning_rate": 1.5697841726618706e-05,
+      "loss": 3.4414,
+      "mean_token_accuracy": 0.3989549733698368,
+      "num_tokens": 7545580.0,
+      "step": 300
+    },
+    {
+      "epoch": 2.228980322003578,
+      "grad_norm": 0.6656942963600159,
+      "learning_rate": 1.5553956834532374e-05,
+      "loss": 3.4114,
+      "mean_token_accuracy": 0.40089740604162216,
+      "num_tokens": 7799266.0,
+      "step": 310
+    },
+    {
+      "epoch": 2.300536672629696,
+      "grad_norm": 0.6185078024864197,
+      "learning_rate": 1.5410071942446046e-05,
+      "loss": 3.395,
+      "mean_token_accuracy": 0.4044420339167118,
+      "num_tokens": 8052210.0,
+      "step": 320
+    },
+    {
+      "epoch": 2.3720930232558137,
+      "grad_norm": 1.1096031665802002,
+      "learning_rate": 1.5266187050359714e-05,
+      "loss": 3.3804,
+      "mean_token_accuracy": 0.40613374635577204,
+      "num_tokens": 8307281.0,
+      "step": 330
+    },
+    {
+      "epoch": 2.4436493738819323,
+      "grad_norm": 0.5653504729270935,
+      "learning_rate": 1.5122302158273383e-05,
+      "loss": 3.3501,
+      "mean_token_accuracy": 0.40836238488554955,
+      "num_tokens": 8557428.0,
+      "step": 340
+    },
+    {
+      "epoch": 2.51520572450805,
+      "grad_norm": 0.5432367920875549,
+      "learning_rate": 1.4978417266187051e-05,
+      "loss": 3.3467,
+      "mean_token_accuracy": 0.40912329107522966,
+      "num_tokens": 8808315.0,
+      "step": 350
+    },
+    {
+      "epoch": 2.586762075134168,
+      "grad_norm": 1.6327078342437744,
+      "learning_rate": 1.4834532374100721e-05,
+      "loss": 3.3258,
+      "mean_token_accuracy": 0.4106706023216248,
+      "num_tokens": 9057886.0,
+      "step": 360
+    },
+    {
+      "epoch": 2.658318425760286,
+      "grad_norm": 0.6323248147964478,
+      "learning_rate": 1.469064748201439e-05,
+      "loss": 3.298,
+      "mean_token_accuracy": 0.41263881102204325,
+      "num_tokens": 9309357.0,
+      "step": 370
+    },
+    {
+      "epoch": 2.729874776386404,
+      "grad_norm": 2.182023525238037,
+      "learning_rate": 1.4546762589928058e-05,
+      "loss": 3.2819,
+      "mean_token_accuracy": 0.4163250602781773,
+      "num_tokens": 9558445.0,
+      "step": 380
+    },
+    {
+      "epoch": 2.8014311270125223,
+      "grad_norm": 0.5517727136611938,
+      "learning_rate": 1.4402877697841728e-05,
+      "loss": 3.2486,
+      "mean_token_accuracy": 0.4189229063689709,
+      "num_tokens": 9813513.0,
+      "step": 390
+    },
+    {
+      "epoch": 2.8729874776386404,
+      "grad_norm": 0.877505362033844,
+      "learning_rate": 1.4258992805755397e-05,
+      "loss": 3.2428,
+      "mean_token_accuracy": 0.4193955764174461,
+      "num_tokens": 10059533.0,
+      "step": 400
+    },
+    {
+      "epoch": 2.9445438282647585,
+      "grad_norm": 0.7058685421943665,
+      "learning_rate": 1.4115107913669065e-05,
+      "loss": 3.2369,
+      "mean_token_accuracy": 0.4203347131609917,
+      "num_tokens": 10309900.0,
+      "step": 410
+    },
+    {
+      "epoch": 3.0214669051878356,
+      "grad_norm": 1.2357401847839355,
+      "learning_rate": 1.3971223021582736e-05,
+      "loss": 3.563,
+      "mean_token_accuracy": 0.4190788792400825,
+      "num_tokens": 10568955.0,
+      "step": 420
+    },
+    {
+      "epoch": 3.0930232558139537,
+      "grad_norm": 0.7918577790260315,
+      "learning_rate": 1.3827338129496404e-05,
+      "loss": 3.2081,
+      "mean_token_accuracy": 0.4243326403200626,
+      "num_tokens": 10818378.0,
+      "step": 430
+    },
+    {
+      "epoch": 3.1645796064400717,
+      "grad_norm": 0.5052043795585632,
+      "learning_rate": 1.3683453237410074e-05,
+      "loss": 3.2022,
+      "mean_token_accuracy": 0.4242256350815296,
+      "num_tokens": 11070954.0,
+      "step": 440
+    },
+    {
+      "epoch": 3.23613595706619,
+      "grad_norm": 0.5182781219482422,
+      "learning_rate": 1.353956834532374e-05,
+      "loss": 3.199,
+      "mean_token_accuracy": 0.4230089582502842,
+      "num_tokens": 11323582.0,
+      "step": 450
+    },
+    {
+      "epoch": 3.3076923076923075,
+      "grad_norm": 1.1913461685180664,
+      "learning_rate": 1.3395683453237411e-05,
+      "loss": 3.1853,
+      "mean_token_accuracy": 0.42622370198369025,
+      "num_tokens": 11574310.0,
+      "step": 460
+    },
+    {
+      "epoch": 3.3792486583184256,
+      "grad_norm": 3.5984549522399902,
+      "learning_rate": 1.3251798561151081e-05,
+      "loss": 3.1743,
+      "mean_token_accuracy": 0.42716887295246125,
+      "num_tokens": 11828106.0,
+      "step": 470
+    },
+    {
+      "epoch": 3.4508050089445437,
+      "grad_norm": 0.8405038118362427,
+      "learning_rate": 1.310791366906475e-05,
+      "loss": 3.1591,
+      "mean_token_accuracy": 0.4280025988817215,
+      "num_tokens": 12078899.0,
+      "step": 480
+    },
+    {
+      "epoch": 3.5223613595706618,
+      "grad_norm": 0.5538778901100159,
+      "learning_rate": 1.296402877697842e-05,
+      "loss": 3.1318,
+      "mean_token_accuracy": 0.43028812259435656,
+      "num_tokens": 12331071.0,
+      "step": 490
+    },
+    {
+      "epoch": 3.59391771019678,
+      "grad_norm": 2.8024959564208984,
+      "learning_rate": 1.2820143884892086e-05,
+      "loss": 3.1394,
+      "mean_token_accuracy": 0.4312668785452843,
+      "num_tokens": 12581208.0,
+      "step": 500
+    },
+    {
+      "epoch": 3.665474060822898,
+      "grad_norm": 0.5277515053749084,
+      "learning_rate": 1.2676258992805757e-05,
+      "loss": 3.17,
+      "mean_token_accuracy": 0.4279266193509102,
+      "num_tokens": 12834894.0,
+      "step": 510
+    },
+    {
+      "epoch": 3.737030411449016,
+      "grad_norm": 0.5472737550735474,
+      "learning_rate": 1.2532374100719425e-05,
+      "loss": 3.1045,
+      "mean_token_accuracy": 0.43450429365038873,
+      "num_tokens": 13084018.0,
+      "step": 520
+    },
+    {
+      "epoch": 3.808586762075134,
+      "grad_norm": 0.5308877229690552,
+      "learning_rate": 1.2388489208633095e-05,
+      "loss": 3.1107,
+      "mean_token_accuracy": 0.43446925580501555,
+      "num_tokens": 13329962.0,
+      "step": 530
+    },
+    {
+      "epoch": 3.8801431127012522,
+      "grad_norm": 0.5113710761070251,
+      "learning_rate": 1.2244604316546764e-05,
+      "loss": 3.1275,
+      "mean_token_accuracy": 0.4315035603940487,
+      "num_tokens": 13579569.0,
+      "step": 540
+    },
+    {
+      "epoch": 3.9516994633273703,
+      "grad_norm": 0.5252534747123718,
+      "learning_rate": 1.2100719424460432e-05,
+      "loss": 3.0685,
+      "mean_token_accuracy": 0.43880158141255377,
+      "num_tokens": 13828657.0,
+      "step": 550
+    },
+    {
+      "epoch": 4.028622540250447,
+      "grad_norm": 1.111735224723816,
+      "learning_rate": 1.1956834532374102e-05,
+      "loss": 3.4198,
+      "mean_token_accuracy": 0.4328605380000138,
+      "num_tokens": 14088119.0,
+      "step": 560
+    },
+    {
+      "epoch": 4.100178890876565,
+      "grad_norm": 1.315172791481018,
+      "learning_rate": 1.1812949640287769e-05,
+      "loss": 3.1038,
+      "mean_token_accuracy": 0.43393718749284743,
+      "num_tokens": 14345645.0,
+      "step": 570
+    },
+    {
+      "epoch": 4.171735241502684,
+      "grad_norm": 5.589102745056152,
+      "learning_rate": 1.1669064748201439e-05,
+      "loss": 3.0984,
+      "mean_token_accuracy": 0.4368622414767742,
+      "num_tokens": 14596528.0,
+      "step": 580
+    },
+    {
+      "epoch": 4.243291592128801,
+      "grad_norm": 0.7761235237121582,
+      "learning_rate": 1.152517985611511e-05,
+      "loss": 3.0556,
+      "mean_token_accuracy": 0.43845293298363686,
+      "num_tokens": 14846676.0,
+      "step": 590
+    },
+    {
+      "epoch": 4.31484794275492,
+      "grad_norm": 0.646345853805542,
+      "learning_rate": 1.1381294964028778e-05,
+      "loss": 3.0742,
+      "mean_token_accuracy": 0.4365877464413643,
+      "num_tokens": 15100337.0,
+      "step": 600
+    },
+    {
+      "epoch": 4.386404293381037,
+      "grad_norm": 0.5311315059661865,
+      "learning_rate": 1.1237410071942448e-05,
+      "loss": 3.068,
+      "mean_token_accuracy": 0.4402126669883728,
+      "num_tokens": 15346095.0,
+      "step": 610
+    },
+    {
+      "epoch": 4.457960644007156,
+      "grad_norm": 0.6322463154792786,
+      "learning_rate": 1.1093525179856115e-05,
+      "loss": 3.0371,
+      "mean_token_accuracy": 0.4426932595670223,
+      "num_tokens": 15596167.0,
+      "step": 620
+    },
+    {
+      "epoch": 4.529516994633274,
+      "grad_norm": 1.5417993068695068,
+      "learning_rate": 1.0949640287769785e-05,
+      "loss": 3.0351,
+      "mean_token_accuracy": 0.44205591902136804,
+      "num_tokens": 15846428.0,
+      "step": 630
+    },
+    {
+      "epoch": 4.601073345259392,
+      "grad_norm": 1.0343070030212402,
+      "learning_rate": 1.0805755395683455e-05,
+      "loss": 3.0414,
+      "mean_token_accuracy": 0.4421232812106609,
+      "num_tokens": 16097718.0,
+      "step": 640
+    },
+    {
+      "epoch": 4.67262969588551,
+      "grad_norm": 1.1514654159545898,
+      "learning_rate": 1.0661870503597123e-05,
+      "loss": 3.0388,
+      "mean_token_accuracy": 0.44131903648376464,
+      "num_tokens": 16346673.0,
+      "step": 650
+    },
+    {
+      "epoch": 4.7441860465116275,
+      "grad_norm": 0.6893991231918335,
+      "learning_rate": 1.0517985611510793e-05,
+      "loss": 3.0303,
+      "mean_token_accuracy": 0.44393994063138964,
+      "num_tokens": 16593174.0,
+      "step": 660
+    },
+    {
+      "epoch": 4.815742397137746,
+      "grad_norm": 0.5472334027290344,
+      "learning_rate": 1.037410071942446e-05,
+      "loss": 3.0426,
+      "mean_token_accuracy": 0.44140187501907346,
+      "num_tokens": 16847713.0,
+      "step": 670
+    },
+    {
+      "epoch": 4.8872987477638645,
+      "grad_norm": 0.5398672223091125,
+      "learning_rate": 1.023021582733813e-05,
+      "loss": 3.013,
+      "mean_token_accuracy": 0.4440676636993885,
+      "num_tokens": 17094603.0,
+      "step": 680
+    },
+    {
+      "epoch": 4.958855098389982,
+      "grad_norm": 0.6706956028938293,
+      "learning_rate": 1.00863309352518e-05,
+      "loss": 3.0106,
+      "mean_token_accuracy": 0.4429888568818569,
+      "num_tokens": 17348923.0,
+      "step": 690
+    },
+    {
+      "epoch": 5.035778175313059,
+      "grad_norm": 0.5257108211517334,
+      "learning_rate": 9.942446043165467e-06,
+      "loss": 3.3038,
+      "mean_token_accuracy": 0.4451724378074088,
+      "num_tokens": 17610256.0,
+      "step": 700
+    },
+    {
+      "epoch": 5.107334525939177,
+      "grad_norm": 1.5951194763183594,
+      "learning_rate": 9.798561151079137e-06,
+      "loss": 3.0097,
+      "mean_token_accuracy": 0.44397315233945844,
+      "num_tokens": 17861102.0,
+      "step": 710
+    },
+    {
+      "epoch": 5.178890876565295,
+      "grad_norm": 0.5681999921798706,
+      "learning_rate": 9.654676258992807e-06,
+      "loss": 3.0288,
+      "mean_token_accuracy": 0.4430039346218109,
+      "num_tokens": 18112854.0,
+      "step": 720
+    },
+    {
+      "epoch": 5.2504472271914135,
+      "grad_norm": 0.506310224533081,
+      "learning_rate": 9.510791366906476e-06,
+      "loss": 2.9882,
+      "mean_token_accuracy": 0.4454295739531517,
+      "num_tokens": 18372210.0,
+      "step": 730
+    },
+    {
+      "epoch": 5.322003577817531,
+      "grad_norm": 1.2095166444778442,
+      "learning_rate": 9.366906474820144e-06,
+      "loss": 2.9867,
+      "mean_token_accuracy": 0.4489475920796394,
+      "num_tokens": 18619825.0,
+      "step": 740
+    },
+    {
+      "epoch": 5.39355992844365,
+      "grad_norm": 2.2138569355010986,
+      "learning_rate": 9.223021582733813e-06,
+      "loss": 3.0184,
+      "mean_token_accuracy": 0.4448120780289173,
+      "num_tokens": 18868814.0,
+      "step": 750
+    },
+    {
+      "epoch": 5.465116279069767,
+      "grad_norm": 0.478185772895813,
+      "learning_rate": 9.079136690647483e-06,
+      "loss": 2.994,
+      "mean_token_accuracy": 0.4470547877252102,
+      "num_tokens": 19119481.0,
+      "step": 760
+    },
+    {
+      "epoch": 5.536672629695886,
+      "grad_norm": 0.5845445990562439,
+      "learning_rate": 8.935251798561151e-06,
+      "loss": 2.9565,
+      "mean_token_accuracy": 0.45172852873802183,
+      "num_tokens": 19365354.0,
+      "step": 770
+    },
+    {
+      "epoch": 5.608228980322004,
+      "grad_norm": 0.5983964800834656,
+      "learning_rate": 8.791366906474822e-06,
+      "loss": 2.9786,
+      "mean_token_accuracy": 0.4476122513413429,
+      "num_tokens": 19614440.0,
+      "step": 780
+    },
+    {
+      "epoch": 5.679785330948121,
+      "grad_norm": 0.515555739402771,
+      "learning_rate": 8.64748201438849e-06,
+      "loss": 2.9384,
+      "mean_token_accuracy": 0.4537165902554989,
+      "num_tokens": 19865631.0,
+      "step": 790
+    },
+    {
+      "epoch": 5.75134168157424,
+      "grad_norm": 0.5007749199867249,
+      "learning_rate": 8.503597122302158e-06,
+      "loss": 2.9727,
+      "mean_token_accuracy": 0.4497027687728405,
+      "num_tokens": 20117880.0,
+      "step": 800
+    },
+    {
+      "epoch": 5.822898032200357,
+      "grad_norm": 0.6489661931991577,
+      "learning_rate": 8.359712230215829e-06,
+      "loss": 2.9992,
+      "mean_token_accuracy": 0.4464651308953762,
+      "num_tokens": 20368274.0,
+      "step": 810
+    },
+    {
+      "epoch": 5.894454382826476,
+      "grad_norm": 0.43792665004730225,
+      "learning_rate": 8.215827338129497e-06,
+      "loss": 2.9629,
+      "mean_token_accuracy": 0.4492500305175781,
+      "num_tokens": 20621574.0,
+      "step": 820
+    },
+    {
+      "epoch": 5.966010733452594,
+      "grad_norm": 4.761158466339111,
+      "learning_rate": 8.071942446043165e-06,
+      "loss": 2.9565,
+      "mean_token_accuracy": 0.45158678814768793,
+      "num_tokens": 20872399.0,
+      "step": 830
+    },
+    {
+      "epoch": 6.042933810375671,
+      "grad_norm": 0.6465599536895752,
+      "learning_rate": 7.928057553956836e-06,
+      "loss": 3.2616,
+      "mean_token_accuracy": 0.44940542665923516,
+      "num_tokens": 21128736.0,
+      "step": 840
+    },
+    {
+      "epoch": 6.114490161001789,
+      "grad_norm": 0.7279312610626221,
+      "learning_rate": 7.784172661870504e-06,
+      "loss": 2.9458,
+      "mean_token_accuracy": 0.4515425696969032,
+      "num_tokens": 21379493.0,
+      "step": 850
+    },
+    {
+      "epoch": 6.186046511627907,
+      "grad_norm": 0.5757459402084351,
+      "learning_rate": 7.640287769784174e-06,
+      "loss": 2.9526,
+      "mean_token_accuracy": 0.45158767998218535,
+      "num_tokens": 21630298.0,
+      "step": 860
+    },
+    {
+      "epoch": 6.257602862254025,
+      "grad_norm": 0.8392621874809265,
+      "learning_rate": 7.496402877697843e-06,
+      "loss": 2.9665,
+      "mean_token_accuracy": 0.44971805810928345,
+      "num_tokens": 21880131.0,
+      "step": 870
+    },
+    {
+      "epoch": 6.3291592128801435,
+      "grad_norm": 1.6503797769546509,
+      "learning_rate": 7.352517985611511e-06,
+      "loss": 2.951,
+      "mean_token_accuracy": 0.4522330954670906,
+      "num_tokens": 22131666.0,
+      "step": 880
+    },
+    {
+      "epoch": 6.400715563506261,
+      "grad_norm": 1.1257638931274414,
+      "learning_rate": 7.20863309352518e-06,
+      "loss": 2.9598,
+      "mean_token_accuracy": 0.4505872465670109,
+      "num_tokens": 22385786.0,
+      "step": 890
+    },
+    {
+      "epoch": 6.47227191413238,
+      "grad_norm": 0.5459461808204651,
+      "learning_rate": 7.064748201438849e-06,
+      "loss": 2.927,
+      "mean_token_accuracy": 0.45370263084769247,
+      "num_tokens": 22638350.0,
+      "step": 900
+    },
+    {
+      "epoch": 6.543828264758497,
+      "grad_norm": 0.5412788987159729,
+      "learning_rate": 6.920863309352519e-06,
+      "loss": 2.9412,
+      "mean_token_accuracy": 0.4531597658991814,
+      "num_tokens": 22891362.0,
+      "step": 910
+    },
+    {
+      "epoch": 6.615384615384615,
+      "grad_norm": 0.7567277550697327,
+      "learning_rate": 6.776978417266188e-06,
+      "loss": 2.9678,
+      "mean_token_accuracy": 0.449733317643404,
+      "num_tokens": 23140429.0,
+      "step": 920
+    },
+    {
+      "epoch": 6.6869409660107335,
+      "grad_norm": 0.5896158814430237,
+      "learning_rate": 6.633093525179857e-06,
+      "loss": 2.9374,
+      "mean_token_accuracy": 0.45310442596673967,
+      "num_tokens": 23390979.0,
+      "step": 930
+    },
+    {
+      "epoch": 6.758497316636851,
+      "grad_norm": 0.6928054690361023,
+      "learning_rate": 6.489208633093526e-06,
+      "loss": 2.9311,
+      "mean_token_accuracy": 0.4540563628077507,
+      "num_tokens": 23643194.0,
+      "step": 940
+    },
+    {
+      "epoch": 6.83005366726297,
+      "grad_norm": 0.5281582474708557,
+      "learning_rate": 6.345323741007194e-06,
+      "loss": 2.931,
+      "mean_token_accuracy": 0.45377019196748736,
+      "num_tokens": 23896338.0,
+      "step": 950
+    },
+    {
+      "epoch": 6.901610017889087,
+      "grad_norm": 0.6179826259613037,
+      "learning_rate": 6.2014388489208645e-06,
+      "loss": 2.9377,
+      "mean_token_accuracy": 0.45448167622089386,
+      "num_tokens": 24143728.0,
+      "step": 960
+    },
+    {
+      "epoch": 6.973166368515206,
+      "grad_norm": 1.0639809370040894,
+      "learning_rate": 6.057553956834533e-06,
+      "loss": 2.9194,
+      "mean_token_accuracy": 0.45466252863407136,
+      "num_tokens": 24394294.0,
+      "step": 970
+    },
+    {
+      "epoch": 7.0500894454382825,
+      "grad_norm": 1.7252315282821655,
+      "learning_rate": 5.913669064748202e-06,
+      "loss": 3.2321,
+      "mean_token_accuracy": 0.4523723830537098,
+      "num_tokens": 24654875.0,
+      "step": 980
+    },
+    {
+      "epoch": 7.121645796064401,
+      "grad_norm": 2.1776368618011475,
+      "learning_rate": 5.769784172661871e-06,
+      "loss": 2.9234,
+      "mean_token_accuracy": 0.4544162482023239,
+      "num_tokens": 24908270.0,
+      "step": 990
+    },
+    {
+      "epoch": 7.193202146690519,
+      "grad_norm": 0.46500054001808167,
+      "learning_rate": 5.62589928057554e-06,
+      "loss": 2.939,
+      "mean_token_accuracy": 0.4552768111228943,
+      "num_tokens": 25154564.0,
+      "step": 1000
+    },
+    {
+      "epoch": 7.264758497316637,
+      "grad_norm": 1.2805962562561035,
+      "learning_rate": 5.482014388489208e-06,
+      "loss": 2.9088,
+      "mean_token_accuracy": 0.4569986887276173,
+      "num_tokens": 25405656.0,
+      "step": 1010
+    },
+    {
+      "epoch": 7.336314847942755,
+      "grad_norm": 0.7547609806060791,
+      "learning_rate": 5.3381294964028786e-06,
+      "loss": 2.9138,
+      "mean_token_accuracy": 0.4570966839790344,
+      "num_tokens": 25650632.0,
+      "step": 1020
+    },
+    {
+      "epoch": 7.407871198568873,
+      "grad_norm": 0.5120713710784912,
+      "learning_rate": 5.194244604316547e-06,
+      "loss": 2.8993,
+      "mean_token_accuracy": 0.4579989641904831,
+      "num_tokens": 25903102.0,
+      "step": 1030
+    },
+    {
+      "epoch": 7.479427549194991,
+      "grad_norm": 0.5636111497879028,
+      "learning_rate": 5.050359712230216e-06,
+      "loss": 2.9162,
+      "mean_token_accuracy": 0.4563060127198696,
+      "num_tokens": 26155748.0,
+      "step": 1040
+    },
+    {
+      "epoch": 7.550983899821109,
+      "grad_norm": 0.7809133529663086,
+      "learning_rate": 4.9064748201438856e-06,
+      "loss": 2.914,
+      "mean_token_accuracy": 0.4561266407370567,
+      "num_tokens": 26405583.0,
+      "step": 1050
+    },
+    {
+      "epoch": 7.622540250447227,
+      "grad_norm": 0.4882202744483948,
+      "learning_rate": 4.762589928057554e-06,
+      "loss": 2.9361,
+      "mean_token_accuracy": 0.4527492173016071,
+      "num_tokens": 26655356.0,
+      "step": 1060
+    },
+    {
+      "epoch": 7.694096601073345,
+      "grad_norm": 0.46441176533699036,
+      "learning_rate": 4.618705035971223e-06,
+      "loss": 2.9233,
+      "mean_token_accuracy": 0.45422032177448274,
+      "num_tokens": 26911716.0,
+      "step": 1070
+    },
+    {
+      "epoch": 7.7656529516994635,
+      "grad_norm": 0.6556686162948608,
+      "learning_rate": 4.474820143884893e-06,
+      "loss": 2.9213,
+      "mean_token_accuracy": 0.45541969388723375,
+      "num_tokens": 27160591.0,
+      "step": 1080
+    },
+    {
+      "epoch": 7.837209302325581,
+      "grad_norm": 1.0379059314727783,
+      "learning_rate": 4.330935251798561e-06,
+      "loss": 2.8881,
+      "mean_token_accuracy": 0.4577357158064842,
+      "num_tokens": 27414873.0,
+      "step": 1090
+    },
+    {
+      "epoch": 7.9087656529517,
+      "grad_norm": 0.8527312874794006,
+      "learning_rate": 4.18705035971223e-06,
+      "loss": 2.8882,
+      "mean_token_accuracy": 0.46129798144102097,
+      "num_tokens": 27663071.0,
+      "step": 1100
+    },
+    {
+      "epoch": 7.980322003577817,
+      "grad_norm": 0.4619864225387573,
+      "learning_rate": 4.0431654676259e-06,
+      "loss": 2.932,
+      "mean_token_accuracy": 0.4540557064116001,
+      "num_tokens": 27916696.0,
+      "step": 1110
+    },
+    {
+      "epoch": 8.057245080500895,
+      "grad_norm": 0.7810168266296387,
+      "learning_rate": 3.899280575539569e-06,
+      "loss": 3.1952,
+      "mean_token_accuracy": 0.4580523044597812,
+      "num_tokens": 28170819.0,
+      "step": 1120
+    },
+    {
+      "epoch": 8.128801431127012,
+      "grad_norm": 0.5160698890686035,
+      "learning_rate": 3.7553956834532378e-06,
+      "loss": 2.8928,
+      "mean_token_accuracy": 0.45813094154000283,
+      "num_tokens": 28424784.0,
+      "step": 1130
+    },
+    {
+      "epoch": 8.20035778175313,
+      "grad_norm": 0.44342929124832153,
+      "learning_rate": 3.6115107913669066e-06,
+      "loss": 2.9013,
+      "mean_token_accuracy": 0.4571513183414936,
+      "num_tokens": 28675178.0,
+      "step": 1140
+    },
+    {
+      "epoch": 8.271914132379248,
+      "grad_norm": 0.6888077855110168,
+      "learning_rate": 3.4676258992805755e-06,
+      "loss": 2.9162,
+      "mean_token_accuracy": 0.45669827088713644,
+      "num_tokens": 28924005.0,
+      "step": 1150
+    },
+    {
+      "epoch": 8.343470483005367,
+      "grad_norm": 0.5610206127166748,
+      "learning_rate": 3.323741007194245e-06,
+      "loss": 2.9215,
+      "mean_token_accuracy": 0.45746611058712006,
+      "num_tokens": 29175601.0,
+      "step": 1160
+    },
+    {
+      "epoch": 8.415026833631485,
+      "grad_norm": 0.4491877555847168,
+      "learning_rate": 3.1798561151079137e-06,
+      "loss": 2.8979,
+      "mean_token_accuracy": 0.4579362317919731,
+      "num_tokens": 29424141.0,
+      "step": 1170
+    },
+    {
+      "epoch": 8.486583184257602,
+      "grad_norm": 0.7424222230911255,
+      "learning_rate": 3.0359712230215834e-06,
+      "loss": 2.8942,
+      "mean_token_accuracy": 0.4580856651067734,
+      "num_tokens": 29681514.0,
+      "step": 1180
+    },
+    {
+      "epoch": 8.55813953488372,
+      "grad_norm": 1.396942138671875,
+      "learning_rate": 2.892086330935252e-06,
+      "loss": 2.9007,
+      "mean_token_accuracy": 0.4569838471710682,
+      "num_tokens": 29932547.0,
+      "step": 1190
+    },
+    {
+      "epoch": 8.62969588550984,
+      "grad_norm": 0.43744152784347534,
+      "learning_rate": 2.7482014388489207e-06,
+      "loss": 2.8771,
+      "mean_token_accuracy": 0.46146027445793153,
+      "num_tokens": 30185906.0,
+      "step": 1200
+    },
+    {
+      "epoch": 8.701252236135957,
+      "grad_norm": 2.9691150188446045,
+      "learning_rate": 2.6043165467625904e-06,
+      "loss": 2.8739,
+      "mean_token_accuracy": 0.4621762208640575,
+      "num_tokens": 30431346.0,
+      "step": 1210
+    },
+    {
+      "epoch": 8.772808586762075,
+      "grad_norm": 0.5249901413917542,
+      "learning_rate": 2.4604316546762593e-06,
+      "loss": 2.9069,
+      "mean_token_accuracy": 0.4558020316064358,
+      "num_tokens": 30680282.0,
+      "step": 1220
+    },
+    {
+      "epoch": 8.844364937388193,
+      "grad_norm": 0.8537925481796265,
+      "learning_rate": 2.316546762589928e-06,
+      "loss": 2.897,
+      "mean_token_accuracy": 0.4572525009512901,
+      "num_tokens": 30935075.0,
+      "step": 1230
+    },
+    {
+      "epoch": 8.915921288014312,
+      "grad_norm": 0.5540444850921631,
+      "learning_rate": 2.1726618705035974e-06,
+      "loss": 2.8822,
+      "mean_token_accuracy": 0.46007697507739065,
+      "num_tokens": 31183768.0,
+      "step": 1240
+    },
+    {
+      "epoch": 8.98747763864043,
+      "grad_norm": 0.6158258318901062,
+      "learning_rate": 2.0287769784172663e-06,
+      "loss": 2.8853,
+      "mean_token_accuracy": 0.45986568853259085,
+      "num_tokens": 31436091.0,
+      "step": 1250
+    },
+    {
+      "epoch": 9.064400715563506,
+      "grad_norm": 4.425424098968506,
+      "learning_rate": 1.8848920863309354e-06,
+      "loss": 3.1999,
+      "mean_token_accuracy": 0.45752188490658274,
+      "num_tokens": 31693958.0,
+      "step": 1260
+    },
+    {
+      "epoch": 9.135957066189624,
+      "grad_norm": 0.6236605048179626,
+      "learning_rate": 1.7410071942446045e-06,
+      "loss": 2.8925,
+      "mean_token_accuracy": 0.4580650545656681,
+      "num_tokens": 31943050.0,
+      "step": 1270
+    },
+    {
+      "epoch": 9.207513416815742,
+      "grad_norm": 0.5942525863647461,
+      "learning_rate": 1.5971223021582735e-06,
+      "loss": 2.8896,
+      "mean_token_accuracy": 0.45962206125259397,
+      "num_tokens": 32193786.0,
+      "step": 1280
+    },
+    {
+      "epoch": 9.279069767441861,
+      "grad_norm": 0.9935563802719116,
+      "learning_rate": 1.4532374100719426e-06,
+      "loss": 2.8982,
+      "mean_token_accuracy": 0.457182715088129,
+      "num_tokens": 32449326.0,
+      "step": 1290
+    },
+    {
+      "epoch": 9.350626118067979,
+      "grad_norm": 0.8188269734382629,
+      "learning_rate": 1.3093525179856117e-06,
+      "loss": 2.855,
+      "mean_token_accuracy": 0.46316581666469575,
+      "num_tokens": 32698038.0,
+      "step": 1300
+    },
+    {
+      "epoch": 9.422182468694096,
+      "grad_norm": 0.6339349150657654,
+      "learning_rate": 1.1654676258992808e-06,
+      "loss": 2.873,
+      "mean_token_accuracy": 0.4594662845134735,
+      "num_tokens": 32949656.0,
+      "step": 1310
+    },
+    {
+      "epoch": 9.493738819320214,
+      "grad_norm": 0.6287016868591309,
+      "learning_rate": 1.0215827338129496e-06,
+      "loss": 2.8851,
+      "mean_token_accuracy": 0.45849224627017976,
+      "num_tokens": 33203989.0,
+      "step": 1320
+    },
+    {
+      "epoch": 9.565295169946333,
+      "grad_norm": 0.6148714423179626,
+      "learning_rate": 8.776978417266188e-07,
+      "loss": 2.9034,
+      "mean_token_accuracy": 0.4570117011666298,
+      "num_tokens": 33456115.0,
+      "step": 1330
+    },
+    {
+      "epoch": 9.636851520572451,
+      "grad_norm": 0.5148676633834839,
+      "learning_rate": 7.338129496402878e-07,
+      "loss": 2.892,
+      "mean_token_accuracy": 0.459391076117754,
+      "num_tokens": 33711492.0,
+      "step": 1340
+    },
+    {
+      "epoch": 9.708407871198569,
+      "grad_norm": 0.9138558506965637,
+      "learning_rate": 5.899280575539569e-07,
+      "loss": 2.8813,
+      "mean_token_accuracy": 0.46166028156876565,
+      "num_tokens": 33958698.0,
+      "step": 1350
+    },
+    {
+      "epoch": 9.779964221824686,
+      "grad_norm": 0.7092456817626953,
+      "learning_rate": 4.4604316546762596e-07,
+      "loss": 2.8844,
+      "mean_token_accuracy": 0.4608030468225479,
+      "num_tokens": 34205747.0,
+      "step": 1360
+    },
+    {
+      "epoch": 9.851520572450806,
+      "grad_norm": 0.8316847681999207,
+      "learning_rate": 3.02158273381295e-07,
+      "loss": 2.9008,
+      "mean_token_accuracy": 0.4585262954235077,
+      "num_tokens": 34458362.0,
+      "step": 1370
+    },
+    {
+      "epoch": 9.923076923076923,
+      "grad_norm": 0.6987820267677307,
+      "learning_rate": 1.5827338129496404e-07,
+      "loss": 2.8819,
+      "mean_token_accuracy": 0.4603422984480858,
+      "num_tokens": 34708914.0,
+      "step": 1380
+    },
+    {
+      "epoch": 9.994633273703041,
+      "grad_norm": 0.7729736566543579,
+      "learning_rate": 1.4388489208633095e-08,
+      "loss": 2.9041,
+      "mean_token_accuracy": 0.45747644156217576,
+      "num_tokens": 34959957.0,
+      "step": 1390
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1390,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.858756252903014e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1390/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d25b53cc47734bcef31e00edf7734c0385193e3d581c4ba0c2cd909723a664bb
+size 5688

checkpoint-500/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 512,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-500/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}

checkpoint-500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:366dd207462f94c865b13bbffc940a448332d52ea7411652cd817b9f4396462d
+size 309900448

checkpoint-500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f71b4798f043306ba9a764799fc6ae83a2ba22324528263502da41564940b60
+size 619836730

checkpoint-500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f37c40ce327861a7ca13b719d3aa37510a143368b6e74358bdb14becb3899e1e
+size 14244

checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ab2c291cab7c28fd90ff222c6ef90ee4060b3d3475da1afe0a061fd24fb16f5
+size 1064

checkpoint-500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-500/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,484 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.59391771019678,
+  "eval_steps": 500,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07155635062611806,
+      "grad_norm": 3.981292247772217,
+      "learning_rate": 1.9870503597122304e-05,
+      "loss": 6.5969,
+      "mean_token_accuracy": 0.15720859691500663,
+      "num_tokens": 249014.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.14311270125223613,
+      "grad_norm": 6.078427314758301,
+      "learning_rate": 1.9726618705035972e-05,
+      "loss": 6.3047,
+      "mean_token_accuracy": 0.17161023132503034,
+      "num_tokens": 499527.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.2146690518783542,
+      "grad_norm": 3.555305242538452,
+      "learning_rate": 1.958273381294964e-05,
+      "loss": 6.0472,
+      "mean_token_accuracy": 0.19869447350502015,
+      "num_tokens": 755405.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.28622540250447226,
+      "grad_norm": 3.784306764602661,
+      "learning_rate": 1.9438848920863313e-05,
+      "loss": 5.8397,
+      "mean_token_accuracy": 0.22695979550480844,
+      "num_tokens": 1011193.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.35778175313059035,
+      "grad_norm": 3.2327146530151367,
+      "learning_rate": 1.9294964028776978e-05,
+      "loss": 5.6695,
+      "mean_token_accuracy": 0.2401440929621458,
+      "num_tokens": 1258965.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.4293381037567084,
+      "grad_norm": 3.420456647872925,
+      "learning_rate": 1.915107913669065e-05,
+      "loss": 5.4321,
+      "mean_token_accuracy": 0.2521901123225689,
+      "num_tokens": 1512466.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.5008944543828264,
+      "grad_norm": 4.493953227996826,
+      "learning_rate": 1.9007194244604318e-05,
+      "loss": 5.2609,
+      "mean_token_accuracy": 0.26822467111051085,
+      "num_tokens": 1760599.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.5724508050089445,
+      "grad_norm": 2.4932243824005127,
+      "learning_rate": 1.8863309352517986e-05,
+      "loss": 5.1328,
+      "mean_token_accuracy": 0.275511983782053,
+      "num_tokens": 2014670.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.6440071556350626,
+      "grad_norm": 2.402729034423828,
+      "learning_rate": 1.8719424460431658e-05,
+      "loss": 5.0135,
+      "mean_token_accuracy": 0.2811047907918692,
+      "num_tokens": 2264498.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.7155635062611807,
+      "grad_norm": 2.8561453819274902,
+      "learning_rate": 1.8575539568345323e-05,
+      "loss": 4.8244,
+      "mean_token_accuracy": 0.2967699430882931,
+      "num_tokens": 2508975.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.7871198568872988,
+      "grad_norm": 2.222463846206665,
+      "learning_rate": 1.8431654676258995e-05,
+      "loss": 4.7404,
+      "mean_token_accuracy": 0.30234326496720315,
+      "num_tokens": 2760092.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.8586762075134168,
+      "grad_norm": 2.0150718688964844,
+      "learning_rate": 1.8287769784172664e-05,
+      "loss": 4.5925,
+      "mean_token_accuracy": 0.31090952083468437,
+      "num_tokens": 3011643.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.9302325581395349,
+      "grad_norm": 2.499884605407715,
+      "learning_rate": 1.8143884892086332e-05,
+      "loss": 4.484,
+      "mean_token_accuracy": 0.3174323089420795,
+      "num_tokens": 3260597.0,
+      "step": 130
+    },
+    {
+      "epoch": 1.0071556350626119,
+      "grad_norm": 3.81246280670166,
+      "learning_rate": 1.8e-05,
+      "loss": 4.8272,
+      "mean_token_accuracy": 0.32652662367355534,
+      "num_tokens": 3521468.0,
+      "step": 140
+    },
+    {
+      "epoch": 1.07871198568873,
+      "grad_norm": 1.3433386087417603,
+      "learning_rate": 1.785611510791367e-05,
+      "loss": 4.2527,
+      "mean_token_accuracy": 0.3359356351196766,
+      "num_tokens": 3764868.0,
+      "step": 150
+    },
+    {
+      "epoch": 1.150268336314848,
+      "grad_norm": 2.1221790313720703,
+      "learning_rate": 1.771223021582734e-05,
+      "loss": 4.1608,
+      "mean_token_accuracy": 0.33773822858929636,
+      "num_tokens": 4013198.0,
+      "step": 160
+    },
+    {
+      "epoch": 1.2218246869409661,
+      "grad_norm": 1.3530231714248657,
+      "learning_rate": 1.756834532374101e-05,
+      "loss": 4.0771,
+      "mean_token_accuracy": 0.3416416011750698,
+      "num_tokens": 4266761.0,
+      "step": 170
+    },
+    {
+      "epoch": 1.293381037567084,
+      "grad_norm": 8.359506607055664,
+      "learning_rate": 1.7424460431654678e-05,
+      "loss": 3.9872,
+      "mean_token_accuracy": 0.3446764849126339,
+      "num_tokens": 4524185.0,
+      "step": 180
+    },
+    {
+      "epoch": 1.364937388193202,
+      "grad_norm": 0.9995141625404358,
+      "learning_rate": 1.7280575539568346e-05,
+      "loss": 3.8942,
+      "mean_token_accuracy": 0.3535850510001183,
+      "num_tokens": 4775262.0,
+      "step": 190
+    },
+    {
+      "epoch": 1.4364937388193202,
+      "grad_norm": 0.9777733087539673,
+      "learning_rate": 1.7136690647482015e-05,
+      "loss": 3.8149,
+      "mean_token_accuracy": 0.36338763535022733,
+      "num_tokens": 5022677.0,
+      "step": 200
+    },
+    {
+      "epoch": 1.5080500894454383,
+      "grad_norm": 0.9398026466369629,
+      "learning_rate": 1.6992805755395686e-05,
+      "loss": 3.7274,
+      "mean_token_accuracy": 0.37123609259724616,
+      "num_tokens": 5271810.0,
+      "step": 210
+    },
+    {
+      "epoch": 1.5796064400715564,
+      "grad_norm": 3.464630603790283,
+      "learning_rate": 1.6848920863309355e-05,
+      "loss": 3.7154,
+      "mean_token_accuracy": 0.3758062146604061,
+      "num_tokens": 5522408.0,
+      "step": 220
+    },
+    {
+      "epoch": 1.6511627906976745,
+      "grad_norm": 2.104501485824585,
+      "learning_rate": 1.6705035971223023e-05,
+      "loss": 3.6469,
+      "mean_token_accuracy": 0.3832809627056122,
+      "num_tokens": 5769231.0,
+      "step": 230
+    },
+    {
+      "epoch": 1.7227191413237923,
+      "grad_norm": 2.5066070556640625,
+      "learning_rate": 1.656115107913669e-05,
+      "loss": 3.6434,
+      "mean_token_accuracy": 0.38175718635320666,
+      "num_tokens": 6020808.0,
+      "step": 240
+    },
+    {
+      "epoch": 1.7942754919499104,
+      "grad_norm": 0.9507914781570435,
+      "learning_rate": 1.641726618705036e-05,
+      "loss": 3.5866,
+      "mean_token_accuracy": 0.3858716659247875,
+      "num_tokens": 6275383.0,
+      "step": 250
+    },
+    {
+      "epoch": 1.8658318425760285,
+      "grad_norm": 3.4407248497009277,
+      "learning_rate": 1.627338129496403e-05,
+      "loss": 3.5663,
+      "mean_token_accuracy": 0.38949630260467527,
+      "num_tokens": 6525182.0,
+      "step": 260
+    },
+    {
+      "epoch": 1.9373881932021466,
+      "grad_norm": 0.7253276109695435,
+      "learning_rate": 1.61294964028777e-05,
+      "loss": 3.5233,
+      "mean_token_accuracy": 0.391743092238903,
+      "num_tokens": 6779756.0,
+      "step": 270
+    },
+    {
+      "epoch": 2.0143112701252237,
+      "grad_norm": 0.6907745599746704,
+      "learning_rate": 1.598561151079137e-05,
+      "loss": 3.8364,
+      "mean_token_accuracy": 0.395021445140606,
+      "num_tokens": 7043995.0,
+      "step": 280
+    },
+    {
+      "epoch": 2.085867620751342,
+      "grad_norm": 0.9332271218299866,
+      "learning_rate": 1.5841726618705037e-05,
+      "loss": 3.4772,
+      "mean_token_accuracy": 0.3965952657163143,
+      "num_tokens": 7297135.0,
+      "step": 290
+    },
+    {
+      "epoch": 2.15742397137746,
+      "grad_norm": 1.235854983329773,
+      "learning_rate": 1.5697841726618706e-05,
+      "loss": 3.4414,
+      "mean_token_accuracy": 0.3989549733698368,
+      "num_tokens": 7545580.0,
+      "step": 300
+    },
+    {
+      "epoch": 2.228980322003578,
+      "grad_norm": 0.6656942963600159,
+      "learning_rate": 1.5553956834532374e-05,
+      "loss": 3.4114,
+      "mean_token_accuracy": 0.40089740604162216,
+      "num_tokens": 7799266.0,
+      "step": 310
+    },
+    {
+      "epoch": 2.300536672629696,
+      "grad_norm": 0.6185078024864197,
+      "learning_rate": 1.5410071942446046e-05,
+      "loss": 3.395,
+      "mean_token_accuracy": 0.4044420339167118,
+      "num_tokens": 8052210.0,
+      "step": 320
+    },
+    {
+      "epoch": 2.3720930232558137,
+      "grad_norm": 1.1096031665802002,
+      "learning_rate": 1.5266187050359714e-05,
+      "loss": 3.3804,
+      "mean_token_accuracy": 0.40613374635577204,
+      "num_tokens": 8307281.0,
+      "step": 330
+    },
+    {
+      "epoch": 2.4436493738819323,
+      "grad_norm": 0.5653504729270935,
+      "learning_rate": 1.5122302158273383e-05,
+      "loss": 3.3501,
+      "mean_token_accuracy": 0.40836238488554955,
+      "num_tokens": 8557428.0,
+      "step": 340
+    },
+    {
+      "epoch": 2.51520572450805,
+      "grad_norm": 0.5432367920875549,
+      "learning_rate": 1.4978417266187051e-05,
+      "loss": 3.3467,
+      "mean_token_accuracy": 0.40912329107522966,
+      "num_tokens": 8808315.0,
+      "step": 350
+    },
+    {
+      "epoch": 2.586762075134168,
+      "grad_norm": 1.6327078342437744,
+      "learning_rate": 1.4834532374100721e-05,
+      "loss": 3.3258,
+      "mean_token_accuracy": 0.4106706023216248,
+      "num_tokens": 9057886.0,
+      "step": 360
+    },
+    {
+      "epoch": 2.658318425760286,
+      "grad_norm": 0.6323248147964478,
+      "learning_rate": 1.469064748201439e-05,
+      "loss": 3.298,
+      "mean_token_accuracy": 0.41263881102204325,
+      "num_tokens": 9309357.0,
+      "step": 370
+    },
+    {
+      "epoch": 2.729874776386404,
+      "grad_norm": 2.182023525238037,
+      "learning_rate": 1.4546762589928058e-05,
+      "loss": 3.2819,
+      "mean_token_accuracy": 0.4163250602781773,
+      "num_tokens": 9558445.0,
+      "step": 380
+    },
+    {
+      "epoch": 2.8014311270125223,
+      "grad_norm": 0.5517727136611938,
+      "learning_rate": 1.4402877697841728e-05,
+      "loss": 3.2486,
+      "mean_token_accuracy": 0.4189229063689709,
+      "num_tokens": 9813513.0,
+      "step": 390
+    },
+    {
+      "epoch": 2.8729874776386404,
+      "grad_norm": 0.877505362033844,
+      "learning_rate": 1.4258992805755397e-05,
+      "loss": 3.2428,
+      "mean_token_accuracy": 0.4193955764174461,
+      "num_tokens": 10059533.0,
+      "step": 400
+    },
+    {
+      "epoch": 2.9445438282647585,
+      "grad_norm": 0.7058685421943665,
+      "learning_rate": 1.4115107913669065e-05,
+      "loss": 3.2369,
+      "mean_token_accuracy": 0.4203347131609917,
+      "num_tokens": 10309900.0,
+      "step": 410
+    },
+    {
+      "epoch": 3.0214669051878356,
+      "grad_norm": 1.2357401847839355,
+      "learning_rate": 1.3971223021582736e-05,
+      "loss": 3.563,
+      "mean_token_accuracy": 0.4190788792400825,
+      "num_tokens": 10568955.0,
+      "step": 420
+    },
+    {
+      "epoch": 3.0930232558139537,
+      "grad_norm": 0.7918577790260315,
+      "learning_rate": 1.3827338129496404e-05,
+      "loss": 3.2081,
+      "mean_token_accuracy": 0.4243326403200626,
+      "num_tokens": 10818378.0,
+      "step": 430
+    },
+    {
+      "epoch": 3.1645796064400717,
+      "grad_norm": 0.5052043795585632,
+      "learning_rate": 1.3683453237410074e-05,
+      "loss": 3.2022,
+      "mean_token_accuracy": 0.4242256350815296,
+      "num_tokens": 11070954.0,
+      "step": 440
+    },
+    {
+      "epoch": 3.23613595706619,
+      "grad_norm": 0.5182781219482422,
+      "learning_rate": 1.353956834532374e-05,
+      "loss": 3.199,
+      "mean_token_accuracy": 0.4230089582502842,
+      "num_tokens": 11323582.0,
+      "step": 450
+    },
+    {
+      "epoch": 3.3076923076923075,
+      "grad_norm": 1.1913461685180664,
+      "learning_rate": 1.3395683453237411e-05,
+      "loss": 3.1853,
+      "mean_token_accuracy": 0.42622370198369025,
+      "num_tokens": 11574310.0,
+      "step": 460
+    },
+    {
+      "epoch": 3.3792486583184256,
+      "grad_norm": 3.5984549522399902,
+      "learning_rate": 1.3251798561151081e-05,
+      "loss": 3.1743,
+      "mean_token_accuracy": 0.42716887295246125,
+      "num_tokens": 11828106.0,
+      "step": 470
+    },
+    {
+      "epoch": 3.4508050089445437,
+      "grad_norm": 0.8405038118362427,
+      "learning_rate": 1.310791366906475e-05,
+      "loss": 3.1591,
+      "mean_token_accuracy": 0.4280025988817215,
+      "num_tokens": 12078899.0,
+      "step": 480
+    },
+    {
+      "epoch": 3.5223613595706618,
+      "grad_norm": 0.5538778901100159,
+      "learning_rate": 1.296402877697842e-05,
+      "loss": 3.1318,
+      "mean_token_accuracy": 0.43028812259435656,
+      "num_tokens": 12331071.0,
+      "step": 490
+    },
+    {
+      "epoch": 3.59391771019678,
+      "grad_norm": 2.8024959564208984,
+      "learning_rate": 1.2820143884892086e-05,
+      "loss": 3.1394,
+      "mean_token_accuracy": 0.4312668785452843,
+      "num_tokens": 12581208.0,
+      "step": 500
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1390,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.3969337037225984e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d25b53cc47734bcef31e00edf7734c0385193e3d581c4ba0c2cd909723a664bb
+size 5688

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 512,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 32000
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc1ecc51f6ae0b74b7232e22a94a71d7ffb72ce57a924be13dc83c8af25c6af6
+size 309900448

runs/Apr25_07-50-36_9c18e885a673/events.out.tfevents.1745567454.9c18e885a673.5280.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9496644bfd07f191de4fe1f4e87267f7f920865d707bead83b391dd15036a1c8
+size 51641

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d25b53cc47734bcef31e00edf7734c0385193e3d581c4ba0c2cd909723a664bb
+size 5688