diff --git "a/trainer_state.json" "b/trainer_state.json" new file mode 100644--- /dev/null +++ "b/trainer_state.json" @@ -0,0 +1,14033 @@ +{ + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 0.6666666666666666, + "eval_steps": 500, + "global_step": 2000, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.0003333333333333333, + "grad_norm": 0.5618885159492493, + "learning_rate": 9.999999999999999e-06, + "loss": 0.5906, + "step": 1 + }, + { + "epoch": 0.0006666666666666666, + "grad_norm": 0.1781821846961975, + "learning_rate": 1.9999999999999998e-05, + "loss": 0.5069, + "step": 2 + }, + { + "epoch": 0.001, + "grad_norm": 0.17140868306159973, + "learning_rate": 3e-05, + "loss": 0.4444, + "step": 3 + }, + { + "epoch": 0.0013333333333333333, + "grad_norm": 0.21297098696231842, + "learning_rate": 2.9999991758856373e-05, + "loss": 0.4328, + "step": 4 + }, + { + "epoch": 0.0016666666666666668, + "grad_norm": 0.19361384212970734, + "learning_rate": 2.9999967035434546e-05, + "loss": 0.4313, + "step": 5 + }, + { + "epoch": 0.002, + "grad_norm": 0.10692717880010605, + "learning_rate": 2.999992582976169e-05, + "loss": 0.4304, + "step": 6 + }, + { + "epoch": 0.0023333333333333335, + "grad_norm": 0.12433163076639175, + "learning_rate": 2.9999868141883077e-05, + "loss": 0.4328, + "step": 7 + }, + { + "epoch": 0.0026666666666666666, + "grad_norm": 0.10557225346565247, + "learning_rate": 2.9999793971862098e-05, + "loss": 0.4241, + "step": 8 + }, + { + "epoch": 0.003, + "grad_norm": 0.16398893296718597, + "learning_rate": 2.999970331978025e-05, + "loss": 0.4341, + "step": 9 + }, + { + "epoch": 0.0033333333333333335, + "grad_norm": 0.21949617564678192, + "learning_rate": 2.9999596185737146e-05, + "loss": 0.4208, + "step": 10 + }, + { + "epoch": 0.0036666666666666666, + "grad_norm": 0.11252401024103165, + "learning_rate": 2.9999472569850505e-05, + "loss": 0.4191, + "step": 11 + }, + { + "epoch": 0.004, + "grad_norm": 0.1046333983540535, + "learning_rate": 2.9999332472256166e-05, + "loss": 0.417, + "step": 12 + }, + { + "epoch": 0.004333333333333333, + "grad_norm": 0.1682811677455902, + "learning_rate": 2.999917589310806e-05, + "loss": 0.417, + "step": 13 + }, + { + "epoch": 0.004666666666666667, + "grad_norm": 0.14189855754375458, + "learning_rate": 2.9999002832578246e-05, + "loss": 0.4221, + "step": 14 + }, + { + "epoch": 0.005, + "grad_norm": 0.09489354491233826, + "learning_rate": 2.999881329085688e-05, + "loss": 0.4158, + "step": 15 + }, + { + "epoch": 0.005333333333333333, + "grad_norm": 0.15875688195228577, + "learning_rate": 2.9998607268152244e-05, + "loss": 0.4183, + "step": 16 + }, + { + "epoch": 0.005666666666666667, + "grad_norm": 0.17202739417552948, + "learning_rate": 2.999838476469071e-05, + "loss": 0.4215, + "step": 17 + }, + { + "epoch": 0.006, + "grad_norm": 0.10151273757219315, + "learning_rate": 2.9998145780716776e-05, + "loss": 0.4097, + "step": 18 + }, + { + "epoch": 0.006333333333333333, + "grad_norm": 0.1025652289390564, + "learning_rate": 2.9997890316493036e-05, + "loss": 0.413, + "step": 19 + }, + { + "epoch": 0.006666666666666667, + "grad_norm": 0.10641320049762726, + "learning_rate": 2.9997618372300208e-05, + "loss": 0.4145, + "step": 20 + }, + { + "epoch": 0.007, + "grad_norm": 0.1978514939546585, + "learning_rate": 2.99973299484371e-05, + "loss": 0.4107, + "step": 21 + }, + { + "epoch": 0.007333333333333333, + "grad_norm": 0.11744631826877594, + "learning_rate": 2.999702504522064e-05, + "loss": 0.4003, + "step": 22 + }, + { + "epoch": 0.007666666666666666, + "grad_norm": 0.12009154260158539, + "learning_rate": 2.999670366298586e-05, + "loss": 0.4098, + "step": 23 + }, + { + "epoch": 0.008, + "grad_norm": 0.11457215994596481, + "learning_rate": 2.999636580208591e-05, + "loss": 0.4157, + "step": 24 + }, + { + "epoch": 0.008333333333333333, + "grad_norm": 0.15578040480613708, + "learning_rate": 2.999601146289203e-05, + "loss": 0.4128, + "step": 25 + }, + { + "epoch": 0.008666666666666666, + "grad_norm": 0.10786713659763336, + "learning_rate": 2.9995640645793576e-05, + "loss": 0.42, + "step": 26 + }, + { + "epoch": 0.009, + "grad_norm": 0.09585212171077728, + "learning_rate": 2.999525335119801e-05, + "loss": 0.4137, + "step": 27 + }, + { + "epoch": 0.009333333333333334, + "grad_norm": 0.12627744674682617, + "learning_rate": 2.9994849579530893e-05, + "loss": 0.4083, + "step": 28 + }, + { + "epoch": 0.009666666666666667, + "grad_norm": 0.14488570392131805, + "learning_rate": 2.999442933123591e-05, + "loss": 0.4095, + "step": 29 + }, + { + "epoch": 0.01, + "grad_norm": 0.10908735543489456, + "learning_rate": 2.9993992606774826e-05, + "loss": 0.4033, + "step": 30 + }, + { + "epoch": 0.010333333333333333, + "grad_norm": 0.13068236410617828, + "learning_rate": 2.9993539406627524e-05, + "loss": 0.4101, + "step": 31 + }, + { + "epoch": 0.010666666666666666, + "grad_norm": 0.1072893962264061, + "learning_rate": 2.9993069731291995e-05, + "loss": 0.4094, + "step": 32 + }, + { + "epoch": 0.011, + "grad_norm": 0.10081745684146881, + "learning_rate": 2.9992583581284324e-05, + "loss": 0.4096, + "step": 33 + }, + { + "epoch": 0.011333333333333334, + "grad_norm": 0.09671071171760559, + "learning_rate": 2.99920809571387e-05, + "loss": 0.4121, + "step": 34 + }, + { + "epoch": 0.011666666666666667, + "grad_norm": 0.08121569454669952, + "learning_rate": 2.9991561859407413e-05, + "loss": 0.408, + "step": 35 + }, + { + "epoch": 0.012, + "grad_norm": 0.10918578505516052, + "learning_rate": 2.999102628866087e-05, + "loss": 0.4075, + "step": 36 + }, + { + "epoch": 0.012333333333333333, + "grad_norm": 0.07578189671039581, + "learning_rate": 2.9990474245487555e-05, + "loss": 0.4103, + "step": 37 + }, + { + "epoch": 0.012666666666666666, + "grad_norm": 0.12217068672180176, + "learning_rate": 2.9989905730494068e-05, + "loss": 0.4002, + "step": 38 + }, + { + "epoch": 0.013, + "grad_norm": 0.09366371482610703, + "learning_rate": 2.9989320744305102e-05, + "loss": 0.4196, + "step": 39 + }, + { + "epoch": 0.013333333333333334, + "grad_norm": 0.089875727891922, + "learning_rate": 2.9988719287563452e-05, + "loss": 0.4121, + "step": 40 + }, + { + "epoch": 0.013666666666666667, + "grad_norm": 0.07090825587511063, + "learning_rate": 2.998810136093001e-05, + "loss": 0.4009, + "step": 41 + }, + { + "epoch": 0.014, + "grad_norm": 0.09881623834371567, + "learning_rate": 2.998746696508377e-05, + "loss": 0.4099, + "step": 42 + }, + { + "epoch": 0.014333333333333333, + "grad_norm": 0.08910360932350159, + "learning_rate": 2.998681610072181e-05, + "loss": 0.4167, + "step": 43 + }, + { + "epoch": 0.014666666666666666, + "grad_norm": 0.09045550972223282, + "learning_rate": 2.9986148768559314e-05, + "loss": 0.4076, + "step": 44 + }, + { + "epoch": 0.015, + "grad_norm": 0.09698829799890518, + "learning_rate": 2.9985464969329568e-05, + "loss": 0.4089, + "step": 45 + }, + { + "epoch": 0.015333333333333332, + "grad_norm": 0.11797811836004257, + "learning_rate": 2.9984764703783934e-05, + "loss": 0.4068, + "step": 46 + }, + { + "epoch": 0.015666666666666666, + "grad_norm": 0.0824899896979332, + "learning_rate": 2.9984047972691882e-05, + "loss": 0.4055, + "step": 47 + }, + { + "epoch": 0.016, + "grad_norm": 0.09946855157613754, + "learning_rate": 2.998331477684097e-05, + "loss": 0.4131, + "step": 48 + }, + { + "epoch": 0.01633333333333333, + "grad_norm": 0.08910916745662689, + "learning_rate": 2.9982565117036844e-05, + "loss": 0.4055, + "step": 49 + }, + { + "epoch": 0.016666666666666666, + "grad_norm": 0.09523975104093552, + "learning_rate": 2.998179899410325e-05, + "loss": 0.413, + "step": 50 + }, + { + "epoch": 0.017, + "grad_norm": 0.0850600078701973, + "learning_rate": 2.9981016408882008e-05, + "loss": 0.3964, + "step": 51 + }, + { + "epoch": 0.017333333333333333, + "grad_norm": 0.10436173528432846, + "learning_rate": 2.9980217362233048e-05, + "loss": 0.4091, + "step": 52 + }, + { + "epoch": 0.017666666666666667, + "grad_norm": 0.11041701585054398, + "learning_rate": 2.997940185503438e-05, + "loss": 0.4189, + "step": 53 + }, + { + "epoch": 0.018, + "grad_norm": 0.15549615025520325, + "learning_rate": 2.997856988818209e-05, + "loss": 0.4025, + "step": 54 + }, + { + "epoch": 0.018333333333333333, + "grad_norm": 0.10649256408214569, + "learning_rate": 2.9977721462590364e-05, + "loss": 0.4122, + "step": 55 + }, + { + "epoch": 0.018666666666666668, + "grad_norm": 0.11493156850337982, + "learning_rate": 2.9976856579191467e-05, + "loss": 0.4, + "step": 56 + }, + { + "epoch": 0.019, + "grad_norm": 0.12989689409732819, + "learning_rate": 2.9975975238935747e-05, + "loss": 0.4156, + "step": 57 + }, + { + "epoch": 0.019333333333333334, + "grad_norm": 0.11189858615398407, + "learning_rate": 2.9975077442791644e-05, + "loss": 0.4065, + "step": 58 + }, + { + "epoch": 0.019666666666666666, + "grad_norm": 0.09460669010877609, + "learning_rate": 2.9974163191745668e-05, + "loss": 0.4002, + "step": 59 + }, + { + "epoch": 0.02, + "grad_norm": 0.0896977111697197, + "learning_rate": 2.9973232486802412e-05, + "loss": 0.4101, + "step": 60 + }, + { + "epoch": 0.02033333333333333, + "grad_norm": 0.09035991132259369, + "learning_rate": 2.9972285328984564e-05, + "loss": 0.408, + "step": 61 + }, + { + "epoch": 0.020666666666666667, + "grad_norm": 0.10343337804079056, + "learning_rate": 2.997132171933287e-05, + "loss": 0.4038, + "step": 62 + }, + { + "epoch": 0.021, + "grad_norm": 0.11173971742391586, + "learning_rate": 2.9970341658906166e-05, + "loss": 0.4096, + "step": 63 + }, + { + "epoch": 0.021333333333333333, + "grad_norm": 0.16090619564056396, + "learning_rate": 2.9969345148781362e-05, + "loss": 0.408, + "step": 64 + }, + { + "epoch": 0.021666666666666667, + "grad_norm": 0.10791561007499695, + "learning_rate": 2.996833219005344e-05, + "loss": 0.4089, + "step": 65 + }, + { + "epoch": 0.022, + "grad_norm": 0.06673993170261383, + "learning_rate": 2.9967302783835462e-05, + "loss": 0.4012, + "step": 66 + }, + { + "epoch": 0.022333333333333334, + "grad_norm": 0.100413978099823, + "learning_rate": 2.9966256931258554e-05, + "loss": 0.4024, + "step": 67 + }, + { + "epoch": 0.02266666666666667, + "grad_norm": 0.1771310269832611, + "learning_rate": 2.9965194633471925e-05, + "loss": 0.4193, + "step": 68 + }, + { + "epoch": 0.023, + "grad_norm": 0.0920652374625206, + "learning_rate": 2.996411589164284e-05, + "loss": 0.4118, + "step": 69 + }, + { + "epoch": 0.023333333333333334, + "grad_norm": 0.10187116265296936, + "learning_rate": 2.9963020706956648e-05, + "loss": 0.4109, + "step": 70 + }, + { + "epoch": 0.023666666666666666, + "grad_norm": 0.0869801864027977, + "learning_rate": 2.9961909080616757e-05, + "loss": 0.4129, + "step": 71 + }, + { + "epoch": 0.024, + "grad_norm": 0.10588974505662918, + "learning_rate": 2.9960781013844643e-05, + "loss": 0.4162, + "step": 72 + }, + { + "epoch": 0.024333333333333332, + "grad_norm": 0.08130564540624619, + "learning_rate": 2.995963650787985e-05, + "loss": 0.4051, + "step": 73 + }, + { + "epoch": 0.024666666666666667, + "grad_norm": 0.07810894399881363, + "learning_rate": 2.9958475563979977e-05, + "loss": 0.4008, + "step": 74 + }, + { + "epoch": 0.025, + "grad_norm": 0.08321021497249603, + "learning_rate": 2.99572981834207e-05, + "loss": 0.4085, + "step": 75 + }, + { + "epoch": 0.025333333333333333, + "grad_norm": 0.09737488627433777, + "learning_rate": 2.9956104367495738e-05, + "loss": 0.4019, + "step": 76 + }, + { + "epoch": 0.025666666666666667, + "grad_norm": 0.1106966882944107, + "learning_rate": 2.995489411751688e-05, + "loss": 0.4106, + "step": 77 + }, + { + "epoch": 0.026, + "grad_norm": 0.08891285955905914, + "learning_rate": 2.9953667434813983e-05, + "loss": 0.4108, + "step": 78 + }, + { + "epoch": 0.026333333333333334, + "grad_norm": 0.14050297439098358, + "learning_rate": 2.9952424320734935e-05, + "loss": 0.4097, + "step": 79 + }, + { + "epoch": 0.02666666666666667, + "grad_norm": 0.12178231030702591, + "learning_rate": 2.9951164776645702e-05, + "loss": 0.4056, + "step": 80 + }, + { + "epoch": 0.027, + "grad_norm": 0.0826113373041153, + "learning_rate": 2.9949888803930293e-05, + "loss": 0.4129, + "step": 81 + }, + { + "epoch": 0.027333333333333334, + "grad_norm": 0.08032584190368652, + "learning_rate": 2.9948596403990774e-05, + "loss": 0.4035, + "step": 82 + }, + { + "epoch": 0.027666666666666666, + "grad_norm": 0.09317266941070557, + "learning_rate": 2.9947287578247257e-05, + "loss": 0.408, + "step": 83 + }, + { + "epoch": 0.028, + "grad_norm": 0.10722361505031586, + "learning_rate": 2.9945962328137898e-05, + "loss": 0.4039, + "step": 84 + }, + { + "epoch": 0.028333333333333332, + "grad_norm": 0.25730186700820923, + "learning_rate": 2.9944620655118916e-05, + "loss": 0.4103, + "step": 85 + }, + { + "epoch": 0.028666666666666667, + "grad_norm": 0.10314544290304184, + "learning_rate": 2.9943262560664563e-05, + "loss": 0.41, + "step": 86 + }, + { + "epoch": 0.029, + "grad_norm": 0.07751830667257309, + "learning_rate": 2.9941888046267144e-05, + "loss": 0.4033, + "step": 87 + }, + { + "epoch": 0.029333333333333333, + "grad_norm": 0.1194625049829483, + "learning_rate": 2.9940497113436994e-05, + "loss": 0.3958, + "step": 88 + }, + { + "epoch": 0.029666666666666668, + "grad_norm": 0.0774913877248764, + "learning_rate": 2.9939089763702506e-05, + "loss": 0.4256, + "step": 89 + }, + { + "epoch": 0.03, + "grad_norm": 0.09801949560642242, + "learning_rate": 2.9937665998610097e-05, + "loss": 0.4067, + "step": 90 + }, + { + "epoch": 0.030333333333333334, + "grad_norm": 0.09112638980150223, + "learning_rate": 2.9936225819724224e-05, + "loss": 0.4101, + "step": 91 + }, + { + "epoch": 0.030666666666666665, + "grad_norm": 0.08197083324193954, + "learning_rate": 2.993476922862739e-05, + "loss": 0.4063, + "step": 92 + }, + { + "epoch": 0.031, + "grad_norm": 0.10547469556331635, + "learning_rate": 2.9933296226920122e-05, + "loss": 0.4081, + "step": 93 + }, + { + "epoch": 0.03133333333333333, + "grad_norm": 0.0937281921505928, + "learning_rate": 2.9931806816220982e-05, + "loss": 0.4036, + "step": 94 + }, + { + "epoch": 0.03166666666666667, + "grad_norm": 0.09861817210912704, + "learning_rate": 2.993030099816656e-05, + "loss": 0.4, + "step": 95 + }, + { + "epoch": 0.032, + "grad_norm": 0.08383932709693909, + "learning_rate": 2.9928778774411487e-05, + "loss": 0.4071, + "step": 96 + }, + { + "epoch": 0.03233333333333333, + "grad_norm": 0.09034381806850433, + "learning_rate": 2.9927240146628406e-05, + "loss": 0.4025, + "step": 97 + }, + { + "epoch": 0.03266666666666666, + "grad_norm": 0.1359708160161972, + "learning_rate": 2.992568511650799e-05, + "loss": 0.4129, + "step": 98 + }, + { + "epoch": 0.033, + "grad_norm": 0.08980116993188858, + "learning_rate": 2.9924113685758934e-05, + "loss": 0.4029, + "step": 99 + }, + { + "epoch": 0.03333333333333333, + "grad_norm": 0.1574094295501709, + "learning_rate": 2.9922525856107962e-05, + "loss": 0.4069, + "step": 100 + }, + { + "epoch": 0.033666666666666664, + "grad_norm": 0.09855298697948456, + "learning_rate": 2.9920921629299805e-05, + "loss": 0.409, + "step": 101 + }, + { + "epoch": 0.034, + "grad_norm": 0.08783973008394241, + "learning_rate": 2.9919301007097224e-05, + "loss": 0.4103, + "step": 102 + }, + { + "epoch": 0.034333333333333334, + "grad_norm": 0.11836662888526917, + "learning_rate": 2.9917663991280986e-05, + "loss": 0.4106, + "step": 103 + }, + { + "epoch": 0.034666666666666665, + "grad_norm": 0.1002713292837143, + "learning_rate": 2.991601058364988e-05, + "loss": 0.4133, + "step": 104 + }, + { + "epoch": 0.035, + "grad_norm": 0.06721492856740952, + "learning_rate": 2.9914340786020692e-05, + "loss": 0.404, + "step": 105 + }, + { + "epoch": 0.035333333333333335, + "grad_norm": 0.08734780550003052, + "learning_rate": 2.991265460022824e-05, + "loss": 0.3965, + "step": 106 + }, + { + "epoch": 0.035666666666666666, + "grad_norm": 0.07992058247327805, + "learning_rate": 2.991095202812533e-05, + "loss": 0.4006, + "step": 107 + }, + { + "epoch": 0.036, + "grad_norm": 0.0807764008641243, + "learning_rate": 2.9909233071582783e-05, + "loss": 0.4023, + "step": 108 + }, + { + "epoch": 0.036333333333333336, + "grad_norm": 0.11602742969989777, + "learning_rate": 2.990749773248942e-05, + "loss": 0.402, + "step": 109 + }, + { + "epoch": 0.03666666666666667, + "grad_norm": 0.10492037981748581, + "learning_rate": 2.9905746012752067e-05, + "loss": 0.3978, + "step": 110 + }, + { + "epoch": 0.037, + "grad_norm": 0.11796582490205765, + "learning_rate": 2.9903977914295546e-05, + "loss": 0.4038, + "step": 111 + }, + { + "epoch": 0.037333333333333336, + "grad_norm": 0.11972765624523163, + "learning_rate": 2.9902193439062673e-05, + "loss": 0.4027, + "step": 112 + }, + { + "epoch": 0.03766666666666667, + "grad_norm": 0.08374351263046265, + "learning_rate": 2.990039258901427e-05, + "loss": 0.4194, + "step": 113 + }, + { + "epoch": 0.038, + "grad_norm": 0.12379361689090729, + "learning_rate": 2.9898575366129145e-05, + "loss": 0.4028, + "step": 114 + }, + { + "epoch": 0.03833333333333333, + "grad_norm": 0.08912088721990585, + "learning_rate": 2.9896741772404093e-05, + "loss": 0.4017, + "step": 115 + }, + { + "epoch": 0.03866666666666667, + "grad_norm": 0.11902043968439102, + "learning_rate": 2.9894891809853906e-05, + "loss": 0.3999, + "step": 116 + }, + { + "epoch": 0.039, + "grad_norm": 0.06670001894235611, + "learning_rate": 2.9893025480511357e-05, + "loss": 0.4003, + "step": 117 + }, + { + "epoch": 0.03933333333333333, + "grad_norm": 0.08368493616580963, + "learning_rate": 2.9891142786427205e-05, + "loss": 0.4021, + "step": 118 + }, + { + "epoch": 0.03966666666666667, + "grad_norm": 0.08319640159606934, + "learning_rate": 2.9889243729670186e-05, + "loss": 0.4043, + "step": 119 + }, + { + "epoch": 0.04, + "grad_norm": 0.09492335468530655, + "learning_rate": 2.9887328312327025e-05, + "loss": 0.4047, + "step": 120 + }, + { + "epoch": 0.04033333333333333, + "grad_norm": 0.08682533353567123, + "learning_rate": 2.988539653650242e-05, + "loss": 0.4078, + "step": 121 + }, + { + "epoch": 0.04066666666666666, + "grad_norm": 0.12284991890192032, + "learning_rate": 2.9883448404319035e-05, + "loss": 0.4067, + "step": 122 + }, + { + "epoch": 0.041, + "grad_norm": 0.09233195334672928, + "learning_rate": 2.9881483917917528e-05, + "loss": 0.4075, + "step": 123 + }, + { + "epoch": 0.04133333333333333, + "grad_norm": 0.0721079632639885, + "learning_rate": 2.9879503079456504e-05, + "loss": 0.4095, + "step": 124 + }, + { + "epoch": 0.041666666666666664, + "grad_norm": 0.09709025174379349, + "learning_rate": 2.987750589111255e-05, + "loss": 0.399, + "step": 125 + }, + { + "epoch": 0.042, + "grad_norm": 0.122868612408638, + "learning_rate": 2.9875492355080213e-05, + "loss": 0.4024, + "step": 126 + }, + { + "epoch": 0.042333333333333334, + "grad_norm": 0.07873429358005524, + "learning_rate": 2.9873462473572005e-05, + "loss": 0.4061, + "step": 127 + }, + { + "epoch": 0.042666666666666665, + "grad_norm": 0.08508696407079697, + "learning_rate": 2.9871416248818402e-05, + "loss": 0.3957, + "step": 128 + }, + { + "epoch": 0.043, + "grad_norm": 0.07922211289405823, + "learning_rate": 2.986935368306783e-05, + "loss": 0.399, + "step": 129 + }, + { + "epoch": 0.043333333333333335, + "grad_norm": 0.0966828316450119, + "learning_rate": 2.986727477858668e-05, + "loss": 0.4144, + "step": 130 + }, + { + "epoch": 0.043666666666666666, + "grad_norm": 0.08578796684741974, + "learning_rate": 2.9865179537659295e-05, + "loss": 0.398, + "step": 131 + }, + { + "epoch": 0.044, + "grad_norm": 0.08409901708364487, + "learning_rate": 2.9863067962587955e-05, + "loss": 0.3972, + "step": 132 + }, + { + "epoch": 0.044333333333333336, + "grad_norm": 0.11395500600337982, + "learning_rate": 2.986094005569291e-05, + "loss": 0.41, + "step": 133 + }, + { + "epoch": 0.04466666666666667, + "grad_norm": 0.14657551050186157, + "learning_rate": 2.985879581931234e-05, + "loss": 0.4038, + "step": 134 + }, + { + "epoch": 0.045, + "grad_norm": 0.09622641652822495, + "learning_rate": 2.985663525580237e-05, + "loss": 0.3948, + "step": 135 + }, + { + "epoch": 0.04533333333333334, + "grad_norm": 0.21486984193325043, + "learning_rate": 2.9854458367537074e-05, + "loss": 0.4031, + "step": 136 + }, + { + "epoch": 0.04566666666666667, + "grad_norm": 0.19630934298038483, + "learning_rate": 2.9852265156908455e-05, + "loss": 0.4071, + "step": 137 + }, + { + "epoch": 0.046, + "grad_norm": 0.10381752997636795, + "learning_rate": 2.9850055626326455e-05, + "loss": 0.3996, + "step": 138 + }, + { + "epoch": 0.04633333333333333, + "grad_norm": 0.09213623404502869, + "learning_rate": 2.9847829778218952e-05, + "loss": 0.4098, + "step": 139 + }, + { + "epoch": 0.04666666666666667, + "grad_norm": 0.08791747689247131, + "learning_rate": 2.984558761503175e-05, + "loss": 0.3994, + "step": 140 + }, + { + "epoch": 0.047, + "grad_norm": 0.11782487481832504, + "learning_rate": 2.984332913922858e-05, + "loss": 0.4059, + "step": 141 + }, + { + "epoch": 0.04733333333333333, + "grad_norm": 0.08477963507175446, + "learning_rate": 2.9841054353291092e-05, + "loss": 0.4071, + "step": 142 + }, + { + "epoch": 0.04766666666666667, + "grad_norm": 0.08006130158901215, + "learning_rate": 2.9838763259718877e-05, + "loss": 0.4108, + "step": 143 + }, + { + "epoch": 0.048, + "grad_norm": 0.09608197212219238, + "learning_rate": 2.9836455861029423e-05, + "loss": 0.4035, + "step": 144 + }, + { + "epoch": 0.04833333333333333, + "grad_norm": 0.09154752641916275, + "learning_rate": 2.9834132159758143e-05, + "loss": 0.3991, + "step": 145 + }, + { + "epoch": 0.048666666666666664, + "grad_norm": 0.09966495633125305, + "learning_rate": 2.983179215845837e-05, + "loss": 0.403, + "step": 146 + }, + { + "epoch": 0.049, + "grad_norm": 0.10722507536411285, + "learning_rate": 2.982943585970134e-05, + "loss": 0.4076, + "step": 147 + }, + { + "epoch": 0.04933333333333333, + "grad_norm": 0.08198609203100204, + "learning_rate": 2.98270632660762e-05, + "loss": 0.4084, + "step": 148 + }, + { + "epoch": 0.049666666666666665, + "grad_norm": 0.2901388108730316, + "learning_rate": 2.9824674380189998e-05, + "loss": 0.3962, + "step": 149 + }, + { + "epoch": 0.05, + "grad_norm": 0.07718809694051743, + "learning_rate": 2.9822269204667696e-05, + "loss": 0.4031, + "step": 150 + }, + { + "epoch": 0.050333333333333334, + "grad_norm": 0.0875968188047409, + "learning_rate": 2.981984774215214e-05, + "loss": 0.4066, + "step": 151 + }, + { + "epoch": 0.050666666666666665, + "grad_norm": 0.07414428889751434, + "learning_rate": 2.9817409995304074e-05, + "loss": 0.4, + "step": 152 + }, + { + "epoch": 0.051, + "grad_norm": 0.06896387785673141, + "learning_rate": 2.981495596680215e-05, + "loss": 0.4117, + "step": 153 + }, + { + "epoch": 0.051333333333333335, + "grad_norm": 0.0961553156375885, + "learning_rate": 2.98124856593429e-05, + "loss": 0.4028, + "step": 154 + }, + { + "epoch": 0.051666666666666666, + "grad_norm": 0.11313239485025406, + "learning_rate": 2.980999907564074e-05, + "loss": 0.4037, + "step": 155 + }, + { + "epoch": 0.052, + "grad_norm": 0.11233378201723099, + "learning_rate": 2.9807496218427986e-05, + "loss": 0.4001, + "step": 156 + }, + { + "epoch": 0.052333333333333336, + "grad_norm": 0.08463700860738754, + "learning_rate": 2.980497709045482e-05, + "loss": 0.3983, + "step": 157 + }, + { + "epoch": 0.05266666666666667, + "grad_norm": 0.08069396764039993, + "learning_rate": 2.98024416944893e-05, + "loss": 0.3871, + "step": 158 + }, + { + "epoch": 0.053, + "grad_norm": 0.07506050169467926, + "learning_rate": 2.9799890033317382e-05, + "loss": 0.4079, + "step": 159 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 0.09403230994939804, + "learning_rate": 2.979732210974287e-05, + "loss": 0.4045, + "step": 160 + }, + { + "epoch": 0.05366666666666667, + "grad_norm": 0.10112256556749344, + "learning_rate": 2.9794737926587453e-05, + "loss": 0.4142, + "step": 161 + }, + { + "epoch": 0.054, + "grad_norm": 0.07786240428686142, + "learning_rate": 2.979213748669067e-05, + "loss": 0.4016, + "step": 162 + }, + { + "epoch": 0.05433333333333333, + "grad_norm": 0.10419435054063797, + "learning_rate": 2.9789520792909956e-05, + "loss": 0.4049, + "step": 163 + }, + { + "epoch": 0.05466666666666667, + "grad_norm": 0.10456927120685577, + "learning_rate": 2.978688784812056e-05, + "loss": 0.4043, + "step": 164 + }, + { + "epoch": 0.055, + "grad_norm": 0.09317093342542648, + "learning_rate": 2.9784238655215627e-05, + "loss": 0.4021, + "step": 165 + }, + { + "epoch": 0.05533333333333333, + "grad_norm": 0.09381449967622757, + "learning_rate": 2.978157321710614e-05, + "loss": 0.3959, + "step": 166 + }, + { + "epoch": 0.05566666666666667, + "grad_norm": 0.08799547702074051, + "learning_rate": 2.9778891536720925e-05, + "loss": 0.3902, + "step": 167 + }, + { + "epoch": 0.056, + "grad_norm": 0.08262615650892258, + "learning_rate": 2.9776193617006672e-05, + "loss": 0.391, + "step": 168 + }, + { + "epoch": 0.05633333333333333, + "grad_norm": 0.0956135168671608, + "learning_rate": 2.9773479460927904e-05, + "loss": 0.4017, + "step": 169 + }, + { + "epoch": 0.056666666666666664, + "grad_norm": 0.0916408821940422, + "learning_rate": 2.9770749071466992e-05, + "loss": 0.4013, + "step": 170 + }, + { + "epoch": 0.057, + "grad_norm": 0.12273528426885605, + "learning_rate": 2.976800245162413e-05, + "loss": 0.4076, + "step": 171 + }, + { + "epoch": 0.05733333333333333, + "grad_norm": 0.10626845061779022, + "learning_rate": 2.9765239604417365e-05, + "loss": 0.4086, + "step": 172 + }, + { + "epoch": 0.057666666666666665, + "grad_norm": 0.07739051431417465, + "learning_rate": 2.976246053288256e-05, + "loss": 0.4099, + "step": 173 + }, + { + "epoch": 0.058, + "grad_norm": 0.08017119765281677, + "learning_rate": 2.975966524007342e-05, + "loss": 0.4043, + "step": 174 + }, + { + "epoch": 0.058333333333333334, + "grad_norm": 0.08694978803396225, + "learning_rate": 2.9756853729061466e-05, + "loss": 0.4027, + "step": 175 + }, + { + "epoch": 0.058666666666666666, + "grad_norm": 0.13719531893730164, + "learning_rate": 2.975402600293603e-05, + "loss": 0.4075, + "step": 176 + }, + { + "epoch": 0.059, + "grad_norm": 0.09418261051177979, + "learning_rate": 2.975118206480428e-05, + "loss": 0.3978, + "step": 177 + }, + { + "epoch": 0.059333333333333335, + "grad_norm": 0.08428846299648285, + "learning_rate": 2.9748321917791188e-05, + "loss": 0.4041, + "step": 178 + }, + { + "epoch": 0.059666666666666666, + "grad_norm": 0.11274924874305725, + "learning_rate": 2.974544556503954e-05, + "loss": 0.4087, + "step": 179 + }, + { + "epoch": 0.06, + "grad_norm": 0.08349188417196274, + "learning_rate": 2.9742553009709922e-05, + "loss": 0.3979, + "step": 180 + }, + { + "epoch": 0.060333333333333336, + "grad_norm": 0.08124207705259323, + "learning_rate": 2.9739644254980735e-05, + "loss": 0.4094, + "step": 181 + }, + { + "epoch": 0.06066666666666667, + "grad_norm": 0.07733158767223358, + "learning_rate": 2.9736719304048166e-05, + "loss": 0.4072, + "step": 182 + }, + { + "epoch": 0.061, + "grad_norm": 0.09636202454566956, + "learning_rate": 2.973377816012622e-05, + "loss": 0.3974, + "step": 183 + }, + { + "epoch": 0.06133333333333333, + "grad_norm": 0.07546680420637131, + "learning_rate": 2.9730820826446677e-05, + "loss": 0.41, + "step": 184 + }, + { + "epoch": 0.06166666666666667, + "grad_norm": 0.08843699097633362, + "learning_rate": 2.9727847306259106e-05, + "loss": 0.3952, + "step": 185 + }, + { + "epoch": 0.062, + "grad_norm": 0.07809021323919296, + "learning_rate": 2.9724857602830875e-05, + "loss": 0.4008, + "step": 186 + }, + { + "epoch": 0.06233333333333333, + "grad_norm": 0.07301586121320724, + "learning_rate": 2.9721851719447122e-05, + "loss": 0.4002, + "step": 187 + }, + { + "epoch": 0.06266666666666666, + "grad_norm": 0.09703553467988968, + "learning_rate": 2.9718829659410772e-05, + "loss": 0.4082, + "step": 188 + }, + { + "epoch": 0.063, + "grad_norm": 0.10257147252559662, + "learning_rate": 2.971579142604252e-05, + "loss": 0.3996, + "step": 189 + }, + { + "epoch": 0.06333333333333334, + "grad_norm": 0.13470500707626343, + "learning_rate": 2.971273702268084e-05, + "loss": 0.4031, + "step": 190 + }, + { + "epoch": 0.06366666666666666, + "grad_norm": 0.09514757245779037, + "learning_rate": 2.9709666452681968e-05, + "loss": 0.4024, + "step": 191 + }, + { + "epoch": 0.064, + "grad_norm": 0.08853461593389511, + "learning_rate": 2.9706579719419902e-05, + "loss": 0.4051, + "step": 192 + }, + { + "epoch": 0.06433333333333334, + "grad_norm": 0.1049158051609993, + "learning_rate": 2.9703476826286402e-05, + "loss": 0.3894, + "step": 193 + }, + { + "epoch": 0.06466666666666666, + "grad_norm": 0.115349680185318, + "learning_rate": 2.9700357776690995e-05, + "loss": 0.4019, + "step": 194 + }, + { + "epoch": 0.065, + "grad_norm": 0.09481100738048553, + "learning_rate": 2.969722257406094e-05, + "loss": 0.4027, + "step": 195 + }, + { + "epoch": 0.06533333333333333, + "grad_norm": 0.07482441514730453, + "learning_rate": 2.969407122184127e-05, + "loss": 0.4064, + "step": 196 + }, + { + "epoch": 0.06566666666666666, + "grad_norm": 0.08880510181188583, + "learning_rate": 2.9690903723494742e-05, + "loss": 0.3994, + "step": 197 + }, + { + "epoch": 0.066, + "grad_norm": 0.11632419377565384, + "learning_rate": 2.968772008250187e-05, + "loss": 0.4116, + "step": 198 + }, + { + "epoch": 0.06633333333333333, + "grad_norm": 0.09792345762252808, + "learning_rate": 2.9684520302360897e-05, + "loss": 0.3996, + "step": 199 + }, + { + "epoch": 0.06666666666666667, + "grad_norm": 0.07838916778564453, + "learning_rate": 2.96813043865878e-05, + "loss": 0.3991, + "step": 200 + }, + { + "epoch": 0.067, + "grad_norm": 0.09950415045022964, + "learning_rate": 2.9678072338716295e-05, + "loss": 0.4031, + "step": 201 + }, + { + "epoch": 0.06733333333333333, + "grad_norm": 0.09260636568069458, + "learning_rate": 2.9674824162297813e-05, + "loss": 0.4026, + "step": 202 + }, + { + "epoch": 0.06766666666666667, + "grad_norm": 0.09946103394031525, + "learning_rate": 2.9671559860901516e-05, + "loss": 0.392, + "step": 203 + }, + { + "epoch": 0.068, + "grad_norm": 0.11478128284215927, + "learning_rate": 2.9668279438114278e-05, + "loss": 0.4051, + "step": 204 + }, + { + "epoch": 0.06833333333333333, + "grad_norm": 0.09460713714361191, + "learning_rate": 2.966498289754069e-05, + "loss": 0.3992, + "step": 205 + }, + { + "epoch": 0.06866666666666667, + "grad_norm": 0.11014512926340103, + "learning_rate": 2.9661670242803057e-05, + "loss": 0.403, + "step": 206 + }, + { + "epoch": 0.069, + "grad_norm": 0.13056829571723938, + "learning_rate": 2.9658341477541386e-05, + "loss": 0.4017, + "step": 207 + }, + { + "epoch": 0.06933333333333333, + "grad_norm": 0.08369284868240356, + "learning_rate": 2.9654996605413386e-05, + "loss": 0.4078, + "step": 208 + }, + { + "epoch": 0.06966666666666667, + "grad_norm": 0.09303431957960129, + "learning_rate": 2.9651635630094472e-05, + "loss": 0.4128, + "step": 209 + }, + { + "epoch": 0.07, + "grad_norm": 0.07765641808509827, + "learning_rate": 2.964825855527774e-05, + "loss": 0.4124, + "step": 210 + }, + { + "epoch": 0.07033333333333333, + "grad_norm": 0.1191212609410286, + "learning_rate": 2.9644865384673995e-05, + "loss": 0.3972, + "step": 211 + }, + { + "epoch": 0.07066666666666667, + "grad_norm": 0.122700996696949, + "learning_rate": 2.9641456122011705e-05, + "loss": 0.4066, + "step": 212 + }, + { + "epoch": 0.071, + "grad_norm": 0.15410679578781128, + "learning_rate": 2.963803077103704e-05, + "loss": 0.4139, + "step": 213 + }, + { + "epoch": 0.07133333333333333, + "grad_norm": 0.11170166730880737, + "learning_rate": 2.9634589335513846e-05, + "loss": 0.4016, + "step": 214 + }, + { + "epoch": 0.07166666666666667, + "grad_norm": 0.0956307202577591, + "learning_rate": 2.9631131819223632e-05, + "loss": 0.4002, + "step": 215 + }, + { + "epoch": 0.072, + "grad_norm": 0.09708225727081299, + "learning_rate": 2.962765822596558e-05, + "loss": 0.3889, + "step": 216 + }, + { + "epoch": 0.07233333333333333, + "grad_norm": 0.07844918966293335, + "learning_rate": 2.9624168559556554e-05, + "loss": 0.3918, + "step": 217 + }, + { + "epoch": 0.07266666666666667, + "grad_norm": 0.09864295274019241, + "learning_rate": 2.962066282383105e-05, + "loss": 0.4041, + "step": 218 + }, + { + "epoch": 0.073, + "grad_norm": 0.09595536440610886, + "learning_rate": 2.961714102264125e-05, + "loss": 0.3983, + "step": 219 + }, + { + "epoch": 0.07333333333333333, + "grad_norm": 0.09911186248064041, + "learning_rate": 2.961360315985697e-05, + "loss": 0.3994, + "step": 220 + }, + { + "epoch": 0.07366666666666667, + "grad_norm": 0.08480778336524963, + "learning_rate": 2.9610049239365683e-05, + "loss": 0.406, + "step": 221 + }, + { + "epoch": 0.074, + "grad_norm": 0.11029253154993057, + "learning_rate": 2.96064792650725e-05, + "loss": 0.4007, + "step": 222 + }, + { + "epoch": 0.07433333333333333, + "grad_norm": 0.06971371918916702, + "learning_rate": 2.960289324090019e-05, + "loss": 0.4008, + "step": 223 + }, + { + "epoch": 0.07466666666666667, + "grad_norm": 0.07850680500268936, + "learning_rate": 2.9599291170789132e-05, + "loss": 0.3907, + "step": 224 + }, + { + "epoch": 0.075, + "grad_norm": 0.08946023881435394, + "learning_rate": 2.959567305869736e-05, + "loss": 0.4051, + "step": 225 + }, + { + "epoch": 0.07533333333333334, + "grad_norm": 0.09340225905179977, + "learning_rate": 2.9592038908600514e-05, + "loss": 0.4088, + "step": 226 + }, + { + "epoch": 0.07566666666666666, + "grad_norm": 0.0758277103304863, + "learning_rate": 2.9588388724491874e-05, + "loss": 0.4092, + "step": 227 + }, + { + "epoch": 0.076, + "grad_norm": 0.09443804621696472, + "learning_rate": 2.9584722510382337e-05, + "loss": 0.4029, + "step": 228 + }, + { + "epoch": 0.07633333333333334, + "grad_norm": 0.07971173524856567, + "learning_rate": 2.9581040270300397e-05, + "loss": 0.3876, + "step": 229 + }, + { + "epoch": 0.07666666666666666, + "grad_norm": 0.08970299363136292, + "learning_rate": 2.9577342008292182e-05, + "loss": 0.4021, + "step": 230 + }, + { + "epoch": 0.077, + "grad_norm": 0.08132510632276535, + "learning_rate": 2.9573627728421404e-05, + "loss": 0.4031, + "step": 231 + }, + { + "epoch": 0.07733333333333334, + "grad_norm": 0.08614128082990646, + "learning_rate": 2.9569897434769392e-05, + "loss": 0.397, + "step": 232 + }, + { + "epoch": 0.07766666666666666, + "grad_norm": 0.08707490563392639, + "learning_rate": 2.956615113143506e-05, + "loss": 0.4076, + "step": 233 + }, + { + "epoch": 0.078, + "grad_norm": 0.07884975522756577, + "learning_rate": 2.956238882253492e-05, + "loss": 0.3936, + "step": 234 + }, + { + "epoch": 0.07833333333333334, + "grad_norm": 0.08376781642436981, + "learning_rate": 2.9558610512203062e-05, + "loss": 0.4029, + "step": 235 + }, + { + "epoch": 0.07866666666666666, + "grad_norm": 0.3846357464790344, + "learning_rate": 2.9554816204591173e-05, + "loss": 0.3995, + "step": 236 + }, + { + "epoch": 0.079, + "grad_norm": 0.08552670478820801, + "learning_rate": 2.955100590386851e-05, + "loss": 0.3994, + "step": 237 + }, + { + "epoch": 0.07933333333333334, + "grad_norm": 0.07993961125612259, + "learning_rate": 2.9547179614221906e-05, + "loss": 0.4071, + "step": 238 + }, + { + "epoch": 0.07966666666666666, + "grad_norm": 0.06469830870628357, + "learning_rate": 2.954333733985576e-05, + "loss": 0.3997, + "step": 239 + }, + { + "epoch": 0.08, + "grad_norm": 0.13646341860294342, + "learning_rate": 2.953947908499203e-05, + "loss": 0.3958, + "step": 240 + }, + { + "epoch": 0.08033333333333334, + "grad_norm": 0.07734150439500809, + "learning_rate": 2.9535604853870255e-05, + "loss": 0.4019, + "step": 241 + }, + { + "epoch": 0.08066666666666666, + "grad_norm": 0.08741701394319534, + "learning_rate": 2.9531714650747497e-05, + "loss": 0.4052, + "step": 242 + }, + { + "epoch": 0.081, + "grad_norm": 0.09813936054706573, + "learning_rate": 2.95278084798984e-05, + "loss": 0.4, + "step": 243 + }, + { + "epoch": 0.08133333333333333, + "grad_norm": 0.07729940861463547, + "learning_rate": 2.952388634561513e-05, + "loss": 0.4005, + "step": 244 + }, + { + "epoch": 0.08166666666666667, + "grad_norm": 0.0752038061618805, + "learning_rate": 2.951994825220741e-05, + "loss": 0.4092, + "step": 245 + }, + { + "epoch": 0.082, + "grad_norm": 0.09082111716270447, + "learning_rate": 2.9515994204002485e-05, + "loss": 0.4107, + "step": 246 + }, + { + "epoch": 0.08233333333333333, + "grad_norm": 0.08410289883613586, + "learning_rate": 2.9512024205345144e-05, + "loss": 0.41, + "step": 247 + }, + { + "epoch": 0.08266666666666667, + "grad_norm": 0.10373739898204803, + "learning_rate": 2.95080382605977e-05, + "loss": 0.3984, + "step": 248 + }, + { + "epoch": 0.083, + "grad_norm": 0.08495409041643143, + "learning_rate": 2.9504036374139975e-05, + "loss": 0.4082, + "step": 249 + }, + { + "epoch": 0.08333333333333333, + "grad_norm": 0.10984745621681213, + "learning_rate": 2.950001855036933e-05, + "loss": 0.3952, + "step": 250 + }, + { + "epoch": 0.08366666666666667, + "grad_norm": 0.06622229516506195, + "learning_rate": 2.9495984793700622e-05, + "loss": 0.4035, + "step": 251 + }, + { + "epoch": 0.084, + "grad_norm": 0.09653183072805405, + "learning_rate": 2.949193510856622e-05, + "loss": 0.4023, + "step": 252 + }, + { + "epoch": 0.08433333333333333, + "grad_norm": 0.07279062271118164, + "learning_rate": 2.9487869499415997e-05, + "loss": 0.3958, + "step": 253 + }, + { + "epoch": 0.08466666666666667, + "grad_norm": 0.09925714880228043, + "learning_rate": 2.948378797071732e-05, + "loss": 0.4001, + "step": 254 + }, + { + "epoch": 0.085, + "grad_norm": 0.13005736470222473, + "learning_rate": 2.947969052695505e-05, + "loss": 0.3951, + "step": 255 + }, + { + "epoch": 0.08533333333333333, + "grad_norm": 0.09722208231687546, + "learning_rate": 2.9475577172631542e-05, + "loss": 0.4041, + "step": 256 + }, + { + "epoch": 0.08566666666666667, + "grad_norm": 0.08989699184894562, + "learning_rate": 2.9471447912266623e-05, + "loss": 0.4014, + "step": 257 + }, + { + "epoch": 0.086, + "grad_norm": 0.09207473695278168, + "learning_rate": 2.9467302750397605e-05, + "loss": 0.405, + "step": 258 + }, + { + "epoch": 0.08633333333333333, + "grad_norm": 0.0882800966501236, + "learning_rate": 2.9463141691579275e-05, + "loss": 0.4003, + "step": 259 + }, + { + "epoch": 0.08666666666666667, + "grad_norm": 0.07978735119104385, + "learning_rate": 2.9458964740383878e-05, + "loss": 0.3964, + "step": 260 + }, + { + "epoch": 0.087, + "grad_norm": 0.0818752720952034, + "learning_rate": 2.945477190140113e-05, + "loss": 0.4035, + "step": 261 + }, + { + "epoch": 0.08733333333333333, + "grad_norm": 0.06993523985147476, + "learning_rate": 2.9450563179238207e-05, + "loss": 0.3999, + "step": 262 + }, + { + "epoch": 0.08766666666666667, + "grad_norm": 0.06509092450141907, + "learning_rate": 2.9446338578519725e-05, + "loss": 0.3984, + "step": 263 + }, + { + "epoch": 0.088, + "grad_norm": 0.08877594769001007, + "learning_rate": 2.9442098103887766e-05, + "loss": 0.4029, + "step": 264 + }, + { + "epoch": 0.08833333333333333, + "grad_norm": 0.0869932696223259, + "learning_rate": 2.9437841760001837e-05, + "loss": 0.3994, + "step": 265 + }, + { + "epoch": 0.08866666666666667, + "grad_norm": 0.07756466418504715, + "learning_rate": 2.9433569551538894e-05, + "loss": 0.4052, + "step": 266 + }, + { + "epoch": 0.089, + "grad_norm": 0.06943570077419281, + "learning_rate": 2.9429281483193324e-05, + "loss": 0.4046, + "step": 267 + }, + { + "epoch": 0.08933333333333333, + "grad_norm": 0.08146432787179947, + "learning_rate": 2.9424977559676933e-05, + "loss": 0.3947, + "step": 268 + }, + { + "epoch": 0.08966666666666667, + "grad_norm": 0.06675536930561066, + "learning_rate": 2.9420657785718953e-05, + "loss": 0.4003, + "step": 269 + }, + { + "epoch": 0.09, + "grad_norm": 0.06987973302602768, + "learning_rate": 2.9416322166066042e-05, + "loss": 0.3967, + "step": 270 + }, + { + "epoch": 0.09033333333333333, + "grad_norm": 0.07921211421489716, + "learning_rate": 2.9411970705482256e-05, + "loss": 0.3958, + "step": 271 + }, + { + "epoch": 0.09066666666666667, + "grad_norm": 0.07318514585494995, + "learning_rate": 2.9407603408749065e-05, + "loss": 0.3962, + "step": 272 + }, + { + "epoch": 0.091, + "grad_norm": 0.08152735978364944, + "learning_rate": 2.940322028066534e-05, + "loss": 0.391, + "step": 273 + }, + { + "epoch": 0.09133333333333334, + "grad_norm": 0.08611530065536499, + "learning_rate": 2.9398821326047347e-05, + "loss": 0.3987, + "step": 274 + }, + { + "epoch": 0.09166666666666666, + "grad_norm": 0.07577132433652878, + "learning_rate": 2.9394406549728737e-05, + "loss": 0.3975, + "step": 275 + }, + { + "epoch": 0.092, + "grad_norm": 0.09083262830972672, + "learning_rate": 2.9389975956560555e-05, + "loss": 0.3994, + "step": 276 + }, + { + "epoch": 0.09233333333333334, + "grad_norm": 0.07557782530784607, + "learning_rate": 2.9385529551411216e-05, + "loss": 0.4071, + "step": 277 + }, + { + "epoch": 0.09266666666666666, + "grad_norm": 0.09578454494476318, + "learning_rate": 2.938106733916652e-05, + "loss": 0.4046, + "step": 278 + }, + { + "epoch": 0.093, + "grad_norm": 0.0767151266336441, + "learning_rate": 2.9376589324729632e-05, + "loss": 0.3957, + "step": 279 + }, + { + "epoch": 0.09333333333333334, + "grad_norm": 0.08298475295305252, + "learning_rate": 2.9372095513021076e-05, + "loss": 0.403, + "step": 280 + }, + { + "epoch": 0.09366666666666666, + "grad_norm": 0.08236800134181976, + "learning_rate": 2.936758590897874e-05, + "loss": 0.4035, + "step": 281 + }, + { + "epoch": 0.094, + "grad_norm": 0.07696409523487091, + "learning_rate": 2.9363060517557863e-05, + "loss": 0.3995, + "step": 282 + }, + { + "epoch": 0.09433333333333334, + "grad_norm": 0.07577278465032578, + "learning_rate": 2.9358519343731034e-05, + "loss": 0.3987, + "step": 283 + }, + { + "epoch": 0.09466666666666666, + "grad_norm": 0.0783209577202797, + "learning_rate": 2.935396239248818e-05, + "loss": 0.3976, + "step": 284 + }, + { + "epoch": 0.095, + "grad_norm": 0.06904885917901993, + "learning_rate": 2.934938966883657e-05, + "loss": 0.4005, + "step": 285 + }, + { + "epoch": 0.09533333333333334, + "grad_norm": 0.10414488613605499, + "learning_rate": 2.9344801177800788e-05, + "loss": 0.4031, + "step": 286 + }, + { + "epoch": 0.09566666666666666, + "grad_norm": 0.07708293199539185, + "learning_rate": 2.9340196924422773e-05, + "loss": 0.4071, + "step": 287 + }, + { + "epoch": 0.096, + "grad_norm": 0.08060728013515472, + "learning_rate": 2.9335576913761757e-05, + "loss": 0.404, + "step": 288 + }, + { + "epoch": 0.09633333333333334, + "grad_norm": 0.09676415473222733, + "learning_rate": 2.9330941150894294e-05, + "loss": 0.4047, + "step": 289 + }, + { + "epoch": 0.09666666666666666, + "grad_norm": 0.08045460283756256, + "learning_rate": 2.9326289640914253e-05, + "loss": 0.4041, + "step": 290 + }, + { + "epoch": 0.097, + "grad_norm": 0.0853654071688652, + "learning_rate": 2.9321622388932804e-05, + "loss": 0.4047, + "step": 291 + }, + { + "epoch": 0.09733333333333333, + "grad_norm": 0.07152312248945236, + "learning_rate": 2.931693940007841e-05, + "loss": 0.3989, + "step": 292 + }, + { + "epoch": 0.09766666666666667, + "grad_norm": 0.07082869857549667, + "learning_rate": 2.931224067949683e-05, + "loss": 0.393, + "step": 293 + }, + { + "epoch": 0.098, + "grad_norm": 0.07617537677288055, + "learning_rate": 2.9307526232351107e-05, + "loss": 0.4035, + "step": 294 + }, + { + "epoch": 0.09833333333333333, + "grad_norm": 0.07729070633649826, + "learning_rate": 2.9302796063821567e-05, + "loss": 0.4038, + "step": 295 + }, + { + "epoch": 0.09866666666666667, + "grad_norm": 0.07604706287384033, + "learning_rate": 2.9298050179105808e-05, + "loss": 0.4024, + "step": 296 + }, + { + "epoch": 0.099, + "grad_norm": 0.07788676023483276, + "learning_rate": 2.92932885834187e-05, + "loss": 0.401, + "step": 297 + }, + { + "epoch": 0.09933333333333333, + "grad_norm": 0.10551147162914276, + "learning_rate": 2.928851128199238e-05, + "loss": 0.4074, + "step": 298 + }, + { + "epoch": 0.09966666666666667, + "grad_norm": 0.25817251205444336, + "learning_rate": 2.928371828007623e-05, + "loss": 0.3945, + "step": 299 + }, + { + "epoch": 0.1, + "grad_norm": 0.08183149248361588, + "learning_rate": 2.9278909582936897e-05, + "loss": 0.397, + "step": 300 + }, + { + "epoch": 0.10033333333333333, + "grad_norm": 0.0680360421538353, + "learning_rate": 2.927408519585827e-05, + "loss": 0.3854, + "step": 301 + }, + { + "epoch": 0.10066666666666667, + "grad_norm": 0.05961975082755089, + "learning_rate": 2.9269245124141478e-05, + "loss": 0.4047, + "step": 302 + }, + { + "epoch": 0.101, + "grad_norm": 0.10706108063459396, + "learning_rate": 2.926438937310488e-05, + "loss": 0.4024, + "step": 303 + }, + { + "epoch": 0.10133333333333333, + "grad_norm": 0.09221340715885162, + "learning_rate": 2.9259517948084076e-05, + "loss": 0.3972, + "step": 304 + }, + { + "epoch": 0.10166666666666667, + "grad_norm": 0.0785837322473526, + "learning_rate": 2.925463085443187e-05, + "loss": 0.4056, + "step": 305 + }, + { + "epoch": 0.102, + "grad_norm": 0.0782548189163208, + "learning_rate": 2.9249728097518306e-05, + "loss": 0.3998, + "step": 306 + }, + { + "epoch": 0.10233333333333333, + "grad_norm": 0.07035280764102936, + "learning_rate": 2.924480968273062e-05, + "loss": 0.401, + "step": 307 + }, + { + "epoch": 0.10266666666666667, + "grad_norm": 0.0680001899600029, + "learning_rate": 2.923987561547326e-05, + "loss": 0.4073, + "step": 308 + }, + { + "epoch": 0.103, + "grad_norm": 0.07907889038324356, + "learning_rate": 2.9234925901167882e-05, + "loss": 0.4045, + "step": 309 + }, + { + "epoch": 0.10333333333333333, + "grad_norm": 0.06703273206949234, + "learning_rate": 2.9229960545253316e-05, + "loss": 0.4046, + "step": 310 + }, + { + "epoch": 0.10366666666666667, + "grad_norm": 0.08958379924297333, + "learning_rate": 2.9224979553185598e-05, + "loss": 0.3986, + "step": 311 + }, + { + "epoch": 0.104, + "grad_norm": 0.09543123096227646, + "learning_rate": 2.9219982930437932e-05, + "loss": 0.4022, + "step": 312 + }, + { + "epoch": 0.10433333333333333, + "grad_norm": 0.07684731483459473, + "learning_rate": 2.9214970682500706e-05, + "loss": 0.3939, + "step": 313 + }, + { + "epoch": 0.10466666666666667, + "grad_norm": 0.08497552573680878, + "learning_rate": 2.9209942814881475e-05, + "loss": 0.3989, + "step": 314 + }, + { + "epoch": 0.105, + "grad_norm": 0.07787726819515228, + "learning_rate": 2.920489933310495e-05, + "loss": 0.3959, + "step": 315 + }, + { + "epoch": 0.10533333333333333, + "grad_norm": 0.10642126947641373, + "learning_rate": 2.919984024271301e-05, + "loss": 0.404, + "step": 316 + }, + { + "epoch": 0.10566666666666667, + "grad_norm": 0.07626046985387802, + "learning_rate": 2.9194765549264682e-05, + "loss": 0.4069, + "step": 317 + }, + { + "epoch": 0.106, + "grad_norm": 0.07205960154533386, + "learning_rate": 2.9189675258336136e-05, + "loss": 0.3945, + "step": 318 + }, + { + "epoch": 0.10633333333333334, + "grad_norm": 0.08077576011419296, + "learning_rate": 2.918456937552068e-05, + "loss": 0.3997, + "step": 319 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 0.07724360376596451, + "learning_rate": 2.917944790642875e-05, + "loss": 0.4033, + "step": 320 + }, + { + "epoch": 0.107, + "grad_norm": 0.0722527876496315, + "learning_rate": 2.9174310856687927e-05, + "loss": 0.399, + "step": 321 + }, + { + "epoch": 0.10733333333333334, + "grad_norm": 0.07858041673898697, + "learning_rate": 2.9169158231942887e-05, + "loss": 0.4016, + "step": 322 + }, + { + "epoch": 0.10766666666666666, + "grad_norm": 0.07508265972137451, + "learning_rate": 2.916399003785544e-05, + "loss": 0.3931, + "step": 323 + }, + { + "epoch": 0.108, + "grad_norm": 0.08171650767326355, + "learning_rate": 2.9158806280104494e-05, + "loss": 0.401, + "step": 324 + }, + { + "epoch": 0.10833333333333334, + "grad_norm": 0.3539506196975708, + "learning_rate": 2.9153606964386067e-05, + "loss": 0.3924, + "step": 325 + }, + { + "epoch": 0.10866666666666666, + "grad_norm": 0.07772829383611679, + "learning_rate": 2.9148392096413253e-05, + "loss": 0.4131, + "step": 326 + }, + { + "epoch": 0.109, + "grad_norm": 0.07205811887979507, + "learning_rate": 2.9143161681916264e-05, + "loss": 0.3995, + "step": 327 + }, + { + "epoch": 0.10933333333333334, + "grad_norm": 0.126749187707901, + "learning_rate": 2.913791572664237e-05, + "loss": 0.3994, + "step": 328 + }, + { + "epoch": 0.10966666666666666, + "grad_norm": 0.07271267473697662, + "learning_rate": 2.9132654236355932e-05, + "loss": 0.4071, + "step": 329 + }, + { + "epoch": 0.11, + "grad_norm": 0.07398531585931778, + "learning_rate": 2.9127377216838377e-05, + "loss": 0.403, + "step": 330 + }, + { + "epoch": 0.11033333333333334, + "grad_norm": 0.08033479750156403, + "learning_rate": 2.9122084673888184e-05, + "loss": 0.3873, + "step": 331 + }, + { + "epoch": 0.11066666666666666, + "grad_norm": 0.09432309865951538, + "learning_rate": 2.9116776613320917e-05, + "loss": 0.4069, + "step": 332 + }, + { + "epoch": 0.111, + "grad_norm": 0.10375412553548813, + "learning_rate": 2.9111453040969166e-05, + "loss": 0.4067, + "step": 333 + }, + { + "epoch": 0.11133333333333334, + "grad_norm": 0.10372140258550644, + "learning_rate": 2.9106113962682575e-05, + "loss": 0.3975, + "step": 334 + }, + { + "epoch": 0.11166666666666666, + "grad_norm": 0.05635470151901245, + "learning_rate": 2.9100759384327822e-05, + "loss": 0.3942, + "step": 335 + }, + { + "epoch": 0.112, + "grad_norm": 0.14441388845443726, + "learning_rate": 2.9095389311788626e-05, + "loss": 0.4142, + "step": 336 + }, + { + "epoch": 0.11233333333333333, + "grad_norm": 0.10628091543912888, + "learning_rate": 2.9090003750965726e-05, + "loss": 0.3887, + "step": 337 + }, + { + "epoch": 0.11266666666666666, + "grad_norm": 0.07962295413017273, + "learning_rate": 2.9084602707776873e-05, + "loss": 0.3903, + "step": 338 + }, + { + "epoch": 0.113, + "grad_norm": 0.06609530746936798, + "learning_rate": 2.9079186188156842e-05, + "loss": 0.4008, + "step": 339 + }, + { + "epoch": 0.11333333333333333, + "grad_norm": 0.06437975913286209, + "learning_rate": 2.90737541980574e-05, + "loss": 0.3992, + "step": 340 + }, + { + "epoch": 0.11366666666666667, + "grad_norm": 0.060702331364154816, + "learning_rate": 2.906830674344734e-05, + "loss": 0.3923, + "step": 341 + }, + { + "epoch": 0.114, + "grad_norm": 0.07603217661380768, + "learning_rate": 2.9062843830312412e-05, + "loss": 0.3917, + "step": 342 + }, + { + "epoch": 0.11433333333333333, + "grad_norm": 0.08434806019067764, + "learning_rate": 2.9057365464655378e-05, + "loss": 0.3944, + "step": 343 + }, + { + "epoch": 0.11466666666666667, + "grad_norm": 0.08167912065982819, + "learning_rate": 2.9051871652495967e-05, + "loss": 0.3927, + "step": 344 + }, + { + "epoch": 0.115, + "grad_norm": 0.0735151395201683, + "learning_rate": 2.9046362399870884e-05, + "loss": 0.3969, + "step": 345 + }, + { + "epoch": 0.11533333333333333, + "grad_norm": 0.08642247319221497, + "learning_rate": 2.9040837712833807e-05, + "loss": 0.3941, + "step": 346 + }, + { + "epoch": 0.11566666666666667, + "grad_norm": 0.09913762658834457, + "learning_rate": 2.9035297597455365e-05, + "loss": 0.3983, + "step": 347 + }, + { + "epoch": 0.116, + "grad_norm": 0.07676286995410919, + "learning_rate": 2.9029742059823144e-05, + "loss": 0.3986, + "step": 348 + }, + { + "epoch": 0.11633333333333333, + "grad_norm": 0.061535585671663284, + "learning_rate": 2.902417110604167e-05, + "loss": 0.3969, + "step": 349 + }, + { + "epoch": 0.11666666666666667, + "grad_norm": 0.06754449754953384, + "learning_rate": 2.9018584742232424e-05, + "loss": 0.3921, + "step": 350 + }, + { + "epoch": 0.117, + "grad_norm": 0.08357475697994232, + "learning_rate": 2.90129829745338e-05, + "loss": 0.3966, + "step": 351 + }, + { + "epoch": 0.11733333333333333, + "grad_norm": 0.06442773342132568, + "learning_rate": 2.900736580910113e-05, + "loss": 0.3956, + "step": 352 + }, + { + "epoch": 0.11766666666666667, + "grad_norm": 0.1226372942328453, + "learning_rate": 2.9001733252106662e-05, + "loss": 0.392, + "step": 353 + }, + { + "epoch": 0.118, + "grad_norm": 0.07925254851579666, + "learning_rate": 2.899608530973956e-05, + "loss": 0.3938, + "step": 354 + }, + { + "epoch": 0.11833333333333333, + "grad_norm": 0.08369602262973785, + "learning_rate": 2.899042198820589e-05, + "loss": 0.404, + "step": 355 + }, + { + "epoch": 0.11866666666666667, + "grad_norm": 0.06470812112092972, + "learning_rate": 2.8984743293728622e-05, + "loss": 0.4012, + "step": 356 + }, + { + "epoch": 0.119, + "grad_norm": 0.07801231741905212, + "learning_rate": 2.8979049232547612e-05, + "loss": 0.3962, + "step": 357 + }, + { + "epoch": 0.11933333333333333, + "grad_norm": 0.0731973648071289, + "learning_rate": 2.8973339810919595e-05, + "loss": 0.3988, + "step": 358 + }, + { + "epoch": 0.11966666666666667, + "grad_norm": 0.07564742118120193, + "learning_rate": 2.8967615035118204e-05, + "loss": 0.3984, + "step": 359 + }, + { + "epoch": 0.12, + "grad_norm": 0.09006942808628082, + "learning_rate": 2.896187491143393e-05, + "loss": 0.4029, + "step": 360 + }, + { + "epoch": 0.12033333333333333, + "grad_norm": 0.07540722191333771, + "learning_rate": 2.8956119446174128e-05, + "loss": 0.4068, + "step": 361 + }, + { + "epoch": 0.12066666666666667, + "grad_norm": 0.10612918436527252, + "learning_rate": 2.8950348645663015e-05, + "loss": 0.3924, + "step": 362 + }, + { + "epoch": 0.121, + "grad_norm": 0.07247863709926605, + "learning_rate": 2.8944562516241658e-05, + "loss": 0.3924, + "step": 363 + }, + { + "epoch": 0.12133333333333333, + "grad_norm": 0.06262069195508957, + "learning_rate": 2.8938761064267966e-05, + "loss": 0.3923, + "step": 364 + }, + { + "epoch": 0.12166666666666667, + "grad_norm": 0.08624915778636932, + "learning_rate": 2.893294429611668e-05, + "loss": 0.4061, + "step": 365 + }, + { + "epoch": 0.122, + "grad_norm": 0.07624340057373047, + "learning_rate": 2.892711221817939e-05, + "loss": 0.3942, + "step": 366 + }, + { + "epoch": 0.12233333333333334, + "grad_norm": 0.10336243361234665, + "learning_rate": 2.8921264836864478e-05, + "loss": 0.3985, + "step": 367 + }, + { + "epoch": 0.12266666666666666, + "grad_norm": 0.08877639472484589, + "learning_rate": 2.891540215859717e-05, + "loss": 0.4047, + "step": 368 + }, + { + "epoch": 0.123, + "grad_norm": 0.0944904237985611, + "learning_rate": 2.8909524189819484e-05, + "loss": 0.3971, + "step": 369 + }, + { + "epoch": 0.12333333333333334, + "grad_norm": 0.06598222255706787, + "learning_rate": 2.890363093699025e-05, + "loss": 0.3915, + "step": 370 + }, + { + "epoch": 0.12366666666666666, + "grad_norm": 0.07404331117868423, + "learning_rate": 2.889772240658508e-05, + "loss": 0.4008, + "step": 371 + }, + { + "epoch": 0.124, + "grad_norm": 0.07888274639844894, + "learning_rate": 2.8891798605096388e-05, + "loss": 0.4063, + "step": 372 + }, + { + "epoch": 0.12433333333333334, + "grad_norm": 0.07934743165969849, + "learning_rate": 2.888585953903336e-05, + "loss": 0.3979, + "step": 373 + }, + { + "epoch": 0.12466666666666666, + "grad_norm": 0.08698104321956635, + "learning_rate": 2.8879905214921944e-05, + "loss": 0.404, + "step": 374 + }, + { + "epoch": 0.125, + "grad_norm": 0.09798512607812881, + "learning_rate": 2.8873935639304877e-05, + "loss": 0.4021, + "step": 375 + }, + { + "epoch": 0.12533333333333332, + "grad_norm": 0.13052140176296234, + "learning_rate": 2.886795081874164e-05, + "loss": 0.398, + "step": 376 + }, + { + "epoch": 0.12566666666666668, + "grad_norm": 0.07280424982309341, + "learning_rate": 2.8861950759808468e-05, + "loss": 0.4008, + "step": 377 + }, + { + "epoch": 0.126, + "grad_norm": 0.07985760271549225, + "learning_rate": 2.8855935469098337e-05, + "loss": 0.4, + "step": 378 + }, + { + "epoch": 0.12633333333333333, + "grad_norm": 0.07918935269117355, + "learning_rate": 2.8849904953220972e-05, + "loss": 0.3917, + "step": 379 + }, + { + "epoch": 0.12666666666666668, + "grad_norm": 0.06692895293235779, + "learning_rate": 2.8843859218802815e-05, + "loss": 0.4017, + "step": 380 + }, + { + "epoch": 0.127, + "grad_norm": 0.07598675042390823, + "learning_rate": 2.883779827248703e-05, + "loss": 0.396, + "step": 381 + }, + { + "epoch": 0.12733333333333333, + "grad_norm": 0.09816335886716843, + "learning_rate": 2.883172212093351e-05, + "loss": 0.3957, + "step": 382 + }, + { + "epoch": 0.12766666666666668, + "grad_norm": 0.10168103128671646, + "learning_rate": 2.882563077081884e-05, + "loss": 0.3996, + "step": 383 + }, + { + "epoch": 0.128, + "grad_norm": 0.07491239905357361, + "learning_rate": 2.881952422883631e-05, + "loss": 0.3865, + "step": 384 + }, + { + "epoch": 0.12833333333333333, + "grad_norm": 0.08111091703176498, + "learning_rate": 2.8813402501695914e-05, + "loss": 0.3898, + "step": 385 + }, + { + "epoch": 0.12866666666666668, + "grad_norm": 0.08263547718524933, + "learning_rate": 2.8807265596124318e-05, + "loss": 0.3954, + "step": 386 + }, + { + "epoch": 0.129, + "grad_norm": 0.09575605392456055, + "learning_rate": 2.8801113518864872e-05, + "loss": 0.3999, + "step": 387 + }, + { + "epoch": 0.12933333333333333, + "grad_norm": 0.07800937443971634, + "learning_rate": 2.8794946276677597e-05, + "loss": 0.3942, + "step": 388 + }, + { + "epoch": 0.12966666666666668, + "grad_norm": 0.09121564775705338, + "learning_rate": 2.878876387633917e-05, + "loss": 0.3975, + "step": 389 + }, + { + "epoch": 0.13, + "grad_norm": 0.07915686070919037, + "learning_rate": 2.8782566324642943e-05, + "loss": 0.3988, + "step": 390 + }, + { + "epoch": 0.13033333333333333, + "grad_norm": 0.06793887913227081, + "learning_rate": 2.8776353628398893e-05, + "loss": 0.3948, + "step": 391 + }, + { + "epoch": 0.13066666666666665, + "grad_norm": 0.07873862236738205, + "learning_rate": 2.877012579443366e-05, + "loss": 0.3928, + "step": 392 + }, + { + "epoch": 0.131, + "grad_norm": 0.06824980676174164, + "learning_rate": 2.8763882829590497e-05, + "loss": 0.4026, + "step": 393 + }, + { + "epoch": 0.13133333333333333, + "grad_norm": 0.08604731410741806, + "learning_rate": 2.8757624740729302e-05, + "loss": 0.4051, + "step": 394 + }, + { + "epoch": 0.13166666666666665, + "grad_norm": 0.07145987451076508, + "learning_rate": 2.875135153472658e-05, + "loss": 0.392, + "step": 395 + }, + { + "epoch": 0.132, + "grad_norm": 0.08327634632587433, + "learning_rate": 2.8745063218475448e-05, + "loss": 0.3961, + "step": 396 + }, + { + "epoch": 0.13233333333333333, + "grad_norm": 0.07430984824895859, + "learning_rate": 2.8738759798885627e-05, + "loss": 0.4021, + "step": 397 + }, + { + "epoch": 0.13266666666666665, + "grad_norm": 0.0826864242553711, + "learning_rate": 2.8732441282883443e-05, + "loss": 0.3991, + "step": 398 + }, + { + "epoch": 0.133, + "grad_norm": 0.08936093002557755, + "learning_rate": 2.8726107677411793e-05, + "loss": 0.4033, + "step": 399 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 0.09043749421834946, + "learning_rate": 2.8719758989430167e-05, + "loss": 0.4054, + "step": 400 + }, + { + "epoch": 0.13366666666666666, + "grad_norm": 0.14378689229488373, + "learning_rate": 2.871339522591463e-05, + "loss": 0.4084, + "step": 401 + }, + { + "epoch": 0.134, + "grad_norm": 0.06745938956737518, + "learning_rate": 2.87070163938578e-05, + "loss": 0.3882, + "step": 402 + }, + { + "epoch": 0.13433333333333333, + "grad_norm": 0.08120747655630112, + "learning_rate": 2.8700622500268864e-05, + "loss": 0.3896, + "step": 403 + }, + { + "epoch": 0.13466666666666666, + "grad_norm": 0.08638457208871841, + "learning_rate": 2.8694213552173554e-05, + "loss": 0.4006, + "step": 404 + }, + { + "epoch": 0.135, + "grad_norm": 0.08196260035037994, + "learning_rate": 2.8687789556614142e-05, + "loss": 0.3973, + "step": 405 + }, + { + "epoch": 0.13533333333333333, + "grad_norm": 0.06938280165195465, + "learning_rate": 2.8681350520649444e-05, + "loss": 0.395, + "step": 406 + }, + { + "epoch": 0.13566666666666666, + "grad_norm": 0.0848786011338234, + "learning_rate": 2.867489645135479e-05, + "loss": 0.4004, + "step": 407 + }, + { + "epoch": 0.136, + "grad_norm": 0.09470508247613907, + "learning_rate": 2.8668427355822036e-05, + "loss": 0.3965, + "step": 408 + }, + { + "epoch": 0.13633333333333333, + "grad_norm": 0.0767105221748352, + "learning_rate": 2.8661943241159552e-05, + "loss": 0.4061, + "step": 409 + }, + { + "epoch": 0.13666666666666666, + "grad_norm": 0.08069413900375366, + "learning_rate": 2.86554441144922e-05, + "loss": 0.3987, + "step": 410 + }, + { + "epoch": 0.137, + "grad_norm": 0.09806078672409058, + "learning_rate": 2.864892998296135e-05, + "loss": 0.3971, + "step": 411 + }, + { + "epoch": 0.13733333333333334, + "grad_norm": 0.09635350108146667, + "learning_rate": 2.864240085372486e-05, + "loss": 0.3998, + "step": 412 + }, + { + "epoch": 0.13766666666666666, + "grad_norm": 0.07235170155763626, + "learning_rate": 2.863585673395705e-05, + "loss": 0.403, + "step": 413 + }, + { + "epoch": 0.138, + "grad_norm": 0.06797248870134354, + "learning_rate": 2.8629297630848732e-05, + "loss": 0.3971, + "step": 414 + }, + { + "epoch": 0.13833333333333334, + "grad_norm": 0.08283325284719467, + "learning_rate": 2.8622723551607167e-05, + "loss": 0.4014, + "step": 415 + }, + { + "epoch": 0.13866666666666666, + "grad_norm": 0.07700398564338684, + "learning_rate": 2.861613450345609e-05, + "loss": 0.4048, + "step": 416 + }, + { + "epoch": 0.139, + "grad_norm": 0.15653598308563232, + "learning_rate": 2.8609530493635667e-05, + "loss": 0.3902, + "step": 417 + }, + { + "epoch": 0.13933333333333334, + "grad_norm": 0.07878995686769485, + "learning_rate": 2.860291152940251e-05, + "loss": 0.41, + "step": 418 + }, + { + "epoch": 0.13966666666666666, + "grad_norm": 0.07963881641626358, + "learning_rate": 2.8596277618029665e-05, + "loss": 0.3964, + "step": 419 + }, + { + "epoch": 0.14, + "grad_norm": 0.06498411297798157, + "learning_rate": 2.8589628766806596e-05, + "loss": 0.4027, + "step": 420 + }, + { + "epoch": 0.14033333333333334, + "grad_norm": 0.13951826095581055, + "learning_rate": 2.85829649830392e-05, + "loss": 0.3987, + "step": 421 + }, + { + "epoch": 0.14066666666666666, + "grad_norm": 0.08994141966104507, + "learning_rate": 2.857628627404976e-05, + "loss": 0.4016, + "step": 422 + }, + { + "epoch": 0.141, + "grad_norm": 0.08292854577302933, + "learning_rate": 2.8569592647176973e-05, + "loss": 0.3991, + "step": 423 + }, + { + "epoch": 0.14133333333333334, + "grad_norm": 0.0773169994354248, + "learning_rate": 2.856288410977592e-05, + "loss": 0.4024, + "step": 424 + }, + { + "epoch": 0.14166666666666666, + "grad_norm": 0.10431760549545288, + "learning_rate": 2.8556160669218075e-05, + "loss": 0.4008, + "step": 425 + }, + { + "epoch": 0.142, + "grad_norm": 0.06706692278385162, + "learning_rate": 2.8549422332891285e-05, + "loss": 0.3968, + "step": 426 + }, + { + "epoch": 0.14233333333333334, + "grad_norm": 0.07307305186986923, + "learning_rate": 2.854266910819976e-05, + "loss": 0.4064, + "step": 427 + }, + { + "epoch": 0.14266666666666666, + "grad_norm": 0.0693906620144844, + "learning_rate": 2.8535901002564072e-05, + "loss": 0.3968, + "step": 428 + }, + { + "epoch": 0.143, + "grad_norm": 0.06352703273296356, + "learning_rate": 2.8529118023421146e-05, + "loss": 0.3902, + "step": 429 + }, + { + "epoch": 0.14333333333333334, + "grad_norm": 0.057499658316373825, + "learning_rate": 2.8522320178224244e-05, + "loss": 0.3981, + "step": 430 + }, + { + "epoch": 0.14366666666666666, + "grad_norm": 0.0764322280883789, + "learning_rate": 2.851550747444298e-05, + "loss": 0.399, + "step": 431 + }, + { + "epoch": 0.144, + "grad_norm": 0.07218629121780396, + "learning_rate": 2.8508679919563277e-05, + "loss": 0.4033, + "step": 432 + }, + { + "epoch": 0.14433333333333334, + "grad_norm": 0.06222138553857803, + "learning_rate": 2.850183752108738e-05, + "loss": 0.4069, + "step": 433 + }, + { + "epoch": 0.14466666666666667, + "grad_norm": 0.06475608050823212, + "learning_rate": 2.8494980286533854e-05, + "loss": 0.3977, + "step": 434 + }, + { + "epoch": 0.145, + "grad_norm": 0.06914796680212021, + "learning_rate": 2.8488108223437552e-05, + "loss": 0.4035, + "step": 435 + }, + { + "epoch": 0.14533333333333334, + "grad_norm": 0.07394059002399445, + "learning_rate": 2.8481221339349637e-05, + "loss": 0.4, + "step": 436 + }, + { + "epoch": 0.14566666666666667, + "grad_norm": 0.06739216297864914, + "learning_rate": 2.847431964183754e-05, + "loss": 0.3986, + "step": 437 + }, + { + "epoch": 0.146, + "grad_norm": 0.20250780880451202, + "learning_rate": 2.8467403138484987e-05, + "loss": 0.3953, + "step": 438 + }, + { + "epoch": 0.14633333333333334, + "grad_norm": 0.09453870356082916, + "learning_rate": 2.846047183689196e-05, + "loss": 0.398, + "step": 439 + }, + { + "epoch": 0.14666666666666667, + "grad_norm": 0.07102149724960327, + "learning_rate": 2.8453525744674707e-05, + "loss": 0.396, + "step": 440 + }, + { + "epoch": 0.147, + "grad_norm": 0.0838518962264061, + "learning_rate": 2.844656486946573e-05, + "loss": 0.4017, + "step": 441 + }, + { + "epoch": 0.14733333333333334, + "grad_norm": 0.09836380928754807, + "learning_rate": 2.843958921891376e-05, + "loss": 0.399, + "step": 442 + }, + { + "epoch": 0.14766666666666667, + "grad_norm": 0.06925001740455627, + "learning_rate": 2.843259880068379e-05, + "loss": 0.3983, + "step": 443 + }, + { + "epoch": 0.148, + "grad_norm": 0.08360330015420914, + "learning_rate": 2.8425593622457017e-05, + "loss": 0.3952, + "step": 444 + }, + { + "epoch": 0.14833333333333334, + "grad_norm": 0.09107210487127304, + "learning_rate": 2.841857369193087e-05, + "loss": 0.3898, + "step": 445 + }, + { + "epoch": 0.14866666666666667, + "grad_norm": 0.09790302813053131, + "learning_rate": 2.841153901681898e-05, + "loss": 0.3938, + "step": 446 + }, + { + "epoch": 0.149, + "grad_norm": 0.07933268696069717, + "learning_rate": 2.8404489604851186e-05, + "loss": 0.395, + "step": 447 + }, + { + "epoch": 0.14933333333333335, + "grad_norm": 0.1117924153804779, + "learning_rate": 2.839742546377351e-05, + "loss": 0.3941, + "step": 448 + }, + { + "epoch": 0.14966666666666667, + "grad_norm": 0.07319331169128418, + "learning_rate": 2.8390346601348172e-05, + "loss": 0.3927, + "step": 449 + }, + { + "epoch": 0.15, + "grad_norm": 0.06543871015310287, + "learning_rate": 2.8383253025353557e-05, + "loss": 0.3957, + "step": 450 + }, + { + "epoch": 0.15033333333333335, + "grad_norm": 0.06376197934150696, + "learning_rate": 2.8376144743584225e-05, + "loss": 0.3914, + "step": 451 + }, + { + "epoch": 0.15066666666666667, + "grad_norm": 0.07094628363847733, + "learning_rate": 2.8369021763850896e-05, + "loss": 0.3927, + "step": 452 + }, + { + "epoch": 0.151, + "grad_norm": 0.08331236988306046, + "learning_rate": 2.8361884093980426e-05, + "loss": 0.4003, + "step": 453 + }, + { + "epoch": 0.15133333333333332, + "grad_norm": 0.09568315744400024, + "learning_rate": 2.8354731741815832e-05, + "loss": 0.3952, + "step": 454 + }, + { + "epoch": 0.15166666666666667, + "grad_norm": 0.07307212054729462, + "learning_rate": 2.834756471521625e-05, + "loss": 0.4047, + "step": 455 + }, + { + "epoch": 0.152, + "grad_norm": 0.08194286376237869, + "learning_rate": 2.8340383022056956e-05, + "loss": 0.3967, + "step": 456 + }, + { + "epoch": 0.15233333333333332, + "grad_norm": 0.07233957946300507, + "learning_rate": 2.8333186670229317e-05, + "loss": 0.3995, + "step": 457 + }, + { + "epoch": 0.15266666666666667, + "grad_norm": 0.06717851012945175, + "learning_rate": 2.8325975667640837e-05, + "loss": 0.3903, + "step": 458 + }, + { + "epoch": 0.153, + "grad_norm": 0.11562392115592957, + "learning_rate": 2.8318750022215093e-05, + "loss": 0.4025, + "step": 459 + }, + { + "epoch": 0.15333333333333332, + "grad_norm": 0.09476692974567413, + "learning_rate": 2.831150974189177e-05, + "loss": 0.3976, + "step": 460 + }, + { + "epoch": 0.15366666666666667, + "grad_norm": 0.08770398050546646, + "learning_rate": 2.8304254834626622e-05, + "loss": 0.3953, + "step": 461 + }, + { + "epoch": 0.154, + "grad_norm": 0.0838746428489685, + "learning_rate": 2.8296985308391478e-05, + "loss": 0.388, + "step": 462 + }, + { + "epoch": 0.15433333333333332, + "grad_norm": 0.06210022792220116, + "learning_rate": 2.8289701171174243e-05, + "loss": 0.3979, + "step": 463 + }, + { + "epoch": 0.15466666666666667, + "grad_norm": 0.09069151431322098, + "learning_rate": 2.8282402430978852e-05, + "loss": 0.4016, + "step": 464 + }, + { + "epoch": 0.155, + "grad_norm": 0.07017865777015686, + "learning_rate": 2.827508909582531e-05, + "loss": 0.3897, + "step": 465 + }, + { + "epoch": 0.15533333333333332, + "grad_norm": 0.07779236882925034, + "learning_rate": 2.826776117374965e-05, + "loss": 0.3808, + "step": 466 + }, + { + "epoch": 0.15566666666666668, + "grad_norm": 0.07623061537742615, + "learning_rate": 2.826041867280393e-05, + "loss": 0.391, + "step": 467 + }, + { + "epoch": 0.156, + "grad_norm": 0.06496694684028625, + "learning_rate": 2.8253061601056228e-05, + "loss": 0.3975, + "step": 468 + }, + { + "epoch": 0.15633333333333332, + "grad_norm": 0.09723429381847382, + "learning_rate": 2.824568996659064e-05, + "loss": 0.3971, + "step": 469 + }, + { + "epoch": 0.15666666666666668, + "grad_norm": 0.08059398084878922, + "learning_rate": 2.8238303777507262e-05, + "loss": 0.4038, + "step": 470 + }, + { + "epoch": 0.157, + "grad_norm": 0.09883049130439758, + "learning_rate": 2.823090304192217e-05, + "loss": 0.3961, + "step": 471 + }, + { + "epoch": 0.15733333333333333, + "grad_norm": 0.06483320891857147, + "learning_rate": 2.8223487767967446e-05, + "loss": 0.3962, + "step": 472 + }, + { + "epoch": 0.15766666666666668, + "grad_norm": 0.059585098177194595, + "learning_rate": 2.8216057963791125e-05, + "loss": 0.392, + "step": 473 + }, + { + "epoch": 0.158, + "grad_norm": 0.08190373331308365, + "learning_rate": 2.820861363755722e-05, + "loss": 0.3945, + "step": 474 + }, + { + "epoch": 0.15833333333333333, + "grad_norm": 0.07096624374389648, + "learning_rate": 2.8201154797445705e-05, + "loss": 0.404, + "step": 475 + }, + { + "epoch": 0.15866666666666668, + "grad_norm": 0.0865093544125557, + "learning_rate": 2.819368145165249e-05, + "loss": 0.3941, + "step": 476 + }, + { + "epoch": 0.159, + "grad_norm": 0.12594720721244812, + "learning_rate": 2.8186193608389433e-05, + "loss": 0.3975, + "step": 477 + }, + { + "epoch": 0.15933333333333333, + "grad_norm": 0.08053870499134064, + "learning_rate": 2.8178691275884323e-05, + "loss": 0.3835, + "step": 478 + }, + { + "epoch": 0.15966666666666668, + "grad_norm": 0.09675949066877365, + "learning_rate": 2.8171174462380857e-05, + "loss": 0.394, + "step": 479 + }, + { + "epoch": 0.16, + "grad_norm": 0.07245815545320511, + "learning_rate": 2.8163643176138665e-05, + "loss": 0.407, + "step": 480 + }, + { + "epoch": 0.16033333333333333, + "grad_norm": 0.07707836478948593, + "learning_rate": 2.815609742543326e-05, + "loss": 0.3981, + "step": 481 + }, + { + "epoch": 0.16066666666666668, + "grad_norm": 0.0718529224395752, + "learning_rate": 2.8148537218556064e-05, + "loss": 0.3944, + "step": 482 + }, + { + "epoch": 0.161, + "grad_norm": 0.07409583777189255, + "learning_rate": 2.8140962563814372e-05, + "loss": 0.3967, + "step": 483 + }, + { + "epoch": 0.16133333333333333, + "grad_norm": 0.09771796315908432, + "learning_rate": 2.8133373469531362e-05, + "loss": 0.3965, + "step": 484 + }, + { + "epoch": 0.16166666666666665, + "grad_norm": 0.07497180253267288, + "learning_rate": 2.8125769944046076e-05, + "loss": 0.3975, + "step": 485 + }, + { + "epoch": 0.162, + "grad_norm": 0.08904554694890976, + "learning_rate": 2.8118151995713414e-05, + "loss": 0.3945, + "step": 486 + }, + { + "epoch": 0.16233333333333333, + "grad_norm": 0.17748968303203583, + "learning_rate": 2.8110519632904123e-05, + "loss": 0.3978, + "step": 487 + }, + { + "epoch": 0.16266666666666665, + "grad_norm": 0.06822582334280014, + "learning_rate": 2.8102872864004785e-05, + "loss": 0.3955, + "step": 488 + }, + { + "epoch": 0.163, + "grad_norm": 0.07604636996984482, + "learning_rate": 2.8095211697417823e-05, + "loss": 0.3949, + "step": 489 + }, + { + "epoch": 0.16333333333333333, + "grad_norm": 0.07109887152910233, + "learning_rate": 2.8087536141561472e-05, + "loss": 0.3981, + "step": 490 + }, + { + "epoch": 0.16366666666666665, + "grad_norm": 0.06634732335805893, + "learning_rate": 2.8079846204869776e-05, + "loss": 0.3914, + "step": 491 + }, + { + "epoch": 0.164, + "grad_norm": 0.07768316566944122, + "learning_rate": 2.807214189579259e-05, + "loss": 0.3904, + "step": 492 + }, + { + "epoch": 0.16433333333333333, + "grad_norm": 0.1119157075881958, + "learning_rate": 2.806442322279555e-05, + "loss": 0.3846, + "step": 493 + }, + { + "epoch": 0.16466666666666666, + "grad_norm": 0.08310552686452866, + "learning_rate": 2.8056690194360086e-05, + "loss": 0.3949, + "step": 494 + }, + { + "epoch": 0.165, + "grad_norm": 0.07564808428287506, + "learning_rate": 2.8048942818983394e-05, + "loss": 0.3986, + "step": 495 + }, + { + "epoch": 0.16533333333333333, + "grad_norm": 0.06991252303123474, + "learning_rate": 2.8041181105178446e-05, + "loss": 0.4001, + "step": 496 + }, + { + "epoch": 0.16566666666666666, + "grad_norm": 0.1030757874250412, + "learning_rate": 2.8033405061473957e-05, + "loss": 0.3955, + "step": 497 + }, + { + "epoch": 0.166, + "grad_norm": 0.1326310932636261, + "learning_rate": 2.8025614696414392e-05, + "loss": 0.3971, + "step": 498 + }, + { + "epoch": 0.16633333333333333, + "grad_norm": 0.07370123267173767, + "learning_rate": 2.8017810018559954e-05, + "loss": 0.3976, + "step": 499 + }, + { + "epoch": 0.16666666666666666, + "grad_norm": 0.07924503087997437, + "learning_rate": 2.800999103648657e-05, + "loss": 0.3989, + "step": 500 + }, + { + "epoch": 0.167, + "grad_norm": 0.18303152918815613, + "learning_rate": 2.8002157758785897e-05, + "loss": 0.3985, + "step": 501 + }, + { + "epoch": 0.16733333333333333, + "grad_norm": 0.07873231172561646, + "learning_rate": 2.7994310194065275e-05, + "loss": 0.4011, + "step": 502 + }, + { + "epoch": 0.16766666666666666, + "grad_norm": 0.1172589585185051, + "learning_rate": 2.798644835094777e-05, + "loss": 0.3952, + "step": 503 + }, + { + "epoch": 0.168, + "grad_norm": 0.17478032410144806, + "learning_rate": 2.7978572238072125e-05, + "loss": 0.4037, + "step": 504 + }, + { + "epoch": 0.16833333333333333, + "grad_norm": 0.07915951311588287, + "learning_rate": 2.797068186409276e-05, + "loss": 0.394, + "step": 505 + }, + { + "epoch": 0.16866666666666666, + "grad_norm": 0.1356993466615677, + "learning_rate": 2.796277723767977e-05, + "loss": 0.395, + "step": 506 + }, + { + "epoch": 0.169, + "grad_norm": 0.09696149080991745, + "learning_rate": 2.795485836751891e-05, + "loss": 0.3974, + "step": 507 + }, + { + "epoch": 0.16933333333333334, + "grad_norm": 0.10044852644205093, + "learning_rate": 2.7946925262311586e-05, + "loss": 0.3993, + "step": 508 + }, + { + "epoch": 0.16966666666666666, + "grad_norm": 0.06569673866033554, + "learning_rate": 2.7938977930774848e-05, + "loss": 0.3919, + "step": 509 + }, + { + "epoch": 0.17, + "grad_norm": 0.08906219899654388, + "learning_rate": 2.793101638164137e-05, + "loss": 0.3964, + "step": 510 + }, + { + "epoch": 0.17033333333333334, + "grad_norm": 0.06609756499528885, + "learning_rate": 2.7923040623659466e-05, + "loss": 0.4072, + "step": 511 + }, + { + "epoch": 0.17066666666666666, + "grad_norm": 0.06747300177812576, + "learning_rate": 2.7915050665593038e-05, + "loss": 0.3999, + "step": 512 + }, + { + "epoch": 0.171, + "grad_norm": 0.06163829565048218, + "learning_rate": 2.7907046516221616e-05, + "loss": 0.4054, + "step": 513 + }, + { + "epoch": 0.17133333333333334, + "grad_norm": 0.08990393579006195, + "learning_rate": 2.7899028184340307e-05, + "loss": 0.402, + "step": 514 + }, + { + "epoch": 0.17166666666666666, + "grad_norm": 0.07645025849342346, + "learning_rate": 2.7890995678759807e-05, + "loss": 0.3904, + "step": 515 + }, + { + "epoch": 0.172, + "grad_norm": 0.07896158844232559, + "learning_rate": 2.7882949008306392e-05, + "loss": 0.3951, + "step": 516 + }, + { + "epoch": 0.17233333333333334, + "grad_norm": 0.0977073535323143, + "learning_rate": 2.787488818182189e-05, + "loss": 0.3945, + "step": 517 + }, + { + "epoch": 0.17266666666666666, + "grad_norm": 0.06847943365573883, + "learning_rate": 2.78668132081637e-05, + "loss": 0.3978, + "step": 518 + }, + { + "epoch": 0.173, + "grad_norm": 0.11429166793823242, + "learning_rate": 2.7858724096204752e-05, + "loss": 0.3882, + "step": 519 + }, + { + "epoch": 0.17333333333333334, + "grad_norm": 0.09510332345962524, + "learning_rate": 2.7850620854833523e-05, + "loss": 0.3848, + "step": 520 + }, + { + "epoch": 0.17366666666666666, + "grad_norm": 0.2805318832397461, + "learning_rate": 2.7842503492953996e-05, + "loss": 0.4008, + "step": 521 + }, + { + "epoch": 0.174, + "grad_norm": 0.06742902100086212, + "learning_rate": 2.78343720194857e-05, + "loss": 0.3942, + "step": 522 + }, + { + "epoch": 0.17433333333333334, + "grad_norm": 0.09917930513620377, + "learning_rate": 2.7826226443363647e-05, + "loss": 0.3996, + "step": 523 + }, + { + "epoch": 0.17466666666666666, + "grad_norm": 0.2743907868862152, + "learning_rate": 2.781806677353835e-05, + "loss": 0.4024, + "step": 524 + }, + { + "epoch": 0.175, + "grad_norm": 0.07000214606523514, + "learning_rate": 2.7809893018975812e-05, + "loss": 0.3962, + "step": 525 + }, + { + "epoch": 0.17533333333333334, + "grad_norm": 0.06358301639556885, + "learning_rate": 2.7801705188657513e-05, + "loss": 0.3987, + "step": 526 + }, + { + "epoch": 0.17566666666666667, + "grad_norm": 0.07583878189325333, + "learning_rate": 2.7793503291580395e-05, + "loss": 0.3963, + "step": 527 + }, + { + "epoch": 0.176, + "grad_norm": 0.10152607411146164, + "learning_rate": 2.7785287336756858e-05, + "loss": 0.3975, + "step": 528 + }, + { + "epoch": 0.17633333333333334, + "grad_norm": 0.10646385699510574, + "learning_rate": 2.777705733321476e-05, + "loss": 0.3963, + "step": 529 + }, + { + "epoch": 0.17666666666666667, + "grad_norm": 0.09196841716766357, + "learning_rate": 2.7768813289997376e-05, + "loss": 0.3939, + "step": 530 + }, + { + "epoch": 0.177, + "grad_norm": 0.10688714683055878, + "learning_rate": 2.776055521616342e-05, + "loss": 0.3961, + "step": 531 + }, + { + "epoch": 0.17733333333333334, + "grad_norm": 0.07822298258543015, + "learning_rate": 2.775228312078703e-05, + "loss": 0.3941, + "step": 532 + }, + { + "epoch": 0.17766666666666667, + "grad_norm": 0.07612007856369019, + "learning_rate": 2.7743997012957736e-05, + "loss": 0.3928, + "step": 533 + }, + { + "epoch": 0.178, + "grad_norm": 0.13912902772426605, + "learning_rate": 2.7735696901780466e-05, + "loss": 0.3977, + "step": 534 + }, + { + "epoch": 0.17833333333333334, + "grad_norm": 0.10280914604663849, + "learning_rate": 2.7727382796375555e-05, + "loss": 0.3893, + "step": 535 + }, + { + "epoch": 0.17866666666666667, + "grad_norm": 0.07283594459295273, + "learning_rate": 2.7719054705878692e-05, + "loss": 0.3938, + "step": 536 + }, + { + "epoch": 0.179, + "grad_norm": 0.08338384330272675, + "learning_rate": 2.7710712639440945e-05, + "loss": 0.3941, + "step": 537 + }, + { + "epoch": 0.17933333333333334, + "grad_norm": 0.08918158710002899, + "learning_rate": 2.7702356606228735e-05, + "loss": 0.4005, + "step": 538 + }, + { + "epoch": 0.17966666666666667, + "grad_norm": 0.07569151371717453, + "learning_rate": 2.769398661542383e-05, + "loss": 0.4001, + "step": 539 + }, + { + "epoch": 0.18, + "grad_norm": 0.0886971727013588, + "learning_rate": 2.7685602676223343e-05, + "loss": 0.3985, + "step": 540 + }, + { + "epoch": 0.18033333333333335, + "grad_norm": 0.06841359287500381, + "learning_rate": 2.7677204797839697e-05, + "loss": 0.3881, + "step": 541 + }, + { + "epoch": 0.18066666666666667, + "grad_norm": 0.07248853147029877, + "learning_rate": 2.7668792989500653e-05, + "loss": 0.3974, + "step": 542 + }, + { + "epoch": 0.181, + "grad_norm": 0.07901567965745926, + "learning_rate": 2.766036726044926e-05, + "loss": 0.4007, + "step": 543 + }, + { + "epoch": 0.18133333333333335, + "grad_norm": 0.06357505917549133, + "learning_rate": 2.7651927619943864e-05, + "loss": 0.3951, + "step": 544 + }, + { + "epoch": 0.18166666666666667, + "grad_norm": 0.09565428644418716, + "learning_rate": 2.764347407725812e-05, + "loss": 0.3996, + "step": 545 + }, + { + "epoch": 0.182, + "grad_norm": 0.08062463998794556, + "learning_rate": 2.7635006641680928e-05, + "loss": 0.3893, + "step": 546 + }, + { + "epoch": 0.18233333333333332, + "grad_norm": 0.09939523041248322, + "learning_rate": 2.7626525322516477e-05, + "loss": 0.3921, + "step": 547 + }, + { + "epoch": 0.18266666666666667, + "grad_norm": 0.07321367412805557, + "learning_rate": 2.7618030129084197e-05, + "loss": 0.395, + "step": 548 + }, + { + "epoch": 0.183, + "grad_norm": 0.0846652090549469, + "learning_rate": 2.7609521070718772e-05, + "loss": 0.3936, + "step": 549 + }, + { + "epoch": 0.18333333333333332, + "grad_norm": 0.07799533754587173, + "learning_rate": 2.760099815677012e-05, + "loss": 0.3883, + "step": 550 + }, + { + "epoch": 0.18366666666666667, + "grad_norm": 0.06409861147403717, + "learning_rate": 2.7592461396603385e-05, + "loss": 0.3926, + "step": 551 + }, + { + "epoch": 0.184, + "grad_norm": 0.09729819744825363, + "learning_rate": 2.7583910799598912e-05, + "loss": 0.3954, + "step": 552 + }, + { + "epoch": 0.18433333333333332, + "grad_norm": 0.07753082364797592, + "learning_rate": 2.7575346375152267e-05, + "loss": 0.3965, + "step": 553 + }, + { + "epoch": 0.18466666666666667, + "grad_norm": 0.0905788242816925, + "learning_rate": 2.7566768132674204e-05, + "loss": 0.3876, + "step": 554 + }, + { + "epoch": 0.185, + "grad_norm": 0.09240823239088058, + "learning_rate": 2.7558176081590663e-05, + "loss": 0.4003, + "step": 555 + }, + { + "epoch": 0.18533333333333332, + "grad_norm": 0.07483207434415817, + "learning_rate": 2.754957023134275e-05, + "loss": 0.401, + "step": 556 + }, + { + "epoch": 0.18566666666666667, + "grad_norm": 0.08398556709289551, + "learning_rate": 2.754095059138673e-05, + "loss": 0.3969, + "step": 557 + }, + { + "epoch": 0.186, + "grad_norm": 0.0917467251420021, + "learning_rate": 2.753231717119405e-05, + "loss": 0.4028, + "step": 558 + }, + { + "epoch": 0.18633333333333332, + "grad_norm": 0.06649760901927948, + "learning_rate": 2.7523669980251254e-05, + "loss": 0.3982, + "step": 559 + }, + { + "epoch": 0.18666666666666668, + "grad_norm": 0.0690835639834404, + "learning_rate": 2.751500902806006e-05, + "loss": 0.4017, + "step": 560 + }, + { + "epoch": 0.187, + "grad_norm": 0.14173080027103424, + "learning_rate": 2.7506334324137277e-05, + "loss": 0.3966, + "step": 561 + }, + { + "epoch": 0.18733333333333332, + "grad_norm": 0.06984788924455643, + "learning_rate": 2.7497645878014833e-05, + "loss": 0.3969, + "step": 562 + }, + { + "epoch": 0.18766666666666668, + "grad_norm": 0.06656695902347565, + "learning_rate": 2.748894369923977e-05, + "loss": 0.3973, + "step": 563 + }, + { + "epoch": 0.188, + "grad_norm": 0.07877188175916672, + "learning_rate": 2.7480227797374203e-05, + "loss": 0.396, + "step": 564 + }, + { + "epoch": 0.18833333333333332, + "grad_norm": 0.13153541088104248, + "learning_rate": 2.7471498181995336e-05, + "loss": 0.3948, + "step": 565 + }, + { + "epoch": 0.18866666666666668, + "grad_norm": 0.07687252759933472, + "learning_rate": 2.7462754862695425e-05, + "loss": 0.3926, + "step": 566 + }, + { + "epoch": 0.189, + "grad_norm": 0.0700930655002594, + "learning_rate": 2.7453997849081812e-05, + "loss": 0.3904, + "step": 567 + }, + { + "epoch": 0.18933333333333333, + "grad_norm": 0.0607755072414875, + "learning_rate": 2.7445227150776862e-05, + "loss": 0.3949, + "step": 568 + }, + { + "epoch": 0.18966666666666668, + "grad_norm": 0.07725103944540024, + "learning_rate": 2.743644277741799e-05, + "loss": 0.3901, + "step": 569 + }, + { + "epoch": 0.19, + "grad_norm": 0.057856328785419464, + "learning_rate": 2.7427644738657635e-05, + "loss": 0.3969, + "step": 570 + }, + { + "epoch": 0.19033333333333333, + "grad_norm": 0.07412249594926834, + "learning_rate": 2.7418833044163244e-05, + "loss": 0.3919, + "step": 571 + }, + { + "epoch": 0.19066666666666668, + "grad_norm": 0.11894376575946808, + "learning_rate": 2.7410007703617282e-05, + "loss": 0.4003, + "step": 572 + }, + { + "epoch": 0.191, + "grad_norm": 0.07260050624608994, + "learning_rate": 2.74011687267172e-05, + "loss": 0.3953, + "step": 573 + }, + { + "epoch": 0.19133333333333333, + "grad_norm": 0.06583017110824585, + "learning_rate": 2.7392316123175432e-05, + "loss": 0.3889, + "step": 574 + }, + { + "epoch": 0.19166666666666668, + "grad_norm": 0.06338493525981903, + "learning_rate": 2.738344990271939e-05, + "loss": 0.3999, + "step": 575 + }, + { + "epoch": 0.192, + "grad_norm": 0.06654443591833115, + "learning_rate": 2.7374570075091455e-05, + "loss": 0.3902, + "step": 576 + }, + { + "epoch": 0.19233333333333333, + "grad_norm": 0.10660549998283386, + "learning_rate": 2.736567665004894e-05, + "loss": 0.3928, + "step": 577 + }, + { + "epoch": 0.19266666666666668, + "grad_norm": 0.09502895176410675, + "learning_rate": 2.7356769637364118e-05, + "loss": 0.3934, + "step": 578 + }, + { + "epoch": 0.193, + "grad_norm": 0.06218428537249565, + "learning_rate": 2.734784904682418e-05, + "loss": 0.4003, + "step": 579 + }, + { + "epoch": 0.19333333333333333, + "grad_norm": 0.07611879706382751, + "learning_rate": 2.733891488823125e-05, + "loss": 0.3977, + "step": 580 + }, + { + "epoch": 0.19366666666666665, + "grad_norm": 0.06724075973033905, + "learning_rate": 2.732996717140234e-05, + "loss": 0.3849, + "step": 581 + }, + { + "epoch": 0.194, + "grad_norm": 0.1461971253156662, + "learning_rate": 2.732100590616938e-05, + "loss": 0.393, + "step": 582 + }, + { + "epoch": 0.19433333333333333, + "grad_norm": 0.07766017317771912, + "learning_rate": 2.7312031102379182e-05, + "loss": 0.3982, + "step": 583 + }, + { + "epoch": 0.19466666666666665, + "grad_norm": 0.17546874284744263, + "learning_rate": 2.730304276989343e-05, + "loss": 0.4029, + "step": 584 + }, + { + "epoch": 0.195, + "grad_norm": 0.07098980247974396, + "learning_rate": 2.7294040918588674e-05, + "loss": 0.3941, + "step": 585 + }, + { + "epoch": 0.19533333333333333, + "grad_norm": 0.0921400785446167, + "learning_rate": 2.728502555835632e-05, + "loss": 0.3902, + "step": 586 + }, + { + "epoch": 0.19566666666666666, + "grad_norm": 0.08164967596530914, + "learning_rate": 2.7275996699102624e-05, + "loss": 0.4044, + "step": 587 + }, + { + "epoch": 0.196, + "grad_norm": 0.10538074374198914, + "learning_rate": 2.726695435074867e-05, + "loss": 0.3962, + "step": 588 + }, + { + "epoch": 0.19633333333333333, + "grad_norm": 0.08706244826316833, + "learning_rate": 2.725789852323035e-05, + "loss": 0.3931, + "step": 589 + }, + { + "epoch": 0.19666666666666666, + "grad_norm": 0.12084713578224182, + "learning_rate": 2.7248829226498397e-05, + "loss": 0.4008, + "step": 590 + }, + { + "epoch": 0.197, + "grad_norm": 0.09170005470514297, + "learning_rate": 2.723974647051832e-05, + "loss": 0.3997, + "step": 591 + }, + { + "epoch": 0.19733333333333333, + "grad_norm": 0.06838574260473251, + "learning_rate": 2.7230650265270427e-05, + "loss": 0.3977, + "step": 592 + }, + { + "epoch": 0.19766666666666666, + "grad_norm": 0.08076560497283936, + "learning_rate": 2.72215406207498e-05, + "loss": 0.3954, + "step": 593 + }, + { + "epoch": 0.198, + "grad_norm": 0.08761175721883774, + "learning_rate": 2.721241754696629e-05, + "loss": 0.403, + "step": 594 + }, + { + "epoch": 0.19833333333333333, + "grad_norm": 0.06780976802110672, + "learning_rate": 2.7203281053944512e-05, + "loss": 0.3998, + "step": 595 + }, + { + "epoch": 0.19866666666666666, + "grad_norm": 0.06798809766769409, + "learning_rate": 2.7194131151723817e-05, + "loss": 0.3903, + "step": 596 + }, + { + "epoch": 0.199, + "grad_norm": 0.07392572611570358, + "learning_rate": 2.7184967850358288e-05, + "loss": 0.3917, + "step": 597 + }, + { + "epoch": 0.19933333333333333, + "grad_norm": 0.12577314674854279, + "learning_rate": 2.717579115991674e-05, + "loss": 0.4041, + "step": 598 + }, + { + "epoch": 0.19966666666666666, + "grad_norm": 0.06545430421829224, + "learning_rate": 2.7166601090482697e-05, + "loss": 0.3947, + "step": 599 + }, + { + "epoch": 0.2, + "grad_norm": 0.073726125061512, + "learning_rate": 2.715739765215438e-05, + "loss": 0.3893, + "step": 600 + }, + { + "epoch": 0.20033333333333334, + "grad_norm": 0.0704723373055458, + "learning_rate": 2.7148180855044707e-05, + "loss": 0.4052, + "step": 601 + }, + { + "epoch": 0.20066666666666666, + "grad_norm": 0.09748171269893646, + "learning_rate": 2.713895070928127e-05, + "loss": 0.3835, + "step": 602 + }, + { + "epoch": 0.201, + "grad_norm": 0.10597138106822968, + "learning_rate": 2.7129707225006325e-05, + "loss": 0.397, + "step": 603 + }, + { + "epoch": 0.20133333333333334, + "grad_norm": 0.07200044393539429, + "learning_rate": 2.7120450412376793e-05, + "loss": 0.3943, + "step": 604 + }, + { + "epoch": 0.20166666666666666, + "grad_norm": 0.08247645944356918, + "learning_rate": 2.7111180281564242e-05, + "loss": 0.3994, + "step": 605 + }, + { + "epoch": 0.202, + "grad_norm": 0.07661160081624985, + "learning_rate": 2.7101896842754866e-05, + "loss": 0.391, + "step": 606 + }, + { + "epoch": 0.20233333333333334, + "grad_norm": 0.07381271570920944, + "learning_rate": 2.709260010614948e-05, + "loss": 0.4001, + "step": 607 + }, + { + "epoch": 0.20266666666666666, + "grad_norm": 0.0741034597158432, + "learning_rate": 2.708329008196352e-05, + "loss": 0.3984, + "step": 608 + }, + { + "epoch": 0.203, + "grad_norm": 0.13572147488594055, + "learning_rate": 2.7073966780427025e-05, + "loss": 0.3936, + "step": 609 + }, + { + "epoch": 0.20333333333333334, + "grad_norm": 0.07812809199094772, + "learning_rate": 2.7064630211784607e-05, + "loss": 0.398, + "step": 610 + }, + { + "epoch": 0.20366666666666666, + "grad_norm": 0.06216133013367653, + "learning_rate": 2.7055280386295474e-05, + "loss": 0.3965, + "step": 611 + }, + { + "epoch": 0.204, + "grad_norm": 0.06244543567299843, + "learning_rate": 2.7045917314233385e-05, + "loss": 0.3943, + "step": 612 + }, + { + "epoch": 0.20433333333333334, + "grad_norm": 0.07707785069942474, + "learning_rate": 2.703654100588667e-05, + "loss": 0.3871, + "step": 613 + }, + { + "epoch": 0.20466666666666666, + "grad_norm": 0.14317896962165833, + "learning_rate": 2.7027151471558197e-05, + "loss": 0.4013, + "step": 614 + }, + { + "epoch": 0.205, + "grad_norm": 0.10041557997465134, + "learning_rate": 2.7017748721565364e-05, + "loss": 0.3951, + "step": 615 + }, + { + "epoch": 0.20533333333333334, + "grad_norm": 0.09096670895814896, + "learning_rate": 2.700833276624009e-05, + "loss": 0.3868, + "step": 616 + }, + { + "epoch": 0.20566666666666666, + "grad_norm": 0.07329723238945007, + "learning_rate": 2.699890361592881e-05, + "loss": 0.398, + "step": 617 + }, + { + "epoch": 0.206, + "grad_norm": 0.07461106032133102, + "learning_rate": 2.6989461280992456e-05, + "loss": 0.3982, + "step": 618 + }, + { + "epoch": 0.20633333333333334, + "grad_norm": 0.07819489389657974, + "learning_rate": 2.698000577180644e-05, + "loss": 0.3949, + "step": 619 + }, + { + "epoch": 0.20666666666666667, + "grad_norm": 0.07052688300609589, + "learning_rate": 2.6970537098760664e-05, + "loss": 0.397, + "step": 620 + }, + { + "epoch": 0.207, + "grad_norm": 0.09199440479278564, + "learning_rate": 2.6961055272259485e-05, + "loss": 0.3925, + "step": 621 + }, + { + "epoch": 0.20733333333333334, + "grad_norm": 0.0653718113899231, + "learning_rate": 2.6951560302721717e-05, + "loss": 0.3935, + "step": 622 + }, + { + "epoch": 0.20766666666666667, + "grad_norm": 0.10402780771255493, + "learning_rate": 2.694205220058061e-05, + "loss": 0.3939, + "step": 623 + }, + { + "epoch": 0.208, + "grad_norm": 0.07083833962678909, + "learning_rate": 2.693253097628385e-05, + "loss": 0.3881, + "step": 624 + }, + { + "epoch": 0.20833333333333334, + "grad_norm": 0.07100730389356613, + "learning_rate": 2.6922996640293542e-05, + "loss": 0.3964, + "step": 625 + }, + { + "epoch": 0.20866666666666667, + "grad_norm": 0.10416380316019058, + "learning_rate": 2.6913449203086198e-05, + "loss": 0.3912, + "step": 626 + }, + { + "epoch": 0.209, + "grad_norm": 0.06814076751470566, + "learning_rate": 2.6903888675152726e-05, + "loss": 0.3968, + "step": 627 + }, + { + "epoch": 0.20933333333333334, + "grad_norm": 0.0710282102227211, + "learning_rate": 2.689431506699841e-05, + "loss": 0.4051, + "step": 628 + }, + { + "epoch": 0.20966666666666667, + "grad_norm": 0.07684691250324249, + "learning_rate": 2.6884728389142918e-05, + "loss": 0.3977, + "step": 629 + }, + { + "epoch": 0.21, + "grad_norm": 0.09206927567720413, + "learning_rate": 2.687512865212028e-05, + "loss": 0.3972, + "step": 630 + }, + { + "epoch": 0.21033333333333334, + "grad_norm": 0.10883582383394241, + "learning_rate": 2.6865515866478865e-05, + "loss": 0.3956, + "step": 631 + }, + { + "epoch": 0.21066666666666667, + "grad_norm": 0.09812434762716293, + "learning_rate": 2.685589004278139e-05, + "loss": 0.3955, + "step": 632 + }, + { + "epoch": 0.211, + "grad_norm": 0.07155134528875351, + "learning_rate": 2.684625119160489e-05, + "loss": 0.3947, + "step": 633 + }, + { + "epoch": 0.21133333333333335, + "grad_norm": 0.07830075174570084, + "learning_rate": 2.6836599323540725e-05, + "loss": 0.3959, + "step": 634 + }, + { + "epoch": 0.21166666666666667, + "grad_norm": 0.07536168396472931, + "learning_rate": 2.6826934449194544e-05, + "loss": 0.3897, + "step": 635 + }, + { + "epoch": 0.212, + "grad_norm": 0.08846879005432129, + "learning_rate": 2.68172565791863e-05, + "loss": 0.3934, + "step": 636 + }, + { + "epoch": 0.21233333333333335, + "grad_norm": 0.07006418704986572, + "learning_rate": 2.6807565724150223e-05, + "loss": 0.3989, + "step": 637 + }, + { + "epoch": 0.21266666666666667, + "grad_norm": 0.08928602188825607, + "learning_rate": 2.6797861894734817e-05, + "loss": 0.3848, + "step": 638 + }, + { + "epoch": 0.213, + "grad_norm": 0.08377428352832794, + "learning_rate": 2.6788145101602823e-05, + "loss": 0.3911, + "step": 639 + }, + { + "epoch": 0.21333333333333335, + "grad_norm": 0.07750868052244186, + "learning_rate": 2.6778415355431246e-05, + "loss": 0.3947, + "step": 640 + }, + { + "epoch": 0.21366666666666667, + "grad_norm": 0.0812450721859932, + "learning_rate": 2.6768672666911317e-05, + "loss": 0.4073, + "step": 641 + }, + { + "epoch": 0.214, + "grad_norm": 0.0822344496846199, + "learning_rate": 2.6758917046748486e-05, + "loss": 0.3924, + "step": 642 + }, + { + "epoch": 0.21433333333333332, + "grad_norm": 0.09324200451374054, + "learning_rate": 2.674914850566242e-05, + "loss": 0.3917, + "step": 643 + }, + { + "epoch": 0.21466666666666667, + "grad_norm": 0.0711062029004097, + "learning_rate": 2.6739367054386972e-05, + "loss": 0.3925, + "step": 644 + }, + { + "epoch": 0.215, + "grad_norm": 0.07486855983734131, + "learning_rate": 2.6729572703670194e-05, + "loss": 0.404, + "step": 645 + }, + { + "epoch": 0.21533333333333332, + "grad_norm": 0.07398603111505508, + "learning_rate": 2.671976546427431e-05, + "loss": 0.3813, + "step": 646 + }, + { + "epoch": 0.21566666666666667, + "grad_norm": 0.05453566089272499, + "learning_rate": 2.670994534697569e-05, + "loss": 0.3949, + "step": 647 + }, + { + "epoch": 0.216, + "grad_norm": 0.06493794918060303, + "learning_rate": 2.6700112362564875e-05, + "loss": 0.4047, + "step": 648 + }, + { + "epoch": 0.21633333333333332, + "grad_norm": 0.0812997817993164, + "learning_rate": 2.6690266521846538e-05, + "loss": 0.4035, + "step": 649 + }, + { + "epoch": 0.21666666666666667, + "grad_norm": 0.09222182631492615, + "learning_rate": 2.6680407835639472e-05, + "loss": 0.3919, + "step": 650 + }, + { + "epoch": 0.217, + "grad_norm": 0.08601685613393784, + "learning_rate": 2.6670536314776593e-05, + "loss": 0.3967, + "step": 651 + }, + { + "epoch": 0.21733333333333332, + "grad_norm": 0.09161385148763657, + "learning_rate": 2.666065197010492e-05, + "loss": 0.4025, + "step": 652 + }, + { + "epoch": 0.21766666666666667, + "grad_norm": 0.07147339731454849, + "learning_rate": 2.6650754812485556e-05, + "loss": 0.3934, + "step": 653 + }, + { + "epoch": 0.218, + "grad_norm": 0.06850660592317581, + "learning_rate": 2.6640844852793684e-05, + "loss": 0.39, + "step": 654 + }, + { + "epoch": 0.21833333333333332, + "grad_norm": 0.08219245821237564, + "learning_rate": 2.6630922101918568e-05, + "loss": 0.4037, + "step": 655 + }, + { + "epoch": 0.21866666666666668, + "grad_norm": 0.06995467096567154, + "learning_rate": 2.662098657076351e-05, + "loss": 0.3935, + "step": 656 + }, + { + "epoch": 0.219, + "grad_norm": 0.08977138996124268, + "learning_rate": 2.661103827024586e-05, + "loss": 0.3917, + "step": 657 + }, + { + "epoch": 0.21933333333333332, + "grad_norm": 0.07334495335817337, + "learning_rate": 2.6601077211297006e-05, + "loss": 0.3913, + "step": 658 + }, + { + "epoch": 0.21966666666666668, + "grad_norm": 0.06842540949583054, + "learning_rate": 2.6591103404862347e-05, + "loss": 0.392, + "step": 659 + }, + { + "epoch": 0.22, + "grad_norm": 0.08481068909168243, + "learning_rate": 2.6581116861901292e-05, + "loss": 0.3919, + "step": 660 + }, + { + "epoch": 0.22033333333333333, + "grad_norm": 0.0970882698893547, + "learning_rate": 2.6571117593387254e-05, + "loss": 0.3872, + "step": 661 + }, + { + "epoch": 0.22066666666666668, + "grad_norm": 0.092220239341259, + "learning_rate": 2.6561105610307607e-05, + "loss": 0.3889, + "step": 662 + }, + { + "epoch": 0.221, + "grad_norm": 0.06652519851922989, + "learning_rate": 2.655108092366372e-05, + "loss": 0.3865, + "step": 663 + }, + { + "epoch": 0.22133333333333333, + "grad_norm": 0.07592567801475525, + "learning_rate": 2.6541043544470905e-05, + "loss": 0.3936, + "step": 664 + }, + { + "epoch": 0.22166666666666668, + "grad_norm": 0.07639186829328537, + "learning_rate": 2.653099348375843e-05, + "loss": 0.3927, + "step": 665 + }, + { + "epoch": 0.222, + "grad_norm": 0.06904681771993637, + "learning_rate": 2.6520930752569496e-05, + "loss": 0.3887, + "step": 666 + }, + { + "epoch": 0.22233333333333333, + "grad_norm": 0.08211184293031693, + "learning_rate": 2.6510855361961218e-05, + "loss": 0.3964, + "step": 667 + }, + { + "epoch": 0.22266666666666668, + "grad_norm": 0.06762734055519104, + "learning_rate": 2.6500767323004636e-05, + "loss": 0.3868, + "step": 668 + }, + { + "epoch": 0.223, + "grad_norm": 0.06954944878816605, + "learning_rate": 2.649066664678467e-05, + "loss": 0.3903, + "step": 669 + }, + { + "epoch": 0.22333333333333333, + "grad_norm": 0.09212101250886917, + "learning_rate": 2.648055334440015e-05, + "loss": 0.3826, + "step": 670 + }, + { + "epoch": 0.22366666666666668, + "grad_norm": 0.08538312464952469, + "learning_rate": 2.6470427426963752e-05, + "loss": 0.3968, + "step": 671 + }, + { + "epoch": 0.224, + "grad_norm": 0.07034341245889664, + "learning_rate": 2.646028890560204e-05, + "loss": 0.3895, + "step": 672 + }, + { + "epoch": 0.22433333333333333, + "grad_norm": 0.07700680941343307, + "learning_rate": 2.645013779145541e-05, + "loss": 0.3932, + "step": 673 + }, + { + "epoch": 0.22466666666666665, + "grad_norm": 0.06648755818605423, + "learning_rate": 2.64399740956781e-05, + "loss": 0.393, + "step": 674 + }, + { + "epoch": 0.225, + "grad_norm": 0.07598274946212769, + "learning_rate": 2.6429797829438176e-05, + "loss": 0.4025, + "step": 675 + }, + { + "epoch": 0.22533333333333333, + "grad_norm": 0.10431588441133499, + "learning_rate": 2.6419609003917515e-05, + "loss": 0.3963, + "step": 676 + }, + { + "epoch": 0.22566666666666665, + "grad_norm": 0.07743339985609055, + "learning_rate": 2.640940763031179e-05, + "loss": 0.3982, + "step": 677 + }, + { + "epoch": 0.226, + "grad_norm": 0.07258343696594238, + "learning_rate": 2.6399193719830463e-05, + "loss": 0.3937, + "step": 678 + }, + { + "epoch": 0.22633333333333333, + "grad_norm": 0.07332821190357208, + "learning_rate": 2.6388967283696783e-05, + "loss": 0.3983, + "step": 679 + }, + { + "epoch": 0.22666666666666666, + "grad_norm": 0.08629845827817917, + "learning_rate": 2.637872833314775e-05, + "loss": 0.3968, + "step": 680 + }, + { + "epoch": 0.227, + "grad_norm": 0.1110173687338829, + "learning_rate": 2.6368476879434117e-05, + "loss": 0.3976, + "step": 681 + }, + { + "epoch": 0.22733333333333333, + "grad_norm": 0.06741318106651306, + "learning_rate": 2.6358212933820377e-05, + "loss": 0.3898, + "step": 682 + }, + { + "epoch": 0.22766666666666666, + "grad_norm": 0.07799811661243439, + "learning_rate": 2.6347936507584755e-05, + "loss": 0.3909, + "step": 683 + }, + { + "epoch": 0.228, + "grad_norm": 0.07672885060310364, + "learning_rate": 2.6337647612019182e-05, + "loss": 0.3995, + "step": 684 + }, + { + "epoch": 0.22833333333333333, + "grad_norm": 0.0664236918091774, + "learning_rate": 2.6327346258429295e-05, + "loss": 0.3922, + "step": 685 + }, + { + "epoch": 0.22866666666666666, + "grad_norm": 0.09785909205675125, + "learning_rate": 2.6317032458134412e-05, + "loss": 0.3877, + "step": 686 + }, + { + "epoch": 0.229, + "grad_norm": 0.06995262205600739, + "learning_rate": 2.6306706222467545e-05, + "loss": 0.3915, + "step": 687 + }, + { + "epoch": 0.22933333333333333, + "grad_norm": 0.06692627817392349, + "learning_rate": 2.6296367562775352e-05, + "loss": 0.3985, + "step": 688 + }, + { + "epoch": 0.22966666666666666, + "grad_norm": 0.06870029121637344, + "learning_rate": 2.6286016490418147e-05, + "loss": 0.3922, + "step": 689 + }, + { + "epoch": 0.23, + "grad_norm": 0.08361747115850449, + "learning_rate": 2.62756530167699e-05, + "loss": 0.3844, + "step": 690 + }, + { + "epoch": 0.23033333333333333, + "grad_norm": 0.09248767048120499, + "learning_rate": 2.626527715321818e-05, + "loss": 0.4018, + "step": 691 + }, + { + "epoch": 0.23066666666666666, + "grad_norm": 0.08598216623067856, + "learning_rate": 2.6254888911164196e-05, + "loss": 0.3894, + "step": 692 + }, + { + "epoch": 0.231, + "grad_norm": 0.07559878379106522, + "learning_rate": 2.6244488302022736e-05, + "loss": 0.3836, + "step": 693 + }, + { + "epoch": 0.23133333333333334, + "grad_norm": 0.06496915966272354, + "learning_rate": 2.6234075337222202e-05, + "loss": 0.3922, + "step": 694 + }, + { + "epoch": 0.23166666666666666, + "grad_norm": 0.07012240588665009, + "learning_rate": 2.6223650028204548e-05, + "loss": 0.3895, + "step": 695 + }, + { + "epoch": 0.232, + "grad_norm": 0.07961571216583252, + "learning_rate": 2.6213212386425305e-05, + "loss": 0.3894, + "step": 696 + }, + { + "epoch": 0.23233333333333334, + "grad_norm": 0.09083829820156097, + "learning_rate": 2.6202762423353557e-05, + "loss": 0.3924, + "step": 697 + }, + { + "epoch": 0.23266666666666666, + "grad_norm": 0.08126447349786758, + "learning_rate": 2.619230015047192e-05, + "loss": 0.3938, + "step": 698 + }, + { + "epoch": 0.233, + "grad_norm": 0.08376878499984741, + "learning_rate": 2.6181825579276545e-05, + "loss": 0.4028, + "step": 699 + }, + { + "epoch": 0.23333333333333334, + "grad_norm": 0.08771473169326782, + "learning_rate": 2.617133872127708e-05, + "loss": 0.4059, + "step": 700 + }, + { + "epoch": 0.23366666666666666, + "grad_norm": 0.10992510616779327, + "learning_rate": 2.6160839587996705e-05, + "loss": 0.3912, + "step": 701 + }, + { + "epoch": 0.234, + "grad_norm": 0.0921119675040245, + "learning_rate": 2.615032819097205e-05, + "loss": 0.3901, + "step": 702 + }, + { + "epoch": 0.23433333333333334, + "grad_norm": 0.07596377283334732, + "learning_rate": 2.613980454175325e-05, + "loss": 0.3972, + "step": 703 + }, + { + "epoch": 0.23466666666666666, + "grad_norm": 0.07436643540859222, + "learning_rate": 2.612926865190389e-05, + "loss": 0.3929, + "step": 704 + }, + { + "epoch": 0.235, + "grad_norm": 0.05803614854812622, + "learning_rate": 2.6118720533001007e-05, + "loss": 0.3889, + "step": 705 + }, + { + "epoch": 0.23533333333333334, + "grad_norm": 0.14010901749134064, + "learning_rate": 2.610816019663507e-05, + "loss": 0.3977, + "step": 706 + }, + { + "epoch": 0.23566666666666666, + "grad_norm": 0.07612130790948868, + "learning_rate": 2.6097587654409988e-05, + "loss": 0.3903, + "step": 707 + }, + { + "epoch": 0.236, + "grad_norm": 0.08844217658042908, + "learning_rate": 2.6087002917943064e-05, + "loss": 0.4, + "step": 708 + }, + { + "epoch": 0.23633333333333334, + "grad_norm": 0.09091449528932571, + "learning_rate": 2.607640599886502e-05, + "loss": 0.3972, + "step": 709 + }, + { + "epoch": 0.23666666666666666, + "grad_norm": 0.06690631806850433, + "learning_rate": 2.6065796908819948e-05, + "loss": 0.393, + "step": 710 + }, + { + "epoch": 0.237, + "grad_norm": 0.0732693150639534, + "learning_rate": 2.6055175659465323e-05, + "loss": 0.4, + "step": 711 + }, + { + "epoch": 0.23733333333333334, + "grad_norm": 0.07398512959480286, + "learning_rate": 2.6044542262471966e-05, + "loss": 0.397, + "step": 712 + }, + { + "epoch": 0.23766666666666666, + "grad_norm": 0.06254737079143524, + "learning_rate": 2.6033896729524067e-05, + "loss": 0.3992, + "step": 713 + }, + { + "epoch": 0.238, + "grad_norm": 0.06746969372034073, + "learning_rate": 2.602323907231914e-05, + "loss": 0.3902, + "step": 714 + }, + { + "epoch": 0.23833333333333334, + "grad_norm": 0.09360481798648834, + "learning_rate": 2.601256930256802e-05, + "loss": 0.3952, + "step": 715 + }, + { + "epoch": 0.23866666666666667, + "grad_norm": 0.3266569674015045, + "learning_rate": 2.6001887431994857e-05, + "loss": 0.3932, + "step": 716 + }, + { + "epoch": 0.239, + "grad_norm": 0.06378496438264847, + "learning_rate": 2.59911934723371e-05, + "loss": 0.3944, + "step": 717 + }, + { + "epoch": 0.23933333333333334, + "grad_norm": 0.13448865711688995, + "learning_rate": 2.5980487435345462e-05, + "loss": 0.3929, + "step": 718 + }, + { + "epoch": 0.23966666666666667, + "grad_norm": 0.06114168465137482, + "learning_rate": 2.5969769332783956e-05, + "loss": 0.3874, + "step": 719 + }, + { + "epoch": 0.24, + "grad_norm": 0.06729370355606079, + "learning_rate": 2.5959039176429834e-05, + "loss": 0.3888, + "step": 720 + }, + { + "epoch": 0.24033333333333334, + "grad_norm": 0.06077619642019272, + "learning_rate": 2.594829697807359e-05, + "loss": 0.3852, + "step": 721 + }, + { + "epoch": 0.24066666666666667, + "grad_norm": 0.07954922318458557, + "learning_rate": 2.593754274951897e-05, + "loss": 0.3919, + "step": 722 + }, + { + "epoch": 0.241, + "grad_norm": 0.06147879362106323, + "learning_rate": 2.5926776502582915e-05, + "loss": 0.3892, + "step": 723 + }, + { + "epoch": 0.24133333333333334, + "grad_norm": 0.0671185627579689, + "learning_rate": 2.591599824909559e-05, + "loss": 0.3856, + "step": 724 + }, + { + "epoch": 0.24166666666666667, + "grad_norm": 0.07106798142194748, + "learning_rate": 2.590520800090034e-05, + "loss": 0.3914, + "step": 725 + }, + { + "epoch": 0.242, + "grad_norm": 0.07727113366127014, + "learning_rate": 2.5894405769853708e-05, + "loss": 0.4035, + "step": 726 + }, + { + "epoch": 0.24233333333333335, + "grad_norm": 0.07881835848093033, + "learning_rate": 2.588359156782538e-05, + "loss": 0.3946, + "step": 727 + }, + { + "epoch": 0.24266666666666667, + "grad_norm": 0.07727718353271484, + "learning_rate": 2.5872765406698216e-05, + "loss": 0.3942, + "step": 728 + }, + { + "epoch": 0.243, + "grad_norm": 0.08583398163318634, + "learning_rate": 2.58619272983682e-05, + "loss": 0.3881, + "step": 729 + }, + { + "epoch": 0.24333333333333335, + "grad_norm": 0.0706910714507103, + "learning_rate": 2.5851077254744465e-05, + "loss": 0.3989, + "step": 730 + }, + { + "epoch": 0.24366666666666667, + "grad_norm": 0.06808780133724213, + "learning_rate": 2.5840215287749243e-05, + "loss": 0.3987, + "step": 731 + }, + { + "epoch": 0.244, + "grad_norm": 0.08337313681840897, + "learning_rate": 2.5829341409317866e-05, + "loss": 0.4033, + "step": 732 + }, + { + "epoch": 0.24433333333333335, + "grad_norm": 0.08202660828828812, + "learning_rate": 2.5818455631398766e-05, + "loss": 0.3903, + "step": 733 + }, + { + "epoch": 0.24466666666666667, + "grad_norm": 0.07991184294223785, + "learning_rate": 2.580755796595344e-05, + "loss": 0.3932, + "step": 734 + }, + { + "epoch": 0.245, + "grad_norm": 0.08579890429973602, + "learning_rate": 2.5796648424956454e-05, + "loss": 0.3932, + "step": 735 + }, + { + "epoch": 0.24533333333333332, + "grad_norm": 0.07296209037303925, + "learning_rate": 2.578572702039542e-05, + "loss": 0.3938, + "step": 736 + }, + { + "epoch": 0.24566666666666667, + "grad_norm": 0.07027027010917664, + "learning_rate": 2.577479376427098e-05, + "loss": 0.3981, + "step": 737 + }, + { + "epoch": 0.246, + "grad_norm": 0.08338930457830429, + "learning_rate": 2.5763848668596817e-05, + "loss": 0.3916, + "step": 738 + }, + { + "epoch": 0.24633333333333332, + "grad_norm": 0.07491536438465118, + "learning_rate": 2.575289174539961e-05, + "loss": 0.4005, + "step": 739 + }, + { + "epoch": 0.24666666666666667, + "grad_norm": 0.08889907598495483, + "learning_rate": 2.5741923006719026e-05, + "loss": 0.3872, + "step": 740 + }, + { + "epoch": 0.247, + "grad_norm": 0.07078216224908829, + "learning_rate": 2.5730942464607732e-05, + "loss": 0.3875, + "step": 741 + }, + { + "epoch": 0.24733333333333332, + "grad_norm": 0.09624441713094711, + "learning_rate": 2.5719950131131357e-05, + "loss": 0.3915, + "step": 742 + }, + { + "epoch": 0.24766666666666667, + "grad_norm": 0.09027419239282608, + "learning_rate": 2.570894601836849e-05, + "loss": 0.3991, + "step": 743 + }, + { + "epoch": 0.248, + "grad_norm": 0.10291597247123718, + "learning_rate": 2.5697930138410654e-05, + "loss": 0.3912, + "step": 744 + }, + { + "epoch": 0.24833333333333332, + "grad_norm": 0.07671041041612625, + "learning_rate": 2.5686902503362317e-05, + "loss": 0.3928, + "step": 745 + }, + { + "epoch": 0.24866666666666667, + "grad_norm": 0.06340360641479492, + "learning_rate": 2.567586312534085e-05, + "loss": 0.4004, + "step": 746 + }, + { + "epoch": 0.249, + "grad_norm": 0.07121552526950836, + "learning_rate": 2.5664812016476534e-05, + "loss": 0.3921, + "step": 747 + }, + { + "epoch": 0.24933333333333332, + "grad_norm": 0.07056095451116562, + "learning_rate": 2.565374918891254e-05, + "loss": 0.39, + "step": 748 + }, + { + "epoch": 0.24966666666666668, + "grad_norm": 0.06268753856420517, + "learning_rate": 2.564267465480492e-05, + "loss": 0.3879, + "step": 749 + }, + { + "epoch": 0.25, + "grad_norm": 0.06733932346105576, + "learning_rate": 2.5631588426322576e-05, + "loss": 0.3793, + "step": 750 + }, + { + "epoch": 0.25033333333333335, + "grad_norm": 0.07227770984172821, + "learning_rate": 2.562049051564727e-05, + "loss": 0.3953, + "step": 751 + }, + { + "epoch": 0.25066666666666665, + "grad_norm": 0.11179983615875244, + "learning_rate": 2.56093809349736e-05, + "loss": 0.4084, + "step": 752 + }, + { + "epoch": 0.251, + "grad_norm": 0.07635368406772614, + "learning_rate": 2.5598259696508985e-05, + "loss": 0.3896, + "step": 753 + }, + { + "epoch": 0.25133333333333335, + "grad_norm": 0.07336881756782532, + "learning_rate": 2.5587126812473656e-05, + "loss": 0.3924, + "step": 754 + }, + { + "epoch": 0.25166666666666665, + "grad_norm": 0.06216335669159889, + "learning_rate": 2.5575982295100642e-05, + "loss": 0.4058, + "step": 755 + }, + { + "epoch": 0.252, + "grad_norm": 0.1049053743481636, + "learning_rate": 2.5564826156635746e-05, + "loss": 0.4017, + "step": 756 + }, + { + "epoch": 0.25233333333333335, + "grad_norm": 0.11290983110666275, + "learning_rate": 2.5553658409337553e-05, + "loss": 0.4036, + "step": 757 + }, + { + "epoch": 0.25266666666666665, + "grad_norm": 0.10427603125572205, + "learning_rate": 2.554247906547739e-05, + "loss": 0.3983, + "step": 758 + }, + { + "epoch": 0.253, + "grad_norm": 0.07328946143388748, + "learning_rate": 2.5531288137339343e-05, + "loss": 0.3906, + "step": 759 + }, + { + "epoch": 0.25333333333333335, + "grad_norm": 0.09262118488550186, + "learning_rate": 2.55200856372202e-05, + "loss": 0.3901, + "step": 760 + }, + { + "epoch": 0.25366666666666665, + "grad_norm": 0.09377763420343399, + "learning_rate": 2.5508871577429512e-05, + "loss": 0.3964, + "step": 761 + }, + { + "epoch": 0.254, + "grad_norm": 0.0681890919804573, + "learning_rate": 2.5497645970289483e-05, + "loss": 0.4002, + "step": 762 + }, + { + "epoch": 0.25433333333333336, + "grad_norm": 0.06989490240812302, + "learning_rate": 2.5486408828135025e-05, + "loss": 0.3916, + "step": 763 + }, + { + "epoch": 0.25466666666666665, + "grad_norm": 0.07199423015117645, + "learning_rate": 2.5475160163313733e-05, + "loss": 0.3915, + "step": 764 + }, + { + "epoch": 0.255, + "grad_norm": 0.06069866940379143, + "learning_rate": 2.5463899988185844e-05, + "loss": 0.3948, + "step": 765 + }, + { + "epoch": 0.25533333333333336, + "grad_norm": 0.10206281393766403, + "learning_rate": 2.5452628315124263e-05, + "loss": 0.3876, + "step": 766 + }, + { + "epoch": 0.25566666666666665, + "grad_norm": 0.08838728070259094, + "learning_rate": 2.5441345156514527e-05, + "loss": 0.3901, + "step": 767 + }, + { + "epoch": 0.256, + "grad_norm": 0.07876778393983841, + "learning_rate": 2.5430050524754772e-05, + "loss": 0.3929, + "step": 768 + }, + { + "epoch": 0.25633333333333336, + "grad_norm": 0.08219266682863235, + "learning_rate": 2.5418744432255758e-05, + "loss": 0.3973, + "step": 769 + }, + { + "epoch": 0.25666666666666665, + "grad_norm": 0.072428859770298, + "learning_rate": 2.5407426891440843e-05, + "loss": 0.3868, + "step": 770 + }, + { + "epoch": 0.257, + "grad_norm": 0.08133817464113235, + "learning_rate": 2.5396097914745958e-05, + "loss": 0.3969, + "step": 771 + }, + { + "epoch": 0.25733333333333336, + "grad_norm": 0.0774032399058342, + "learning_rate": 2.5384757514619594e-05, + "loss": 0.3889, + "step": 772 + }, + { + "epoch": 0.25766666666666665, + "grad_norm": 0.09629921615123749, + "learning_rate": 2.53734057035228e-05, + "loss": 0.3808, + "step": 773 + }, + { + "epoch": 0.258, + "grad_norm": 0.0627819150686264, + "learning_rate": 2.5362042493929168e-05, + "loss": 0.3977, + "step": 774 + }, + { + "epoch": 0.25833333333333336, + "grad_norm": 0.08256880193948746, + "learning_rate": 2.5350667898324805e-05, + "loss": 0.3911, + "step": 775 + }, + { + "epoch": 0.25866666666666666, + "grad_norm": 0.06877050548791885, + "learning_rate": 2.5339281929208334e-05, + "loss": 0.3898, + "step": 776 + }, + { + "epoch": 0.259, + "grad_norm": 0.08655121922492981, + "learning_rate": 2.5327884599090884e-05, + "loss": 0.3917, + "step": 777 + }, + { + "epoch": 0.25933333333333336, + "grad_norm": 0.07403165102005005, + "learning_rate": 2.531647592049605e-05, + "loss": 0.3932, + "step": 778 + }, + { + "epoch": 0.25966666666666666, + "grad_norm": 0.0852067619562149, + "learning_rate": 2.5305055905959914e-05, + "loss": 0.4041, + "step": 779 + }, + { + "epoch": 0.26, + "grad_norm": 0.06515070796012878, + "learning_rate": 2.5293624568031008e-05, + "loss": 0.3949, + "step": 780 + }, + { + "epoch": 0.26033333333333336, + "grad_norm": 0.15489745140075684, + "learning_rate": 2.5282181919270297e-05, + "loss": 0.3875, + "step": 781 + }, + { + "epoch": 0.26066666666666666, + "grad_norm": 0.08469709008932114, + "learning_rate": 2.5270727972251182e-05, + "loss": 0.3919, + "step": 782 + }, + { + "epoch": 0.261, + "grad_norm": 0.11431268602609634, + "learning_rate": 2.5259262739559486e-05, + "loss": 0.4007, + "step": 783 + }, + { + "epoch": 0.2613333333333333, + "grad_norm": 0.0710538700222969, + "learning_rate": 2.5247786233793424e-05, + "loss": 0.3887, + "step": 784 + }, + { + "epoch": 0.26166666666666666, + "grad_norm": 0.1067187562584877, + "learning_rate": 2.5236298467563602e-05, + "loss": 0.3918, + "step": 785 + }, + { + "epoch": 0.262, + "grad_norm": 0.10342296212911606, + "learning_rate": 2.5224799453492993e-05, + "loss": 0.3938, + "step": 786 + }, + { + "epoch": 0.2623333333333333, + "grad_norm": 0.07224294543266296, + "learning_rate": 2.5213289204216938e-05, + "loss": 0.3818, + "step": 787 + }, + { + "epoch": 0.26266666666666666, + "grad_norm": 0.09801632165908813, + "learning_rate": 2.520176773238312e-05, + "loss": 0.3915, + "step": 788 + }, + { + "epoch": 0.263, + "grad_norm": 0.07551579177379608, + "learning_rate": 2.5190235050651548e-05, + "loss": 0.3904, + "step": 789 + }, + { + "epoch": 0.2633333333333333, + "grad_norm": 0.12261134386062622, + "learning_rate": 2.5178691171694556e-05, + "loss": 0.3901, + "step": 790 + }, + { + "epoch": 0.26366666666666666, + "grad_norm": 0.07186991721391678, + "learning_rate": 2.516713610819678e-05, + "loss": 0.3806, + "step": 791 + }, + { + "epoch": 0.264, + "grad_norm": 0.09946735203266144, + "learning_rate": 2.5155569872855145e-05, + "loss": 0.3878, + "step": 792 + }, + { + "epoch": 0.2643333333333333, + "grad_norm": 0.08250347524881363, + "learning_rate": 2.514399247837885e-05, + "loss": 0.3979, + "step": 793 + }, + { + "epoch": 0.26466666666666666, + "grad_norm": 0.07636059075593948, + "learning_rate": 2.5132403937489366e-05, + "loss": 0.3933, + "step": 794 + }, + { + "epoch": 0.265, + "grad_norm": 0.08953174948692322, + "learning_rate": 2.512080426292039e-05, + "loss": 0.3956, + "step": 795 + }, + { + "epoch": 0.2653333333333333, + "grad_norm": 0.0768996924161911, + "learning_rate": 2.5109193467417877e-05, + "loss": 0.3879, + "step": 796 + }, + { + "epoch": 0.26566666666666666, + "grad_norm": 0.10207580775022507, + "learning_rate": 2.5097571563739985e-05, + "loss": 0.3975, + "step": 797 + }, + { + "epoch": 0.266, + "grad_norm": 0.15181824564933777, + "learning_rate": 2.508593856465709e-05, + "loss": 0.4012, + "step": 798 + }, + { + "epoch": 0.2663333333333333, + "grad_norm": 0.08374739438295364, + "learning_rate": 2.5074294482951747e-05, + "loss": 0.3996, + "step": 799 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 0.07542639225721359, + "learning_rate": 2.5062639331418703e-05, + "loss": 0.3845, + "step": 800 + }, + { + "epoch": 0.267, + "grad_norm": 0.08687286823987961, + "learning_rate": 2.505097312286486e-05, + "loss": 0.3849, + "step": 801 + }, + { + "epoch": 0.2673333333333333, + "grad_norm": 0.0609232597053051, + "learning_rate": 2.503929587010927e-05, + "loss": 0.4037, + "step": 802 + }, + { + "epoch": 0.26766666666666666, + "grad_norm": 0.07681442052125931, + "learning_rate": 2.5027607585983122e-05, + "loss": 0.3889, + "step": 803 + }, + { + "epoch": 0.268, + "grad_norm": 0.06915973871946335, + "learning_rate": 2.5015908283329726e-05, + "loss": 0.3883, + "step": 804 + }, + { + "epoch": 0.2683333333333333, + "grad_norm": 0.08430593460798264, + "learning_rate": 2.50041979750045e-05, + "loss": 0.3879, + "step": 805 + }, + { + "epoch": 0.26866666666666666, + "grad_norm": 0.06186683103442192, + "learning_rate": 2.499247667387496e-05, + "loss": 0.3933, + "step": 806 + }, + { + "epoch": 0.269, + "grad_norm": 0.06822565197944641, + "learning_rate": 2.498074439282069e-05, + "loss": 0.3888, + "step": 807 + }, + { + "epoch": 0.2693333333333333, + "grad_norm": 0.06783200055360794, + "learning_rate": 2.496900114473335e-05, + "loss": 0.3924, + "step": 808 + }, + { + "epoch": 0.26966666666666667, + "grad_norm": 0.07165578752756119, + "learning_rate": 2.495724694251664e-05, + "loss": 0.3982, + "step": 809 + }, + { + "epoch": 0.27, + "grad_norm": 0.07777950912714005, + "learning_rate": 2.49454817990863e-05, + "loss": 0.3875, + "step": 810 + }, + { + "epoch": 0.2703333333333333, + "grad_norm": 0.06777460873126984, + "learning_rate": 2.4933705727370108e-05, + "loss": 0.3944, + "step": 811 + }, + { + "epoch": 0.27066666666666667, + "grad_norm": 0.0661645457148552, + "learning_rate": 2.4921918740307824e-05, + "loss": 0.3868, + "step": 812 + }, + { + "epoch": 0.271, + "grad_norm": 0.06158517301082611, + "learning_rate": 2.491012085085122e-05, + "loss": 0.3931, + "step": 813 + }, + { + "epoch": 0.2713333333333333, + "grad_norm": 0.08492922782897949, + "learning_rate": 2.4898312071964046e-05, + "loss": 0.3905, + "step": 814 + }, + { + "epoch": 0.27166666666666667, + "grad_norm": 0.08095858246088028, + "learning_rate": 2.4886492416622016e-05, + "loss": 0.394, + "step": 815 + }, + { + "epoch": 0.272, + "grad_norm": 0.07325801253318787, + "learning_rate": 2.4874661897812783e-05, + "loss": 0.3916, + "step": 816 + }, + { + "epoch": 0.2723333333333333, + "grad_norm": 0.057264331728219986, + "learning_rate": 2.4862820528535955e-05, + "loss": 0.3933, + "step": 817 + }, + { + "epoch": 0.27266666666666667, + "grad_norm": 0.07635866850614548, + "learning_rate": 2.4850968321803055e-05, + "loss": 0.3906, + "step": 818 + }, + { + "epoch": 0.273, + "grad_norm": 0.06792899966239929, + "learning_rate": 2.483910529063751e-05, + "loss": 0.3909, + "step": 819 + }, + { + "epoch": 0.2733333333333333, + "grad_norm": 0.07419731467962265, + "learning_rate": 2.4827231448074656e-05, + "loss": 0.3899, + "step": 820 + }, + { + "epoch": 0.27366666666666667, + "grad_norm": 0.07581748813390732, + "learning_rate": 2.4815346807161696e-05, + "loss": 0.3912, + "step": 821 + }, + { + "epoch": 0.274, + "grad_norm": 0.06977403908967972, + "learning_rate": 2.4803451380957693e-05, + "loss": 0.3937, + "step": 822 + }, + { + "epoch": 0.2743333333333333, + "grad_norm": 0.0895097479224205, + "learning_rate": 2.479154518253357e-05, + "loss": 0.3929, + "step": 823 + }, + { + "epoch": 0.27466666666666667, + "grad_norm": 0.10247452557086945, + "learning_rate": 2.4779628224972092e-05, + "loss": 0.3975, + "step": 824 + }, + { + "epoch": 0.275, + "grad_norm": 0.07179001718759537, + "learning_rate": 2.4767700521367837e-05, + "loss": 0.3864, + "step": 825 + }, + { + "epoch": 0.2753333333333333, + "grad_norm": 0.08397818356752396, + "learning_rate": 2.4755762084827196e-05, + "loss": 0.3864, + "step": 826 + }, + { + "epoch": 0.27566666666666667, + "grad_norm": 0.08457384258508682, + "learning_rate": 2.474381292846835e-05, + "loss": 0.3902, + "step": 827 + }, + { + "epoch": 0.276, + "grad_norm": 0.06496579200029373, + "learning_rate": 2.4731853065421258e-05, + "loss": 0.3876, + "step": 828 + }, + { + "epoch": 0.2763333333333333, + "grad_norm": 0.08433189243078232, + "learning_rate": 2.4719882508827654e-05, + "loss": 0.3942, + "step": 829 + }, + { + "epoch": 0.27666666666666667, + "grad_norm": 0.10385525226593018, + "learning_rate": 2.4707901271841008e-05, + "loss": 0.3926, + "step": 830 + }, + { + "epoch": 0.277, + "grad_norm": 0.0660572424530983, + "learning_rate": 2.469590936762654e-05, + "loss": 0.3916, + "step": 831 + }, + { + "epoch": 0.2773333333333333, + "grad_norm": 0.06004255264997482, + "learning_rate": 2.4683906809361173e-05, + "loss": 0.3808, + "step": 832 + }, + { + "epoch": 0.2776666666666667, + "grad_norm": 0.10047128051519394, + "learning_rate": 2.467189361023356e-05, + "loss": 0.39, + "step": 833 + }, + { + "epoch": 0.278, + "grad_norm": 0.07074391096830368, + "learning_rate": 2.4659869783444025e-05, + "loss": 0.3928, + "step": 834 + }, + { + "epoch": 0.2783333333333333, + "grad_norm": 0.11394793540239334, + "learning_rate": 2.4647835342204584e-05, + "loss": 0.3942, + "step": 835 + }, + { + "epoch": 0.2786666666666667, + "grad_norm": 0.12948262691497803, + "learning_rate": 2.463579029973891e-05, + "loss": 0.3797, + "step": 836 + }, + { + "epoch": 0.279, + "grad_norm": 0.0728902667760849, + "learning_rate": 2.4623734669282323e-05, + "loss": 0.3912, + "step": 837 + }, + { + "epoch": 0.2793333333333333, + "grad_norm": 0.07522733509540558, + "learning_rate": 2.461166846408179e-05, + "loss": 0.4026, + "step": 838 + }, + { + "epoch": 0.2796666666666667, + "grad_norm": 0.08814632892608643, + "learning_rate": 2.459959169739588e-05, + "loss": 0.3944, + "step": 839 + }, + { + "epoch": 0.28, + "grad_norm": 0.07012124359607697, + "learning_rate": 2.4587504382494775e-05, + "loss": 0.4038, + "step": 840 + }, + { + "epoch": 0.2803333333333333, + "grad_norm": 0.08482559025287628, + "learning_rate": 2.4575406532660255e-05, + "loss": 0.3886, + "step": 841 + }, + { + "epoch": 0.2806666666666667, + "grad_norm": 0.0865422710776329, + "learning_rate": 2.456329816118566e-05, + "loss": 0.3881, + "step": 842 + }, + { + "epoch": 0.281, + "grad_norm": 0.09462694078683853, + "learning_rate": 2.4551179281375908e-05, + "loss": 0.3842, + "step": 843 + }, + { + "epoch": 0.2813333333333333, + "grad_norm": 0.0709611028432846, + "learning_rate": 2.4539049906547458e-05, + "loss": 0.394, + "step": 844 + }, + { + "epoch": 0.2816666666666667, + "grad_norm": 0.09025023132562637, + "learning_rate": 2.4526910050028288e-05, + "loss": 0.3924, + "step": 845 + }, + { + "epoch": 0.282, + "grad_norm": 0.08445398509502411, + "learning_rate": 2.4514759725157916e-05, + "loss": 0.389, + "step": 846 + }, + { + "epoch": 0.2823333333333333, + "grad_norm": 0.0793897956609726, + "learning_rate": 2.4502598945287345e-05, + "loss": 0.3976, + "step": 847 + }, + { + "epoch": 0.2826666666666667, + "grad_norm": 0.11206970363855362, + "learning_rate": 2.4490427723779078e-05, + "loss": 0.4023, + "step": 848 + }, + { + "epoch": 0.283, + "grad_norm": 0.06987151503562927, + "learning_rate": 2.447824607400708e-05, + "loss": 0.3967, + "step": 849 + }, + { + "epoch": 0.2833333333333333, + "grad_norm": 0.08427228778600693, + "learning_rate": 2.446605400935679e-05, + "loss": 0.3979, + "step": 850 + }, + { + "epoch": 0.2836666666666667, + "grad_norm": 0.07964316010475159, + "learning_rate": 2.445385154322507e-05, + "loss": 0.3972, + "step": 851 + }, + { + "epoch": 0.284, + "grad_norm": 0.10865399241447449, + "learning_rate": 2.444163868902024e-05, + "loss": 0.3821, + "step": 852 + }, + { + "epoch": 0.2843333333333333, + "grad_norm": 0.06401266902685165, + "learning_rate": 2.4429415460162e-05, + "loss": 0.3935, + "step": 853 + }, + { + "epoch": 0.2846666666666667, + "grad_norm": 0.062374409288167953, + "learning_rate": 2.441718187008148e-05, + "loss": 0.3909, + "step": 854 + }, + { + "epoch": 0.285, + "grad_norm": 0.06425438821315765, + "learning_rate": 2.440493793222118e-05, + "loss": 0.3884, + "step": 855 + }, + { + "epoch": 0.2853333333333333, + "grad_norm": 0.1312638372182846, + "learning_rate": 2.439268366003497e-05, + "loss": 0.3854, + "step": 856 + }, + { + "epoch": 0.2856666666666667, + "grad_norm": 0.08623103052377701, + "learning_rate": 2.4380419066988078e-05, + "loss": 0.3947, + "step": 857 + }, + { + "epoch": 0.286, + "grad_norm": 0.06618097424507141, + "learning_rate": 2.4368144166557088e-05, + "loss": 0.3796, + "step": 858 + }, + { + "epoch": 0.28633333333333333, + "grad_norm": 0.06809880584478378, + "learning_rate": 2.4355858972229875e-05, + "loss": 0.3898, + "step": 859 + }, + { + "epoch": 0.2866666666666667, + "grad_norm": 0.06110743433237076, + "learning_rate": 2.434356349750566e-05, + "loss": 0.3894, + "step": 860 + }, + { + "epoch": 0.287, + "grad_norm": 0.10863514244556427, + "learning_rate": 2.433125775589494e-05, + "loss": 0.3937, + "step": 861 + }, + { + "epoch": 0.28733333333333333, + "grad_norm": 0.07726925611495972, + "learning_rate": 2.4318941760919506e-05, + "loss": 0.3931, + "step": 862 + }, + { + "epoch": 0.2876666666666667, + "grad_norm": 0.07466909289360046, + "learning_rate": 2.43066155261124e-05, + "loss": 0.3926, + "step": 863 + }, + { + "epoch": 0.288, + "grad_norm": 0.06493972986936569, + "learning_rate": 2.4294279065017932e-05, + "loss": 0.394, + "step": 864 + }, + { + "epoch": 0.28833333333333333, + "grad_norm": 0.06132260710000992, + "learning_rate": 2.428193239119164e-05, + "loss": 0.3932, + "step": 865 + }, + { + "epoch": 0.2886666666666667, + "grad_norm": 0.07256238162517548, + "learning_rate": 2.4269575518200284e-05, + "loss": 0.3904, + "step": 866 + }, + { + "epoch": 0.289, + "grad_norm": 0.07277689129114151, + "learning_rate": 2.425720845962183e-05, + "loss": 0.3846, + "step": 867 + }, + { + "epoch": 0.28933333333333333, + "grad_norm": 0.07684313505887985, + "learning_rate": 2.4244831229045444e-05, + "loss": 0.3991, + "step": 868 + }, + { + "epoch": 0.2896666666666667, + "grad_norm": 0.08739008754491806, + "learning_rate": 2.4232443840071464e-05, + "loss": 0.3873, + "step": 869 + }, + { + "epoch": 0.29, + "grad_norm": 0.10849937796592712, + "learning_rate": 2.4220046306311387e-05, + "loss": 0.3894, + "step": 870 + }, + { + "epoch": 0.29033333333333333, + "grad_norm": 0.08161067217588425, + "learning_rate": 2.4207638641387858e-05, + "loss": 0.4016, + "step": 871 + }, + { + "epoch": 0.2906666666666667, + "grad_norm": 0.08074972778558731, + "learning_rate": 2.4195220858934668e-05, + "loss": 0.3913, + "step": 872 + }, + { + "epoch": 0.291, + "grad_norm": 0.08097244054079056, + "learning_rate": 2.4182792972596705e-05, + "loss": 0.3955, + "step": 873 + }, + { + "epoch": 0.29133333333333333, + "grad_norm": 0.0908852145075798, + "learning_rate": 2.417035499602997e-05, + "loss": 0.3905, + "step": 874 + }, + { + "epoch": 0.2916666666666667, + "grad_norm": 0.07025647908449173, + "learning_rate": 2.415790694290155e-05, + "loss": 0.3922, + "step": 875 + }, + { + "epoch": 0.292, + "grad_norm": 0.10233119875192642, + "learning_rate": 2.4145448826889608e-05, + "loss": 0.3937, + "step": 876 + }, + { + "epoch": 0.29233333333333333, + "grad_norm": 0.07630763947963715, + "learning_rate": 2.4132980661683354e-05, + "loss": 0.3894, + "step": 877 + }, + { + "epoch": 0.2926666666666667, + "grad_norm": 0.06094655394554138, + "learning_rate": 2.4120502460983044e-05, + "loss": 0.3873, + "step": 878 + }, + { + "epoch": 0.293, + "grad_norm": 0.05985435098409653, + "learning_rate": 2.4108014238499977e-05, + "loss": 0.3849, + "step": 879 + }, + { + "epoch": 0.29333333333333333, + "grad_norm": 0.07596146315336227, + "learning_rate": 2.4095516007956442e-05, + "loss": 0.3977, + "step": 880 + }, + { + "epoch": 0.2936666666666667, + "grad_norm": 0.06483784317970276, + "learning_rate": 2.4083007783085736e-05, + "loss": 0.3991, + "step": 881 + }, + { + "epoch": 0.294, + "grad_norm": 0.07104095816612244, + "learning_rate": 2.4070489577632132e-05, + "loss": 0.387, + "step": 882 + }, + { + "epoch": 0.29433333333333334, + "grad_norm": 0.09084516763687134, + "learning_rate": 2.405796140535088e-05, + "loss": 0.3934, + "step": 883 + }, + { + "epoch": 0.2946666666666667, + "grad_norm": 0.12309431284666061, + "learning_rate": 2.4045423280008176e-05, + "loss": 0.3945, + "step": 884 + }, + { + "epoch": 0.295, + "grad_norm": 0.07743195444345474, + "learning_rate": 2.4032875215381142e-05, + "loss": 0.4025, + "step": 885 + }, + { + "epoch": 0.29533333333333334, + "grad_norm": 0.06329652667045593, + "learning_rate": 2.4020317225257846e-05, + "loss": 0.3881, + "step": 886 + }, + { + "epoch": 0.2956666666666667, + "grad_norm": 0.12551455199718475, + "learning_rate": 2.4007749323437242e-05, + "loss": 0.3882, + "step": 887 + }, + { + "epoch": 0.296, + "grad_norm": 0.07368959486484528, + "learning_rate": 2.3995171523729173e-05, + "loss": 0.3944, + "step": 888 + }, + { + "epoch": 0.29633333333333334, + "grad_norm": 0.10857134312391281, + "learning_rate": 2.398258383995438e-05, + "loss": 0.3879, + "step": 889 + }, + { + "epoch": 0.2966666666666667, + "grad_norm": 0.07044094055891037, + "learning_rate": 2.396998628594444e-05, + "loss": 0.3878, + "step": 890 + }, + { + "epoch": 0.297, + "grad_norm": 0.08371040970087051, + "learning_rate": 2.3957378875541795e-05, + "loss": 0.3918, + "step": 891 + }, + { + "epoch": 0.29733333333333334, + "grad_norm": 0.08405163139104843, + "learning_rate": 2.39447616225997e-05, + "loss": 0.3891, + "step": 892 + }, + { + "epoch": 0.2976666666666667, + "grad_norm": 0.0888223946094513, + "learning_rate": 2.3932134540982244e-05, + "loss": 0.3788, + "step": 893 + }, + { + "epoch": 0.298, + "grad_norm": 0.09781074523925781, + "learning_rate": 2.3919497644564302e-05, + "loss": 0.3955, + "step": 894 + }, + { + "epoch": 0.29833333333333334, + "grad_norm": 0.07494714856147766, + "learning_rate": 2.390685094723153e-05, + "loss": 0.3881, + "step": 895 + }, + { + "epoch": 0.2986666666666667, + "grad_norm": 0.10566014796495438, + "learning_rate": 2.3894194462880378e-05, + "loss": 0.3855, + "step": 896 + }, + { + "epoch": 0.299, + "grad_norm": 0.07543744146823883, + "learning_rate": 2.388152820541802e-05, + "loss": 0.3866, + "step": 897 + }, + { + "epoch": 0.29933333333333334, + "grad_norm": 0.08110293745994568, + "learning_rate": 2.3868852188762383e-05, + "loss": 0.3846, + "step": 898 + }, + { + "epoch": 0.2996666666666667, + "grad_norm": 0.08289629220962524, + "learning_rate": 2.3856166426842122e-05, + "loss": 0.3881, + "step": 899 + }, + { + "epoch": 0.3, + "grad_norm": 0.07877600938081741, + "learning_rate": 2.384347093359659e-05, + "loss": 0.3891, + "step": 900 + }, + { + "epoch": 0.30033333333333334, + "grad_norm": 0.07096068561077118, + "learning_rate": 2.3830765722975848e-05, + "loss": 0.3895, + "step": 901 + }, + { + "epoch": 0.3006666666666667, + "grad_norm": 0.07809846848249435, + "learning_rate": 2.381805080894061e-05, + "loss": 0.3874, + "step": 902 + }, + { + "epoch": 0.301, + "grad_norm": 0.09168948978185654, + "learning_rate": 2.380532620546228e-05, + "loss": 0.3947, + "step": 903 + }, + { + "epoch": 0.30133333333333334, + "grad_norm": 0.16298097372055054, + "learning_rate": 2.3792591926522888e-05, + "loss": 0.3789, + "step": 904 + }, + { + "epoch": 0.3016666666666667, + "grad_norm": 0.12330535054206848, + "learning_rate": 2.377984798611511e-05, + "loss": 0.3965, + "step": 905 + }, + { + "epoch": 0.302, + "grad_norm": 0.07757151871919632, + "learning_rate": 2.3767094398242225e-05, + "loss": 0.3976, + "step": 906 + }, + { + "epoch": 0.30233333333333334, + "grad_norm": 0.0756138414144516, + "learning_rate": 2.3754331176918124e-05, + "loss": 0.3932, + "step": 907 + }, + { + "epoch": 0.30266666666666664, + "grad_norm": 0.08295882493257523, + "learning_rate": 2.3741558336167277e-05, + "loss": 0.3935, + "step": 908 + }, + { + "epoch": 0.303, + "grad_norm": 0.07058203965425491, + "learning_rate": 2.372877589002473e-05, + "loss": 0.3905, + "step": 909 + }, + { + "epoch": 0.30333333333333334, + "grad_norm": 0.07463571429252625, + "learning_rate": 2.371598385253607e-05, + "loss": 0.3827, + "step": 910 + }, + { + "epoch": 0.30366666666666664, + "grad_norm": 0.08255108445882797, + "learning_rate": 2.3703182237757447e-05, + "loss": 0.3937, + "step": 911 + }, + { + "epoch": 0.304, + "grad_norm": 0.07903891056776047, + "learning_rate": 2.3690371059755505e-05, + "loss": 0.3982, + "step": 912 + }, + { + "epoch": 0.30433333333333334, + "grad_norm": 0.0821046531200409, + "learning_rate": 2.3677550332607424e-05, + "loss": 0.3962, + "step": 913 + }, + { + "epoch": 0.30466666666666664, + "grad_norm": 0.07636953890323639, + "learning_rate": 2.3664720070400857e-05, + "loss": 0.3912, + "step": 914 + }, + { + "epoch": 0.305, + "grad_norm": 0.09057646244764328, + "learning_rate": 2.3651880287233946e-05, + "loss": 0.3865, + "step": 915 + }, + { + "epoch": 0.30533333333333335, + "grad_norm": 0.12608659267425537, + "learning_rate": 2.363903099721529e-05, + "loss": 0.3949, + "step": 916 + }, + { + "epoch": 0.30566666666666664, + "grad_norm": 0.08007372170686722, + "learning_rate": 2.3626172214463932e-05, + "loss": 0.3986, + "step": 917 + }, + { + "epoch": 0.306, + "grad_norm": 0.08780207484960556, + "learning_rate": 2.3613303953109354e-05, + "loss": 0.3848, + "step": 918 + }, + { + "epoch": 0.30633333333333335, + "grad_norm": 0.35411593317985535, + "learning_rate": 2.3600426227291445e-05, + "loss": 0.3938, + "step": 919 + }, + { + "epoch": 0.30666666666666664, + "grad_norm": 0.07527846843004227, + "learning_rate": 2.3587539051160496e-05, + "loss": 0.389, + "step": 920 + }, + { + "epoch": 0.307, + "grad_norm": 0.055986419320106506, + "learning_rate": 2.3574642438877183e-05, + "loss": 0.3853, + "step": 921 + }, + { + "epoch": 0.30733333333333335, + "grad_norm": 0.06491363048553467, + "learning_rate": 2.3561736404612552e-05, + "loss": 0.3984, + "step": 922 + }, + { + "epoch": 0.30766666666666664, + "grad_norm": 0.07597916573286057, + "learning_rate": 2.3548820962547996e-05, + "loss": 0.3844, + "step": 923 + }, + { + "epoch": 0.308, + "grad_norm": 0.0713745579123497, + "learning_rate": 2.3535896126875258e-05, + "loss": 0.3822, + "step": 924 + }, + { + "epoch": 0.30833333333333335, + "grad_norm": 0.08596102148294449, + "learning_rate": 2.352296191179639e-05, + "loss": 0.4056, + "step": 925 + }, + { + "epoch": 0.30866666666666664, + "grad_norm": 0.06763771921396255, + "learning_rate": 2.3510018331523755e-05, + "loss": 0.3875, + "step": 926 + }, + { + "epoch": 0.309, + "grad_norm": 0.07536867260932922, + "learning_rate": 2.349706540028001e-05, + "loss": 0.3974, + "step": 927 + }, + { + "epoch": 0.30933333333333335, + "grad_norm": 0.08879021555185318, + "learning_rate": 2.3484103132298082e-05, + "loss": 0.3892, + "step": 928 + }, + { + "epoch": 0.30966666666666665, + "grad_norm": 0.082004114985466, + "learning_rate": 2.3471131541821157e-05, + "loss": 0.3882, + "step": 929 + }, + { + "epoch": 0.31, + "grad_norm": 0.0734950453042984, + "learning_rate": 2.345815064310267e-05, + "loss": 0.3883, + "step": 930 + }, + { + "epoch": 0.31033333333333335, + "grad_norm": 0.10848116874694824, + "learning_rate": 2.3445160450406278e-05, + "loss": 0.4015, + "step": 931 + }, + { + "epoch": 0.31066666666666665, + "grad_norm": 0.08048858493566513, + "learning_rate": 2.343216097800586e-05, + "loss": 0.3947, + "step": 932 + }, + { + "epoch": 0.311, + "grad_norm": 0.07212584465742111, + "learning_rate": 2.341915224018548e-05, + "loss": 0.3827, + "step": 933 + }, + { + "epoch": 0.31133333333333335, + "grad_norm": 0.13018056750297546, + "learning_rate": 2.3406134251239387e-05, + "loss": 0.4001, + "step": 934 + }, + { + "epoch": 0.31166666666666665, + "grad_norm": 0.081763356924057, + "learning_rate": 2.3393107025472e-05, + "loss": 0.3919, + "step": 935 + }, + { + "epoch": 0.312, + "grad_norm": 0.07652576267719269, + "learning_rate": 2.3380070577197884e-05, + "loss": 0.3904, + "step": 936 + }, + { + "epoch": 0.31233333333333335, + "grad_norm": 0.08289916813373566, + "learning_rate": 2.336702492074173e-05, + "loss": 0.3951, + "step": 937 + }, + { + "epoch": 0.31266666666666665, + "grad_norm": 0.08150366693735123, + "learning_rate": 2.335397007043837e-05, + "loss": 0.3885, + "step": 938 + }, + { + "epoch": 0.313, + "grad_norm": 0.08853591978549957, + "learning_rate": 2.3340906040632714e-05, + "loss": 0.391, + "step": 939 + }, + { + "epoch": 0.31333333333333335, + "grad_norm": 0.08500761538743973, + "learning_rate": 2.332783284567977e-05, + "loss": 0.3907, + "step": 940 + }, + { + "epoch": 0.31366666666666665, + "grad_norm": 0.0895693376660347, + "learning_rate": 2.3314750499944615e-05, + "loss": 0.3853, + "step": 941 + }, + { + "epoch": 0.314, + "grad_norm": 0.06789961457252502, + "learning_rate": 2.330165901780238e-05, + "loss": 0.3886, + "step": 942 + }, + { + "epoch": 0.31433333333333335, + "grad_norm": 0.07783786952495575, + "learning_rate": 2.3288558413638238e-05, + "loss": 0.3898, + "step": 943 + }, + { + "epoch": 0.31466666666666665, + "grad_norm": 0.16049596667289734, + "learning_rate": 2.327544870184738e-05, + "loss": 0.3929, + "step": 944 + }, + { + "epoch": 0.315, + "grad_norm": 0.09164539724588394, + "learning_rate": 2.326232989683501e-05, + "loss": 0.3924, + "step": 945 + }, + { + "epoch": 0.31533333333333335, + "grad_norm": 0.14347492158412933, + "learning_rate": 2.3249202013016328e-05, + "loss": 0.3948, + "step": 946 + }, + { + "epoch": 0.31566666666666665, + "grad_norm": 0.06853768229484558, + "learning_rate": 2.3236065064816493e-05, + "loss": 0.3935, + "step": 947 + }, + { + "epoch": 0.316, + "grad_norm": 0.06414780020713806, + "learning_rate": 2.322291906667065e-05, + "loss": 0.3975, + "step": 948 + }, + { + "epoch": 0.31633333333333336, + "grad_norm": 0.08647346496582031, + "learning_rate": 2.3209764033023857e-05, + "loss": 0.3975, + "step": 949 + }, + { + "epoch": 0.31666666666666665, + "grad_norm": 0.07072674483060837, + "learning_rate": 2.3196599978331133e-05, + "loss": 0.3949, + "step": 950 + }, + { + "epoch": 0.317, + "grad_norm": 0.09344999492168427, + "learning_rate": 2.318342691705738e-05, + "loss": 0.3803, + "step": 951 + }, + { + "epoch": 0.31733333333333336, + "grad_norm": 0.07115736603736877, + "learning_rate": 2.3170244863677413e-05, + "loss": 0.3958, + "step": 952 + }, + { + "epoch": 0.31766666666666665, + "grad_norm": 0.06738381087779999, + "learning_rate": 2.3157053832675932e-05, + "loss": 0.3929, + "step": 953 + }, + { + "epoch": 0.318, + "grad_norm": 0.0818004161119461, + "learning_rate": 2.314385383854749e-05, + "loss": 0.3944, + "step": 954 + }, + { + "epoch": 0.31833333333333336, + "grad_norm": 0.06983306258916855, + "learning_rate": 2.3130644895796494e-05, + "loss": 0.3933, + "step": 955 + }, + { + "epoch": 0.31866666666666665, + "grad_norm": 0.10573015362024307, + "learning_rate": 2.311742701893718e-05, + "loss": 0.3932, + "step": 956 + }, + { + "epoch": 0.319, + "grad_norm": 0.08442802727222443, + "learning_rate": 2.3104200222493605e-05, + "loss": 0.4007, + "step": 957 + }, + { + "epoch": 0.31933333333333336, + "grad_norm": 0.08786413818597794, + "learning_rate": 2.309096452099963e-05, + "loss": 0.4012, + "step": 958 + }, + { + "epoch": 0.31966666666666665, + "grad_norm": 0.06305647641420364, + "learning_rate": 2.3077719928998892e-05, + "loss": 0.3932, + "step": 959 + }, + { + "epoch": 0.32, + "grad_norm": 0.07171636074781418, + "learning_rate": 2.306446646104481e-05, + "loss": 0.3993, + "step": 960 + }, + { + "epoch": 0.32033333333333336, + "grad_norm": 0.06937883049249649, + "learning_rate": 2.3051204131700543e-05, + "loss": 0.3957, + "step": 961 + }, + { + "epoch": 0.32066666666666666, + "grad_norm": 0.07027225941419601, + "learning_rate": 2.303793295553899e-05, + "loss": 0.3943, + "step": 962 + }, + { + "epoch": 0.321, + "grad_norm": 0.07853047549724579, + "learning_rate": 2.3024652947142777e-05, + "loss": 0.3997, + "step": 963 + }, + { + "epoch": 0.32133333333333336, + "grad_norm": 0.16764932870864868, + "learning_rate": 2.3011364121104234e-05, + "loss": 0.3961, + "step": 964 + }, + { + "epoch": 0.32166666666666666, + "grad_norm": 0.06335241347551346, + "learning_rate": 2.2998066492025372e-05, + "loss": 0.3926, + "step": 965 + }, + { + "epoch": 0.322, + "grad_norm": 0.08964049816131592, + "learning_rate": 2.298476007451788e-05, + "loss": 0.3964, + "step": 966 + }, + { + "epoch": 0.32233333333333336, + "grad_norm": 0.07612470537424088, + "learning_rate": 2.2971444883203113e-05, + "loss": 0.3978, + "step": 967 + }, + { + "epoch": 0.32266666666666666, + "grad_norm": 0.0625949278473854, + "learning_rate": 2.295812093271205e-05, + "loss": 0.3994, + "step": 968 + }, + { + "epoch": 0.323, + "grad_norm": 0.0614905022084713, + "learning_rate": 2.2944788237685307e-05, + "loss": 0.3991, + "step": 969 + }, + { + "epoch": 0.3233333333333333, + "grad_norm": 0.10780761390924454, + "learning_rate": 2.293144681277311e-05, + "loss": 0.3903, + "step": 970 + }, + { + "epoch": 0.32366666666666666, + "grad_norm": 0.061830729246139526, + "learning_rate": 2.2918096672635256e-05, + "loss": 0.3982, + "step": 971 + }, + { + "epoch": 0.324, + "grad_norm": 0.11550798267126083, + "learning_rate": 2.2904737831941147e-05, + "loss": 0.3821, + "step": 972 + }, + { + "epoch": 0.3243333333333333, + "grad_norm": 0.07610489428043365, + "learning_rate": 2.2891370305369733e-05, + "loss": 0.3961, + "step": 973 + }, + { + "epoch": 0.32466666666666666, + "grad_norm": 0.07019032537937164, + "learning_rate": 2.2877994107609495e-05, + "loss": 0.3926, + "step": 974 + }, + { + "epoch": 0.325, + "grad_norm": 0.07942754775285721, + "learning_rate": 2.2864609253358477e-05, + "loss": 0.3897, + "step": 975 + }, + { + "epoch": 0.3253333333333333, + "grad_norm": 0.08658365160226822, + "learning_rate": 2.2851215757324196e-05, + "loss": 0.3996, + "step": 976 + }, + { + "epoch": 0.32566666666666666, + "grad_norm": 0.0784073919057846, + "learning_rate": 2.283781363422369e-05, + "loss": 0.381, + "step": 977 + }, + { + "epoch": 0.326, + "grad_norm": 0.09680619090795517, + "learning_rate": 2.282440289878347e-05, + "loss": 0.388, + "step": 978 + }, + { + "epoch": 0.3263333333333333, + "grad_norm": 0.06596861034631729, + "learning_rate": 2.28109835657395e-05, + "loss": 0.4, + "step": 979 + }, + { + "epoch": 0.32666666666666666, + "grad_norm": 0.10127798467874527, + "learning_rate": 2.279755564983721e-05, + "loss": 0.4003, + "step": 980 + }, + { + "epoch": 0.327, + "grad_norm": 0.06937387585639954, + "learning_rate": 2.278411916583144e-05, + "loss": 0.3999, + "step": 981 + }, + { + "epoch": 0.3273333333333333, + "grad_norm": 0.06643220782279968, + "learning_rate": 2.2770674128486463e-05, + "loss": 0.3967, + "step": 982 + }, + { + "epoch": 0.32766666666666666, + "grad_norm": 0.07779614627361298, + "learning_rate": 2.2757220552575947e-05, + "loss": 0.3782, + "step": 983 + }, + { + "epoch": 0.328, + "grad_norm": 0.0821090042591095, + "learning_rate": 2.2743758452882932e-05, + "loss": 0.4009, + "step": 984 + }, + { + "epoch": 0.3283333333333333, + "grad_norm": 0.13471460342407227, + "learning_rate": 2.2730287844199835e-05, + "loss": 0.3892, + "step": 985 + }, + { + "epoch": 0.32866666666666666, + "grad_norm": 0.1240953803062439, + "learning_rate": 2.2716808741328417e-05, + "loss": 0.3907, + "step": 986 + }, + { + "epoch": 0.329, + "grad_norm": 0.07573273032903671, + "learning_rate": 2.2703321159079775e-05, + "loss": 0.3863, + "step": 987 + }, + { + "epoch": 0.3293333333333333, + "grad_norm": 0.08096013218164444, + "learning_rate": 2.2689825112274325e-05, + "loss": 0.3907, + "step": 988 + }, + { + "epoch": 0.32966666666666666, + "grad_norm": 0.09414678812026978, + "learning_rate": 2.2676320615741778e-05, + "loss": 0.3875, + "step": 989 + }, + { + "epoch": 0.33, + "grad_norm": 0.07273001223802567, + "learning_rate": 2.2662807684321132e-05, + "loss": 0.391, + "step": 990 + }, + { + "epoch": 0.3303333333333333, + "grad_norm": 0.085142582654953, + "learning_rate": 2.264928633286066e-05, + "loss": 0.3964, + "step": 991 + }, + { + "epoch": 0.33066666666666666, + "grad_norm": 0.06178944557905197, + "learning_rate": 2.2635756576217873e-05, + "loss": 0.3938, + "step": 992 + }, + { + "epoch": 0.331, + "grad_norm": 0.08922847360372543, + "learning_rate": 2.262221842925954e-05, + "loss": 0.3825, + "step": 993 + }, + { + "epoch": 0.3313333333333333, + "grad_norm": 0.06506519764661789, + "learning_rate": 2.260867190686163e-05, + "loss": 0.3884, + "step": 994 + }, + { + "epoch": 0.33166666666666667, + "grad_norm": 0.07402695715427399, + "learning_rate": 2.2595117023909317e-05, + "loss": 0.3908, + "step": 995 + }, + { + "epoch": 0.332, + "grad_norm": 0.13558800518512726, + "learning_rate": 2.2581553795296966e-05, + "loss": 0.3936, + "step": 996 + }, + { + "epoch": 0.3323333333333333, + "grad_norm": 0.0724274143576622, + "learning_rate": 2.2567982235928124e-05, + "loss": 0.3849, + "step": 997 + }, + { + "epoch": 0.33266666666666667, + "grad_norm": 0.08910559862852097, + "learning_rate": 2.2554402360715466e-05, + "loss": 0.3929, + "step": 998 + }, + { + "epoch": 0.333, + "grad_norm": 0.07489339262247086, + "learning_rate": 2.2540814184580827e-05, + "loss": 0.3941, + "step": 999 + }, + { + "epoch": 0.3333333333333333, + "grad_norm": 0.07453542202711105, + "learning_rate": 2.2527217722455156e-05, + "loss": 0.3886, + "step": 1000 + }, + { + "epoch": 0.33366666666666667, + "grad_norm": 0.07982893288135529, + "learning_rate": 2.25136129892785e-05, + "loss": 0.3885, + "step": 1001 + }, + { + "epoch": 0.334, + "grad_norm": 0.08016817271709442, + "learning_rate": 2.25e-05, + "loss": 0.386, + "step": 1002 + }, + { + "epoch": 0.3343333333333333, + "grad_norm": 0.1040651798248291, + "learning_rate": 2.2486378769577878e-05, + "loss": 0.3825, + "step": 1003 + }, + { + "epoch": 0.33466666666666667, + "grad_norm": 0.07928641140460968, + "learning_rate": 2.2472749312979396e-05, + "loss": 0.3858, + "step": 1004 + }, + { + "epoch": 0.335, + "grad_norm": 0.07108528167009354, + "learning_rate": 2.2459111645180862e-05, + "loss": 0.396, + "step": 1005 + }, + { + "epoch": 0.3353333333333333, + "grad_norm": 0.10905561596155167, + "learning_rate": 2.244546578116761e-05, + "loss": 0.3977, + "step": 1006 + }, + { + "epoch": 0.33566666666666667, + "grad_norm": 0.08046133071184158, + "learning_rate": 2.243181173593398e-05, + "loss": 0.3945, + "step": 1007 + }, + { + "epoch": 0.336, + "grad_norm": 0.08508317917585373, + "learning_rate": 2.2418149524483284e-05, + "loss": 0.3808, + "step": 1008 + }, + { + "epoch": 0.3363333333333333, + "grad_norm": 0.10766371339559555, + "learning_rate": 2.2404479161827835e-05, + "loss": 0.3908, + "step": 1009 + }, + { + "epoch": 0.33666666666666667, + "grad_norm": 0.08420019596815109, + "learning_rate": 2.2390800662988882e-05, + "loss": 0.3914, + "step": 1010 + }, + { + "epoch": 0.337, + "grad_norm": 0.07775302231311798, + "learning_rate": 2.2377114042996627e-05, + "loss": 0.3979, + "step": 1011 + }, + { + "epoch": 0.3373333333333333, + "grad_norm": 0.1257321983575821, + "learning_rate": 2.2363419316890186e-05, + "loss": 0.3942, + "step": 1012 + }, + { + "epoch": 0.33766666666666667, + "grad_norm": 0.11004406958818436, + "learning_rate": 2.2349716499717588e-05, + "loss": 0.3967, + "step": 1013 + }, + { + "epoch": 0.338, + "grad_norm": 0.07298004627227783, + "learning_rate": 2.2336005606535755e-05, + "loss": 0.3759, + "step": 1014 + }, + { + "epoch": 0.3383333333333333, + "grad_norm": 0.09525076299905777, + "learning_rate": 2.2322286652410468e-05, + "loss": 0.3984, + "step": 1015 + }, + { + "epoch": 0.33866666666666667, + "grad_norm": 0.06937120109796524, + "learning_rate": 2.230855965241639e-05, + "loss": 0.3984, + "step": 1016 + }, + { + "epoch": 0.339, + "grad_norm": 0.06975382566452026, + "learning_rate": 2.2294824621637003e-05, + "loss": 0.3961, + "step": 1017 + }, + { + "epoch": 0.3393333333333333, + "grad_norm": 0.07742251455783844, + "learning_rate": 2.228108157516462e-05, + "loss": 0.3897, + "step": 1018 + }, + { + "epoch": 0.3396666666666667, + "grad_norm": 0.08864080160856247, + "learning_rate": 2.2267330528100372e-05, + "loss": 0.3896, + "step": 1019 + }, + { + "epoch": 0.34, + "grad_norm": 0.06561156362295151, + "learning_rate": 2.2253571495554167e-05, + "loss": 0.3885, + "step": 1020 + }, + { + "epoch": 0.3403333333333333, + "grad_norm": 0.08256422728300095, + "learning_rate": 2.2239804492644694e-05, + "loss": 0.385, + "step": 1021 + }, + { + "epoch": 0.3406666666666667, + "grad_norm": 0.09764555096626282, + "learning_rate": 2.22260295344994e-05, + "loss": 0.3895, + "step": 1022 + }, + { + "epoch": 0.341, + "grad_norm": 0.06840568035840988, + "learning_rate": 2.2212246636254473e-05, + "loss": 0.3951, + "step": 1023 + }, + { + "epoch": 0.3413333333333333, + "grad_norm": 0.07367914915084839, + "learning_rate": 2.2198455813054825e-05, + "loss": 0.3961, + "step": 1024 + }, + { + "epoch": 0.3416666666666667, + "grad_norm": 0.0690588653087616, + "learning_rate": 2.2184657080054077e-05, + "loss": 0.3937, + "step": 1025 + }, + { + "epoch": 0.342, + "grad_norm": 0.07426725327968597, + "learning_rate": 2.2170850452414542e-05, + "loss": 0.3861, + "step": 1026 + }, + { + "epoch": 0.3423333333333333, + "grad_norm": 0.09223897755146027, + "learning_rate": 2.2157035945307205e-05, + "loss": 0.3806, + "step": 1027 + }, + { + "epoch": 0.3426666666666667, + "grad_norm": 0.07263705134391785, + "learning_rate": 2.2143213573911714e-05, + "loss": 0.3869, + "step": 1028 + }, + { + "epoch": 0.343, + "grad_norm": 0.1309090107679367, + "learning_rate": 2.212938335341635e-05, + "loss": 0.3895, + "step": 1029 + }, + { + "epoch": 0.3433333333333333, + "grad_norm": 0.06947149336338043, + "learning_rate": 2.211554529901803e-05, + "loss": 0.3804, + "step": 1030 + }, + { + "epoch": 0.3436666666666667, + "grad_norm": 0.12488541007041931, + "learning_rate": 2.210169942592227e-05, + "loss": 0.3887, + "step": 1031 + }, + { + "epoch": 0.344, + "grad_norm": 0.08121713995933533, + "learning_rate": 2.208784574934318e-05, + "loss": 0.3929, + "step": 1032 + }, + { + "epoch": 0.3443333333333333, + "grad_norm": 0.07729239761829376, + "learning_rate": 2.2073984284503444e-05, + "loss": 0.3833, + "step": 1033 + }, + { + "epoch": 0.3446666666666667, + "grad_norm": 0.0993746891617775, + "learning_rate": 2.2060115046634314e-05, + "loss": 0.3957, + "step": 1034 + }, + { + "epoch": 0.345, + "grad_norm": 0.07430441677570343, + "learning_rate": 2.2046238050975564e-05, + "loss": 0.394, + "step": 1035 + }, + { + "epoch": 0.3453333333333333, + "grad_norm": 0.09236864000558853, + "learning_rate": 2.2032353312775505e-05, + "loss": 0.38, + "step": 1036 + }, + { + "epoch": 0.3456666666666667, + "grad_norm": 0.06384909152984619, + "learning_rate": 2.2018460847290957e-05, + "loss": 0.3948, + "step": 1037 + }, + { + "epoch": 0.346, + "grad_norm": 0.07869940996170044, + "learning_rate": 2.2004560669787224e-05, + "loss": 0.3924, + "step": 1038 + }, + { + "epoch": 0.3463333333333333, + "grad_norm": 0.07507019490003586, + "learning_rate": 2.1990652795538085e-05, + "loss": 0.3901, + "step": 1039 + }, + { + "epoch": 0.3466666666666667, + "grad_norm": 0.06865093111991882, + "learning_rate": 2.1976737239825782e-05, + "loss": 0.4022, + "step": 1040 + }, + { + "epoch": 0.347, + "grad_norm": 0.08105417340993881, + "learning_rate": 2.196281401794099e-05, + "loss": 0.3963, + "step": 1041 + }, + { + "epoch": 0.3473333333333333, + "grad_norm": 0.08678477257490158, + "learning_rate": 2.194888314518282e-05, + "loss": 0.3835, + "step": 1042 + }, + { + "epoch": 0.3476666666666667, + "grad_norm": 0.07183339446783066, + "learning_rate": 2.1934944636858773e-05, + "loss": 0.3894, + "step": 1043 + }, + { + "epoch": 0.348, + "grad_norm": 0.07760298252105713, + "learning_rate": 2.192099850828476e-05, + "loss": 0.389, + "step": 1044 + }, + { + "epoch": 0.34833333333333333, + "grad_norm": 0.09603295475244522, + "learning_rate": 2.190704477478504e-05, + "loss": 0.3879, + "step": 1045 + }, + { + "epoch": 0.3486666666666667, + "grad_norm": 0.08722009509801865, + "learning_rate": 2.1893083451692254e-05, + "loss": 0.3947, + "step": 1046 + }, + { + "epoch": 0.349, + "grad_norm": 0.09787790477275848, + "learning_rate": 2.1879114554347363e-05, + "loss": 0.3922, + "step": 1047 + }, + { + "epoch": 0.34933333333333333, + "grad_norm": 0.06902310252189636, + "learning_rate": 2.1865138098099662e-05, + "loss": 0.3841, + "step": 1048 + }, + { + "epoch": 0.3496666666666667, + "grad_norm": 0.0859937071800232, + "learning_rate": 2.1851154098306755e-05, + "loss": 0.3981, + "step": 1049 + }, + { + "epoch": 0.35, + "grad_norm": 0.06702365726232529, + "learning_rate": 2.1837162570334518e-05, + "loss": 0.3837, + "step": 1050 + }, + { + "epoch": 0.35033333333333333, + "grad_norm": 0.07341064512729645, + "learning_rate": 2.1823163529557118e-05, + "loss": 0.3932, + "step": 1051 + }, + { + "epoch": 0.3506666666666667, + "grad_norm": 0.07279200106859207, + "learning_rate": 2.1809156991356964e-05, + "loss": 0.3862, + "step": 1052 + }, + { + "epoch": 0.351, + "grad_norm": 0.06256987154483795, + "learning_rate": 2.1795142971124713e-05, + "loss": 0.3905, + "step": 1053 + }, + { + "epoch": 0.35133333333333333, + "grad_norm": 0.07171976566314697, + "learning_rate": 2.1781121484259237e-05, + "loss": 0.3854, + "step": 1054 + }, + { + "epoch": 0.3516666666666667, + "grad_norm": 0.09197834879159927, + "learning_rate": 2.176709254616761e-05, + "loss": 0.3892, + "step": 1055 + }, + { + "epoch": 0.352, + "grad_norm": 0.06557931751012802, + "learning_rate": 2.17530561722651e-05, + "loss": 0.3884, + "step": 1056 + }, + { + "epoch": 0.35233333333333333, + "grad_norm": 0.10799882560968399, + "learning_rate": 2.173901237797515e-05, + "loss": 0.3941, + "step": 1057 + }, + { + "epoch": 0.3526666666666667, + "grad_norm": 0.10656439512968063, + "learning_rate": 2.1724961178729342e-05, + "loss": 0.3856, + "step": 1058 + }, + { + "epoch": 0.353, + "grad_norm": 0.06610308587551117, + "learning_rate": 2.1710902589967404e-05, + "loss": 0.3873, + "step": 1059 + }, + { + "epoch": 0.35333333333333333, + "grad_norm": 0.07236327230930328, + "learning_rate": 2.1696836627137188e-05, + "loss": 0.3965, + "step": 1060 + }, + { + "epoch": 0.3536666666666667, + "grad_norm": 0.06622308492660522, + "learning_rate": 2.168276330569464e-05, + "loss": 0.3958, + "step": 1061 + }, + { + "epoch": 0.354, + "grad_norm": 0.07964096963405609, + "learning_rate": 2.166868264110379e-05, + "loss": 0.3977, + "step": 1062 + }, + { + "epoch": 0.35433333333333333, + "grad_norm": 0.06790298968553543, + "learning_rate": 2.1654594648836753e-05, + "loss": 0.4005, + "step": 1063 + }, + { + "epoch": 0.3546666666666667, + "grad_norm": 0.07271687686443329, + "learning_rate": 2.1640499344373674e-05, + "loss": 0.3865, + "step": 1064 + }, + { + "epoch": 0.355, + "grad_norm": 0.0658349096775055, + "learning_rate": 2.1626396743202747e-05, + "loss": 0.3939, + "step": 1065 + }, + { + "epoch": 0.35533333333333333, + "grad_norm": 0.1068524494767189, + "learning_rate": 2.1612286860820182e-05, + "loss": 0.3874, + "step": 1066 + }, + { + "epoch": 0.3556666666666667, + "grad_norm": 0.0740644633769989, + "learning_rate": 2.159816971273019e-05, + "loss": 0.3919, + "step": 1067 + }, + { + "epoch": 0.356, + "grad_norm": 0.07219831645488739, + "learning_rate": 2.1584045314444958e-05, + "loss": 0.3948, + "step": 1068 + }, + { + "epoch": 0.35633333333333334, + "grad_norm": 0.07156819850206375, + "learning_rate": 2.156991368148465e-05, + "loss": 0.3932, + "step": 1069 + }, + { + "epoch": 0.3566666666666667, + "grad_norm": 0.10638052970170975, + "learning_rate": 2.1555774829377372e-05, + "loss": 0.3893, + "step": 1070 + }, + { + "epoch": 0.357, + "grad_norm": 0.05723827704787254, + "learning_rate": 2.1541628773659166e-05, + "loss": 0.3788, + "step": 1071 + }, + { + "epoch": 0.35733333333333334, + "grad_norm": 0.07071038335561752, + "learning_rate": 2.152747552987399e-05, + "loss": 0.3898, + "step": 1072 + }, + { + "epoch": 0.3576666666666667, + "grad_norm": 0.08696084469556808, + "learning_rate": 2.1513315113573702e-05, + "loss": 0.3909, + "step": 1073 + }, + { + "epoch": 0.358, + "grad_norm": 0.06636428087949753, + "learning_rate": 2.1499147540318032e-05, + "loss": 0.3864, + "step": 1074 + }, + { + "epoch": 0.35833333333333334, + "grad_norm": 0.11212602257728577, + "learning_rate": 2.1484972825674583e-05, + "loss": 0.3972, + "step": 1075 + }, + { + "epoch": 0.3586666666666667, + "grad_norm": 0.07029841840267181, + "learning_rate": 2.1470790985218804e-05, + "loss": 0.3883, + "step": 1076 + }, + { + "epoch": 0.359, + "grad_norm": 0.07790768891572952, + "learning_rate": 2.1456602034533973e-05, + "loss": 0.3906, + "step": 1077 + }, + { + "epoch": 0.35933333333333334, + "grad_norm": 0.0654536709189415, + "learning_rate": 2.1442405989211182e-05, + "loss": 0.3856, + "step": 1078 + }, + { + "epoch": 0.3596666666666667, + "grad_norm": 0.08489619940519333, + "learning_rate": 2.142820286484931e-05, + "loss": 0.3936, + "step": 1079 + }, + { + "epoch": 0.36, + "grad_norm": 0.21239297091960907, + "learning_rate": 2.141399267705504e-05, + "loss": 0.3915, + "step": 1080 + }, + { + "epoch": 0.36033333333333334, + "grad_norm": 0.07595282793045044, + "learning_rate": 2.139977544144278e-05, + "loss": 0.3903, + "step": 1081 + }, + { + "epoch": 0.3606666666666667, + "grad_norm": 0.07132305204868317, + "learning_rate": 2.1385551173634707e-05, + "loss": 0.3871, + "step": 1082 + }, + { + "epoch": 0.361, + "grad_norm": 0.07647266238927841, + "learning_rate": 2.137131988926072e-05, + "loss": 0.3866, + "step": 1083 + }, + { + "epoch": 0.36133333333333334, + "grad_norm": 0.07537363469600677, + "learning_rate": 2.1357081603958422e-05, + "loss": 0.3813, + "step": 1084 + }, + { + "epoch": 0.3616666666666667, + "grad_norm": 0.09433251619338989, + "learning_rate": 2.134283633337312e-05, + "loss": 0.3966, + "step": 1085 + }, + { + "epoch": 0.362, + "grad_norm": 0.09339366853237152, + "learning_rate": 2.132858409315779e-05, + "loss": 0.3926, + "step": 1086 + }, + { + "epoch": 0.36233333333333334, + "grad_norm": 0.08243247866630554, + "learning_rate": 2.1314324898973064e-05, + "loss": 0.3961, + "step": 1087 + }, + { + "epoch": 0.3626666666666667, + "grad_norm": 0.07815536111593246, + "learning_rate": 2.1300058766487217e-05, + "loss": 0.3885, + "step": 1088 + }, + { + "epoch": 0.363, + "grad_norm": 0.10072636604309082, + "learning_rate": 2.128578571137615e-05, + "loss": 0.3932, + "step": 1089 + }, + { + "epoch": 0.36333333333333334, + "grad_norm": 0.07483893632888794, + "learning_rate": 2.127150574932337e-05, + "loss": 0.386, + "step": 1090 + }, + { + "epoch": 0.3636666666666667, + "grad_norm": 0.07684021443128586, + "learning_rate": 2.125721889601997e-05, + "loss": 0.3893, + "step": 1091 + }, + { + "epoch": 0.364, + "grad_norm": 0.08044262230396271, + "learning_rate": 2.1242925167164613e-05, + "loss": 0.3976, + "step": 1092 + }, + { + "epoch": 0.36433333333333334, + "grad_norm": 0.08650103211402893, + "learning_rate": 2.1228624578463537e-05, + "loss": 0.3999, + "step": 1093 + }, + { + "epoch": 0.36466666666666664, + "grad_norm": 0.0810331180691719, + "learning_rate": 2.1214317145630494e-05, + "loss": 0.3945, + "step": 1094 + }, + { + "epoch": 0.365, + "grad_norm": 0.06581077724695206, + "learning_rate": 2.120000288438676e-05, + "loss": 0.393, + "step": 1095 + }, + { + "epoch": 0.36533333333333334, + "grad_norm": 0.11926189810037613, + "learning_rate": 2.1185681810461128e-05, + "loss": 0.4005, + "step": 1096 + }, + { + "epoch": 0.36566666666666664, + "grad_norm": 0.07679393887519836, + "learning_rate": 2.1171353939589864e-05, + "loss": 0.3893, + "step": 1097 + }, + { + "epoch": 0.366, + "grad_norm": 0.06894869357347488, + "learning_rate": 2.115701928751671e-05, + "loss": 0.3957, + "step": 1098 + }, + { + "epoch": 0.36633333333333334, + "grad_norm": 0.06123379245400429, + "learning_rate": 2.114267786999285e-05, + "loss": 0.3819, + "step": 1099 + }, + { + "epoch": 0.36666666666666664, + "grad_norm": 0.06761491298675537, + "learning_rate": 2.1128329702776916e-05, + "loss": 0.3895, + "step": 1100 + }, + { + "epoch": 0.367, + "grad_norm": 0.06875380128622055, + "learning_rate": 2.1113974801634946e-05, + "loss": 0.3914, + "step": 1101 + }, + { + "epoch": 0.36733333333333335, + "grad_norm": 0.06855609267950058, + "learning_rate": 2.109961318234038e-05, + "loss": 0.3927, + "step": 1102 + }, + { + "epoch": 0.36766666666666664, + "grad_norm": 0.0789770558476448, + "learning_rate": 2.1085244860674033e-05, + "loss": 0.393, + "step": 1103 + }, + { + "epoch": 0.368, + "grad_norm": 0.08032726496458054, + "learning_rate": 2.1070869852424106e-05, + "loss": 0.3864, + "step": 1104 + }, + { + "epoch": 0.36833333333333335, + "grad_norm": 0.09428355097770691, + "learning_rate": 2.105648817338612e-05, + "loss": 0.387, + "step": 1105 + }, + { + "epoch": 0.36866666666666664, + "grad_norm": 0.0948861762881279, + "learning_rate": 2.1042099839362952e-05, + "loss": 0.3975, + "step": 1106 + }, + { + "epoch": 0.369, + "grad_norm": 0.07522736489772797, + "learning_rate": 2.1027704866164768e-05, + "loss": 0.39, + "step": 1107 + }, + { + "epoch": 0.36933333333333335, + "grad_norm": 0.08855721354484558, + "learning_rate": 2.1013303269609048e-05, + "loss": 0.3882, + "step": 1108 + }, + { + "epoch": 0.36966666666666664, + "grad_norm": 0.10535915195941925, + "learning_rate": 2.0998895065520536e-05, + "loss": 0.3958, + "step": 1109 + }, + { + "epoch": 0.37, + "grad_norm": 0.07471587508916855, + "learning_rate": 2.0984480269731246e-05, + "loss": 0.3886, + "step": 1110 + }, + { + "epoch": 0.37033333333333335, + "grad_norm": 0.06689638644456863, + "learning_rate": 2.097005889808043e-05, + "loss": 0.3852, + "step": 1111 + }, + { + "epoch": 0.37066666666666664, + "grad_norm": 0.08864542841911316, + "learning_rate": 2.0955630966414576e-05, + "loss": 0.385, + "step": 1112 + }, + { + "epoch": 0.371, + "grad_norm": 0.16058078408241272, + "learning_rate": 2.0941196490587352e-05, + "loss": 0.3958, + "step": 1113 + }, + { + "epoch": 0.37133333333333335, + "grad_norm": 0.08248073607683182, + "learning_rate": 2.0926755486459652e-05, + "loss": 0.3851, + "step": 1114 + }, + { + "epoch": 0.37166666666666665, + "grad_norm": 0.10938184708356857, + "learning_rate": 2.0912307969899527e-05, + "loss": 0.3922, + "step": 1115 + }, + { + "epoch": 0.372, + "grad_norm": 0.06783577054738998, + "learning_rate": 2.0897853956782186e-05, + "loss": 0.3867, + "step": 1116 + }, + { + "epoch": 0.37233333333333335, + "grad_norm": 0.16796107590198517, + "learning_rate": 2.088339346298997e-05, + "loss": 0.3905, + "step": 1117 + }, + { + "epoch": 0.37266666666666665, + "grad_norm": 0.08231581002473831, + "learning_rate": 2.0868926504412346e-05, + "loss": 0.3832, + "step": 1118 + }, + { + "epoch": 0.373, + "grad_norm": 0.07750124484300613, + "learning_rate": 2.0854453096945885e-05, + "loss": 0.4009, + "step": 1119 + }, + { + "epoch": 0.37333333333333335, + "grad_norm": 0.0817628875374794, + "learning_rate": 2.0839973256494248e-05, + "loss": 0.3974, + "step": 1120 + }, + { + "epoch": 0.37366666666666665, + "grad_norm": 0.06388069689273834, + "learning_rate": 2.082548699896816e-05, + "loss": 0.3969, + "step": 1121 + }, + { + "epoch": 0.374, + "grad_norm": 0.08899057656526566, + "learning_rate": 2.0810994340285395e-05, + "loss": 0.387, + "step": 1122 + }, + { + "epoch": 0.37433333333333335, + "grad_norm": 0.09685548394918442, + "learning_rate": 2.079649529637077e-05, + "loss": 0.3847, + "step": 1123 + }, + { + "epoch": 0.37466666666666665, + "grad_norm": 0.10471872985363007, + "learning_rate": 2.0781989883156106e-05, + "loss": 0.399, + "step": 1124 + }, + { + "epoch": 0.375, + "grad_norm": 0.09297645837068558, + "learning_rate": 2.0767478116580235e-05, + "loss": 0.3832, + "step": 1125 + }, + { + "epoch": 0.37533333333333335, + "grad_norm": 0.0683860331773758, + "learning_rate": 2.0752960012588963e-05, + "loss": 0.3904, + "step": 1126 + }, + { + "epoch": 0.37566666666666665, + "grad_norm": 0.06369779258966446, + "learning_rate": 2.0738435587135057e-05, + "loss": 0.3848, + "step": 1127 + }, + { + "epoch": 0.376, + "grad_norm": 0.07713232189416885, + "learning_rate": 2.0723904856178227e-05, + "loss": 0.3946, + "step": 1128 + }, + { + "epoch": 0.37633333333333335, + "grad_norm": 0.06976217776536942, + "learning_rate": 2.0709367835685133e-05, + "loss": 0.3883, + "step": 1129 + }, + { + "epoch": 0.37666666666666665, + "grad_norm": 0.7178500890731812, + "learning_rate": 2.0694824541629322e-05, + "loss": 0.3883, + "step": 1130 + }, + { + "epoch": 0.377, + "grad_norm": 0.08650045096874237, + "learning_rate": 2.0680274989991253e-05, + "loss": 0.3891, + "step": 1131 + }, + { + "epoch": 0.37733333333333335, + "grad_norm": 0.09387006610631943, + "learning_rate": 2.0665719196758242e-05, + "loss": 0.3937, + "step": 1132 + }, + { + "epoch": 0.37766666666666665, + "grad_norm": 0.08664409071207047, + "learning_rate": 2.0651157177924477e-05, + "loss": 0.3984, + "step": 1133 + }, + { + "epoch": 0.378, + "grad_norm": 0.086481012403965, + "learning_rate": 2.0636588949490983e-05, + "loss": 0.3837, + "step": 1134 + }, + { + "epoch": 0.37833333333333335, + "grad_norm": 0.08463256806135178, + "learning_rate": 2.0622014527465612e-05, + "loss": 0.394, + "step": 1135 + }, + { + "epoch": 0.37866666666666665, + "grad_norm": 0.08275792002677917, + "learning_rate": 2.0607433927863017e-05, + "loss": 0.3805, + "step": 1136 + }, + { + "epoch": 0.379, + "grad_norm": 0.06935501843690872, + "learning_rate": 2.059284716670463e-05, + "loss": 0.3997, + "step": 1137 + }, + { + "epoch": 0.37933333333333336, + "grad_norm": 0.09198120981454849, + "learning_rate": 2.0578254260018674e-05, + "loss": 0.3827, + "step": 1138 + }, + { + "epoch": 0.37966666666666665, + "grad_norm": 0.08649156242609024, + "learning_rate": 2.0563655223840116e-05, + "loss": 0.3943, + "step": 1139 + }, + { + "epoch": 0.38, + "grad_norm": 0.11710778623819351, + "learning_rate": 2.054905007421065e-05, + "loss": 0.394, + "step": 1140 + }, + { + "epoch": 0.38033333333333336, + "grad_norm": 0.06448473781347275, + "learning_rate": 2.0534438827178697e-05, + "loss": 0.3947, + "step": 1141 + }, + { + "epoch": 0.38066666666666665, + "grad_norm": 0.17229340970516205, + "learning_rate": 2.051982149879937e-05, + "loss": 0.3875, + "step": 1142 + }, + { + "epoch": 0.381, + "grad_norm": 0.0628683939576149, + "learning_rate": 2.050519810513448e-05, + "loss": 0.3969, + "step": 1143 + }, + { + "epoch": 0.38133333333333336, + "grad_norm": 0.11730989068746567, + "learning_rate": 2.0490568662252485e-05, + "loss": 0.3922, + "step": 1144 + }, + { + "epoch": 0.38166666666666665, + "grad_norm": 0.08238154649734497, + "learning_rate": 2.04759331862285e-05, + "loss": 0.3862, + "step": 1145 + }, + { + "epoch": 0.382, + "grad_norm": 0.08221995830535889, + "learning_rate": 2.0461291693144258e-05, + "loss": 0.3901, + "step": 1146 + }, + { + "epoch": 0.38233333333333336, + "grad_norm": 0.06150755658745766, + "learning_rate": 2.044664419908812e-05, + "loss": 0.3888, + "step": 1147 + }, + { + "epoch": 0.38266666666666665, + "grad_norm": 0.06826188415288925, + "learning_rate": 2.0431990720155035e-05, + "loss": 0.3933, + "step": 1148 + }, + { + "epoch": 0.383, + "grad_norm": 0.10763668268918991, + "learning_rate": 2.0417331272446518e-05, + "loss": 0.382, + "step": 1149 + }, + { + "epoch": 0.38333333333333336, + "grad_norm": 0.09600989520549774, + "learning_rate": 2.0402665872070656e-05, + "loss": 0.3813, + "step": 1150 + }, + { + "epoch": 0.38366666666666666, + "grad_norm": 0.08191089332103729, + "learning_rate": 2.038799453514207e-05, + "loss": 0.3896, + "step": 1151 + }, + { + "epoch": 0.384, + "grad_norm": 0.08791036158800125, + "learning_rate": 2.0373317277781907e-05, + "loss": 0.398, + "step": 1152 + }, + { + "epoch": 0.38433333333333336, + "grad_norm": 0.14020171761512756, + "learning_rate": 2.0358634116117827e-05, + "loss": 0.3822, + "step": 1153 + }, + { + "epoch": 0.38466666666666666, + "grad_norm": 0.08211301267147064, + "learning_rate": 2.0343945066283957e-05, + "loss": 0.386, + "step": 1154 + }, + { + "epoch": 0.385, + "grad_norm": 0.07084356993436813, + "learning_rate": 2.032925014442091e-05, + "loss": 0.3888, + "step": 1155 + }, + { + "epoch": 0.38533333333333336, + "grad_norm": 0.06986358761787415, + "learning_rate": 2.0314549366675742e-05, + "loss": 0.3922, + "step": 1156 + }, + { + "epoch": 0.38566666666666666, + "grad_norm": 0.08533968776464462, + "learning_rate": 2.0299842749201956e-05, + "loss": 0.3928, + "step": 1157 + }, + { + "epoch": 0.386, + "grad_norm": 0.11023092269897461, + "learning_rate": 2.028513030815947e-05, + "loss": 0.3935, + "step": 1158 + }, + { + "epoch": 0.3863333333333333, + "grad_norm": 0.07337897270917892, + "learning_rate": 2.027041205971458e-05, + "loss": 0.3898, + "step": 1159 + }, + { + "epoch": 0.38666666666666666, + "grad_norm": 0.09906651824712753, + "learning_rate": 2.0255688020039994e-05, + "loss": 0.3929, + "step": 1160 + }, + { + "epoch": 0.387, + "grad_norm": 0.06609717011451721, + "learning_rate": 2.0240958205314762e-05, + "loss": 0.3834, + "step": 1161 + }, + { + "epoch": 0.3873333333333333, + "grad_norm": 0.10034853219985962, + "learning_rate": 2.022622263172429e-05, + "loss": 0.3883, + "step": 1162 + }, + { + "epoch": 0.38766666666666666, + "grad_norm": 0.08622638136148453, + "learning_rate": 2.021148131546031e-05, + "loss": 0.3858, + "step": 1163 + }, + { + "epoch": 0.388, + "grad_norm": 0.1059880331158638, + "learning_rate": 2.0196734272720857e-05, + "loss": 0.3882, + "step": 1164 + }, + { + "epoch": 0.3883333333333333, + "grad_norm": 0.07418672740459442, + "learning_rate": 2.0181981519710264e-05, + "loss": 0.3905, + "step": 1165 + }, + { + "epoch": 0.38866666666666666, + "grad_norm": 0.08262262493371964, + "learning_rate": 2.016722307263914e-05, + "loss": 0.3911, + "step": 1166 + }, + { + "epoch": 0.389, + "grad_norm": 0.11467868834733963, + "learning_rate": 2.015245894772435e-05, + "loss": 0.3856, + "step": 1167 + }, + { + "epoch": 0.3893333333333333, + "grad_norm": 0.13305817544460297, + "learning_rate": 2.0137689161188996e-05, + "loss": 0.3958, + "step": 1168 + }, + { + "epoch": 0.38966666666666666, + "grad_norm": 0.061945486813783646, + "learning_rate": 2.0122913729262407e-05, + "loss": 0.3843, + "step": 1169 + }, + { + "epoch": 0.39, + "grad_norm": 0.09077613800764084, + "learning_rate": 2.0108132668180106e-05, + "loss": 0.3921, + "step": 1170 + }, + { + "epoch": 0.3903333333333333, + "grad_norm": 0.09267352521419525, + "learning_rate": 2.0093345994183806e-05, + "loss": 0.3919, + "step": 1171 + }, + { + "epoch": 0.39066666666666666, + "grad_norm": 0.10213073343038559, + "learning_rate": 2.007855372352139e-05, + "loss": 0.3945, + "step": 1172 + }, + { + "epoch": 0.391, + "grad_norm": 0.0777328759431839, + "learning_rate": 2.006375587244689e-05, + "loss": 0.389, + "step": 1173 + }, + { + "epoch": 0.3913333333333333, + "grad_norm": 0.0874200090765953, + "learning_rate": 2.0048952457220456e-05, + "loss": 0.3852, + "step": 1174 + }, + { + "epoch": 0.39166666666666666, + "grad_norm": 0.08938947319984436, + "learning_rate": 2.003414349410838e-05, + "loss": 0.39, + "step": 1175 + }, + { + "epoch": 0.392, + "grad_norm": 0.09282711148262024, + "learning_rate": 2.0019328999383024e-05, + "loss": 0.3797, + "step": 1176 + }, + { + "epoch": 0.3923333333333333, + "grad_norm": 0.06565161794424057, + "learning_rate": 2.000450898932284e-05, + "loss": 0.3806, + "step": 1177 + }, + { + "epoch": 0.39266666666666666, + "grad_norm": 0.0998082086443901, + "learning_rate": 1.9989683480212346e-05, + "loss": 0.3868, + "step": 1178 + }, + { + "epoch": 0.393, + "grad_norm": 0.07175910472869873, + "learning_rate": 1.9974852488342087e-05, + "loss": 0.3919, + "step": 1179 + }, + { + "epoch": 0.3933333333333333, + "grad_norm": 0.06837297230958939, + "learning_rate": 1.9960016030008645e-05, + "loss": 0.373, + "step": 1180 + }, + { + "epoch": 0.39366666666666666, + "grad_norm": 0.07262791693210602, + "learning_rate": 1.9945174121514604e-05, + "loss": 0.3937, + "step": 1181 + }, + { + "epoch": 0.394, + "grad_norm": 0.16558918356895447, + "learning_rate": 1.9930326779168534e-05, + "loss": 0.3955, + "step": 1182 + }, + { + "epoch": 0.3943333333333333, + "grad_norm": 0.08805783838033676, + "learning_rate": 1.9915474019284983e-05, + "loss": 0.3968, + "step": 1183 + }, + { + "epoch": 0.39466666666666667, + "grad_norm": 0.07241909950971603, + "learning_rate": 1.990061585818445e-05, + "loss": 0.3938, + "step": 1184 + }, + { + "epoch": 0.395, + "grad_norm": 0.11513689160346985, + "learning_rate": 1.988575231219336e-05, + "loss": 0.3888, + "step": 1185 + }, + { + "epoch": 0.3953333333333333, + "grad_norm": 0.09278181195259094, + "learning_rate": 1.9870883397644066e-05, + "loss": 0.3879, + "step": 1186 + }, + { + "epoch": 0.39566666666666667, + "grad_norm": 0.1131439283490181, + "learning_rate": 1.985600913087482e-05, + "loss": 0.3922, + "step": 1187 + }, + { + "epoch": 0.396, + "grad_norm": 0.07732473313808441, + "learning_rate": 1.9841129528229737e-05, + "loss": 0.3908, + "step": 1188 + }, + { + "epoch": 0.3963333333333333, + "grad_norm": 0.08509481698274612, + "learning_rate": 1.9826244606058827e-05, + "loss": 0.3879, + "step": 1189 + }, + { + "epoch": 0.39666666666666667, + "grad_norm": 0.093540258705616, + "learning_rate": 1.981135438071792e-05, + "loss": 0.3869, + "step": 1190 + }, + { + "epoch": 0.397, + "grad_norm": 0.08076231926679611, + "learning_rate": 1.979645886856868e-05, + "loss": 0.3874, + "step": 1191 + }, + { + "epoch": 0.3973333333333333, + "grad_norm": 0.08851117640733719, + "learning_rate": 1.9781558085978583e-05, + "loss": 0.3902, + "step": 1192 + }, + { + "epoch": 0.39766666666666667, + "grad_norm": 0.08414346724748611, + "learning_rate": 1.976665204932089e-05, + "loss": 0.3907, + "step": 1193 + }, + { + "epoch": 0.398, + "grad_norm": 0.09770607203245163, + "learning_rate": 1.9751740774974644e-05, + "loss": 0.3779, + "step": 1194 + }, + { + "epoch": 0.3983333333333333, + "grad_norm": 0.06547784060239792, + "learning_rate": 1.9736824279324635e-05, + "loss": 0.3877, + "step": 1195 + }, + { + "epoch": 0.39866666666666667, + "grad_norm": 0.06962061673402786, + "learning_rate": 1.9721902578761398e-05, + "loss": 0.3894, + "step": 1196 + }, + { + "epoch": 0.399, + "grad_norm": 0.12581466138362885, + "learning_rate": 1.970697568968118e-05, + "loss": 0.3937, + "step": 1197 + }, + { + "epoch": 0.3993333333333333, + "grad_norm": 0.06632498651742935, + "learning_rate": 1.9692043628485933e-05, + "loss": 0.3894, + "step": 1198 + }, + { + "epoch": 0.39966666666666667, + "grad_norm": 0.07760920375585556, + "learning_rate": 1.9677106411583295e-05, + "loss": 0.4018, + "step": 1199 + }, + { + "epoch": 0.4, + "grad_norm": 0.14822301268577576, + "learning_rate": 1.9662164055386567e-05, + "loss": 0.3877, + "step": 1200 + }, + { + "epoch": 0.4003333333333333, + "grad_norm": 0.08218836039304733, + "learning_rate": 1.9647216576314693e-05, + "loss": 0.3756, + "step": 1201 + }, + { + "epoch": 0.40066666666666667, + "grad_norm": 0.08144700527191162, + "learning_rate": 1.963226399079225e-05, + "loss": 0.3922, + "step": 1202 + }, + { + "epoch": 0.401, + "grad_norm": 0.07156865298748016, + "learning_rate": 1.9617306315249416e-05, + "loss": 0.388, + "step": 1203 + }, + { + "epoch": 0.4013333333333333, + "grad_norm": 0.11239401996135712, + "learning_rate": 1.9602343566121986e-05, + "loss": 0.3963, + "step": 1204 + }, + { + "epoch": 0.40166666666666667, + "grad_norm": 0.08732177317142487, + "learning_rate": 1.958737575985131e-05, + "loss": 0.3955, + "step": 1205 + }, + { + "epoch": 0.402, + "grad_norm": 0.08214534819126129, + "learning_rate": 1.95724029128843e-05, + "loss": 0.3917, + "step": 1206 + }, + { + "epoch": 0.4023333333333333, + "grad_norm": 0.07760186493396759, + "learning_rate": 1.9557425041673403e-05, + "loss": 0.3758, + "step": 1207 + }, + { + "epoch": 0.4026666666666667, + "grad_norm": 0.10141512006521225, + "learning_rate": 1.9542442162676597e-05, + "loss": 0.3903, + "step": 1208 + }, + { + "epoch": 0.403, + "grad_norm": 0.11692721396684647, + "learning_rate": 1.9527454292357355e-05, + "loss": 0.3785, + "step": 1209 + }, + { + "epoch": 0.4033333333333333, + "grad_norm": 0.06463226675987244, + "learning_rate": 1.951246144718463e-05, + "loss": 0.3893, + "step": 1210 + }, + { + "epoch": 0.4036666666666667, + "grad_norm": 0.07223467528820038, + "learning_rate": 1.9497463643632852e-05, + "loss": 0.3928, + "step": 1211 + }, + { + "epoch": 0.404, + "grad_norm": 0.08990504592657089, + "learning_rate": 1.9482460898181895e-05, + "loss": 0.3853, + "step": 1212 + }, + { + "epoch": 0.4043333333333333, + "grad_norm": 0.0866391733288765, + "learning_rate": 1.9467453227317064e-05, + "loss": 0.3894, + "step": 1213 + }, + { + "epoch": 0.4046666666666667, + "grad_norm": 0.06781402975320816, + "learning_rate": 1.9452440647529075e-05, + "loss": 0.391, + "step": 1214 + }, + { + "epoch": 0.405, + "grad_norm": 0.09346762299537659, + "learning_rate": 1.943742317531404e-05, + "loss": 0.3947, + "step": 1215 + }, + { + "epoch": 0.4053333333333333, + "grad_norm": 0.0883321613073349, + "learning_rate": 1.9422400827173435e-05, + "loss": 0.3964, + "step": 1216 + }, + { + "epoch": 0.4056666666666667, + "grad_norm": 0.08615533262491226, + "learning_rate": 1.9407373619614114e-05, + "loss": 0.3863, + "step": 1217 + }, + { + "epoch": 0.406, + "grad_norm": 0.07001233845949173, + "learning_rate": 1.9392341569148254e-05, + "loss": 0.3866, + "step": 1218 + }, + { + "epoch": 0.4063333333333333, + "grad_norm": 0.09243067353963852, + "learning_rate": 1.9377304692293366e-05, + "loss": 0.3937, + "step": 1219 + }, + { + "epoch": 0.4066666666666667, + "grad_norm": 0.08866457641124725, + "learning_rate": 1.9362263005572262e-05, + "loss": 0.3867, + "step": 1220 + }, + { + "epoch": 0.407, + "grad_norm": 0.13490533828735352, + "learning_rate": 1.934721652551302e-05, + "loss": 0.3856, + "step": 1221 + }, + { + "epoch": 0.4073333333333333, + "grad_norm": 0.07480959594249725, + "learning_rate": 1.933216526864901e-05, + "loss": 0.3959, + "step": 1222 + }, + { + "epoch": 0.4076666666666667, + "grad_norm": 0.07555894553661346, + "learning_rate": 1.9317109251518844e-05, + "loss": 0.3924, + "step": 1223 + }, + { + "epoch": 0.408, + "grad_norm": 0.08360566943883896, + "learning_rate": 1.9302048490666356e-05, + "loss": 0.3857, + "step": 1224 + }, + { + "epoch": 0.4083333333333333, + "grad_norm": 0.06594213098287582, + "learning_rate": 1.92869830026406e-05, + "loss": 0.4, + "step": 1225 + }, + { + "epoch": 0.4086666666666667, + "grad_norm": 0.07420819252729416, + "learning_rate": 1.9271912803995827e-05, + "loss": 0.4025, + "step": 1226 + }, + { + "epoch": 0.409, + "grad_norm": 0.08649836480617523, + "learning_rate": 1.9256837911291455e-05, + "loss": 0.3955, + "step": 1227 + }, + { + "epoch": 0.4093333333333333, + "grad_norm": 0.09754025936126709, + "learning_rate": 1.9241758341092065e-05, + "loss": 0.3965, + "step": 1228 + }, + { + "epoch": 0.4096666666666667, + "grad_norm": 0.08942166715860367, + "learning_rate": 1.9226674109967383e-05, + "loss": 0.3944, + "step": 1229 + }, + { + "epoch": 0.41, + "grad_norm": 0.07631989568471909, + "learning_rate": 1.9211585234492245e-05, + "loss": 0.3832, + "step": 1230 + }, + { + "epoch": 0.4103333333333333, + "grad_norm": 0.11912316828966141, + "learning_rate": 1.9196491731246593e-05, + "loss": 0.3919, + "step": 1231 + }, + { + "epoch": 0.4106666666666667, + "grad_norm": 0.07888847589492798, + "learning_rate": 1.9181393616815467e-05, + "loss": 0.3985, + "step": 1232 + }, + { + "epoch": 0.411, + "grad_norm": 0.09189970791339874, + "learning_rate": 1.916629090778896e-05, + "loss": 0.3954, + "step": 1233 + }, + { + "epoch": 0.41133333333333333, + "grad_norm": 0.09143964946269989, + "learning_rate": 1.9151183620762214e-05, + "loss": 0.3942, + "step": 1234 + }, + { + "epoch": 0.4116666666666667, + "grad_norm": 0.2694031298160553, + "learning_rate": 1.9136071772335414e-05, + "loss": 0.3914, + "step": 1235 + }, + { + "epoch": 0.412, + "grad_norm": 0.08273480832576752, + "learning_rate": 1.912095537911375e-05, + "loss": 0.3829, + "step": 1236 + }, + { + "epoch": 0.41233333333333333, + "grad_norm": 0.13571184873580933, + "learning_rate": 1.9105834457707388e-05, + "loss": 0.397, + "step": 1237 + }, + { + "epoch": 0.4126666666666667, + "grad_norm": 0.0760810449719429, + "learning_rate": 1.9090709024731497e-05, + "loss": 0.3911, + "step": 1238 + }, + { + "epoch": 0.413, + "grad_norm": 0.14880076050758362, + "learning_rate": 1.9075579096806193e-05, + "loss": 0.3889, + "step": 1239 + }, + { + "epoch": 0.41333333333333333, + "grad_norm": 0.10175302624702454, + "learning_rate": 1.9060444690556524e-05, + "loss": 0.3891, + "step": 1240 + }, + { + "epoch": 0.4136666666666667, + "grad_norm": 0.09843520075082779, + "learning_rate": 1.9045305822612475e-05, + "loss": 0.3996, + "step": 1241 + }, + { + "epoch": 0.414, + "grad_norm": 0.13361984491348267, + "learning_rate": 1.9030162509608918e-05, + "loss": 0.3934, + "step": 1242 + }, + { + "epoch": 0.41433333333333333, + "grad_norm": 0.14264364540576935, + "learning_rate": 1.901501476818562e-05, + "loss": 0.3838, + "step": 1243 + }, + { + "epoch": 0.4146666666666667, + "grad_norm": 0.0860832929611206, + "learning_rate": 1.89998626149872e-05, + "loss": 0.3974, + "step": 1244 + }, + { + "epoch": 0.415, + "grad_norm": 0.07927248626947403, + "learning_rate": 1.8984706066663144e-05, + "loss": 0.3899, + "step": 1245 + }, + { + "epoch": 0.41533333333333333, + "grad_norm": 0.06865067034959793, + "learning_rate": 1.8969545139867757e-05, + "loss": 0.3891, + "step": 1246 + }, + { + "epoch": 0.4156666666666667, + "grad_norm": 0.06931287795305252, + "learning_rate": 1.8954379851260145e-05, + "loss": 0.3849, + "step": 1247 + }, + { + "epoch": 0.416, + "grad_norm": 0.0688989982008934, + "learning_rate": 1.893921021750423e-05, + "loss": 0.3816, + "step": 1248 + }, + { + "epoch": 0.41633333333333333, + "grad_norm": 0.06637155264616013, + "learning_rate": 1.892403625526869e-05, + "loss": 0.3825, + "step": 1249 + }, + { + "epoch": 0.4166666666666667, + "grad_norm": 0.08339284360408783, + "learning_rate": 1.8908857981226964e-05, + "loss": 0.3928, + "step": 1250 + }, + { + "epoch": 0.417, + "grad_norm": 0.0880589410662651, + "learning_rate": 1.8893675412057233e-05, + "loss": 0.3878, + "step": 1251 + }, + { + "epoch": 0.41733333333333333, + "grad_norm": 0.07774151861667633, + "learning_rate": 1.8878488564442396e-05, + "loss": 0.3978, + "step": 1252 + }, + { + "epoch": 0.4176666666666667, + "grad_norm": 0.13054326176643372, + "learning_rate": 1.886329745507005e-05, + "loss": 0.3826, + "step": 1253 + }, + { + "epoch": 0.418, + "grad_norm": 0.0948263630270958, + "learning_rate": 1.884810210063248e-05, + "loss": 0.3947, + "step": 1254 + }, + { + "epoch": 0.41833333333333333, + "grad_norm": 0.09414488077163696, + "learning_rate": 1.8832902517826626e-05, + "loss": 0.3973, + "step": 1255 + }, + { + "epoch": 0.4186666666666667, + "grad_norm": 0.09326168149709702, + "learning_rate": 1.881769872335408e-05, + "loss": 0.3869, + "step": 1256 + }, + { + "epoch": 0.419, + "grad_norm": 0.08871980011463165, + "learning_rate": 1.8802490733921073e-05, + "loss": 0.3953, + "step": 1257 + }, + { + "epoch": 0.41933333333333334, + "grad_norm": 0.08670683950185776, + "learning_rate": 1.8787278566238427e-05, + "loss": 0.3884, + "step": 1258 + }, + { + "epoch": 0.4196666666666667, + "grad_norm": 0.06800033152103424, + "learning_rate": 1.8772062237021566e-05, + "loss": 0.385, + "step": 1259 + }, + { + "epoch": 0.42, + "grad_norm": 0.0880570039153099, + "learning_rate": 1.875684176299048e-05, + "loss": 0.399, + "step": 1260 + }, + { + "epoch": 0.42033333333333334, + "grad_norm": 0.07300975173711777, + "learning_rate": 1.874161716086972e-05, + "loss": 0.3855, + "step": 1261 + }, + { + "epoch": 0.4206666666666667, + "grad_norm": 0.08715545386075974, + "learning_rate": 1.872638844738837e-05, + "loss": 0.3821, + "step": 1262 + }, + { + "epoch": 0.421, + "grad_norm": 0.33256086707115173, + "learning_rate": 1.871115563928004e-05, + "loss": 0.384, + "step": 1263 + }, + { + "epoch": 0.42133333333333334, + "grad_norm": 0.0997050404548645, + "learning_rate": 1.8695918753282816e-05, + "loss": 0.3867, + "step": 1264 + }, + { + "epoch": 0.4216666666666667, + "grad_norm": 0.07549349218606949, + "learning_rate": 1.868067780613929e-05, + "loss": 0.393, + "step": 1265 + }, + { + "epoch": 0.422, + "grad_norm": 0.0683009997010231, + "learning_rate": 1.8665432814596505e-05, + "loss": 0.3899, + "step": 1266 + }, + { + "epoch": 0.42233333333333334, + "grad_norm": 0.07953429967164993, + "learning_rate": 1.865018379540595e-05, + "loss": 0.3851, + "step": 1267 + }, + { + "epoch": 0.4226666666666667, + "grad_norm": 0.08106075972318649, + "learning_rate": 1.8634930765323537e-05, + "loss": 0.3856, + "step": 1268 + }, + { + "epoch": 0.423, + "grad_norm": 0.09918402880430222, + "learning_rate": 1.8619673741109587e-05, + "loss": 0.3892, + "step": 1269 + }, + { + "epoch": 0.42333333333333334, + "grad_norm": 0.07061031460762024, + "learning_rate": 1.8604412739528817e-05, + "loss": 0.3856, + "step": 1270 + }, + { + "epoch": 0.4236666666666667, + "grad_norm": 0.07177641242742538, + "learning_rate": 1.85891477773503e-05, + "loss": 0.3862, + "step": 1271 + }, + { + "epoch": 0.424, + "grad_norm": 0.13166557252407074, + "learning_rate": 1.8573878871347474e-05, + "loss": 0.3847, + "step": 1272 + }, + { + "epoch": 0.42433333333333334, + "grad_norm": 0.08196094632148743, + "learning_rate": 1.855860603829811e-05, + "loss": 0.4076, + "step": 1273 + }, + { + "epoch": 0.4246666666666667, + "grad_norm": 0.07605481147766113, + "learning_rate": 1.854332929498427e-05, + "loss": 0.3985, + "step": 1274 + }, + { + "epoch": 0.425, + "grad_norm": 0.07430890947580338, + "learning_rate": 1.8528048658192353e-05, + "loss": 0.3907, + "step": 1275 + }, + { + "epoch": 0.42533333333333334, + "grad_norm": 0.08660392463207245, + "learning_rate": 1.8512764144713006e-05, + "loss": 0.3805, + "step": 1276 + }, + { + "epoch": 0.4256666666666667, + "grad_norm": 0.08854813128709793, + "learning_rate": 1.849747577134114e-05, + "loss": 0.391, + "step": 1277 + }, + { + "epoch": 0.426, + "grad_norm": 0.0747266411781311, + "learning_rate": 1.8482183554875923e-05, + "loss": 0.3881, + "step": 1278 + }, + { + "epoch": 0.42633333333333334, + "grad_norm": 0.09584492444992065, + "learning_rate": 1.8466887512120733e-05, + "loss": 0.3968, + "step": 1279 + }, + { + "epoch": 0.4266666666666667, + "grad_norm": 0.0853409469127655, + "learning_rate": 1.845158765988315e-05, + "loss": 0.3844, + "step": 1280 + }, + { + "epoch": 0.427, + "grad_norm": 0.18080979585647583, + "learning_rate": 1.843628401497495e-05, + "loss": 0.3925, + "step": 1281 + }, + { + "epoch": 0.42733333333333334, + "grad_norm": 0.09565355628728867, + "learning_rate": 1.8420976594212067e-05, + "loss": 0.3909, + "step": 1282 + }, + { + "epoch": 0.42766666666666664, + "grad_norm": 0.08563031256198883, + "learning_rate": 1.8405665414414593e-05, + "loss": 0.3955, + "step": 1283 + }, + { + "epoch": 0.428, + "grad_norm": 0.07256192713975906, + "learning_rate": 1.8390350492406736e-05, + "loss": 0.3831, + "step": 1284 + }, + { + "epoch": 0.42833333333333334, + "grad_norm": 0.08017537742853165, + "learning_rate": 1.8375031845016837e-05, + "loss": 0.3869, + "step": 1285 + }, + { + "epoch": 0.42866666666666664, + "grad_norm": 0.09691718220710754, + "learning_rate": 1.835970948907731e-05, + "loss": 0.3921, + "step": 1286 + }, + { + "epoch": 0.429, + "grad_norm": 0.07629893720149994, + "learning_rate": 1.8344383441424658e-05, + "loss": 0.3809, + "step": 1287 + }, + { + "epoch": 0.42933333333333334, + "grad_norm": 0.09628855437040329, + "learning_rate": 1.8329053718899436e-05, + "loss": 0.4034, + "step": 1288 + }, + { + "epoch": 0.42966666666666664, + "grad_norm": 0.1438627988100052, + "learning_rate": 1.8313720338346235e-05, + "loss": 0.3857, + "step": 1289 + }, + { + "epoch": 0.43, + "grad_norm": 0.1447266936302185, + "learning_rate": 1.8298383316613666e-05, + "loss": 0.3879, + "step": 1290 + }, + { + "epoch": 0.43033333333333335, + "grad_norm": 0.08475913852453232, + "learning_rate": 1.8283042670554347e-05, + "loss": 0.3923, + "step": 1291 + }, + { + "epoch": 0.43066666666666664, + "grad_norm": 0.06412012130022049, + "learning_rate": 1.8267698417024866e-05, + "loss": 0.3835, + "step": 1292 + }, + { + "epoch": 0.431, + "grad_norm": 0.12510941922664642, + "learning_rate": 1.825235057288579e-05, + "loss": 0.399, + "step": 1293 + }, + { + "epoch": 0.43133333333333335, + "grad_norm": 0.07273551821708679, + "learning_rate": 1.8236999155001617e-05, + "loss": 0.3945, + "step": 1294 + }, + { + "epoch": 0.43166666666666664, + "grad_norm": 0.1523517519235611, + "learning_rate": 1.8221644180240787e-05, + "loss": 0.3884, + "step": 1295 + }, + { + "epoch": 0.432, + "grad_norm": 0.10677522420883179, + "learning_rate": 1.8206285665475634e-05, + "loss": 0.4064, + "step": 1296 + }, + { + "epoch": 0.43233333333333335, + "grad_norm": 0.08104746043682098, + "learning_rate": 1.8190923627582396e-05, + "loss": 0.3907, + "step": 1297 + }, + { + "epoch": 0.43266666666666664, + "grad_norm": 0.09623787552118301, + "learning_rate": 1.8175558083441162e-05, + "loss": 0.3977, + "step": 1298 + }, + { + "epoch": 0.433, + "grad_norm": 0.07333867251873016, + "learning_rate": 1.8160189049935895e-05, + "loss": 0.3979, + "step": 1299 + }, + { + "epoch": 0.43333333333333335, + "grad_norm": 0.14986005425453186, + "learning_rate": 1.814481654395438e-05, + "loss": 0.3945, + "step": 1300 + }, + { + "epoch": 0.43366666666666664, + "grad_norm": 0.09590572118759155, + "learning_rate": 1.812944058238823e-05, + "loss": 0.4011, + "step": 1301 + }, + { + "epoch": 0.434, + "grad_norm": 0.11223363131284714, + "learning_rate": 1.811406118213283e-05, + "loss": 0.3927, + "step": 1302 + }, + { + "epoch": 0.43433333333333335, + "grad_norm": 0.12607021629810333, + "learning_rate": 1.809867836008737e-05, + "loss": 0.3924, + "step": 1303 + }, + { + "epoch": 0.43466666666666665, + "grad_norm": 0.1548328995704651, + "learning_rate": 1.808329213315479e-05, + "loss": 0.4143, + "step": 1304 + }, + { + "epoch": 0.435, + "grad_norm": 0.08618252724409103, + "learning_rate": 1.8067902518241766e-05, + "loss": 0.393, + "step": 1305 + }, + { + "epoch": 0.43533333333333335, + "grad_norm": 0.07650744915008545, + "learning_rate": 1.80525095322587e-05, + "loss": 0.3997, + "step": 1306 + }, + { + "epoch": 0.43566666666666665, + "grad_norm": 0.22610335052013397, + "learning_rate": 1.8037113192119706e-05, + "loss": 0.3801, + "step": 1307 + }, + { + "epoch": 0.436, + "grad_norm": 0.0766909196972847, + "learning_rate": 1.8021713514742575e-05, + "loss": 0.3897, + "step": 1308 + }, + { + "epoch": 0.43633333333333335, + "grad_norm": 0.14783307909965515, + "learning_rate": 1.8006310517048774e-05, + "loss": 0.3879, + "step": 1309 + }, + { + "epoch": 0.43666666666666665, + "grad_norm": 0.29977864027023315, + "learning_rate": 1.7990904215963398e-05, + "loss": 0.4005, + "step": 1310 + }, + { + "epoch": 0.437, + "grad_norm": 0.08716636896133423, + "learning_rate": 1.7975494628415195e-05, + "loss": 0.3972, + "step": 1311 + }, + { + "epoch": 0.43733333333333335, + "grad_norm": 0.12498290836811066, + "learning_rate": 1.7960081771336512e-05, + "loss": 0.3995, + "step": 1312 + }, + { + "epoch": 0.43766666666666665, + "grad_norm": 0.1038796603679657, + "learning_rate": 1.7944665661663292e-05, + "loss": 0.387, + "step": 1313 + }, + { + "epoch": 0.438, + "grad_norm": 0.2213956117630005, + "learning_rate": 1.792924631633505e-05, + "loss": 0.4031, + "step": 1314 + }, + { + "epoch": 0.43833333333333335, + "grad_norm": 0.1281321793794632, + "learning_rate": 1.791382375229486e-05, + "loss": 0.3983, + "step": 1315 + }, + { + "epoch": 0.43866666666666665, + "grad_norm": 0.1635884791612625, + "learning_rate": 1.7898397986489332e-05, + "loss": 0.4035, + "step": 1316 + }, + { + "epoch": 0.439, + "grad_norm": 0.12013929337263107, + "learning_rate": 1.7882969035868593e-05, + "loss": 0.3886, + "step": 1317 + }, + { + "epoch": 0.43933333333333335, + "grad_norm": 0.09467470645904541, + "learning_rate": 1.7867536917386267e-05, + "loss": 0.4076, + "step": 1318 + }, + { + "epoch": 0.43966666666666665, + "grad_norm": 0.0993010401725769, + "learning_rate": 1.7852101647999464e-05, + "loss": 0.3955, + "step": 1319 + }, + { + "epoch": 0.44, + "grad_norm": 0.11124761402606964, + "learning_rate": 1.7836663244668747e-05, + "loss": 0.399, + "step": 1320 + }, + { + "epoch": 0.44033333333333335, + "grad_norm": 0.0959797129034996, + "learning_rate": 1.7821221724358133e-05, + "loss": 0.3942, + "step": 1321 + }, + { + "epoch": 0.44066666666666665, + "grad_norm": 0.08365540951490402, + "learning_rate": 1.7805777104035062e-05, + "loss": 0.4026, + "step": 1322 + }, + { + "epoch": 0.441, + "grad_norm": 0.11786701530218124, + "learning_rate": 1.779032940067038e-05, + "loss": 0.3931, + "step": 1323 + }, + { + "epoch": 0.44133333333333336, + "grad_norm": 0.3577548563480377, + "learning_rate": 1.777487863123832e-05, + "loss": 0.4186, + "step": 1324 + }, + { + "epoch": 0.44166666666666665, + "grad_norm": 0.12141890823841095, + "learning_rate": 1.7759424812716475e-05, + "loss": 0.4188, + "step": 1325 + }, + { + "epoch": 0.442, + "grad_norm": 0.09190542995929718, + "learning_rate": 1.77439679620858e-05, + "loss": 0.3856, + "step": 1326 + }, + { + "epoch": 0.44233333333333336, + "grad_norm": 0.20025382936000824, + "learning_rate": 1.7728508096330587e-05, + "loss": 0.4018, + "step": 1327 + }, + { + "epoch": 0.44266666666666665, + "grad_norm": 0.11125951260328293, + "learning_rate": 1.771304523243842e-05, + "loss": 0.4024, + "step": 1328 + }, + { + "epoch": 0.443, + "grad_norm": 0.18983201682567596, + "learning_rate": 1.76975793874002e-05, + "loss": 0.3977, + "step": 1329 + }, + { + "epoch": 0.44333333333333336, + "grad_norm": 0.11271662265062332, + "learning_rate": 1.7682110578210086e-05, + "loss": 0.4077, + "step": 1330 + }, + { + "epoch": 0.44366666666666665, + "grad_norm": 0.09551364183425903, + "learning_rate": 1.766663882186551e-05, + "loss": 0.402, + "step": 1331 + }, + { + "epoch": 0.444, + "grad_norm": 0.17096690833568573, + "learning_rate": 1.7651164135367127e-05, + "loss": 0.3909, + "step": 1332 + }, + { + "epoch": 0.44433333333333336, + "grad_norm": 0.07646861672401428, + "learning_rate": 1.763568653571882e-05, + "loss": 0.4026, + "step": 1333 + }, + { + "epoch": 0.44466666666666665, + "grad_norm": 0.08835890144109726, + "learning_rate": 1.7620206039927677e-05, + "loss": 0.3939, + "step": 1334 + }, + { + "epoch": 0.445, + "grad_norm": 0.14442117512226105, + "learning_rate": 1.760472266500396e-05, + "loss": 0.3865, + "step": 1335 + }, + { + "epoch": 0.44533333333333336, + "grad_norm": 0.16146233677864075, + "learning_rate": 1.7589236427961092e-05, + "loss": 0.4012, + "step": 1336 + }, + { + "epoch": 0.44566666666666666, + "grad_norm": 0.1466033011674881, + "learning_rate": 1.7573747345815657e-05, + "loss": 0.3878, + "step": 1337 + }, + { + "epoch": 0.446, + "grad_norm": 0.13334554433822632, + "learning_rate": 1.7558255435587348e-05, + "loss": 0.4011, + "step": 1338 + }, + { + "epoch": 0.44633333333333336, + "grad_norm": 0.1098080649971962, + "learning_rate": 1.7542760714298976e-05, + "loss": 0.4056, + "step": 1339 + }, + { + "epoch": 0.44666666666666666, + "grad_norm": 0.12046606093645096, + "learning_rate": 1.7527263198976435e-05, + "loss": 0.4009, + "step": 1340 + }, + { + "epoch": 0.447, + "grad_norm": 0.13703535497188568, + "learning_rate": 1.7511762906648695e-05, + "loss": 0.4152, + "step": 1341 + }, + { + "epoch": 0.44733333333333336, + "grad_norm": 0.19936688244342804, + "learning_rate": 1.7496259854347773e-05, + "loss": 0.3965, + "step": 1342 + }, + { + "epoch": 0.44766666666666666, + "grad_norm": 0.10971736162900925, + "learning_rate": 1.7480754059108715e-05, + "loss": 0.3956, + "step": 1343 + }, + { + "epoch": 0.448, + "grad_norm": 0.15427790582180023, + "learning_rate": 1.746524553796959e-05, + "loss": 0.4011, + "step": 1344 + }, + { + "epoch": 0.4483333333333333, + "grad_norm": 0.1631358414888382, + "learning_rate": 1.7449734307971462e-05, + "loss": 0.4035, + "step": 1345 + }, + { + "epoch": 0.44866666666666666, + "grad_norm": 0.22105121612548828, + "learning_rate": 1.7434220386158365e-05, + "loss": 0.4014, + "step": 1346 + }, + { + "epoch": 0.449, + "grad_norm": 0.1082887351512909, + "learning_rate": 1.7418703789577288e-05, + "loss": 0.3901, + "step": 1347 + }, + { + "epoch": 0.4493333333333333, + "grad_norm": 0.1595471203327179, + "learning_rate": 1.7403184535278167e-05, + "loss": 0.3933, + "step": 1348 + }, + { + "epoch": 0.44966666666666666, + "grad_norm": 0.1344825178384781, + "learning_rate": 1.7387662640313857e-05, + "loss": 0.387, + "step": 1349 + }, + { + "epoch": 0.45, + "grad_norm": 0.12301710247993469, + "learning_rate": 1.7372138121740115e-05, + "loss": 0.4079, + "step": 1350 + }, + { + "epoch": 0.4503333333333333, + "grad_norm": 0.1390131711959839, + "learning_rate": 1.7356610996615574e-05, + "loss": 0.4095, + "step": 1351 + }, + { + "epoch": 0.45066666666666666, + "grad_norm": 0.18015798926353455, + "learning_rate": 1.7341081282001744e-05, + "loss": 0.4127, + "step": 1352 + }, + { + "epoch": 0.451, + "grad_norm": 0.13142900168895721, + "learning_rate": 1.732554899496297e-05, + "loss": 0.3938, + "step": 1353 + }, + { + "epoch": 0.4513333333333333, + "grad_norm": 0.13197918236255646, + "learning_rate": 1.7310014152566423e-05, + "loss": 0.4103, + "step": 1354 + }, + { + "epoch": 0.45166666666666666, + "grad_norm": 0.11337435245513916, + "learning_rate": 1.7294476771882086e-05, + "loss": 0.3952, + "step": 1355 + }, + { + "epoch": 0.452, + "grad_norm": 0.12437447905540466, + "learning_rate": 1.727893686998274e-05, + "loss": 0.3912, + "step": 1356 + }, + { + "epoch": 0.4523333333333333, + "grad_norm": 0.18291231989860535, + "learning_rate": 1.726339446394391e-05, + "loss": 0.3881, + "step": 1357 + }, + { + "epoch": 0.45266666666666666, + "grad_norm": 0.202926367521286, + "learning_rate": 1.72478495708439e-05, + "loss": 0.3937, + "step": 1358 + }, + { + "epoch": 0.453, + "grad_norm": 0.14112457633018494, + "learning_rate": 1.7232302207763734e-05, + "loss": 0.3914, + "step": 1359 + }, + { + "epoch": 0.4533333333333333, + "grad_norm": 0.15368323028087616, + "learning_rate": 1.7216752391787158e-05, + "loss": 0.4043, + "step": 1360 + }, + { + "epoch": 0.45366666666666666, + "grad_norm": 0.11287616938352585, + "learning_rate": 1.7201200140000598e-05, + "loss": 0.4076, + "step": 1361 + }, + { + "epoch": 0.454, + "grad_norm": 0.150605246424675, + "learning_rate": 1.718564546949317e-05, + "loss": 0.4057, + "step": 1362 + }, + { + "epoch": 0.4543333333333333, + "grad_norm": 0.18264701962471008, + "learning_rate": 1.7170088397356648e-05, + "loss": 0.3893, + "step": 1363 + }, + { + "epoch": 0.45466666666666666, + "grad_norm": 0.1129564568400383, + "learning_rate": 1.7154528940685433e-05, + "loss": 0.3961, + "step": 1364 + }, + { + "epoch": 0.455, + "grad_norm": 0.15021106600761414, + "learning_rate": 1.7138967116576565e-05, + "loss": 0.3986, + "step": 1365 + }, + { + "epoch": 0.4553333333333333, + "grad_norm": 0.10364805161952972, + "learning_rate": 1.7123402942129663e-05, + "loss": 0.4217, + "step": 1366 + }, + { + "epoch": 0.45566666666666666, + "grad_norm": 0.12454470247030258, + "learning_rate": 1.7107836434446943e-05, + "loss": 0.4004, + "step": 1367 + }, + { + "epoch": 0.456, + "grad_norm": 0.14225070178508759, + "learning_rate": 1.7092267610633182e-05, + "loss": 0.4083, + "step": 1368 + }, + { + "epoch": 0.4563333333333333, + "grad_norm": 0.11907993257045746, + "learning_rate": 1.7076696487795708e-05, + "loss": 0.4053, + "step": 1369 + }, + { + "epoch": 0.45666666666666667, + "grad_norm": 0.10533799976110458, + "learning_rate": 1.706112308304436e-05, + "loss": 0.4021, + "step": 1370 + }, + { + "epoch": 0.457, + "grad_norm": 0.11694048345088959, + "learning_rate": 1.70455474134915e-05, + "loss": 0.3958, + "step": 1371 + }, + { + "epoch": 0.4573333333333333, + "grad_norm": 0.11180102825164795, + "learning_rate": 1.702996949625197e-05, + "loss": 0.4012, + "step": 1372 + }, + { + "epoch": 0.45766666666666667, + "grad_norm": 0.20632494986057281, + "learning_rate": 1.7014389348443077e-05, + "loss": 0.3954, + "step": 1373 + }, + { + "epoch": 0.458, + "grad_norm": 0.11916197836399078, + "learning_rate": 1.6998806987184598e-05, + "loss": 0.4036, + "step": 1374 + }, + { + "epoch": 0.4583333333333333, + "grad_norm": 0.20115572214126587, + "learning_rate": 1.6983222429598723e-05, + "loss": 0.4068, + "step": 1375 + }, + { + "epoch": 0.45866666666666667, + "grad_norm": 0.12367333471775055, + "learning_rate": 1.696763569281006e-05, + "loss": 0.4198, + "step": 1376 + }, + { + "epoch": 0.459, + "grad_norm": 0.21014368534088135, + "learning_rate": 1.6952046793945617e-05, + "loss": 0.3937, + "step": 1377 + }, + { + "epoch": 0.4593333333333333, + "grad_norm": 0.1273868978023529, + "learning_rate": 1.6936455750134777e-05, + "loss": 0.3971, + "step": 1378 + }, + { + "epoch": 0.45966666666666667, + "grad_norm": 0.1232411190867424, + "learning_rate": 1.692086257850927e-05, + "loss": 0.4029, + "step": 1379 + }, + { + "epoch": 0.46, + "grad_norm": 0.10556524991989136, + "learning_rate": 1.6905267296203182e-05, + "loss": 0.4053, + "step": 1380 + }, + { + "epoch": 0.4603333333333333, + "grad_norm": 0.1476040631532669, + "learning_rate": 1.68896699203529e-05, + "loss": 0.4093, + "step": 1381 + }, + { + "epoch": 0.46066666666666667, + "grad_norm": 0.12860190868377686, + "learning_rate": 1.6874070468097125e-05, + "loss": 0.3951, + "step": 1382 + }, + { + "epoch": 0.461, + "grad_norm": 0.23625850677490234, + "learning_rate": 1.685846895657683e-05, + "loss": 0.3963, + "step": 1383 + }, + { + "epoch": 0.4613333333333333, + "grad_norm": 0.12820041179656982, + "learning_rate": 1.6842865402935252e-05, + "loss": 0.4098, + "step": 1384 + }, + { + "epoch": 0.46166666666666667, + "grad_norm": 0.26058322191238403, + "learning_rate": 1.682725982431788e-05, + "loss": 0.4126, + "step": 1385 + }, + { + "epoch": 0.462, + "grad_norm": 0.12617254257202148, + "learning_rate": 1.6811652237872417e-05, + "loss": 0.4223, + "step": 1386 + }, + { + "epoch": 0.4623333333333333, + "grad_norm": 0.15049412846565247, + "learning_rate": 1.6796042660748787e-05, + "loss": 0.4072, + "step": 1387 + }, + { + "epoch": 0.46266666666666667, + "grad_norm": 0.15001720190048218, + "learning_rate": 1.678043111009908e-05, + "loss": 0.4197, + "step": 1388 + }, + { + "epoch": 0.463, + "grad_norm": 0.09669163823127747, + "learning_rate": 1.6764817603077578e-05, + "loss": 0.3917, + "step": 1389 + }, + { + "epoch": 0.4633333333333333, + "grad_norm": 0.1566540002822876, + "learning_rate": 1.6749202156840694e-05, + "loss": 0.4171, + "step": 1390 + }, + { + "epoch": 0.46366666666666667, + "grad_norm": 0.16118958592414856, + "learning_rate": 1.6733584788546987e-05, + "loss": 0.4181, + "step": 1391 + }, + { + "epoch": 0.464, + "grad_norm": 0.15210892260074615, + "learning_rate": 1.6717965515357118e-05, + "loss": 0.4117, + "step": 1392 + }, + { + "epoch": 0.4643333333333333, + "grad_norm": 0.12752756476402283, + "learning_rate": 1.6702344354433833e-05, + "loss": 0.4155, + "step": 1393 + }, + { + "epoch": 0.4646666666666667, + "grad_norm": 0.3127383589744568, + "learning_rate": 1.668672132294198e-05, + "loss": 0.398, + "step": 1394 + }, + { + "epoch": 0.465, + "grad_norm": 0.09421467036008835, + "learning_rate": 1.6671096438048424e-05, + "loss": 0.4056, + "step": 1395 + }, + { + "epoch": 0.4653333333333333, + "grad_norm": 0.13256895542144775, + "learning_rate": 1.6655469716922105e-05, + "loss": 0.4306, + "step": 1396 + }, + { + "epoch": 0.4656666666666667, + "grad_norm": 0.11943450570106506, + "learning_rate": 1.663984117673396e-05, + "loss": 0.3997, + "step": 1397 + }, + { + "epoch": 0.466, + "grad_norm": 0.19050586223602295, + "learning_rate": 1.662421083465693e-05, + "loss": 0.4156, + "step": 1398 + }, + { + "epoch": 0.4663333333333333, + "grad_norm": 0.15429037809371948, + "learning_rate": 1.6608578707865924e-05, + "loss": 0.3867, + "step": 1399 + }, + { + "epoch": 0.4666666666666667, + "grad_norm": 0.10755494982004166, + "learning_rate": 1.6592944813537834e-05, + "loss": 0.4021, + "step": 1400 + }, + { + "epoch": 0.467, + "grad_norm": 0.14572648704051971, + "learning_rate": 1.6577309168851474e-05, + "loss": 0.4104, + "step": 1401 + }, + { + "epoch": 0.4673333333333333, + "grad_norm": 0.11015962809324265, + "learning_rate": 1.6561671790987598e-05, + "loss": 0.4148, + "step": 1402 + }, + { + "epoch": 0.4676666666666667, + "grad_norm": 0.17617906630039215, + "learning_rate": 1.654603269712885e-05, + "loss": 0.3892, + "step": 1403 + }, + { + "epoch": 0.468, + "grad_norm": 0.12850865721702576, + "learning_rate": 1.6530391904459764e-05, + "loss": 0.4154, + "step": 1404 + }, + { + "epoch": 0.4683333333333333, + "grad_norm": 0.12336891889572144, + "learning_rate": 1.6514749430166746e-05, + "loss": 0.391, + "step": 1405 + }, + { + "epoch": 0.4686666666666667, + "grad_norm": 0.13786128163337708, + "learning_rate": 1.649910529143805e-05, + "loss": 0.3969, + "step": 1406 + }, + { + "epoch": 0.469, + "grad_norm": 0.11889367550611496, + "learning_rate": 1.648345950546375e-05, + "loss": 0.3984, + "step": 1407 + }, + { + "epoch": 0.4693333333333333, + "grad_norm": 0.1824120432138443, + "learning_rate": 1.6467812089435733e-05, + "loss": 0.4201, + "step": 1408 + }, + { + "epoch": 0.4696666666666667, + "grad_norm": 0.1324736773967743, + "learning_rate": 1.6452163060547687e-05, + "loss": 0.383, + "step": 1409 + }, + { + "epoch": 0.47, + "grad_norm": 0.16101354360580444, + "learning_rate": 1.643651243599506e-05, + "loss": 0.4142, + "step": 1410 + }, + { + "epoch": 0.4703333333333333, + "grad_norm": 0.11105132102966309, + "learning_rate": 1.642086023297506e-05, + "loss": 0.4105, + "step": 1411 + }, + { + "epoch": 0.4706666666666667, + "grad_norm": 0.13480591773986816, + "learning_rate": 1.6405206468686623e-05, + "loss": 0.4049, + "step": 1412 + }, + { + "epoch": 0.471, + "grad_norm": 0.13494586944580078, + "learning_rate": 1.6389551160330414e-05, + "loss": 0.3988, + "step": 1413 + }, + { + "epoch": 0.4713333333333333, + "grad_norm": 0.1324906200170517, + "learning_rate": 1.6373894325108775e-05, + "loss": 0.4187, + "step": 1414 + }, + { + "epoch": 0.4716666666666667, + "grad_norm": 0.1638818085193634, + "learning_rate": 1.6358235980225742e-05, + "loss": 0.4071, + "step": 1415 + }, + { + "epoch": 0.472, + "grad_norm": 0.14069747924804688, + "learning_rate": 1.6342576142887e-05, + "loss": 0.4148, + "step": 1416 + }, + { + "epoch": 0.4723333333333333, + "grad_norm": 0.1294422447681427, + "learning_rate": 1.6326914830299882e-05, + "loss": 0.4012, + "step": 1417 + }, + { + "epoch": 0.4726666666666667, + "grad_norm": 0.1625107228755951, + "learning_rate": 1.631125205967334e-05, + "loss": 0.4215, + "step": 1418 + }, + { + "epoch": 0.473, + "grad_norm": 0.09515418857336044, + "learning_rate": 1.6295587848217927e-05, + "loss": 0.4231, + "step": 1419 + }, + { + "epoch": 0.47333333333333333, + "grad_norm": 0.12203451991081238, + "learning_rate": 1.6279922213145775e-05, + "loss": 0.4061, + "step": 1420 + }, + { + "epoch": 0.4736666666666667, + "grad_norm": 0.15508030354976654, + "learning_rate": 1.6264255171670583e-05, + "loss": 0.398, + "step": 1421 + }, + { + "epoch": 0.474, + "grad_norm": 0.14531497657299042, + "learning_rate": 1.6248586741007594e-05, + "loss": 0.4045, + "step": 1422 + }, + { + "epoch": 0.47433333333333333, + "grad_norm": 0.1257476955652237, + "learning_rate": 1.6232916938373588e-05, + "loss": 0.3936, + "step": 1423 + }, + { + "epoch": 0.4746666666666667, + "grad_norm": 0.22386384010314941, + "learning_rate": 1.621724578098683e-05, + "loss": 0.395, + "step": 1424 + }, + { + "epoch": 0.475, + "grad_norm": 0.14373908936977386, + "learning_rate": 1.6201573286067106e-05, + "loss": 0.429, + "step": 1425 + }, + { + "epoch": 0.47533333333333333, + "grad_norm": 0.182508185505867, + "learning_rate": 1.6185899470835645e-05, + "loss": 0.4331, + "step": 1426 + }, + { + "epoch": 0.4756666666666667, + "grad_norm": 0.09533011168241501, + "learning_rate": 1.617022435251513e-05, + "loss": 0.389, + "step": 1427 + }, + { + "epoch": 0.476, + "grad_norm": 0.18885669112205505, + "learning_rate": 1.615454794832969e-05, + "loss": 0.411, + "step": 1428 + }, + { + "epoch": 0.47633333333333333, + "grad_norm": 0.13814935088157654, + "learning_rate": 1.613887027550486e-05, + "loss": 0.4098, + "step": 1429 + }, + { + "epoch": 0.4766666666666667, + "grad_norm": 0.11529996991157532, + "learning_rate": 1.6123191351267555e-05, + "loss": 0.3917, + "step": 1430 + }, + { + "epoch": 0.477, + "grad_norm": 0.13460268080234528, + "learning_rate": 1.6107511192846083e-05, + "loss": 0.395, + "step": 1431 + }, + { + "epoch": 0.47733333333333333, + "grad_norm": 0.15151165425777435, + "learning_rate": 1.60918298174701e-05, + "loss": 0.4064, + "step": 1432 + }, + { + "epoch": 0.4776666666666667, + "grad_norm": 0.11129703372716904, + "learning_rate": 1.6076147242370613e-05, + "loss": 0.4122, + "step": 1433 + }, + { + "epoch": 0.478, + "grad_norm": 0.10926714539527893, + "learning_rate": 1.606046348477992e-05, + "loss": 0.4248, + "step": 1434 + }, + { + "epoch": 0.47833333333333333, + "grad_norm": 0.1314486712217331, + "learning_rate": 1.6044778561931648e-05, + "loss": 0.3885, + "step": 1435 + }, + { + "epoch": 0.4786666666666667, + "grad_norm": 0.10373717546463013, + "learning_rate": 1.602909249106068e-05, + "loss": 0.4304, + "step": 1436 + }, + { + "epoch": 0.479, + "grad_norm": 0.1049436703324318, + "learning_rate": 1.6013405289403177e-05, + "loss": 0.4027, + "step": 1437 + }, + { + "epoch": 0.47933333333333333, + "grad_norm": 0.13591954112052917, + "learning_rate": 1.5997716974196535e-05, + "loss": 0.4082, + "step": 1438 + }, + { + "epoch": 0.4796666666666667, + "grad_norm": 0.14216141402721405, + "learning_rate": 1.5982027562679373e-05, + "loss": 0.4098, + "step": 1439 + }, + { + "epoch": 0.48, + "grad_norm": 0.12853115797042847, + "learning_rate": 1.5966337072091524e-05, + "loss": 0.4399, + "step": 1440 + }, + { + "epoch": 0.48033333333333333, + "grad_norm": 0.14561453461647034, + "learning_rate": 1.595064551967399e-05, + "loss": 0.4252, + "step": 1441 + }, + { + "epoch": 0.4806666666666667, + "grad_norm": 0.1549253612756729, + "learning_rate": 1.593495292266896e-05, + "loss": 0.4093, + "step": 1442 + }, + { + "epoch": 0.481, + "grad_norm": 0.11880400031805038, + "learning_rate": 1.5919259298319745e-05, + "loss": 0.4125, + "step": 1443 + }, + { + "epoch": 0.48133333333333334, + "grad_norm": 0.17918922007083893, + "learning_rate": 1.5903564663870817e-05, + "loss": 0.3922, + "step": 1444 + }, + { + "epoch": 0.4816666666666667, + "grad_norm": 0.20739828050136566, + "learning_rate": 1.5887869036567726e-05, + "loss": 0.3934, + "step": 1445 + }, + { + "epoch": 0.482, + "grad_norm": 0.12215067446231842, + "learning_rate": 1.587217243365714e-05, + "loss": 0.4171, + "step": 1446 + }, + { + "epoch": 0.48233333333333334, + "grad_norm": 0.1140151247382164, + "learning_rate": 1.585647487238678e-05, + "loss": 0.417, + "step": 1447 + }, + { + "epoch": 0.4826666666666667, + "grad_norm": 0.12007586658000946, + "learning_rate": 1.5840776370005425e-05, + "loss": 0.4274, + "step": 1448 + }, + { + "epoch": 0.483, + "grad_norm": 0.21886271238327026, + "learning_rate": 1.5825076943762897e-05, + "loss": 0.4007, + "step": 1449 + }, + { + "epoch": 0.48333333333333334, + "grad_norm": 0.16618141531944275, + "learning_rate": 1.5809376610910024e-05, + "loss": 0.3985, + "step": 1450 + }, + { + "epoch": 0.4836666666666667, + "grad_norm": 0.14589448273181915, + "learning_rate": 1.5793675388698628e-05, + "loss": 0.4285, + "step": 1451 + }, + { + "epoch": 0.484, + "grad_norm": 0.17436283826828003, + "learning_rate": 1.5777973294381517e-05, + "loss": 0.437, + "step": 1452 + }, + { + "epoch": 0.48433333333333334, + "grad_norm": 0.2890316843986511, + "learning_rate": 1.5762270345212453e-05, + "loss": 0.4032, + "step": 1453 + }, + { + "epoch": 0.4846666666666667, + "grad_norm": 0.3288451135158539, + "learning_rate": 1.5746566558446128e-05, + "loss": 0.434, + "step": 1454 + }, + { + "epoch": 0.485, + "grad_norm": 0.3091217279434204, + "learning_rate": 1.5730861951338182e-05, + "loss": 0.4013, + "step": 1455 + }, + { + "epoch": 0.48533333333333334, + "grad_norm": 0.14289318025112152, + "learning_rate": 1.571515654114513e-05, + "loss": 0.4299, + "step": 1456 + }, + { + "epoch": 0.4856666666666667, + "grad_norm": 0.15575061738491058, + "learning_rate": 1.5699450345124365e-05, + "loss": 0.391, + "step": 1457 + }, + { + "epoch": 0.486, + "grad_norm": 0.15660011768341064, + "learning_rate": 1.568374338053417e-05, + "loss": 0.4224, + "step": 1458 + }, + { + "epoch": 0.48633333333333334, + "grad_norm": 0.13337193429470062, + "learning_rate": 1.5668035664633657e-05, + "loss": 0.416, + "step": 1459 + }, + { + "epoch": 0.4866666666666667, + "grad_norm": 0.1275089830160141, + "learning_rate": 1.565232721468276e-05, + "loss": 0.3873, + "step": 1460 + }, + { + "epoch": 0.487, + "grad_norm": 0.12245573848485947, + "learning_rate": 1.5636618047942225e-05, + "loss": 0.3978, + "step": 1461 + }, + { + "epoch": 0.48733333333333334, + "grad_norm": 0.14685821533203125, + "learning_rate": 1.5620908181673588e-05, + "loss": 0.4022, + "step": 1462 + }, + { + "epoch": 0.4876666666666667, + "grad_norm": 0.12389673292636871, + "learning_rate": 1.5605197633139153e-05, + "loss": 0.4042, + "step": 1463 + }, + { + "epoch": 0.488, + "grad_norm": 0.14142712950706482, + "learning_rate": 1.558948641960197e-05, + "loss": 0.4173, + "step": 1464 + }, + { + "epoch": 0.48833333333333334, + "grad_norm": 0.10775840282440186, + "learning_rate": 1.557377455832582e-05, + "loss": 0.4127, + "step": 1465 + }, + { + "epoch": 0.4886666666666667, + "grad_norm": 0.09976796805858612, + "learning_rate": 1.55580620665752e-05, + "loss": 0.3981, + "step": 1466 + }, + { + "epoch": 0.489, + "grad_norm": 0.16972969472408295, + "learning_rate": 1.554234896161529e-05, + "loss": 0.3918, + "step": 1467 + }, + { + "epoch": 0.48933333333333334, + "grad_norm": 0.11004693061113358, + "learning_rate": 1.5526635260711954e-05, + "loss": 0.421, + "step": 1468 + }, + { + "epoch": 0.48966666666666664, + "grad_norm": 0.1271660029888153, + "learning_rate": 1.5510920981131706e-05, + "loss": 0.3843, + "step": 1469 + }, + { + "epoch": 0.49, + "grad_norm": 0.15842384099960327, + "learning_rate": 1.5495206140141703e-05, + "loss": 0.4084, + "step": 1470 + }, + { + "epoch": 0.49033333333333334, + "grad_norm": 0.12457161396741867, + "learning_rate": 1.547949075500971e-05, + "loss": 0.4276, + "step": 1471 + }, + { + "epoch": 0.49066666666666664, + "grad_norm": 0.12086895108222961, + "learning_rate": 1.5463774843004094e-05, + "loss": 0.3964, + "step": 1472 + }, + { + "epoch": 0.491, + "grad_norm": 0.1318652331829071, + "learning_rate": 1.5448058421393796e-05, + "loss": 0.4154, + "step": 1473 + }, + { + "epoch": 0.49133333333333334, + "grad_norm": 0.35126161575317383, + "learning_rate": 1.543234150744833e-05, + "loss": 0.4243, + "step": 1474 + }, + { + "epoch": 0.49166666666666664, + "grad_norm": 0.19002766907215118, + "learning_rate": 1.5416624118437737e-05, + "loss": 0.4158, + "step": 1475 + }, + { + "epoch": 0.492, + "grad_norm": 0.14946207404136658, + "learning_rate": 1.5400906271632573e-05, + "loss": 0.3803, + "step": 1476 + }, + { + "epoch": 0.49233333333333335, + "grad_norm": 0.11075470596551895, + "learning_rate": 1.5385187984303927e-05, + "loss": 0.4101, + "step": 1477 + }, + { + "epoch": 0.49266666666666664, + "grad_norm": 0.1933182030916214, + "learning_rate": 1.5369469273723346e-05, + "loss": 0.4058, + "step": 1478 + }, + { + "epoch": 0.493, + "grad_norm": 0.11623676866292953, + "learning_rate": 1.5353750157162855e-05, + "loss": 0.3979, + "step": 1479 + }, + { + "epoch": 0.49333333333333335, + "grad_norm": 0.08018264174461365, + "learning_rate": 1.5338030651894916e-05, + "loss": 0.4242, + "step": 1480 + }, + { + "epoch": 0.49366666666666664, + "grad_norm": 0.09631709009408951, + "learning_rate": 1.5322310775192422e-05, + "loss": 0.3943, + "step": 1481 + }, + { + "epoch": 0.494, + "grad_norm": 0.19250094890594482, + "learning_rate": 1.5306590544328674e-05, + "loss": 0.414, + "step": 1482 + }, + { + "epoch": 0.49433333333333335, + "grad_norm": 0.14607667922973633, + "learning_rate": 1.5290869976577365e-05, + "loss": 0.3978, + "step": 1483 + }, + { + "epoch": 0.49466666666666664, + "grad_norm": 0.3501090109348297, + "learning_rate": 1.527514908921256e-05, + "loss": 0.4007, + "step": 1484 + }, + { + "epoch": 0.495, + "grad_norm": 0.1069198027253151, + "learning_rate": 1.525942789950866e-05, + "loss": 0.4255, + "step": 1485 + }, + { + "epoch": 0.49533333333333335, + "grad_norm": 0.13731446862220764, + "learning_rate": 1.5243706424740422e-05, + "loss": 0.3957, + "step": 1486 + }, + { + "epoch": 0.49566666666666664, + "grad_norm": 0.1327466368675232, + "learning_rate": 1.5227984682182894e-05, + "loss": 0.411, + "step": 1487 + }, + { + "epoch": 0.496, + "grad_norm": 0.10991028696298599, + "learning_rate": 1.5212262689111433e-05, + "loss": 0.4139, + "step": 1488 + }, + { + "epoch": 0.49633333333333335, + "grad_norm": 0.16393546760082245, + "learning_rate": 1.5196540462801664e-05, + "loss": 0.4248, + "step": 1489 + }, + { + "epoch": 0.49666666666666665, + "grad_norm": 0.1945236623287201, + "learning_rate": 1.5180818020529471e-05, + "loss": 0.4157, + "step": 1490 + }, + { + "epoch": 0.497, + "grad_norm": 0.10080232471227646, + "learning_rate": 1.516509537957097e-05, + "loss": 0.3901, + "step": 1491 + }, + { + "epoch": 0.49733333333333335, + "grad_norm": 0.15036848187446594, + "learning_rate": 1.5149372557202509e-05, + "loss": 0.3875, + "step": 1492 + }, + { + "epoch": 0.49766666666666665, + "grad_norm": 0.12603254616260529, + "learning_rate": 1.5133649570700621e-05, + "loss": 0.4163, + "step": 1493 + }, + { + "epoch": 0.498, + "grad_norm": 0.14271917939186096, + "learning_rate": 1.5117926437342026e-05, + "loss": 0.425, + "step": 1494 + }, + { + "epoch": 0.49833333333333335, + "grad_norm": 0.16890709102153778, + "learning_rate": 1.51022031744036e-05, + "loss": 0.4148, + "step": 1495 + }, + { + "epoch": 0.49866666666666665, + "grad_norm": 0.17484191060066223, + "learning_rate": 1.5086479799162372e-05, + "loss": 0.4188, + "step": 1496 + }, + { + "epoch": 0.499, + "grad_norm": 0.1586344838142395, + "learning_rate": 1.5070756328895485e-05, + "loss": 0.422, + "step": 1497 + }, + { + "epoch": 0.49933333333333335, + "grad_norm": 0.13924749195575714, + "learning_rate": 1.505503278088018e-05, + "loss": 0.4133, + "step": 1498 + }, + { + "epoch": 0.49966666666666665, + "grad_norm": 0.147207111120224, + "learning_rate": 1.5039309172393812e-05, + "loss": 0.4006, + "step": 1499 + }, + { + "epoch": 0.5, + "grad_norm": 0.14246512949466705, + "learning_rate": 1.5023585520713769e-05, + "loss": 0.4198, + "step": 1500 + }, + { + "epoch": 0.5003333333333333, + "grad_norm": 0.18183016777038574, + "learning_rate": 1.5007861843117506e-05, + "loss": 0.4192, + "step": 1501 + }, + { + "epoch": 0.5006666666666667, + "grad_norm": 0.13746844232082367, + "learning_rate": 1.4992138156882495e-05, + "loss": 0.4076, + "step": 1502 + }, + { + "epoch": 0.501, + "grad_norm": 0.1033945232629776, + "learning_rate": 1.497641447928623e-05, + "loss": 0.4041, + "step": 1503 + }, + { + "epoch": 0.5013333333333333, + "grad_norm": 0.1279228776693344, + "learning_rate": 1.4960690827606189e-05, + "loss": 0.4096, + "step": 1504 + }, + { + "epoch": 0.5016666666666667, + "grad_norm": 0.1267336905002594, + "learning_rate": 1.4944967219119817e-05, + "loss": 0.4004, + "step": 1505 + }, + { + "epoch": 0.502, + "grad_norm": 0.22218924760818481, + "learning_rate": 1.492924367110452e-05, + "loss": 0.3935, + "step": 1506 + }, + { + "epoch": 0.5023333333333333, + "grad_norm": 0.14732174575328827, + "learning_rate": 1.4913520200837631e-05, + "loss": 0.4167, + "step": 1507 + }, + { + "epoch": 0.5026666666666667, + "grad_norm": 0.11853842437267303, + "learning_rate": 1.48977968255964e-05, + "loss": 0.4031, + "step": 1508 + }, + { + "epoch": 0.503, + "grad_norm": 0.10440696030855179, + "learning_rate": 1.4882073562657977e-05, + "loss": 0.4247, + "step": 1509 + }, + { + "epoch": 0.5033333333333333, + "grad_norm": 0.16233743727207184, + "learning_rate": 1.486635042929938e-05, + "loss": 0.4276, + "step": 1510 + }, + { + "epoch": 0.5036666666666667, + "grad_norm": 0.2145102471113205, + "learning_rate": 1.4850627442797492e-05, + "loss": 0.4148, + "step": 1511 + }, + { + "epoch": 0.504, + "grad_norm": 0.27408620715141296, + "learning_rate": 1.4834904620429033e-05, + "loss": 0.4248, + "step": 1512 + }, + { + "epoch": 0.5043333333333333, + "grad_norm": 0.10076998174190521, + "learning_rate": 1.4819181979470536e-05, + "loss": 0.4191, + "step": 1513 + }, + { + "epoch": 0.5046666666666667, + "grad_norm": 0.13493318855762482, + "learning_rate": 1.4803459537198342e-05, + "loss": 0.4158, + "step": 1514 + }, + { + "epoch": 0.505, + "grad_norm": 0.13589276373386383, + "learning_rate": 1.4787737310888571e-05, + "loss": 0.4388, + "step": 1515 + }, + { + "epoch": 0.5053333333333333, + "grad_norm": 0.25959333777427673, + "learning_rate": 1.477201531781711e-05, + "loss": 0.417, + "step": 1516 + }, + { + "epoch": 0.5056666666666667, + "grad_norm": 0.18174301087856293, + "learning_rate": 1.4756293575259577e-05, + "loss": 0.432, + "step": 1517 + }, + { + "epoch": 0.506, + "grad_norm": 0.1515473574399948, + "learning_rate": 1.4740572100491336e-05, + "loss": 0.4514, + "step": 1518 + }, + { + "epoch": 0.5063333333333333, + "grad_norm": 0.16129618883132935, + "learning_rate": 1.4724850910787444e-05, + "loss": 0.4113, + "step": 1519 + }, + { + "epoch": 0.5066666666666667, + "grad_norm": 0.135826975107193, + "learning_rate": 1.4709130023422636e-05, + "loss": 0.436, + "step": 1520 + }, + { + "epoch": 0.507, + "grad_norm": 0.16651684045791626, + "learning_rate": 1.4693409455671329e-05, + "loss": 0.4315, + "step": 1521 + }, + { + "epoch": 0.5073333333333333, + "grad_norm": 0.14542430639266968, + "learning_rate": 1.4677689224807582e-05, + "loss": 0.4321, + "step": 1522 + }, + { + "epoch": 0.5076666666666667, + "grad_norm": 0.2060871720314026, + "learning_rate": 1.466196934810509e-05, + "loss": 0.4421, + "step": 1523 + }, + { + "epoch": 0.508, + "grad_norm": 0.1499873846769333, + "learning_rate": 1.4646249842837149e-05, + "loss": 0.4141, + "step": 1524 + }, + { + "epoch": 0.5083333333333333, + "grad_norm": 0.13032309710979462, + "learning_rate": 1.4630530726276654e-05, + "loss": 0.4245, + "step": 1525 + }, + { + "epoch": 0.5086666666666667, + "grad_norm": 0.15322183072566986, + "learning_rate": 1.4614812015696075e-05, + "loss": 0.4242, + "step": 1526 + }, + { + "epoch": 0.509, + "grad_norm": 0.10694827884435654, + "learning_rate": 1.459909372836743e-05, + "loss": 0.4136, + "step": 1527 + }, + { + "epoch": 0.5093333333333333, + "grad_norm": 0.1423022300004959, + "learning_rate": 1.4583375881562272e-05, + "loss": 0.4297, + "step": 1528 + }, + { + "epoch": 0.5096666666666667, + "grad_norm": 0.3229556977748871, + "learning_rate": 1.4567658492551674e-05, + "loss": 0.4194, + "step": 1529 + }, + { + "epoch": 0.51, + "grad_norm": 0.17278243601322174, + "learning_rate": 1.4551941578606205e-05, + "loss": 0.4208, + "step": 1530 + }, + { + "epoch": 0.5103333333333333, + "grad_norm": 0.13713674247264862, + "learning_rate": 1.4536225156995913e-05, + "loss": 0.4392, + "step": 1531 + }, + { + "epoch": 0.5106666666666667, + "grad_norm": 0.1435316503047943, + "learning_rate": 1.4520509244990288e-05, + "loss": 0.4478, + "step": 1532 + }, + { + "epoch": 0.511, + "grad_norm": 0.21230216324329376, + "learning_rate": 1.4504793859858295e-05, + "loss": 0.4186, + "step": 1533 + }, + { + "epoch": 0.5113333333333333, + "grad_norm": 0.13237504661083221, + "learning_rate": 1.4489079018868293e-05, + "loss": 0.4385, + "step": 1534 + }, + { + "epoch": 0.5116666666666667, + "grad_norm": 0.13295085728168488, + "learning_rate": 1.447336473928805e-05, + "loss": 0.4445, + "step": 1535 + }, + { + "epoch": 0.512, + "grad_norm": 0.26337000727653503, + "learning_rate": 1.4457651038384714e-05, + "loss": 0.4197, + "step": 1536 + }, + { + "epoch": 0.5123333333333333, + "grad_norm": 0.14921258389949799, + "learning_rate": 1.4441937933424805e-05, + "loss": 0.4368, + "step": 1537 + }, + { + "epoch": 0.5126666666666667, + "grad_norm": 0.12646102905273438, + "learning_rate": 1.4426225441674181e-05, + "loss": 0.4162, + "step": 1538 + }, + { + "epoch": 0.513, + "grad_norm": 0.13705869019031525, + "learning_rate": 1.4410513580398034e-05, + "loss": 0.4327, + "step": 1539 + }, + { + "epoch": 0.5133333333333333, + "grad_norm": 0.12781678140163422, + "learning_rate": 1.4394802366860847e-05, + "loss": 0.4373, + "step": 1540 + }, + { + "epoch": 0.5136666666666667, + "grad_norm": 0.13693149387836456, + "learning_rate": 1.4379091818326414e-05, + "loss": 0.4317, + "step": 1541 + }, + { + "epoch": 0.514, + "grad_norm": 0.21739083528518677, + "learning_rate": 1.4363381952057779e-05, + "loss": 0.4116, + "step": 1542 + }, + { + "epoch": 0.5143333333333333, + "grad_norm": 0.13123472034931183, + "learning_rate": 1.4347672785317246e-05, + "loss": 0.4298, + "step": 1543 + }, + { + "epoch": 0.5146666666666667, + "grad_norm": 0.16110458970069885, + "learning_rate": 1.4331964335366349e-05, + "loss": 0.4109, + "step": 1544 + }, + { + "epoch": 0.515, + "grad_norm": 0.22793282568454742, + "learning_rate": 1.4316256619465835e-05, + "loss": 0.4282, + "step": 1545 + }, + { + "epoch": 0.5153333333333333, + "grad_norm": 0.09469234943389893, + "learning_rate": 1.4300549654875638e-05, + "loss": 0.4132, + "step": 1546 + }, + { + "epoch": 0.5156666666666667, + "grad_norm": 0.19331270456314087, + "learning_rate": 1.4284843458854876e-05, + "loss": 0.4373, + "step": 1547 + }, + { + "epoch": 0.516, + "grad_norm": 0.18292807042598724, + "learning_rate": 1.4269138048661818e-05, + "loss": 0.4233, + "step": 1548 + }, + { + "epoch": 0.5163333333333333, + "grad_norm": 0.18188177049160004, + "learning_rate": 1.4253433441553867e-05, + "loss": 0.425, + "step": 1549 + }, + { + "epoch": 0.5166666666666667, + "grad_norm": 0.20500248670578003, + "learning_rate": 1.423772965478755e-05, + "loss": 0.4324, + "step": 1550 + }, + { + "epoch": 0.517, + "grad_norm": 0.13423563539981842, + "learning_rate": 1.4222026705618484e-05, + "loss": 0.455, + "step": 1551 + }, + { + "epoch": 0.5173333333333333, + "grad_norm": 0.16279727220535278, + "learning_rate": 1.4206324611301373e-05, + "loss": 0.4253, + "step": 1552 + }, + { + "epoch": 0.5176666666666667, + "grad_norm": 0.1534702330827713, + "learning_rate": 1.419062338908998e-05, + "loss": 0.4362, + "step": 1553 + }, + { + "epoch": 0.518, + "grad_norm": 0.45299211144447327, + "learning_rate": 1.4174923056237106e-05, + "loss": 0.4523, + "step": 1554 + }, + { + "epoch": 0.5183333333333333, + "grad_norm": 0.6014995574951172, + "learning_rate": 1.4159223629994576e-05, + "loss": 0.4322, + "step": 1555 + }, + { + "epoch": 0.5186666666666667, + "grad_norm": 0.22663302719593048, + "learning_rate": 1.4143525127613224e-05, + "loss": 0.4293, + "step": 1556 + }, + { + "epoch": 0.519, + "grad_norm": 0.16156230866909027, + "learning_rate": 1.4127827566342864e-05, + "loss": 0.4375, + "step": 1557 + }, + { + "epoch": 0.5193333333333333, + "grad_norm": 0.1390482485294342, + "learning_rate": 1.4112130963432278e-05, + "loss": 0.4136, + "step": 1558 + }, + { + "epoch": 0.5196666666666667, + "grad_norm": 0.19662712514400482, + "learning_rate": 1.4096435336129193e-05, + "loss": 0.4356, + "step": 1559 + }, + { + "epoch": 0.52, + "grad_norm": 0.12625816464424133, + "learning_rate": 1.4080740701680259e-05, + "loss": 0.4178, + "step": 1560 + }, + { + "epoch": 0.5203333333333333, + "grad_norm": 0.164443239569664, + "learning_rate": 1.4065047077331044e-05, + "loss": 0.4309, + "step": 1561 + }, + { + "epoch": 0.5206666666666667, + "grad_norm": 0.1937655508518219, + "learning_rate": 1.4049354480326008e-05, + "loss": 0.4327, + "step": 1562 + }, + { + "epoch": 0.521, + "grad_norm": 0.15079551935195923, + "learning_rate": 1.4033662927908477e-05, + "loss": 0.4203, + "step": 1563 + }, + { + "epoch": 0.5213333333333333, + "grad_norm": 0.13982456922531128, + "learning_rate": 1.4017972437320624e-05, + "loss": 0.4502, + "step": 1564 + }, + { + "epoch": 0.5216666666666666, + "grad_norm": 0.21363282203674316, + "learning_rate": 1.4002283025803468e-05, + "loss": 0.442, + "step": 1565 + }, + { + "epoch": 0.522, + "grad_norm": 0.14876939356327057, + "learning_rate": 1.3986594710596825e-05, + "loss": 0.4267, + "step": 1566 + }, + { + "epoch": 0.5223333333333333, + "grad_norm": 0.12198831140995026, + "learning_rate": 1.3970907508939324e-05, + "loss": 0.4569, + "step": 1567 + }, + { + "epoch": 0.5226666666666666, + "grad_norm": 0.16050787270069122, + "learning_rate": 1.3955221438068358e-05, + "loss": 0.4439, + "step": 1568 + }, + { + "epoch": 0.523, + "grad_norm": 0.13548098504543304, + "learning_rate": 1.3939536515220082e-05, + "loss": 0.4433, + "step": 1569 + }, + { + "epoch": 0.5233333333333333, + "grad_norm": 0.1565140187740326, + "learning_rate": 1.3923852757629393e-05, + "loss": 0.4165, + "step": 1570 + }, + { + "epoch": 0.5236666666666666, + "grad_norm": 0.15035183727741241, + "learning_rate": 1.3908170182529903e-05, + "loss": 0.4492, + "step": 1571 + }, + { + "epoch": 0.524, + "grad_norm": 0.17445732653141022, + "learning_rate": 1.3892488807153925e-05, + "loss": 0.4383, + "step": 1572 + }, + { + "epoch": 0.5243333333333333, + "grad_norm": 0.13883352279663086, + "learning_rate": 1.3876808648732454e-05, + "loss": 0.4319, + "step": 1573 + }, + { + "epoch": 0.5246666666666666, + "grad_norm": 0.15788735449314117, + "learning_rate": 1.3861129724495148e-05, + "loss": 0.4388, + "step": 1574 + }, + { + "epoch": 0.525, + "grad_norm": 0.17215953767299652, + "learning_rate": 1.3845452051670313e-05, + "loss": 0.4447, + "step": 1575 + }, + { + "epoch": 0.5253333333333333, + "grad_norm": 0.16516736149787903, + "learning_rate": 1.382977564748487e-05, + "loss": 0.4462, + "step": 1576 + }, + { + "epoch": 0.5256666666666666, + "grad_norm": 0.16381579637527466, + "learning_rate": 1.3814100529164356e-05, + "loss": 0.4347, + "step": 1577 + }, + { + "epoch": 0.526, + "grad_norm": 0.12321676313877106, + "learning_rate": 1.3798426713932893e-05, + "loss": 0.4329, + "step": 1578 + }, + { + "epoch": 0.5263333333333333, + "grad_norm": 0.16357184946537018, + "learning_rate": 1.3782754219013168e-05, + "loss": 0.4391, + "step": 1579 + }, + { + "epoch": 0.5266666666666666, + "grad_norm": 0.15330630540847778, + "learning_rate": 1.3767083061626417e-05, + "loss": 0.4275, + "step": 1580 + }, + { + "epoch": 0.527, + "grad_norm": 0.13778182864189148, + "learning_rate": 1.3751413258992408e-05, + "loss": 0.4371, + "step": 1581 + }, + { + "epoch": 0.5273333333333333, + "grad_norm": 0.16684705018997192, + "learning_rate": 1.3735744828329421e-05, + "loss": 0.4272, + "step": 1582 + }, + { + "epoch": 0.5276666666666666, + "grad_norm": 0.20603236556053162, + "learning_rate": 1.372007778685423e-05, + "loss": 0.4489, + "step": 1583 + }, + { + "epoch": 0.528, + "grad_norm": 0.14476722478866577, + "learning_rate": 1.3704412151782075e-05, + "loss": 0.4297, + "step": 1584 + }, + { + "epoch": 0.5283333333333333, + "grad_norm": 0.18081313371658325, + "learning_rate": 1.368874794032666e-05, + "loss": 0.436, + "step": 1585 + }, + { + "epoch": 0.5286666666666666, + "grad_norm": 0.17337478697299957, + "learning_rate": 1.367308516970012e-05, + "loss": 0.4352, + "step": 1586 + }, + { + "epoch": 0.529, + "grad_norm": 0.18534405529499054, + "learning_rate": 1.3657423857113004e-05, + "loss": 0.4461, + "step": 1587 + }, + { + "epoch": 0.5293333333333333, + "grad_norm": 0.1463351845741272, + "learning_rate": 1.3641764019774267e-05, + "loss": 0.4411, + "step": 1588 + }, + { + "epoch": 0.5296666666666666, + "grad_norm": 0.15290865302085876, + "learning_rate": 1.3626105674891233e-05, + "loss": 0.4519, + "step": 1589 + }, + { + "epoch": 0.53, + "grad_norm": 0.1928117722272873, + "learning_rate": 1.3610448839669594e-05, + "loss": 0.4397, + "step": 1590 + }, + { + "epoch": 0.5303333333333333, + "grad_norm": 0.23013252019882202, + "learning_rate": 1.3594793531313374e-05, + "loss": 0.4473, + "step": 1591 + }, + { + "epoch": 0.5306666666666666, + "grad_norm": 0.13208509981632233, + "learning_rate": 1.3579139767024943e-05, + "loss": 0.4404, + "step": 1592 + }, + { + "epoch": 0.531, + "grad_norm": 0.20254307985305786, + "learning_rate": 1.356348756400494e-05, + "loss": 0.4627, + "step": 1593 + }, + { + "epoch": 0.5313333333333333, + "grad_norm": 0.23897132277488708, + "learning_rate": 1.3547836939452315e-05, + "loss": 0.4417, + "step": 1594 + }, + { + "epoch": 0.5316666666666666, + "grad_norm": 0.23964568972587585, + "learning_rate": 1.3532187910564267e-05, + "loss": 0.4428, + "step": 1595 + }, + { + "epoch": 0.532, + "grad_norm": 0.11673401296138763, + "learning_rate": 1.3516540494536256e-05, + "loss": 0.4474, + "step": 1596 + }, + { + "epoch": 0.5323333333333333, + "grad_norm": 0.14648935198783875, + "learning_rate": 1.3500894708561954e-05, + "loss": 0.4432, + "step": 1597 + }, + { + "epoch": 0.5326666666666666, + "grad_norm": 0.12555024027824402, + "learning_rate": 1.3485250569833256e-05, + "loss": 0.4421, + "step": 1598 + }, + { + "epoch": 0.533, + "grad_norm": 0.2703610062599182, + "learning_rate": 1.346960809554024e-05, + "loss": 0.4407, + "step": 1599 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 0.2288275808095932, + "learning_rate": 1.3453967302871157e-05, + "loss": 0.4311, + "step": 1600 + }, + { + "epoch": 0.5336666666666666, + "grad_norm": 0.1449580043554306, + "learning_rate": 1.3438328209012406e-05, + "loss": 0.4451, + "step": 1601 + }, + { + "epoch": 0.534, + "grad_norm": 0.24328768253326416, + "learning_rate": 1.3422690831148527e-05, + "loss": 0.4368, + "step": 1602 + }, + { + "epoch": 0.5343333333333333, + "grad_norm": 0.1832456737756729, + "learning_rate": 1.340705518646217e-05, + "loss": 0.4582, + "step": 1603 + }, + { + "epoch": 0.5346666666666666, + "grad_norm": 0.22864294052124023, + "learning_rate": 1.3391421292134079e-05, + "loss": 0.4395, + "step": 1604 + }, + { + "epoch": 0.535, + "grad_norm": 0.17940868437290192, + "learning_rate": 1.337578916534307e-05, + "loss": 0.4514, + "step": 1605 + }, + { + "epoch": 0.5353333333333333, + "grad_norm": 0.11834193766117096, + "learning_rate": 1.3360158823266038e-05, + "loss": 0.4467, + "step": 1606 + }, + { + "epoch": 0.5356666666666666, + "grad_norm": 0.1490141749382019, + "learning_rate": 1.3344530283077892e-05, + "loss": 0.4313, + "step": 1607 + }, + { + "epoch": 0.536, + "grad_norm": 0.10677068680524826, + "learning_rate": 1.3328903561951575e-05, + "loss": 0.4398, + "step": 1608 + }, + { + "epoch": 0.5363333333333333, + "grad_norm": 0.16688181459903717, + "learning_rate": 1.3313278677058026e-05, + "loss": 0.4487, + "step": 1609 + }, + { + "epoch": 0.5366666666666666, + "grad_norm": 0.22187680006027222, + "learning_rate": 1.3297655645566168e-05, + "loss": 0.4501, + "step": 1610 + }, + { + "epoch": 0.537, + "grad_norm": 0.28300920128822327, + "learning_rate": 1.3282034484642886e-05, + "loss": 0.4559, + "step": 1611 + }, + { + "epoch": 0.5373333333333333, + "grad_norm": 0.17077474296092987, + "learning_rate": 1.3266415211453015e-05, + "loss": 0.4372, + "step": 1612 + }, + { + "epoch": 0.5376666666666666, + "grad_norm": 0.19354255497455597, + "learning_rate": 1.3250797843159305e-05, + "loss": 0.4468, + "step": 1613 + }, + { + "epoch": 0.538, + "grad_norm": 0.1274261772632599, + "learning_rate": 1.3235182396922423e-05, + "loss": 0.4382, + "step": 1614 + }, + { + "epoch": 0.5383333333333333, + "grad_norm": 0.14919717609882355, + "learning_rate": 1.3219568889900923e-05, + "loss": 0.4459, + "step": 1615 + }, + { + "epoch": 0.5386666666666666, + "grad_norm": 0.17349685728549957, + "learning_rate": 1.3203957339251219e-05, + "loss": 0.4408, + "step": 1616 + }, + { + "epoch": 0.539, + "grad_norm": 0.22605636715888977, + "learning_rate": 1.3188347762127587e-05, + "loss": 0.4382, + "step": 1617 + }, + { + "epoch": 0.5393333333333333, + "grad_norm": 0.21401150524616241, + "learning_rate": 1.3172740175682126e-05, + "loss": 0.475, + "step": 1618 + }, + { + "epoch": 0.5396666666666666, + "grad_norm": 0.3119587004184723, + "learning_rate": 1.3157134597064754e-05, + "loss": 0.4696, + "step": 1619 + }, + { + "epoch": 0.54, + "grad_norm": 0.1782238483428955, + "learning_rate": 1.3141531043423174e-05, + "loss": 0.4498, + "step": 1620 + }, + { + "epoch": 0.5403333333333333, + "grad_norm": 0.14955677092075348, + "learning_rate": 1.3125929531902877e-05, + "loss": 0.453, + "step": 1621 + }, + { + "epoch": 0.5406666666666666, + "grad_norm": 0.12673331797122955, + "learning_rate": 1.31103300796471e-05, + "loss": 0.4386, + "step": 1622 + }, + { + "epoch": 0.541, + "grad_norm": 0.13372762501239777, + "learning_rate": 1.3094732703796819e-05, + "loss": 0.4457, + "step": 1623 + }, + { + "epoch": 0.5413333333333333, + "grad_norm": 0.1735633909702301, + "learning_rate": 1.307913742149073e-05, + "loss": 0.4345, + "step": 1624 + }, + { + "epoch": 0.5416666666666666, + "grad_norm": 0.1503012329339981, + "learning_rate": 1.3063544249865226e-05, + "loss": 0.4557, + "step": 1625 + }, + { + "epoch": 0.542, + "grad_norm": 0.1495400071144104, + "learning_rate": 1.3047953206054386e-05, + "loss": 0.4444, + "step": 1626 + }, + { + "epoch": 0.5423333333333333, + "grad_norm": 0.17686377465724945, + "learning_rate": 1.3032364307189945e-05, + "loss": 0.4383, + "step": 1627 + }, + { + "epoch": 0.5426666666666666, + "grad_norm": 0.15429513156414032, + "learning_rate": 1.3016777570401283e-05, + "loss": 0.4375, + "step": 1628 + }, + { + "epoch": 0.543, + "grad_norm": 0.10852011293172836, + "learning_rate": 1.3001193012815405e-05, + "loss": 0.4581, + "step": 1629 + }, + { + "epoch": 0.5433333333333333, + "grad_norm": 0.14358091354370117, + "learning_rate": 1.2985610651556922e-05, + "loss": 0.4472, + "step": 1630 + }, + { + "epoch": 0.5436666666666666, + "grad_norm": 0.22788040339946747, + "learning_rate": 1.2970030503748039e-05, + "loss": 0.4522, + "step": 1631 + }, + { + "epoch": 0.544, + "grad_norm": 0.11774171888828278, + "learning_rate": 1.2954452586508506e-05, + "loss": 0.4508, + "step": 1632 + }, + { + "epoch": 0.5443333333333333, + "grad_norm": 0.19135354459285736, + "learning_rate": 1.2938876916955644e-05, + "loss": 0.4508, + "step": 1633 + }, + { + "epoch": 0.5446666666666666, + "grad_norm": 0.26229095458984375, + "learning_rate": 1.2923303512204296e-05, + "loss": 0.448, + "step": 1634 + }, + { + "epoch": 0.545, + "grad_norm": 0.2207985520362854, + "learning_rate": 1.2907732389366815e-05, + "loss": 0.4429, + "step": 1635 + }, + { + "epoch": 0.5453333333333333, + "grad_norm": 0.11848615109920502, + "learning_rate": 1.2892163565553056e-05, + "loss": 0.4472, + "step": 1636 + }, + { + "epoch": 0.5456666666666666, + "grad_norm": 0.18580716848373413, + "learning_rate": 1.2876597057870338e-05, + "loss": 0.4514, + "step": 1637 + }, + { + "epoch": 0.546, + "grad_norm": 0.20998458564281464, + "learning_rate": 1.2861032883423438e-05, + "loss": 0.4558, + "step": 1638 + }, + { + "epoch": 0.5463333333333333, + "grad_norm": 0.17059984803199768, + "learning_rate": 1.2845471059314566e-05, + "loss": 0.4467, + "step": 1639 + }, + { + "epoch": 0.5466666666666666, + "grad_norm": 0.15547244250774384, + "learning_rate": 1.2829911602643355e-05, + "loss": 0.4446, + "step": 1640 + }, + { + "epoch": 0.547, + "grad_norm": 0.16724519431591034, + "learning_rate": 1.281435453050683e-05, + "loss": 0.4339, + "step": 1641 + }, + { + "epoch": 0.5473333333333333, + "grad_norm": 0.20871689915657043, + "learning_rate": 1.2798799859999405e-05, + "loss": 0.4391, + "step": 1642 + }, + { + "epoch": 0.5476666666666666, + "grad_norm": 0.21640051901340485, + "learning_rate": 1.2783247608212846e-05, + "loss": 0.459, + "step": 1643 + }, + { + "epoch": 0.548, + "grad_norm": 0.2106454074382782, + "learning_rate": 1.2767697792236268e-05, + "loss": 0.4567, + "step": 1644 + }, + { + "epoch": 0.5483333333333333, + "grad_norm": 0.21336570382118225, + "learning_rate": 1.2752150429156103e-05, + "loss": 0.4588, + "step": 1645 + }, + { + "epoch": 0.5486666666666666, + "grad_norm": 0.1344500631093979, + "learning_rate": 1.2736605536056095e-05, + "loss": 0.4403, + "step": 1646 + }, + { + "epoch": 0.549, + "grad_norm": 0.15834809839725494, + "learning_rate": 1.2721063130017268e-05, + "loss": 0.4561, + "step": 1647 + }, + { + "epoch": 0.5493333333333333, + "grad_norm": 0.21589328348636627, + "learning_rate": 1.2705523228117916e-05, + "loss": 0.443, + "step": 1648 + }, + { + "epoch": 0.5496666666666666, + "grad_norm": 0.16399520635604858, + "learning_rate": 1.2689985847433581e-05, + "loss": 0.4452, + "step": 1649 + }, + { + "epoch": 0.55, + "grad_norm": 0.7646008729934692, + "learning_rate": 1.2674451005037032e-05, + "loss": 0.4555, + "step": 1650 + }, + { + "epoch": 0.5503333333333333, + "grad_norm": 0.13384152948856354, + "learning_rate": 1.2658918717998256e-05, + "loss": 0.4589, + "step": 1651 + }, + { + "epoch": 0.5506666666666666, + "grad_norm": 0.11332467198371887, + "learning_rate": 1.2643389003384425e-05, + "loss": 0.4425, + "step": 1652 + }, + { + "epoch": 0.551, + "grad_norm": 0.14594268798828125, + "learning_rate": 1.2627861878259887e-05, + "loss": 0.4591, + "step": 1653 + }, + { + "epoch": 0.5513333333333333, + "grad_norm": 0.14314104616641998, + "learning_rate": 1.2612337359686143e-05, + "loss": 0.4441, + "step": 1654 + }, + { + "epoch": 0.5516666666666666, + "grad_norm": 0.1410287469625473, + "learning_rate": 1.2596815464721835e-05, + "loss": 0.4491, + "step": 1655 + }, + { + "epoch": 0.552, + "grad_norm": 0.17141197621822357, + "learning_rate": 1.2581296210422715e-05, + "loss": 0.4469, + "step": 1656 + }, + { + "epoch": 0.5523333333333333, + "grad_norm": 0.2897915244102478, + "learning_rate": 1.256577961384164e-05, + "loss": 0.4572, + "step": 1657 + }, + { + "epoch": 0.5526666666666666, + "grad_norm": 0.21992014348506927, + "learning_rate": 1.2550265692028542e-05, + "loss": 0.4469, + "step": 1658 + }, + { + "epoch": 0.553, + "grad_norm": 0.19263851642608643, + "learning_rate": 1.2534754462030413e-05, + "loss": 0.4405, + "step": 1659 + }, + { + "epoch": 0.5533333333333333, + "grad_norm": 0.15793143212795258, + "learning_rate": 1.251924594089129e-05, + "loss": 0.439, + "step": 1660 + }, + { + "epoch": 0.5536666666666666, + "grad_norm": 0.17978155612945557, + "learning_rate": 1.2503740145652233e-05, + "loss": 0.4418, + "step": 1661 + }, + { + "epoch": 0.554, + "grad_norm": 0.17303550243377686, + "learning_rate": 1.2488237093351311e-05, + "loss": 0.4566, + "step": 1662 + }, + { + "epoch": 0.5543333333333333, + "grad_norm": 0.20319980382919312, + "learning_rate": 1.247273680102357e-05, + "loss": 0.4644, + "step": 1663 + }, + { + "epoch": 0.5546666666666666, + "grad_norm": 0.17695239186286926, + "learning_rate": 1.2457239285701025e-05, + "loss": 0.4504, + "step": 1664 + }, + { + "epoch": 0.555, + "grad_norm": 0.14325912296772003, + "learning_rate": 1.2441744564412656e-05, + "loss": 0.445, + "step": 1665 + }, + { + "epoch": 0.5553333333333333, + "grad_norm": 0.14811359345912933, + "learning_rate": 1.2426252654184347e-05, + "loss": 0.426, + "step": 1666 + }, + { + "epoch": 0.5556666666666666, + "grad_norm": 0.24754361808300018, + "learning_rate": 1.241076357203891e-05, + "loss": 0.4483, + "step": 1667 + }, + { + "epoch": 0.556, + "grad_norm": 0.1614680290222168, + "learning_rate": 1.2395277334996045e-05, + "loss": 0.4581, + "step": 1668 + }, + { + "epoch": 0.5563333333333333, + "grad_norm": 0.12248064577579498, + "learning_rate": 1.2379793960072327e-05, + "loss": 0.4694, + "step": 1669 + }, + { + "epoch": 0.5566666666666666, + "grad_norm": 0.12389501184225082, + "learning_rate": 1.2364313464281181e-05, + "loss": 0.4456, + "step": 1670 + }, + { + "epoch": 0.557, + "grad_norm": 0.31267908215522766, + "learning_rate": 1.2348835864632876e-05, + "loss": 0.4437, + "step": 1671 + }, + { + "epoch": 0.5573333333333333, + "grad_norm": 0.2030293345451355, + "learning_rate": 1.2333361178134494e-05, + "loss": 0.4488, + "step": 1672 + }, + { + "epoch": 0.5576666666666666, + "grad_norm": 0.15170632302761078, + "learning_rate": 1.2317889421789917e-05, + "loss": 0.4425, + "step": 1673 + }, + { + "epoch": 0.558, + "grad_norm": 0.20115451514720917, + "learning_rate": 1.2302420612599803e-05, + "loss": 0.4513, + "step": 1674 + }, + { + "epoch": 0.5583333333333333, + "grad_norm": 0.12831945717334747, + "learning_rate": 1.2286954767561582e-05, + "loss": 0.4444, + "step": 1675 + }, + { + "epoch": 0.5586666666666666, + "grad_norm": 0.14585813879966736, + "learning_rate": 1.2271491903669419e-05, + "loss": 0.4319, + "step": 1676 + }, + { + "epoch": 0.559, + "grad_norm": 0.12395578622817993, + "learning_rate": 1.2256032037914201e-05, + "loss": 0.4494, + "step": 1677 + }, + { + "epoch": 0.5593333333333333, + "grad_norm": 0.13149762153625488, + "learning_rate": 1.2240575187283534e-05, + "loss": 0.4506, + "step": 1678 + }, + { + "epoch": 0.5596666666666666, + "grad_norm": 0.1655535101890564, + "learning_rate": 1.2225121368761684e-05, + "loss": 0.4503, + "step": 1679 + }, + { + "epoch": 0.56, + "grad_norm": 0.11203271895647049, + "learning_rate": 1.220967059932962e-05, + "loss": 0.4475, + "step": 1680 + }, + { + "epoch": 0.5603333333333333, + "grad_norm": 0.11213741451501846, + "learning_rate": 1.2194222895964935e-05, + "loss": 0.4525, + "step": 1681 + }, + { + "epoch": 0.5606666666666666, + "grad_norm": 0.19450919330120087, + "learning_rate": 1.2178778275641866e-05, + "loss": 0.45, + "step": 1682 + }, + { + "epoch": 0.561, + "grad_norm": 0.22292481362819672, + "learning_rate": 1.2163336755331254e-05, + "loss": 0.4382, + "step": 1683 + }, + { + "epoch": 0.5613333333333334, + "grad_norm": 0.17417661845684052, + "learning_rate": 1.2147898352000539e-05, + "loss": 0.4387, + "step": 1684 + }, + { + "epoch": 0.5616666666666666, + "grad_norm": 0.1834043562412262, + "learning_rate": 1.2132463082613737e-05, + "loss": 0.4447, + "step": 1685 + }, + { + "epoch": 0.562, + "grad_norm": 0.14437870681285858, + "learning_rate": 1.211703096413141e-05, + "loss": 0.4512, + "step": 1686 + }, + { + "epoch": 0.5623333333333334, + "grad_norm": 0.39382970333099365, + "learning_rate": 1.2101602013510668e-05, + "loss": 0.4478, + "step": 1687 + }, + { + "epoch": 0.5626666666666666, + "grad_norm": 0.17507176101207733, + "learning_rate": 1.208617624770514e-05, + "loss": 0.4534, + "step": 1688 + }, + { + "epoch": 0.563, + "grad_norm": 0.18888933956623077, + "learning_rate": 1.2070753683664953e-05, + "loss": 0.4482, + "step": 1689 + }, + { + "epoch": 0.5633333333333334, + "grad_norm": 0.1883387416601181, + "learning_rate": 1.2055334338336712e-05, + "loss": 0.444, + "step": 1690 + }, + { + "epoch": 0.5636666666666666, + "grad_norm": 0.18498770892620087, + "learning_rate": 1.2039918228663492e-05, + "loss": 0.4579, + "step": 1691 + }, + { + "epoch": 0.564, + "grad_norm": 0.17666125297546387, + "learning_rate": 1.2024505371584811e-05, + "loss": 0.4494, + "step": 1692 + }, + { + "epoch": 0.5643333333333334, + "grad_norm": 0.13232167065143585, + "learning_rate": 1.2009095784036606e-05, + "loss": 0.44, + "step": 1693 + }, + { + "epoch": 0.5646666666666667, + "grad_norm": 0.12102425843477249, + "learning_rate": 1.1993689482951227e-05, + "loss": 0.4541, + "step": 1694 + }, + { + "epoch": 0.565, + "grad_norm": 0.11810900270938873, + "learning_rate": 1.1978286485257422e-05, + "loss": 0.4487, + "step": 1695 + }, + { + "epoch": 0.5653333333333334, + "grad_norm": 0.1203630194067955, + "learning_rate": 1.1962886807880291e-05, + "loss": 0.4394, + "step": 1696 + }, + { + "epoch": 0.5656666666666667, + "grad_norm": 0.15613166987895966, + "learning_rate": 1.19474904677413e-05, + "loss": 0.4497, + "step": 1697 + }, + { + "epoch": 0.566, + "grad_norm": 0.1661338210105896, + "learning_rate": 1.1932097481758238e-05, + "loss": 0.4481, + "step": 1698 + }, + { + "epoch": 0.5663333333333334, + "grad_norm": 0.15287432074546814, + "learning_rate": 1.1916707866845214e-05, + "loss": 0.4504, + "step": 1699 + }, + { + "epoch": 0.5666666666666667, + "grad_norm": 0.14399483799934387, + "learning_rate": 1.190132163991263e-05, + "loss": 0.4537, + "step": 1700 + }, + { + "epoch": 0.567, + "grad_norm": 0.1907748430967331, + "learning_rate": 1.1885938817867172e-05, + "loss": 0.455, + "step": 1701 + }, + { + "epoch": 0.5673333333333334, + "grad_norm": 0.16006487607955933, + "learning_rate": 1.1870559417611774e-05, + "loss": 0.4536, + "step": 1702 + }, + { + "epoch": 0.5676666666666667, + "grad_norm": 0.19763900339603424, + "learning_rate": 1.1855183456045618e-05, + "loss": 0.4497, + "step": 1703 + }, + { + "epoch": 0.568, + "grad_norm": 0.13070185482501984, + "learning_rate": 1.183981095006411e-05, + "loss": 0.4416, + "step": 1704 + }, + { + "epoch": 0.5683333333333334, + "grad_norm": 0.15909285843372345, + "learning_rate": 1.1824441916558843e-05, + "loss": 0.4455, + "step": 1705 + }, + { + "epoch": 0.5686666666666667, + "grad_norm": 0.14207002520561218, + "learning_rate": 1.1809076372417611e-05, + "loss": 0.4538, + "step": 1706 + }, + { + "epoch": 0.569, + "grad_norm": 0.21800024807453156, + "learning_rate": 1.1793714334524368e-05, + "loss": 0.4521, + "step": 1707 + }, + { + "epoch": 0.5693333333333334, + "grad_norm": 0.2978110611438751, + "learning_rate": 1.1778355819759217e-05, + "loss": 0.4509, + "step": 1708 + }, + { + "epoch": 0.5696666666666667, + "grad_norm": 0.1751805692911148, + "learning_rate": 1.176300084499838e-05, + "loss": 0.4532, + "step": 1709 + }, + { + "epoch": 0.57, + "grad_norm": 0.122956782579422, + "learning_rate": 1.174764942711421e-05, + "loss": 0.4483, + "step": 1710 + }, + { + "epoch": 0.5703333333333334, + "grad_norm": 0.18063077330589294, + "learning_rate": 1.1732301582975133e-05, + "loss": 0.4556, + "step": 1711 + }, + { + "epoch": 0.5706666666666667, + "grad_norm": 0.16617561876773834, + "learning_rate": 1.1716957329445657e-05, + "loss": 0.4443, + "step": 1712 + }, + { + "epoch": 0.571, + "grad_norm": 0.15725111961364746, + "learning_rate": 1.1701616683386336e-05, + "loss": 0.4566, + "step": 1713 + }, + { + "epoch": 0.5713333333333334, + "grad_norm": 0.19654949009418488, + "learning_rate": 1.1686279661653769e-05, + "loss": 0.4408, + "step": 1714 + }, + { + "epoch": 0.5716666666666667, + "grad_norm": 0.16336305439472198, + "learning_rate": 1.1670946281100567e-05, + "loss": 0.4399, + "step": 1715 + }, + { + "epoch": 0.572, + "grad_norm": 0.18000881373882294, + "learning_rate": 1.1655616558575345e-05, + "loss": 0.4578, + "step": 1716 + }, + { + "epoch": 0.5723333333333334, + "grad_norm": 0.1662307232618332, + "learning_rate": 1.1640290510922691e-05, + "loss": 0.4443, + "step": 1717 + }, + { + "epoch": 0.5726666666666667, + "grad_norm": 0.12008036673069, + "learning_rate": 1.1624968154983167e-05, + "loss": 0.4464, + "step": 1718 + }, + { + "epoch": 0.573, + "grad_norm": 0.18432001769542694, + "learning_rate": 1.1609649507593266e-05, + "loss": 0.443, + "step": 1719 + }, + { + "epoch": 0.5733333333333334, + "grad_norm": 0.1895570009946823, + "learning_rate": 1.1594334585585413e-05, + "loss": 0.4421, + "step": 1720 + }, + { + "epoch": 0.5736666666666667, + "grad_norm": 0.1673545092344284, + "learning_rate": 1.1579023405787935e-05, + "loss": 0.4448, + "step": 1721 + }, + { + "epoch": 0.574, + "grad_norm": 0.17492252588272095, + "learning_rate": 1.1563715985025052e-05, + "loss": 0.4515, + "step": 1722 + }, + { + "epoch": 0.5743333333333334, + "grad_norm": 0.1756337434053421, + "learning_rate": 1.1548412340116848e-05, + "loss": 0.4464, + "step": 1723 + }, + { + "epoch": 0.5746666666666667, + "grad_norm": 0.15360793471336365, + "learning_rate": 1.1533112487879267e-05, + "loss": 0.4547, + "step": 1724 + }, + { + "epoch": 0.575, + "grad_norm": 0.18119968473911285, + "learning_rate": 1.1517816445124075e-05, + "loss": 0.447, + "step": 1725 + }, + { + "epoch": 0.5753333333333334, + "grad_norm": 0.17921459674835205, + "learning_rate": 1.1502524228658858e-05, + "loss": 0.4527, + "step": 1726 + }, + { + "epoch": 0.5756666666666667, + "grad_norm": 0.14405949413776398, + "learning_rate": 1.1487235855286999e-05, + "loss": 0.4464, + "step": 1727 + }, + { + "epoch": 0.576, + "grad_norm": 0.14178450405597687, + "learning_rate": 1.1471951341807651e-05, + "loss": 0.445, + "step": 1728 + }, + { + "epoch": 0.5763333333333334, + "grad_norm": 0.1341332644224167, + "learning_rate": 1.145667070501573e-05, + "loss": 0.454, + "step": 1729 + }, + { + "epoch": 0.5766666666666667, + "grad_norm": 0.20660725235939026, + "learning_rate": 1.1441393961701895e-05, + "loss": 0.4427, + "step": 1730 + }, + { + "epoch": 0.577, + "grad_norm": 0.18905872106552124, + "learning_rate": 1.1426121128652527e-05, + "loss": 0.4569, + "step": 1731 + }, + { + "epoch": 0.5773333333333334, + "grad_norm": 0.15068361163139343, + "learning_rate": 1.1410852222649703e-05, + "loss": 0.458, + "step": 1732 + }, + { + "epoch": 0.5776666666666667, + "grad_norm": 0.20161719620227814, + "learning_rate": 1.1395587260471186e-05, + "loss": 0.4433, + "step": 1733 + }, + { + "epoch": 0.578, + "grad_norm": 0.15236033499240875, + "learning_rate": 1.1380326258890414e-05, + "loss": 0.4384, + "step": 1734 + }, + { + "epoch": 0.5783333333333334, + "grad_norm": 0.48405444622039795, + "learning_rate": 1.1365069234676466e-05, + "loss": 0.4423, + "step": 1735 + }, + { + "epoch": 0.5786666666666667, + "grad_norm": 0.1499585509300232, + "learning_rate": 1.1349816204594054e-05, + "loss": 0.4453, + "step": 1736 + }, + { + "epoch": 0.579, + "grad_norm": 0.1208709105849266, + "learning_rate": 1.1334567185403499e-05, + "loss": 0.4469, + "step": 1737 + }, + { + "epoch": 0.5793333333333334, + "grad_norm": 0.2217736542224884, + "learning_rate": 1.131932219386071e-05, + "loss": 0.4499, + "step": 1738 + }, + { + "epoch": 0.5796666666666667, + "grad_norm": 0.11253860592842102, + "learning_rate": 1.1304081246717184e-05, + "loss": 0.4499, + "step": 1739 + }, + { + "epoch": 0.58, + "grad_norm": 0.15124881267547607, + "learning_rate": 1.1288844360719965e-05, + "loss": 0.4472, + "step": 1740 + }, + { + "epoch": 0.5803333333333334, + "grad_norm": 0.18967649340629578, + "learning_rate": 1.1273611552611628e-05, + "loss": 0.4452, + "step": 1741 + }, + { + "epoch": 0.5806666666666667, + "grad_norm": 0.14993087947368622, + "learning_rate": 1.1258382839130282e-05, + "loss": 0.4574, + "step": 1742 + }, + { + "epoch": 0.581, + "grad_norm": 0.15519820153713226, + "learning_rate": 1.1243158237009523e-05, + "loss": 0.4534, + "step": 1743 + }, + { + "epoch": 0.5813333333333334, + "grad_norm": 0.14090430736541748, + "learning_rate": 1.122793776297844e-05, + "loss": 0.4418, + "step": 1744 + }, + { + "epoch": 0.5816666666666667, + "grad_norm": 0.14791853725910187, + "learning_rate": 1.1212721433761577e-05, + "loss": 0.4525, + "step": 1745 + }, + { + "epoch": 0.582, + "grad_norm": 0.1659964621067047, + "learning_rate": 1.119750926607893e-05, + "loss": 0.4465, + "step": 1746 + }, + { + "epoch": 0.5823333333333334, + "grad_norm": 0.13298290967941284, + "learning_rate": 1.1182301276645922e-05, + "loss": 0.4475, + "step": 1747 + }, + { + "epoch": 0.5826666666666667, + "grad_norm": 0.16240611672401428, + "learning_rate": 1.116709748217338e-05, + "loss": 0.4477, + "step": 1748 + }, + { + "epoch": 0.583, + "grad_norm": 0.14399637281894684, + "learning_rate": 1.1151897899367526e-05, + "loss": 0.4387, + "step": 1749 + }, + { + "epoch": 0.5833333333333334, + "grad_norm": 0.17615117132663727, + "learning_rate": 1.1136702544929951e-05, + "loss": 0.4482, + "step": 1750 + }, + { + "epoch": 0.5836666666666667, + "grad_norm": 0.16343551874160767, + "learning_rate": 1.1121511435557608e-05, + "loss": 0.4445, + "step": 1751 + }, + { + "epoch": 0.584, + "grad_norm": 0.18164125084877014, + "learning_rate": 1.110632458794277e-05, + "loss": 0.4457, + "step": 1752 + }, + { + "epoch": 0.5843333333333334, + "grad_norm": 0.18893833458423615, + "learning_rate": 1.1091142018773035e-05, + "loss": 0.4458, + "step": 1753 + }, + { + "epoch": 0.5846666666666667, + "grad_norm": 0.19381000101566315, + "learning_rate": 1.107596374473131e-05, + "loss": 0.4463, + "step": 1754 + }, + { + "epoch": 0.585, + "grad_norm": 0.14959441125392914, + "learning_rate": 1.106078978249577e-05, + "loss": 0.4501, + "step": 1755 + }, + { + "epoch": 0.5853333333333334, + "grad_norm": 0.16267000138759613, + "learning_rate": 1.1045620148739854e-05, + "loss": 0.4499, + "step": 1756 + }, + { + "epoch": 0.5856666666666667, + "grad_norm": 0.12143011391162872, + "learning_rate": 1.1030454860132244e-05, + "loss": 0.4488, + "step": 1757 + }, + { + "epoch": 0.586, + "grad_norm": 0.1466178447008133, + "learning_rate": 1.1015293933336858e-05, + "loss": 0.448, + "step": 1758 + }, + { + "epoch": 0.5863333333333334, + "grad_norm": 0.11600182950496674, + "learning_rate": 1.10001373850128e-05, + "loss": 0.4455, + "step": 1759 + }, + { + "epoch": 0.5866666666666667, + "grad_norm": 0.14939551055431366, + "learning_rate": 1.0984985231814384e-05, + "loss": 0.4471, + "step": 1760 + }, + { + "epoch": 0.587, + "grad_norm": 0.14526131749153137, + "learning_rate": 1.0969837490391084e-05, + "loss": 0.4565, + "step": 1761 + }, + { + "epoch": 0.5873333333333334, + "grad_norm": 0.24255003035068512, + "learning_rate": 1.095469417738753e-05, + "loss": 0.4486, + "step": 1762 + }, + { + "epoch": 0.5876666666666667, + "grad_norm": 0.14782176911830902, + "learning_rate": 1.093955530944348e-05, + "loss": 0.4444, + "step": 1763 + }, + { + "epoch": 0.588, + "grad_norm": 0.18562796711921692, + "learning_rate": 1.0924420903193815e-05, + "loss": 0.4466, + "step": 1764 + }, + { + "epoch": 0.5883333333333334, + "grad_norm": 0.18054147064685822, + "learning_rate": 1.090929097526851e-05, + "loss": 0.4531, + "step": 1765 + }, + { + "epoch": 0.5886666666666667, + "grad_norm": 0.21849040687084198, + "learning_rate": 1.089416554229262e-05, + "loss": 0.4459, + "step": 1766 + }, + { + "epoch": 0.589, + "grad_norm": 0.3506872057914734, + "learning_rate": 1.087904462088626e-05, + "loss": 0.4445, + "step": 1767 + }, + { + "epoch": 0.5893333333333334, + "grad_norm": 0.1391906887292862, + "learning_rate": 1.0863928227664585e-05, + "loss": 0.4583, + "step": 1768 + }, + { + "epoch": 0.5896666666666667, + "grad_norm": 0.1600528210401535, + "learning_rate": 1.0848816379237783e-05, + "loss": 0.4469, + "step": 1769 + }, + { + "epoch": 0.59, + "grad_norm": 0.16630464792251587, + "learning_rate": 1.0833709092211041e-05, + "loss": 0.4386, + "step": 1770 + }, + { + "epoch": 0.5903333333333334, + "grad_norm": 0.1517966091632843, + "learning_rate": 1.0818606383184534e-05, + "loss": 0.4504, + "step": 1771 + }, + { + "epoch": 0.5906666666666667, + "grad_norm": 0.13418260216712952, + "learning_rate": 1.0803508268753408e-05, + "loss": 0.44, + "step": 1772 + }, + { + "epoch": 0.591, + "grad_norm": 0.15409336984157562, + "learning_rate": 1.078841476550776e-05, + "loss": 0.4523, + "step": 1773 + }, + { + "epoch": 0.5913333333333334, + "grad_norm": 0.3580331802368164, + "learning_rate": 1.0773325890032623e-05, + "loss": 0.4488, + "step": 1774 + }, + { + "epoch": 0.5916666666666667, + "grad_norm": 0.10775382071733475, + "learning_rate": 1.0758241658907936e-05, + "loss": 0.4425, + "step": 1775 + }, + { + "epoch": 0.592, + "grad_norm": 0.22701434791088104, + "learning_rate": 1.0743162088708548e-05, + "loss": 0.4482, + "step": 1776 + }, + { + "epoch": 0.5923333333333334, + "grad_norm": 0.1208280399441719, + "learning_rate": 1.0728087196004175e-05, + "loss": 0.4485, + "step": 1777 + }, + { + "epoch": 0.5926666666666667, + "grad_norm": 0.137598916888237, + "learning_rate": 1.0713016997359404e-05, + "loss": 0.4461, + "step": 1778 + }, + { + "epoch": 0.593, + "grad_norm": 0.2101089060306549, + "learning_rate": 1.069795150933365e-05, + "loss": 0.4451, + "step": 1779 + }, + { + "epoch": 0.5933333333333334, + "grad_norm": 0.15141059458255768, + "learning_rate": 1.0682890748481164e-05, + "loss": 0.4564, + "step": 1780 + }, + { + "epoch": 0.5936666666666667, + "grad_norm": 0.15700660645961761, + "learning_rate": 1.0667834731350996e-05, + "loss": 0.4445, + "step": 1781 + }, + { + "epoch": 0.594, + "grad_norm": 0.20990587770938873, + "learning_rate": 1.0652783474486987e-05, + "loss": 0.4401, + "step": 1782 + }, + { + "epoch": 0.5943333333333334, + "grad_norm": 0.17784811556339264, + "learning_rate": 1.063773699442774e-05, + "loss": 0.4472, + "step": 1783 + }, + { + "epoch": 0.5946666666666667, + "grad_norm": 0.2250799983739853, + "learning_rate": 1.062269530770663e-05, + "loss": 0.4544, + "step": 1784 + }, + { + "epoch": 0.595, + "grad_norm": 0.34936952590942383, + "learning_rate": 1.0607658430851745e-05, + "loss": 0.453, + "step": 1785 + }, + { + "epoch": 0.5953333333333334, + "grad_norm": 0.3371087610721588, + "learning_rate": 1.0592626380385888e-05, + "loss": 0.45, + "step": 1786 + }, + { + "epoch": 0.5956666666666667, + "grad_norm": 0.20463305711746216, + "learning_rate": 1.0577599172826567e-05, + "loss": 0.4641, + "step": 1787 + }, + { + "epoch": 0.596, + "grad_norm": 0.1780925840139389, + "learning_rate": 1.0562576824685965e-05, + "loss": 0.447, + "step": 1788 + }, + { + "epoch": 0.5963333333333334, + "grad_norm": 0.1466449648141861, + "learning_rate": 1.0547559352470926e-05, + "loss": 0.4472, + "step": 1789 + }, + { + "epoch": 0.5966666666666667, + "grad_norm": 0.2338668256998062, + "learning_rate": 1.0532546772682937e-05, + "loss": 0.4609, + "step": 1790 + }, + { + "epoch": 0.597, + "grad_norm": 0.14223243296146393, + "learning_rate": 1.0517539101818104e-05, + "loss": 0.4536, + "step": 1791 + }, + { + "epoch": 0.5973333333333334, + "grad_norm": 0.1622159332036972, + "learning_rate": 1.0502536356367149e-05, + "loss": 0.452, + "step": 1792 + }, + { + "epoch": 0.5976666666666667, + "grad_norm": 0.12326337397098541, + "learning_rate": 1.0487538552815375e-05, + "loss": 0.4538, + "step": 1793 + }, + { + "epoch": 0.598, + "grad_norm": 0.14207206666469574, + "learning_rate": 1.047254570764265e-05, + "loss": 0.4532, + "step": 1794 + }, + { + "epoch": 0.5983333333333334, + "grad_norm": 0.20168113708496094, + "learning_rate": 1.0457557837323407e-05, + "loss": 0.4573, + "step": 1795 + }, + { + "epoch": 0.5986666666666667, + "grad_norm": 0.1831780970096588, + "learning_rate": 1.0442574958326598e-05, + "loss": 0.4482, + "step": 1796 + }, + { + "epoch": 0.599, + "grad_norm": 0.1852816343307495, + "learning_rate": 1.04275970871157e-05, + "loss": 0.4458, + "step": 1797 + }, + { + "epoch": 0.5993333333333334, + "grad_norm": 0.15029150247573853, + "learning_rate": 1.041262424014869e-05, + "loss": 0.4586, + "step": 1798 + }, + { + "epoch": 0.5996666666666667, + "grad_norm": 0.16819410026073456, + "learning_rate": 1.0397656433878013e-05, + "loss": 0.4505, + "step": 1799 + }, + { + "epoch": 0.6, + "grad_norm": 0.16067756712436676, + "learning_rate": 1.0382693684750583e-05, + "loss": 0.4566, + "step": 1800 + }, + { + "epoch": 0.6003333333333334, + "grad_norm": 0.18759694695472717, + "learning_rate": 1.0367736009207754e-05, + "loss": 0.45, + "step": 1801 + }, + { + "epoch": 0.6006666666666667, + "grad_norm": 0.14662595093250275, + "learning_rate": 1.0352783423685308e-05, + "loss": 0.4464, + "step": 1802 + }, + { + "epoch": 0.601, + "grad_norm": 0.1822032779455185, + "learning_rate": 1.0337835944613432e-05, + "loss": 0.4597, + "step": 1803 + }, + { + "epoch": 0.6013333333333334, + "grad_norm": 0.12155884504318237, + "learning_rate": 1.0322893588416704e-05, + "loss": 0.4563, + "step": 1804 + }, + { + "epoch": 0.6016666666666667, + "grad_norm": 0.14108073711395264, + "learning_rate": 1.0307956371514066e-05, + "loss": 0.4576, + "step": 1805 + }, + { + "epoch": 0.602, + "grad_norm": 0.15410113334655762, + "learning_rate": 1.0293024310318823e-05, + "loss": 0.4455, + "step": 1806 + }, + { + "epoch": 0.6023333333333334, + "grad_norm": 0.16524378955364227, + "learning_rate": 1.0278097421238606e-05, + "loss": 0.4533, + "step": 1807 + }, + { + "epoch": 0.6026666666666667, + "grad_norm": 0.11339142173528671, + "learning_rate": 1.026317572067537e-05, + "loss": 0.4365, + "step": 1808 + }, + { + "epoch": 0.603, + "grad_norm": 0.11446211487054825, + "learning_rate": 1.0248259225025362e-05, + "loss": 0.4499, + "step": 1809 + }, + { + "epoch": 0.6033333333333334, + "grad_norm": 0.2236861288547516, + "learning_rate": 1.0233347950679115e-05, + "loss": 0.4503, + "step": 1810 + }, + { + "epoch": 0.6036666666666667, + "grad_norm": 0.17991165816783905, + "learning_rate": 1.0218441914021423e-05, + "loss": 0.4512, + "step": 1811 + }, + { + "epoch": 0.604, + "grad_norm": 0.14736506342887878, + "learning_rate": 1.0203541131431321e-05, + "loss": 0.4477, + "step": 1812 + }, + { + "epoch": 0.6043333333333333, + "grad_norm": 0.1380821317434311, + "learning_rate": 1.018864561928208e-05, + "loss": 0.4481, + "step": 1813 + }, + { + "epoch": 0.6046666666666667, + "grad_norm": 0.1782415509223938, + "learning_rate": 1.0173755393941172e-05, + "loss": 0.4534, + "step": 1814 + }, + { + "epoch": 0.605, + "grad_norm": 0.30977168679237366, + "learning_rate": 1.0158870471770262e-05, + "loss": 0.456, + "step": 1815 + }, + { + "epoch": 0.6053333333333333, + "grad_norm": 0.1762005239725113, + "learning_rate": 1.0143990869125185e-05, + "loss": 0.4506, + "step": 1816 + }, + { + "epoch": 0.6056666666666667, + "grad_norm": 0.14462240040302277, + "learning_rate": 1.0129116602355937e-05, + "loss": 0.4517, + "step": 1817 + }, + { + "epoch": 0.606, + "grad_norm": 0.16631874442100525, + "learning_rate": 1.0114247687806644e-05, + "loss": 0.4512, + "step": 1818 + }, + { + "epoch": 0.6063333333333333, + "grad_norm": 0.21120049059391022, + "learning_rate": 1.0099384141815555e-05, + "loss": 0.4617, + "step": 1819 + }, + { + "epoch": 0.6066666666666667, + "grad_norm": 0.17290540039539337, + "learning_rate": 1.0084525980715017e-05, + "loss": 0.4564, + "step": 1820 + }, + { + "epoch": 0.607, + "grad_norm": 0.2311388999223709, + "learning_rate": 1.006967322083147e-05, + "loss": 0.4501, + "step": 1821 + }, + { + "epoch": 0.6073333333333333, + "grad_norm": 0.20729202032089233, + "learning_rate": 1.00548258784854e-05, + "loss": 0.4566, + "step": 1822 + }, + { + "epoch": 0.6076666666666667, + "grad_norm": 0.22770291566848755, + "learning_rate": 1.0039983969991357e-05, + "loss": 0.448, + "step": 1823 + }, + { + "epoch": 0.608, + "grad_norm": 0.18537363409996033, + "learning_rate": 1.002514751165792e-05, + "loss": 0.4488, + "step": 1824 + }, + { + "epoch": 0.6083333333333333, + "grad_norm": 0.13945850729942322, + "learning_rate": 1.001031651978766e-05, + "loss": 0.4364, + "step": 1825 + }, + { + "epoch": 0.6086666666666667, + "grad_norm": 0.1501425951719284, + "learning_rate": 9.995491010677164e-06, + "loss": 0.4393, + "step": 1826 + }, + { + "epoch": 0.609, + "grad_norm": 0.13744089007377625, + "learning_rate": 9.980671000616977e-06, + "loss": 0.4499, + "step": 1827 + }, + { + "epoch": 0.6093333333333333, + "grad_norm": 0.11671090871095657, + "learning_rate": 9.965856505891622e-06, + "loss": 0.4559, + "step": 1828 + }, + { + "epoch": 0.6096666666666667, + "grad_norm": 0.20003961026668549, + "learning_rate": 9.951047542779543e-06, + "loss": 0.4498, + "step": 1829 + }, + { + "epoch": 0.61, + "grad_norm": 0.1568612903356552, + "learning_rate": 9.936244127553115e-06, + "loss": 0.4513, + "step": 1830 + }, + { + "epoch": 0.6103333333333333, + "grad_norm": 0.1220272034406662, + "learning_rate": 9.921446276478614e-06, + "loss": 0.4595, + "step": 1831 + }, + { + "epoch": 0.6106666666666667, + "grad_norm": 0.13968101143836975, + "learning_rate": 9.906654005816196e-06, + "loss": 0.4525, + "step": 1832 + }, + { + "epoch": 0.611, + "grad_norm": 0.13944678008556366, + "learning_rate": 9.891867331819898e-06, + "loss": 0.4392, + "step": 1833 + }, + { + "epoch": 0.6113333333333333, + "grad_norm": 0.13327741622924805, + "learning_rate": 9.877086270737596e-06, + "loss": 0.4525, + "step": 1834 + }, + { + "epoch": 0.6116666666666667, + "grad_norm": 0.1221248060464859, + "learning_rate": 9.862310838811006e-06, + "loss": 0.4479, + "step": 1835 + }, + { + "epoch": 0.612, + "grad_norm": 0.12989147007465363, + "learning_rate": 9.847541052275654e-06, + "loss": 0.4518, + "step": 1836 + }, + { + "epoch": 0.6123333333333333, + "grad_norm": 0.19472447037696838, + "learning_rate": 9.832776927360866e-06, + "loss": 0.4427, + "step": 1837 + }, + { + "epoch": 0.6126666666666667, + "grad_norm": 0.19038447737693787, + "learning_rate": 9.818018480289744e-06, + "loss": 0.4606, + "step": 1838 + }, + { + "epoch": 0.613, + "grad_norm": 0.16250276565551758, + "learning_rate": 9.80326572727915e-06, + "loss": 0.4497, + "step": 1839 + }, + { + "epoch": 0.6133333333333333, + "grad_norm": 0.16239461302757263, + "learning_rate": 9.788518684539695e-06, + "loss": 0.4501, + "step": 1840 + }, + { + "epoch": 0.6136666666666667, + "grad_norm": 0.13008621335029602, + "learning_rate": 9.77377736827571e-06, + "loss": 0.4462, + "step": 1841 + }, + { + "epoch": 0.614, + "grad_norm": 0.16453827917575836, + "learning_rate": 9.759041794685237e-06, + "loss": 0.4554, + "step": 1842 + }, + { + "epoch": 0.6143333333333333, + "grad_norm": 0.16678793728351593, + "learning_rate": 9.744311979960006e-06, + "loss": 0.4457, + "step": 1843 + }, + { + "epoch": 0.6146666666666667, + "grad_norm": 0.15915203094482422, + "learning_rate": 9.72958794028542e-06, + "loss": 0.4357, + "step": 1844 + }, + { + "epoch": 0.615, + "grad_norm": 0.19041460752487183, + "learning_rate": 9.714869691840536e-06, + "loss": 0.4439, + "step": 1845 + }, + { + "epoch": 0.6153333333333333, + "grad_norm": 0.19956307113170624, + "learning_rate": 9.700157250798044e-06, + "loss": 0.4425, + "step": 1846 + }, + { + "epoch": 0.6156666666666667, + "grad_norm": 0.1836625188589096, + "learning_rate": 9.68545063332426e-06, + "loss": 0.4632, + "step": 1847 + }, + { + "epoch": 0.616, + "grad_norm": 0.18119974434375763, + "learning_rate": 9.670749855579096e-06, + "loss": 0.4526, + "step": 1848 + }, + { + "epoch": 0.6163333333333333, + "grad_norm": 0.18274536728858948, + "learning_rate": 9.656054933716047e-06, + "loss": 0.4418, + "step": 1849 + }, + { + "epoch": 0.6166666666666667, + "grad_norm": 0.12352490425109863, + "learning_rate": 9.641365883882175e-06, + "loss": 0.452, + "step": 1850 + }, + { + "epoch": 0.617, + "grad_norm": 0.16507700085639954, + "learning_rate": 9.626682722218092e-06, + "loss": 0.4443, + "step": 1851 + }, + { + "epoch": 0.6173333333333333, + "grad_norm": 0.1470641940832138, + "learning_rate": 9.61200546485793e-06, + "loss": 0.4494, + "step": 1852 + }, + { + "epoch": 0.6176666666666667, + "grad_norm": 0.14340347051620483, + "learning_rate": 9.597334127929346e-06, + "loss": 0.446, + "step": 1853 + }, + { + "epoch": 0.618, + "grad_norm": 0.16581104695796967, + "learning_rate": 9.582668727553486e-06, + "loss": 0.4469, + "step": 1854 + }, + { + "epoch": 0.6183333333333333, + "grad_norm": 0.11419650167226791, + "learning_rate": 9.568009279844971e-06, + "loss": 0.4472, + "step": 1855 + }, + { + "epoch": 0.6186666666666667, + "grad_norm": 0.18092063069343567, + "learning_rate": 9.553355800911877e-06, + "loss": 0.4459, + "step": 1856 + }, + { + "epoch": 0.619, + "grad_norm": 0.14096984267234802, + "learning_rate": 9.53870830685574e-06, + "loss": 0.4517, + "step": 1857 + }, + { + "epoch": 0.6193333333333333, + "grad_norm": 0.1815613955259323, + "learning_rate": 9.524066813771506e-06, + "loss": 0.4359, + "step": 1858 + }, + { + "epoch": 0.6196666666666667, + "grad_norm": 0.16683903336524963, + "learning_rate": 9.509431337747517e-06, + "loss": 0.453, + "step": 1859 + }, + { + "epoch": 0.62, + "grad_norm": 0.3626139760017395, + "learning_rate": 9.49480189486552e-06, + "loss": 0.4504, + "step": 1860 + }, + { + "epoch": 0.6203333333333333, + "grad_norm": 0.21524040400981903, + "learning_rate": 9.48017850120063e-06, + "loss": 0.448, + "step": 1861 + }, + { + "epoch": 0.6206666666666667, + "grad_norm": 0.16077488660812378, + "learning_rate": 9.465561172821306e-06, + "loss": 0.4568, + "step": 1862 + }, + { + "epoch": 0.621, + "grad_norm": 0.1377391368150711, + "learning_rate": 9.450949925789354e-06, + "loss": 0.4486, + "step": 1863 + }, + { + "epoch": 0.6213333333333333, + "grad_norm": 0.20425613224506378, + "learning_rate": 9.436344776159886e-06, + "loss": 0.4551, + "step": 1864 + }, + { + "epoch": 0.6216666666666667, + "grad_norm": 0.13616272807121277, + "learning_rate": 9.421745739981325e-06, + "loss": 0.4464, + "step": 1865 + }, + { + "epoch": 0.622, + "grad_norm": 0.173282653093338, + "learning_rate": 9.407152833295373e-06, + "loss": 0.4457, + "step": 1866 + }, + { + "epoch": 0.6223333333333333, + "grad_norm": 0.2095450758934021, + "learning_rate": 9.39256607213699e-06, + "loss": 0.4469, + "step": 1867 + }, + { + "epoch": 0.6226666666666667, + "grad_norm": 0.15443363785743713, + "learning_rate": 9.377985472534392e-06, + "loss": 0.4486, + "step": 1868 + }, + { + "epoch": 0.623, + "grad_norm": 0.16538318991661072, + "learning_rate": 9.36341105050902e-06, + "loss": 0.4384, + "step": 1869 + }, + { + "epoch": 0.6233333333333333, + "grad_norm": 0.1988583505153656, + "learning_rate": 9.348842822075529e-06, + "loss": 0.4348, + "step": 1870 + }, + { + "epoch": 0.6236666666666667, + "grad_norm": 0.13701044023036957, + "learning_rate": 9.334280803241759e-06, + "loss": 0.447, + "step": 1871 + }, + { + "epoch": 0.624, + "grad_norm": 0.14641763269901276, + "learning_rate": 9.319725010008748e-06, + "loss": 0.4462, + "step": 1872 + }, + { + "epoch": 0.6243333333333333, + "grad_norm": 0.14675500988960266, + "learning_rate": 9.305175458370675e-06, + "loss": 0.4469, + "step": 1873 + }, + { + "epoch": 0.6246666666666667, + "grad_norm": 0.16822141408920288, + "learning_rate": 9.290632164314867e-06, + "loss": 0.4528, + "step": 1874 + }, + { + "epoch": 0.625, + "grad_norm": 0.16104361414909363, + "learning_rate": 9.276095143821772e-06, + "loss": 0.4401, + "step": 1875 + }, + { + "epoch": 0.6253333333333333, + "grad_norm": 0.17899633944034576, + "learning_rate": 9.261564412864947e-06, + "loss": 0.4547, + "step": 1876 + }, + { + "epoch": 0.6256666666666667, + "grad_norm": 0.12329237163066864, + "learning_rate": 9.24703998741104e-06, + "loss": 0.4472, + "step": 1877 + }, + { + "epoch": 0.626, + "grad_norm": 0.14606481790542603, + "learning_rate": 9.232521883419766e-06, + "loss": 0.4542, + "step": 1878 + }, + { + "epoch": 0.6263333333333333, + "grad_norm": 0.1303902566432953, + "learning_rate": 9.218010116843893e-06, + "loss": 0.4577, + "step": 1879 + }, + { + "epoch": 0.6266666666666667, + "grad_norm": 0.16434095799922943, + "learning_rate": 9.203504703629233e-06, + "loss": 0.4417, + "step": 1880 + }, + { + "epoch": 0.627, + "grad_norm": 0.15749900043010712, + "learning_rate": 9.189005659714608e-06, + "loss": 0.4502, + "step": 1881 + }, + { + "epoch": 0.6273333333333333, + "grad_norm": 0.18393966555595398, + "learning_rate": 9.174513001031846e-06, + "loss": 0.4554, + "step": 1882 + }, + { + "epoch": 0.6276666666666667, + "grad_norm": 0.21589817106723785, + "learning_rate": 9.160026743505758e-06, + "loss": 0.4547, + "step": 1883 + }, + { + "epoch": 0.628, + "grad_norm": 0.16711097955703735, + "learning_rate": 9.145546903054119e-06, + "loss": 0.4409, + "step": 1884 + }, + { + "epoch": 0.6283333333333333, + "grad_norm": 0.18679720163345337, + "learning_rate": 9.131073495587662e-06, + "loss": 0.453, + "step": 1885 + }, + { + "epoch": 0.6286666666666667, + "grad_norm": 0.20977896451950073, + "learning_rate": 9.116606537010034e-06, + "loss": 0.4452, + "step": 1886 + }, + { + "epoch": 0.629, + "grad_norm": 0.12225223332643509, + "learning_rate": 9.102146043217816e-06, + "loss": 0.4496, + "step": 1887 + }, + { + "epoch": 0.6293333333333333, + "grad_norm": 0.1351037174463272, + "learning_rate": 9.087692030100472e-06, + "loss": 0.4541, + "step": 1888 + }, + { + "epoch": 0.6296666666666667, + "grad_norm": 0.17769064009189606, + "learning_rate": 9.073244513540345e-06, + "loss": 0.4527, + "step": 1889 + }, + { + "epoch": 0.63, + "grad_norm": 0.17207615077495575, + "learning_rate": 9.058803509412647e-06, + "loss": 0.4482, + "step": 1890 + }, + { + "epoch": 0.6303333333333333, + "grad_norm": 0.17776212096214294, + "learning_rate": 9.04436903358543e-06, + "loss": 0.4591, + "step": 1891 + }, + { + "epoch": 0.6306666666666667, + "grad_norm": 0.17782287299633026, + "learning_rate": 9.02994110191957e-06, + "loss": 0.4401, + "step": 1892 + }, + { + "epoch": 0.631, + "grad_norm": 0.19803811609745026, + "learning_rate": 9.015519730268755e-06, + "loss": 0.443, + "step": 1893 + }, + { + "epoch": 0.6313333333333333, + "grad_norm": 0.15314330160617828, + "learning_rate": 9.001104934479467e-06, + "loss": 0.4486, + "step": 1894 + }, + { + "epoch": 0.6316666666666667, + "grad_norm": 0.20101319253444672, + "learning_rate": 8.986696730390956e-06, + "loss": 0.4451, + "step": 1895 + }, + { + "epoch": 0.632, + "grad_norm": 0.17421817779541016, + "learning_rate": 8.972295133835234e-06, + "loss": 0.4427, + "step": 1896 + }, + { + "epoch": 0.6323333333333333, + "grad_norm": 0.10956616699695587, + "learning_rate": 8.957900160637053e-06, + "loss": 0.4471, + "step": 1897 + }, + { + "epoch": 0.6326666666666667, + "grad_norm": 0.15793286263942719, + "learning_rate": 8.943511826613883e-06, + "loss": 0.449, + "step": 1898 + }, + { + "epoch": 0.633, + "grad_norm": 0.1688617765903473, + "learning_rate": 8.929130147575902e-06, + "loss": 0.4465, + "step": 1899 + }, + { + "epoch": 0.6333333333333333, + "grad_norm": 0.14856867492198944, + "learning_rate": 8.914755139325971e-06, + "loss": 0.445, + "step": 1900 + }, + { + "epoch": 0.6336666666666667, + "grad_norm": 0.16318689286708832, + "learning_rate": 8.900386817659622e-06, + "loss": 0.4467, + "step": 1901 + }, + { + "epoch": 0.634, + "grad_norm": 0.1693338304758072, + "learning_rate": 8.886025198365055e-06, + "loss": 0.4576, + "step": 1902 + }, + { + "epoch": 0.6343333333333333, + "grad_norm": 0.13822267949581146, + "learning_rate": 8.871670297223082e-06, + "loss": 0.4405, + "step": 1903 + }, + { + "epoch": 0.6346666666666667, + "grad_norm": 0.23474542796611786, + "learning_rate": 8.857322130007151e-06, + "loss": 0.442, + "step": 1904 + }, + { + "epoch": 0.635, + "grad_norm": 0.16575895249843597, + "learning_rate": 8.842980712483295e-06, + "loss": 0.4412, + "step": 1905 + }, + { + "epoch": 0.6353333333333333, + "grad_norm": 0.16694355010986328, + "learning_rate": 8.828646060410139e-06, + "loss": 0.4477, + "step": 1906 + }, + { + "epoch": 0.6356666666666667, + "grad_norm": 0.12011069059371948, + "learning_rate": 8.814318189538876e-06, + "loss": 0.4502, + "step": 1907 + }, + { + "epoch": 0.636, + "grad_norm": 0.12465480715036392, + "learning_rate": 8.799997115613242e-06, + "loss": 0.4421, + "step": 1908 + }, + { + "epoch": 0.6363333333333333, + "grad_norm": 0.1634395569562912, + "learning_rate": 8.785682854369512e-06, + "loss": 0.4487, + "step": 1909 + }, + { + "epoch": 0.6366666666666667, + "grad_norm": 0.19118636846542358, + "learning_rate": 8.771375421536465e-06, + "loss": 0.4537, + "step": 1910 + }, + { + "epoch": 0.637, + "grad_norm": 0.13847550749778748, + "learning_rate": 8.757074832835386e-06, + "loss": 0.4453, + "step": 1911 + }, + { + "epoch": 0.6373333333333333, + "grad_norm": 0.13233605027198792, + "learning_rate": 8.74278110398004e-06, + "loss": 0.4573, + "step": 1912 + }, + { + "epoch": 0.6376666666666667, + "grad_norm": 0.16247040033340454, + "learning_rate": 8.728494250676636e-06, + "loss": 0.4472, + "step": 1913 + }, + { + "epoch": 0.638, + "grad_norm": 0.16531902551651, + "learning_rate": 8.714214288623856e-06, + "loss": 0.445, + "step": 1914 + }, + { + "epoch": 0.6383333333333333, + "grad_norm": 0.15184128284454346, + "learning_rate": 8.69994123351278e-06, + "loss": 0.4491, + "step": 1915 + }, + { + "epoch": 0.6386666666666667, + "grad_norm": 0.19652915000915527, + "learning_rate": 8.685675101026936e-06, + "loss": 0.452, + "step": 1916 + }, + { + "epoch": 0.639, + "grad_norm": 0.171346977353096, + "learning_rate": 8.671415906842207e-06, + "loss": 0.4564, + "step": 1917 + }, + { + "epoch": 0.6393333333333333, + "grad_norm": 0.13563266396522522, + "learning_rate": 8.657163666626877e-06, + "loss": 0.4504, + "step": 1918 + }, + { + "epoch": 0.6396666666666667, + "grad_norm": 0.12407342344522476, + "learning_rate": 8.64291839604158e-06, + "loss": 0.4506, + "step": 1919 + }, + { + "epoch": 0.64, + "grad_norm": 0.1405506432056427, + "learning_rate": 8.628680110739283e-06, + "loss": 0.4568, + "step": 1920 + }, + { + "epoch": 0.6403333333333333, + "grad_norm": 0.153152734041214, + "learning_rate": 8.614448826365297e-06, + "loss": 0.4521, + "step": 1921 + }, + { + "epoch": 0.6406666666666667, + "grad_norm": 0.15859097242355347, + "learning_rate": 8.600224558557224e-06, + "loss": 0.4476, + "step": 1922 + }, + { + "epoch": 0.641, + "grad_norm": 0.17752249538898468, + "learning_rate": 8.586007322944967e-06, + "loss": 0.4439, + "step": 1923 + }, + { + "epoch": 0.6413333333333333, + "grad_norm": 0.17975454032421112, + "learning_rate": 8.571797135150686e-06, + "loss": 0.4437, + "step": 1924 + }, + { + "epoch": 0.6416666666666667, + "grad_norm": 0.11802849173545837, + "learning_rate": 8.557594010788824e-06, + "loss": 0.4515, + "step": 1925 + }, + { + "epoch": 0.642, + "grad_norm": 0.1693839728832245, + "learning_rate": 8.54339796546603e-06, + "loss": 0.4483, + "step": 1926 + }, + { + "epoch": 0.6423333333333333, + "grad_norm": 0.13517670333385468, + "learning_rate": 8.529209014781202e-06, + "loss": 0.4474, + "step": 1927 + }, + { + "epoch": 0.6426666666666667, + "grad_norm": 0.32714444398880005, + "learning_rate": 8.515027174325421e-06, + "loss": 0.4562, + "step": 1928 + }, + { + "epoch": 0.643, + "grad_norm": 0.18290787935256958, + "learning_rate": 8.500852459681976e-06, + "loss": 0.4521, + "step": 1929 + }, + { + "epoch": 0.6433333333333333, + "grad_norm": 0.1829795390367508, + "learning_rate": 8.486684886426304e-06, + "loss": 0.4531, + "step": 1930 + }, + { + "epoch": 0.6436666666666667, + "grad_norm": 0.23581714928150177, + "learning_rate": 8.472524470126008e-06, + "loss": 0.4489, + "step": 1931 + }, + { + "epoch": 0.644, + "grad_norm": 0.17281410098075867, + "learning_rate": 8.458371226340835e-06, + "loss": 0.4473, + "step": 1932 + }, + { + "epoch": 0.6443333333333333, + "grad_norm": 0.18796159327030182, + "learning_rate": 8.444225170622627e-06, + "loss": 0.4551, + "step": 1933 + }, + { + "epoch": 0.6446666666666667, + "grad_norm": 0.15321554243564606, + "learning_rate": 8.430086318515351e-06, + "loss": 0.4437, + "step": 1934 + }, + { + "epoch": 0.645, + "grad_norm": 0.20365898311138153, + "learning_rate": 8.41595468555504e-06, + "loss": 0.4607, + "step": 1935 + }, + { + "epoch": 0.6453333333333333, + "grad_norm": 0.15445156395435333, + "learning_rate": 8.401830287269811e-06, + "loss": 0.4446, + "step": 1936 + }, + { + "epoch": 0.6456666666666667, + "grad_norm": 0.17456650733947754, + "learning_rate": 8.38771313917982e-06, + "loss": 0.4566, + "step": 1937 + }, + { + "epoch": 0.646, + "grad_norm": 0.17046645283699036, + "learning_rate": 8.373603256797253e-06, + "loss": 0.4469, + "step": 1938 + }, + { + "epoch": 0.6463333333333333, + "grad_norm": 0.13129237294197083, + "learning_rate": 8.359500655626332e-06, + "loss": 0.4452, + "step": 1939 + }, + { + "epoch": 0.6466666666666666, + "grad_norm": 0.1679726541042328, + "learning_rate": 8.345405351163251e-06, + "loss": 0.4483, + "step": 1940 + }, + { + "epoch": 0.647, + "grad_norm": 0.23311464488506317, + "learning_rate": 8.331317358896214e-06, + "loss": 0.4487, + "step": 1941 + }, + { + "epoch": 0.6473333333333333, + "grad_norm": 0.1429024636745453, + "learning_rate": 8.317236694305366e-06, + "loss": 0.4462, + "step": 1942 + }, + { + "epoch": 0.6476666666666666, + "grad_norm": 0.18313561379909515, + "learning_rate": 8.303163372862818e-06, + "loss": 0.4431, + "step": 1943 + }, + { + "epoch": 0.648, + "grad_norm": 0.23163796961307526, + "learning_rate": 8.289097410032599e-06, + "loss": 0.4562, + "step": 1944 + }, + { + "epoch": 0.6483333333333333, + "grad_norm": 0.1867259293794632, + "learning_rate": 8.275038821270659e-06, + "loss": 0.4511, + "step": 1945 + }, + { + "epoch": 0.6486666666666666, + "grad_norm": 0.12599152326583862, + "learning_rate": 8.260987622024854e-06, + "loss": 0.4513, + "step": 1946 + }, + { + "epoch": 0.649, + "grad_norm": 0.09844589233398438, + "learning_rate": 8.246943827734899e-06, + "loss": 0.4532, + "step": 1947 + }, + { + "epoch": 0.6493333333333333, + "grad_norm": 0.17323224246501923, + "learning_rate": 8.232907453832396e-06, + "loss": 0.445, + "step": 1948 + }, + { + "epoch": 0.6496666666666666, + "grad_norm": 0.12326237559318542, + "learning_rate": 8.218878515740767e-06, + "loss": 0.449, + "step": 1949 + }, + { + "epoch": 0.65, + "grad_norm": 0.14018161594867706, + "learning_rate": 8.204857028875291e-06, + "loss": 0.4452, + "step": 1950 + }, + { + "epoch": 0.6503333333333333, + "grad_norm": 0.19509805738925934, + "learning_rate": 8.190843008643037e-06, + "loss": 0.4491, + "step": 1951 + }, + { + "epoch": 0.6506666666666666, + "grad_norm": 0.17423927783966064, + "learning_rate": 8.176836470442886e-06, + "loss": 0.4531, + "step": 1952 + }, + { + "epoch": 0.651, + "grad_norm": 0.17106153070926666, + "learning_rate": 8.162837429665481e-06, + "loss": 0.4413, + "step": 1953 + }, + { + "epoch": 0.6513333333333333, + "grad_norm": 0.13674265146255493, + "learning_rate": 8.14884590169325e-06, + "loss": 0.4484, + "step": 1954 + }, + { + "epoch": 0.6516666666666666, + "grad_norm": 0.19799014925956726, + "learning_rate": 8.134861901900334e-06, + "loss": 0.4376, + "step": 1955 + }, + { + "epoch": 0.652, + "grad_norm": 0.19137442111968994, + "learning_rate": 8.12088544565264e-06, + "loss": 0.4553, + "step": 1956 + }, + { + "epoch": 0.6523333333333333, + "grad_norm": 0.18754316866397858, + "learning_rate": 8.106916548307753e-06, + "loss": 0.442, + "step": 1957 + }, + { + "epoch": 0.6526666666666666, + "grad_norm": 0.16803115606307983, + "learning_rate": 8.092955225214962e-06, + "loss": 0.451, + "step": 1958 + }, + { + "epoch": 0.653, + "grad_norm": 0.1450885385274887, + "learning_rate": 8.079001491715248e-06, + "loss": 0.4521, + "step": 1959 + }, + { + "epoch": 0.6533333333333333, + "grad_norm": 0.19027674198150635, + "learning_rate": 8.06505536314122e-06, + "loss": 0.4402, + "step": 1960 + }, + { + "epoch": 0.6536666666666666, + "grad_norm": 0.19004397094249725, + "learning_rate": 8.051116854817179e-06, + "loss": 0.4352, + "step": 1961 + }, + { + "epoch": 0.654, + "grad_norm": 0.3641957640647888, + "learning_rate": 8.037185982059005e-06, + "loss": 0.4479, + "step": 1962 + }, + { + "epoch": 0.6543333333333333, + "grad_norm": 0.1995958536863327, + "learning_rate": 8.02326276017422e-06, + "loss": 0.4536, + "step": 1963 + }, + { + "epoch": 0.6546666666666666, + "grad_norm": 0.1850118637084961, + "learning_rate": 8.009347204461922e-06, + "loss": 0.4418, + "step": 1964 + }, + { + "epoch": 0.655, + "grad_norm": 0.14062193036079407, + "learning_rate": 7.99543933021278e-06, + "loss": 0.456, + "step": 1965 + }, + { + "epoch": 0.6553333333333333, + "grad_norm": 0.17289862036705017, + "learning_rate": 7.981539152709049e-06, + "loss": 0.4416, + "step": 1966 + }, + { + "epoch": 0.6556666666666666, + "grad_norm": 0.2016402631998062, + "learning_rate": 7.967646687224495e-06, + "loss": 0.442, + "step": 1967 + }, + { + "epoch": 0.656, + "grad_norm": 0.2257925420999527, + "learning_rate": 7.953761949024442e-06, + "loss": 0.4584, + "step": 1968 + }, + { + "epoch": 0.6563333333333333, + "grad_norm": 0.17190571129322052, + "learning_rate": 7.939884953365689e-06, + "loss": 0.4413, + "step": 1969 + }, + { + "epoch": 0.6566666666666666, + "grad_norm": 0.15869510173797607, + "learning_rate": 7.926015715496558e-06, + "loss": 0.4467, + "step": 1970 + }, + { + "epoch": 0.657, + "grad_norm": 0.1477171927690506, + "learning_rate": 7.912154250656822e-06, + "loss": 0.445, + "step": 1971 + }, + { + "epoch": 0.6573333333333333, + "grad_norm": 0.20549337565898895, + "learning_rate": 7.898300574077737e-06, + "loss": 0.4496, + "step": 1972 + }, + { + "epoch": 0.6576666666666666, + "grad_norm": 0.186955064535141, + "learning_rate": 7.884454700981973e-06, + "loss": 0.4505, + "step": 1973 + }, + { + "epoch": 0.658, + "grad_norm": 0.18533872067928314, + "learning_rate": 7.870616646583648e-06, + "loss": 0.4484, + "step": 1974 + }, + { + "epoch": 0.6583333333333333, + "grad_norm": 0.1654207855463028, + "learning_rate": 7.85678642608829e-06, + "loss": 0.4459, + "step": 1975 + }, + { + "epoch": 0.6586666666666666, + "grad_norm": 0.14353342354297638, + "learning_rate": 7.842964054692795e-06, + "loss": 0.4491, + "step": 1976 + }, + { + "epoch": 0.659, + "grad_norm": 0.2217366248369217, + "learning_rate": 7.82914954758546e-06, + "loss": 0.4405, + "step": 1977 + }, + { + "epoch": 0.6593333333333333, + "grad_norm": 0.12437044084072113, + "learning_rate": 7.815342919945922e-06, + "loss": 0.4446, + "step": 1978 + }, + { + "epoch": 0.6596666666666666, + "grad_norm": 0.17929865419864655, + "learning_rate": 7.801544186945176e-06, + "loss": 0.4411, + "step": 1979 + }, + { + "epoch": 0.66, + "grad_norm": 0.21923527121543884, + "learning_rate": 7.787753363745528e-06, + "loss": 0.4504, + "step": 1980 + }, + { + "epoch": 0.6603333333333333, + "grad_norm": 0.16440168023109436, + "learning_rate": 7.773970465500604e-06, + "loss": 0.44, + "step": 1981 + }, + { + "epoch": 0.6606666666666666, + "grad_norm": 0.16407990455627441, + "learning_rate": 7.760195507355307e-06, + "loss": 0.4531, + "step": 1982 + }, + { + "epoch": 0.661, + "grad_norm": 0.23955386877059937, + "learning_rate": 7.746428504445836e-06, + "loss": 0.4472, + "step": 1983 + }, + { + "epoch": 0.6613333333333333, + "grad_norm": 0.19152548909187317, + "learning_rate": 7.732669471899632e-06, + "loss": 0.4447, + "step": 1984 + }, + { + "epoch": 0.6616666666666666, + "grad_norm": 0.11794077605009079, + "learning_rate": 7.718918424835381e-06, + "loss": 0.4452, + "step": 1985 + }, + { + "epoch": 0.662, + "grad_norm": 0.14932183921337128, + "learning_rate": 7.705175378363003e-06, + "loss": 0.4485, + "step": 1986 + }, + { + "epoch": 0.6623333333333333, + "grad_norm": 0.16379769146442413, + "learning_rate": 7.691440347583612e-06, + "loss": 0.4444, + "step": 1987 + }, + { + "epoch": 0.6626666666666666, + "grad_norm": 0.14077985286712646, + "learning_rate": 7.677713347589536e-06, + "loss": 0.4466, + "step": 1988 + }, + { + "epoch": 0.663, + "grad_norm": 0.14349988102912903, + "learning_rate": 7.663994393464243e-06, + "loss": 0.4439, + "step": 1989 + }, + { + "epoch": 0.6633333333333333, + "grad_norm": 0.14082150161266327, + "learning_rate": 7.65028350028241e-06, + "loss": 0.4524, + "step": 1990 + }, + { + "epoch": 0.6636666666666666, + "grad_norm": 0.12440716475248337, + "learning_rate": 7.636580683109816e-06, + "loss": 0.459, + "step": 1991 + }, + { + "epoch": 0.664, + "grad_norm": 0.1381293088197708, + "learning_rate": 7.622885957003374e-06, + "loss": 0.4457, + "step": 1992 + }, + { + "epoch": 0.6643333333333333, + "grad_norm": 0.22144527733325958, + "learning_rate": 7.609199337011123e-06, + "loss": 0.4536, + "step": 1993 + }, + { + "epoch": 0.6646666666666666, + "grad_norm": 0.12061889469623566, + "learning_rate": 7.595520838172168e-06, + "loss": 0.4464, + "step": 1994 + }, + { + "epoch": 0.665, + "grad_norm": 0.1934531331062317, + "learning_rate": 7.581850475516721e-06, + "loss": 0.4458, + "step": 1995 + }, + { + "epoch": 0.6653333333333333, + "grad_norm": 0.23967750370502472, + "learning_rate": 7.568188264066026e-06, + "loss": 0.4471, + "step": 1996 + }, + { + "epoch": 0.6656666666666666, + "grad_norm": 0.1884104609489441, + "learning_rate": 7.554534218832393e-06, + "loss": 0.4426, + "step": 1997 + }, + { + "epoch": 0.666, + "grad_norm": 0.18923750519752502, + "learning_rate": 7.5408883548191384e-06, + "loss": 0.449, + "step": 1998 + }, + { + "epoch": 0.6663333333333333, + "grad_norm": 0.18437887728214264, + "learning_rate": 7.5272506870206094e-06, + "loss": 0.4452, + "step": 1999 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 0.1798381209373474, + "learning_rate": 7.513621230422123e-06, + "loss": 0.4437, + "step": 2000 + } + ], + "logging_steps": 1.0, + "max_steps": 3000, + "num_input_tokens_seen": 0, + "num_train_epochs": 9223372036854775807, + "save_steps": 500, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": false + }, + "attributes": {} + } + }, + "total_flos": 1.7194625775297783e+20, + "train_batch_size": 2, + "trial_name": null, + "trial_params": null +}