{ "best_metric": null, "best_model_checkpoint": null, "epoch": 0.6666666666666666, "eval_steps": 500, "global_step": 2000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0003333333333333333, "grad_norm": 0.5618885159492493, "learning_rate": 9.999999999999999e-06, "loss": 0.5906, "step": 1 }, { "epoch": 0.0006666666666666666, "grad_norm": 0.1781821846961975, "learning_rate": 1.9999999999999998e-05, "loss": 0.5069, "step": 2 }, { "epoch": 0.001, "grad_norm": 0.17140868306159973, "learning_rate": 3e-05, "loss": 0.4444, "step": 3 }, { "epoch": 0.0013333333333333333, "grad_norm": 0.21297098696231842, "learning_rate": 2.9999991758856373e-05, "loss": 0.4328, "step": 4 }, { "epoch": 0.0016666666666666668, "grad_norm": 0.19361384212970734, "learning_rate": 2.9999967035434546e-05, "loss": 0.4313, "step": 5 }, { "epoch": 0.002, "grad_norm": 0.10692717880010605, "learning_rate": 2.999992582976169e-05, "loss": 0.4304, "step": 6 }, { "epoch": 0.0023333333333333335, "grad_norm": 0.12433163076639175, "learning_rate": 2.9999868141883077e-05, "loss": 0.4328, "step": 7 }, { "epoch": 0.0026666666666666666, "grad_norm": 0.10557225346565247, "learning_rate": 2.9999793971862098e-05, "loss": 0.4241, "step": 8 }, { "epoch": 0.003, "grad_norm": 0.16398893296718597, "learning_rate": 2.999970331978025e-05, "loss": 0.4341, "step": 9 }, { "epoch": 0.0033333333333333335, "grad_norm": 0.21949617564678192, "learning_rate": 2.9999596185737146e-05, "loss": 0.4208, "step": 10 }, { "epoch": 0.0036666666666666666, "grad_norm": 0.11252401024103165, "learning_rate": 2.9999472569850505e-05, "loss": 0.4191, "step": 11 }, { "epoch": 0.004, "grad_norm": 0.1046333983540535, "learning_rate": 2.9999332472256166e-05, "loss": 0.417, "step": 12 }, { "epoch": 0.004333333333333333, "grad_norm": 0.1682811677455902, "learning_rate": 2.999917589310806e-05, "loss": 0.417, "step": 13 }, { "epoch": 0.004666666666666667, "grad_norm": 0.14189855754375458, "learning_rate": 2.9999002832578246e-05, "loss": 0.4221, "step": 14 }, { "epoch": 0.005, "grad_norm": 0.09489354491233826, "learning_rate": 2.999881329085688e-05, "loss": 0.4158, "step": 15 }, { "epoch": 0.005333333333333333, "grad_norm": 0.15875688195228577, "learning_rate": 2.9998607268152244e-05, "loss": 0.4183, "step": 16 }, { "epoch": 0.005666666666666667, "grad_norm": 0.17202739417552948, "learning_rate": 2.999838476469071e-05, "loss": 0.4215, "step": 17 }, { "epoch": 0.006, "grad_norm": 0.10151273757219315, "learning_rate": 2.9998145780716776e-05, "loss": 0.4097, "step": 18 }, { "epoch": 0.006333333333333333, "grad_norm": 0.1025652289390564, "learning_rate": 2.9997890316493036e-05, "loss": 0.413, "step": 19 }, { "epoch": 0.006666666666666667, "grad_norm": 0.10641320049762726, "learning_rate": 2.9997618372300208e-05, "loss": 0.4145, "step": 20 }, { "epoch": 0.007, "grad_norm": 0.1978514939546585, "learning_rate": 2.99973299484371e-05, "loss": 0.4107, "step": 21 }, { "epoch": 0.007333333333333333, "grad_norm": 0.11744631826877594, "learning_rate": 2.999702504522064e-05, "loss": 0.4003, "step": 22 }, { "epoch": 0.007666666666666666, "grad_norm": 0.12009154260158539, "learning_rate": 2.999670366298586e-05, "loss": 0.4098, "step": 23 }, { "epoch": 0.008, "grad_norm": 0.11457215994596481, "learning_rate": 2.999636580208591e-05, "loss": 0.4157, "step": 24 }, { "epoch": 0.008333333333333333, "grad_norm": 0.15578040480613708, "learning_rate": 2.999601146289203e-05, "loss": 0.4128, "step": 25 }, { "epoch": 0.008666666666666666, "grad_norm": 0.10786713659763336, "learning_rate": 2.9995640645793576e-05, "loss": 0.42, "step": 26 }, { "epoch": 0.009, "grad_norm": 0.09585212171077728, "learning_rate": 2.999525335119801e-05, "loss": 0.4137, "step": 27 }, { "epoch": 0.009333333333333334, "grad_norm": 0.12627744674682617, "learning_rate": 2.9994849579530893e-05, "loss": 0.4083, "step": 28 }, { "epoch": 0.009666666666666667, "grad_norm": 0.14488570392131805, "learning_rate": 2.999442933123591e-05, "loss": 0.4095, "step": 29 }, { "epoch": 0.01, "grad_norm": 0.10908735543489456, "learning_rate": 2.9993992606774826e-05, "loss": 0.4033, "step": 30 }, { "epoch": 0.010333333333333333, "grad_norm": 0.13068236410617828, "learning_rate": 2.9993539406627524e-05, "loss": 0.4101, "step": 31 }, { "epoch": 0.010666666666666666, "grad_norm": 0.1072893962264061, "learning_rate": 2.9993069731291995e-05, "loss": 0.4094, "step": 32 }, { "epoch": 0.011, "grad_norm": 0.10081745684146881, "learning_rate": 2.9992583581284324e-05, "loss": 0.4096, "step": 33 }, { "epoch": 0.011333333333333334, "grad_norm": 0.09671071171760559, "learning_rate": 2.99920809571387e-05, "loss": 0.4121, "step": 34 }, { "epoch": 0.011666666666666667, "grad_norm": 0.08121569454669952, "learning_rate": 2.9991561859407413e-05, "loss": 0.408, "step": 35 }, { "epoch": 0.012, "grad_norm": 0.10918578505516052, "learning_rate": 2.999102628866087e-05, "loss": 0.4075, "step": 36 }, { "epoch": 0.012333333333333333, "grad_norm": 0.07578189671039581, "learning_rate": 2.9990474245487555e-05, "loss": 0.4103, "step": 37 }, { "epoch": 0.012666666666666666, "grad_norm": 0.12217068672180176, "learning_rate": 2.9989905730494068e-05, "loss": 0.4002, "step": 38 }, { "epoch": 0.013, "grad_norm": 0.09366371482610703, "learning_rate": 2.9989320744305102e-05, "loss": 0.4196, "step": 39 }, { "epoch": 0.013333333333333334, "grad_norm": 0.089875727891922, "learning_rate": 2.9988719287563452e-05, "loss": 0.4121, "step": 40 }, { "epoch": 0.013666666666666667, "grad_norm": 0.07090825587511063, "learning_rate": 2.998810136093001e-05, "loss": 0.4009, "step": 41 }, { "epoch": 0.014, "grad_norm": 0.09881623834371567, "learning_rate": 2.998746696508377e-05, "loss": 0.4099, "step": 42 }, { "epoch": 0.014333333333333333, "grad_norm": 0.08910360932350159, "learning_rate": 2.998681610072181e-05, "loss": 0.4167, "step": 43 }, { "epoch": 0.014666666666666666, "grad_norm": 0.09045550972223282, "learning_rate": 2.9986148768559314e-05, "loss": 0.4076, "step": 44 }, { "epoch": 0.015, "grad_norm": 0.09698829799890518, "learning_rate": 2.9985464969329568e-05, "loss": 0.4089, "step": 45 }, { "epoch": 0.015333333333333332, "grad_norm": 0.11797811836004257, "learning_rate": 2.9984764703783934e-05, "loss": 0.4068, "step": 46 }, { "epoch": 0.015666666666666666, "grad_norm": 0.0824899896979332, "learning_rate": 2.9984047972691882e-05, "loss": 0.4055, "step": 47 }, { "epoch": 0.016, "grad_norm": 0.09946855157613754, "learning_rate": 2.998331477684097e-05, "loss": 0.4131, "step": 48 }, { "epoch": 0.01633333333333333, "grad_norm": 0.08910916745662689, "learning_rate": 2.9982565117036844e-05, "loss": 0.4055, "step": 49 }, { "epoch": 0.016666666666666666, "grad_norm": 0.09523975104093552, "learning_rate": 2.998179899410325e-05, "loss": 0.413, "step": 50 }, { "epoch": 0.017, "grad_norm": 0.0850600078701973, "learning_rate": 2.9981016408882008e-05, "loss": 0.3964, "step": 51 }, { "epoch": 0.017333333333333333, "grad_norm": 0.10436173528432846, "learning_rate": 2.9980217362233048e-05, "loss": 0.4091, "step": 52 }, { "epoch": 0.017666666666666667, "grad_norm": 0.11041701585054398, "learning_rate": 2.997940185503438e-05, "loss": 0.4189, "step": 53 }, { "epoch": 0.018, "grad_norm": 0.15549615025520325, "learning_rate": 2.997856988818209e-05, "loss": 0.4025, "step": 54 }, { "epoch": 0.018333333333333333, "grad_norm": 0.10649256408214569, "learning_rate": 2.9977721462590364e-05, "loss": 0.4122, "step": 55 }, { "epoch": 0.018666666666666668, "grad_norm": 0.11493156850337982, "learning_rate": 2.9976856579191467e-05, "loss": 0.4, "step": 56 }, { "epoch": 0.019, "grad_norm": 0.12989689409732819, "learning_rate": 2.9975975238935747e-05, "loss": 0.4156, "step": 57 }, { "epoch": 0.019333333333333334, "grad_norm": 0.11189858615398407, "learning_rate": 2.9975077442791644e-05, "loss": 0.4065, "step": 58 }, { "epoch": 0.019666666666666666, "grad_norm": 0.09460669010877609, "learning_rate": 2.9974163191745668e-05, "loss": 0.4002, "step": 59 }, { "epoch": 0.02, "grad_norm": 0.0896977111697197, "learning_rate": 2.9973232486802412e-05, "loss": 0.4101, "step": 60 }, { "epoch": 0.02033333333333333, "grad_norm": 0.09035991132259369, "learning_rate": 2.9972285328984564e-05, "loss": 0.408, "step": 61 }, { "epoch": 0.020666666666666667, "grad_norm": 0.10343337804079056, "learning_rate": 2.997132171933287e-05, "loss": 0.4038, "step": 62 }, { "epoch": 0.021, "grad_norm": 0.11173971742391586, "learning_rate": 2.9970341658906166e-05, "loss": 0.4096, "step": 63 }, { "epoch": 0.021333333333333333, "grad_norm": 0.16090619564056396, "learning_rate": 2.9969345148781362e-05, "loss": 0.408, "step": 64 }, { "epoch": 0.021666666666666667, "grad_norm": 0.10791561007499695, "learning_rate": 2.996833219005344e-05, "loss": 0.4089, "step": 65 }, { "epoch": 0.022, "grad_norm": 0.06673993170261383, "learning_rate": 2.9967302783835462e-05, "loss": 0.4012, "step": 66 }, { "epoch": 0.022333333333333334, "grad_norm": 0.100413978099823, "learning_rate": 2.9966256931258554e-05, "loss": 0.4024, "step": 67 }, { "epoch": 0.02266666666666667, "grad_norm": 0.1771310269832611, "learning_rate": 2.9965194633471925e-05, "loss": 0.4193, "step": 68 }, { "epoch": 0.023, "grad_norm": 0.0920652374625206, "learning_rate": 2.996411589164284e-05, "loss": 0.4118, "step": 69 }, { "epoch": 0.023333333333333334, "grad_norm": 0.10187116265296936, "learning_rate": 2.9963020706956648e-05, "loss": 0.4109, "step": 70 }, { "epoch": 0.023666666666666666, "grad_norm": 0.0869801864027977, "learning_rate": 2.9961909080616757e-05, "loss": 0.4129, "step": 71 }, { "epoch": 0.024, "grad_norm": 0.10588974505662918, "learning_rate": 2.9960781013844643e-05, "loss": 0.4162, "step": 72 }, { "epoch": 0.024333333333333332, "grad_norm": 0.08130564540624619, "learning_rate": 2.995963650787985e-05, "loss": 0.4051, "step": 73 }, { "epoch": 0.024666666666666667, "grad_norm": 0.07810894399881363, "learning_rate": 2.9958475563979977e-05, "loss": 0.4008, "step": 74 }, { "epoch": 0.025, "grad_norm": 0.08321021497249603, "learning_rate": 2.99572981834207e-05, "loss": 0.4085, "step": 75 }, { "epoch": 0.025333333333333333, "grad_norm": 0.09737488627433777, "learning_rate": 2.9956104367495738e-05, "loss": 0.4019, "step": 76 }, { "epoch": 0.025666666666666667, "grad_norm": 0.1106966882944107, "learning_rate": 2.995489411751688e-05, "loss": 0.4106, "step": 77 }, { "epoch": 0.026, "grad_norm": 0.08891285955905914, "learning_rate": 2.9953667434813983e-05, "loss": 0.4108, "step": 78 }, { "epoch": 0.026333333333333334, "grad_norm": 0.14050297439098358, "learning_rate": 2.9952424320734935e-05, "loss": 0.4097, "step": 79 }, { "epoch": 0.02666666666666667, "grad_norm": 0.12178231030702591, "learning_rate": 2.9951164776645702e-05, "loss": 0.4056, "step": 80 }, { "epoch": 0.027, "grad_norm": 0.0826113373041153, "learning_rate": 2.9949888803930293e-05, "loss": 0.4129, "step": 81 }, { "epoch": 0.027333333333333334, "grad_norm": 0.08032584190368652, "learning_rate": 2.9948596403990774e-05, "loss": 0.4035, "step": 82 }, { "epoch": 0.027666666666666666, "grad_norm": 0.09317266941070557, "learning_rate": 2.9947287578247257e-05, "loss": 0.408, "step": 83 }, { "epoch": 0.028, "grad_norm": 0.10722361505031586, "learning_rate": 2.9945962328137898e-05, "loss": 0.4039, "step": 84 }, { "epoch": 0.028333333333333332, "grad_norm": 0.25730186700820923, "learning_rate": 2.9944620655118916e-05, "loss": 0.4103, "step": 85 }, { "epoch": 0.028666666666666667, "grad_norm": 0.10314544290304184, "learning_rate": 2.9943262560664563e-05, "loss": 0.41, "step": 86 }, { "epoch": 0.029, "grad_norm": 0.07751830667257309, "learning_rate": 2.9941888046267144e-05, "loss": 0.4033, "step": 87 }, { "epoch": 0.029333333333333333, "grad_norm": 0.1194625049829483, "learning_rate": 2.9940497113436994e-05, "loss": 0.3958, "step": 88 }, { "epoch": 0.029666666666666668, "grad_norm": 0.0774913877248764, "learning_rate": 2.9939089763702506e-05, "loss": 0.4256, "step": 89 }, { "epoch": 0.03, "grad_norm": 0.09801949560642242, "learning_rate": 2.9937665998610097e-05, "loss": 0.4067, "step": 90 }, { "epoch": 0.030333333333333334, "grad_norm": 0.09112638980150223, "learning_rate": 2.9936225819724224e-05, "loss": 0.4101, "step": 91 }, { "epoch": 0.030666666666666665, "grad_norm": 0.08197083324193954, "learning_rate": 2.993476922862739e-05, "loss": 0.4063, "step": 92 }, { "epoch": 0.031, "grad_norm": 0.10547469556331635, "learning_rate": 2.9933296226920122e-05, "loss": 0.4081, "step": 93 }, { "epoch": 0.03133333333333333, "grad_norm": 0.0937281921505928, "learning_rate": 2.9931806816220982e-05, "loss": 0.4036, "step": 94 }, { "epoch": 0.03166666666666667, "grad_norm": 0.09861817210912704, "learning_rate": 2.993030099816656e-05, "loss": 0.4, "step": 95 }, { "epoch": 0.032, "grad_norm": 0.08383932709693909, "learning_rate": 2.9928778774411487e-05, "loss": 0.4071, "step": 96 }, { "epoch": 0.03233333333333333, "grad_norm": 0.09034381806850433, "learning_rate": 2.9927240146628406e-05, "loss": 0.4025, "step": 97 }, { "epoch": 0.03266666666666666, "grad_norm": 0.1359708160161972, "learning_rate": 2.992568511650799e-05, "loss": 0.4129, "step": 98 }, { "epoch": 0.033, "grad_norm": 0.08980116993188858, "learning_rate": 2.9924113685758934e-05, "loss": 0.4029, "step": 99 }, { "epoch": 0.03333333333333333, "grad_norm": 0.1574094295501709, "learning_rate": 2.9922525856107962e-05, "loss": 0.4069, "step": 100 }, { "epoch": 0.033666666666666664, "grad_norm": 0.09855298697948456, "learning_rate": 2.9920921629299805e-05, "loss": 0.409, "step": 101 }, { "epoch": 0.034, "grad_norm": 0.08783973008394241, "learning_rate": 2.9919301007097224e-05, "loss": 0.4103, "step": 102 }, { "epoch": 0.034333333333333334, "grad_norm": 0.11836662888526917, "learning_rate": 2.9917663991280986e-05, "loss": 0.4106, "step": 103 }, { "epoch": 0.034666666666666665, "grad_norm": 0.1002713292837143, "learning_rate": 2.991601058364988e-05, "loss": 0.4133, "step": 104 }, { "epoch": 0.035, "grad_norm": 0.06721492856740952, "learning_rate": 2.9914340786020692e-05, "loss": 0.404, "step": 105 }, { "epoch": 0.035333333333333335, "grad_norm": 0.08734780550003052, "learning_rate": 2.991265460022824e-05, "loss": 0.3965, "step": 106 }, { "epoch": 0.035666666666666666, "grad_norm": 0.07992058247327805, "learning_rate": 2.991095202812533e-05, "loss": 0.4006, "step": 107 }, { "epoch": 0.036, "grad_norm": 0.0807764008641243, "learning_rate": 2.9909233071582783e-05, "loss": 0.4023, "step": 108 }, { "epoch": 0.036333333333333336, "grad_norm": 0.11602742969989777, "learning_rate": 2.990749773248942e-05, "loss": 0.402, "step": 109 }, { "epoch": 0.03666666666666667, "grad_norm": 0.10492037981748581, "learning_rate": 2.9905746012752067e-05, "loss": 0.3978, "step": 110 }, { "epoch": 0.037, "grad_norm": 0.11796582490205765, "learning_rate": 2.9903977914295546e-05, "loss": 0.4038, "step": 111 }, { "epoch": 0.037333333333333336, "grad_norm": 0.11972765624523163, "learning_rate": 2.9902193439062673e-05, "loss": 0.4027, "step": 112 }, { "epoch": 0.03766666666666667, "grad_norm": 0.08374351263046265, "learning_rate": 2.990039258901427e-05, "loss": 0.4194, "step": 113 }, { "epoch": 0.038, "grad_norm": 0.12379361689090729, "learning_rate": 2.9898575366129145e-05, "loss": 0.4028, "step": 114 }, { "epoch": 0.03833333333333333, "grad_norm": 0.08912088721990585, "learning_rate": 2.9896741772404093e-05, "loss": 0.4017, "step": 115 }, { "epoch": 0.03866666666666667, "grad_norm": 0.11902043968439102, "learning_rate": 2.9894891809853906e-05, "loss": 0.3999, "step": 116 }, { "epoch": 0.039, "grad_norm": 0.06670001894235611, "learning_rate": 2.9893025480511357e-05, "loss": 0.4003, "step": 117 }, { "epoch": 0.03933333333333333, "grad_norm": 0.08368493616580963, "learning_rate": 2.9891142786427205e-05, "loss": 0.4021, "step": 118 }, { "epoch": 0.03966666666666667, "grad_norm": 0.08319640159606934, "learning_rate": 2.9889243729670186e-05, "loss": 0.4043, "step": 119 }, { "epoch": 0.04, "grad_norm": 0.09492335468530655, "learning_rate": 2.9887328312327025e-05, "loss": 0.4047, "step": 120 }, { "epoch": 0.04033333333333333, "grad_norm": 0.08682533353567123, "learning_rate": 2.988539653650242e-05, "loss": 0.4078, "step": 121 }, { "epoch": 0.04066666666666666, "grad_norm": 0.12284991890192032, "learning_rate": 2.9883448404319035e-05, "loss": 0.4067, "step": 122 }, { "epoch": 0.041, "grad_norm": 0.09233195334672928, "learning_rate": 2.9881483917917528e-05, "loss": 0.4075, "step": 123 }, { "epoch": 0.04133333333333333, "grad_norm": 0.0721079632639885, "learning_rate": 2.9879503079456504e-05, "loss": 0.4095, "step": 124 }, { "epoch": 0.041666666666666664, "grad_norm": 0.09709025174379349, "learning_rate": 2.987750589111255e-05, "loss": 0.399, "step": 125 }, { "epoch": 0.042, "grad_norm": 0.122868612408638, "learning_rate": 2.9875492355080213e-05, "loss": 0.4024, "step": 126 }, { "epoch": 0.042333333333333334, "grad_norm": 0.07873429358005524, "learning_rate": 2.9873462473572005e-05, "loss": 0.4061, "step": 127 }, { "epoch": 0.042666666666666665, "grad_norm": 0.08508696407079697, "learning_rate": 2.9871416248818402e-05, "loss": 0.3957, "step": 128 }, { "epoch": 0.043, "grad_norm": 0.07922211289405823, "learning_rate": 2.986935368306783e-05, "loss": 0.399, "step": 129 }, { "epoch": 0.043333333333333335, "grad_norm": 0.0966828316450119, "learning_rate": 2.986727477858668e-05, "loss": 0.4144, "step": 130 }, { "epoch": 0.043666666666666666, "grad_norm": 0.08578796684741974, "learning_rate": 2.9865179537659295e-05, "loss": 0.398, "step": 131 }, { "epoch": 0.044, "grad_norm": 0.08409901708364487, "learning_rate": 2.9863067962587955e-05, "loss": 0.3972, "step": 132 }, { "epoch": 0.044333333333333336, "grad_norm": 0.11395500600337982, "learning_rate": 2.986094005569291e-05, "loss": 0.41, "step": 133 }, { "epoch": 0.04466666666666667, "grad_norm": 0.14657551050186157, "learning_rate": 2.985879581931234e-05, "loss": 0.4038, "step": 134 }, { "epoch": 0.045, "grad_norm": 0.09622641652822495, "learning_rate": 2.985663525580237e-05, "loss": 0.3948, "step": 135 }, { "epoch": 0.04533333333333334, "grad_norm": 0.21486984193325043, "learning_rate": 2.9854458367537074e-05, "loss": 0.4031, "step": 136 }, { "epoch": 0.04566666666666667, "grad_norm": 0.19630934298038483, "learning_rate": 2.9852265156908455e-05, "loss": 0.4071, "step": 137 }, { "epoch": 0.046, "grad_norm": 0.10381752997636795, "learning_rate": 2.9850055626326455e-05, "loss": 0.3996, "step": 138 }, { "epoch": 0.04633333333333333, "grad_norm": 0.09213623404502869, "learning_rate": 2.9847829778218952e-05, "loss": 0.4098, "step": 139 }, { "epoch": 0.04666666666666667, "grad_norm": 0.08791747689247131, "learning_rate": 2.984558761503175e-05, "loss": 0.3994, "step": 140 }, { "epoch": 0.047, "grad_norm": 0.11782487481832504, "learning_rate": 2.984332913922858e-05, "loss": 0.4059, "step": 141 }, { "epoch": 0.04733333333333333, "grad_norm": 0.08477963507175446, "learning_rate": 2.9841054353291092e-05, "loss": 0.4071, "step": 142 }, { "epoch": 0.04766666666666667, "grad_norm": 0.08006130158901215, "learning_rate": 2.9838763259718877e-05, "loss": 0.4108, "step": 143 }, { "epoch": 0.048, "grad_norm": 0.09608197212219238, "learning_rate": 2.9836455861029423e-05, "loss": 0.4035, "step": 144 }, { "epoch": 0.04833333333333333, "grad_norm": 0.09154752641916275, "learning_rate": 2.9834132159758143e-05, "loss": 0.3991, "step": 145 }, { "epoch": 0.048666666666666664, "grad_norm": 0.09966495633125305, "learning_rate": 2.983179215845837e-05, "loss": 0.403, "step": 146 }, { "epoch": 0.049, "grad_norm": 0.10722507536411285, "learning_rate": 2.982943585970134e-05, "loss": 0.4076, "step": 147 }, { "epoch": 0.04933333333333333, "grad_norm": 0.08198609203100204, "learning_rate": 2.98270632660762e-05, "loss": 0.4084, "step": 148 }, { "epoch": 0.049666666666666665, "grad_norm": 0.2901388108730316, "learning_rate": 2.9824674380189998e-05, "loss": 0.3962, "step": 149 }, { "epoch": 0.05, "grad_norm": 0.07718809694051743, "learning_rate": 2.9822269204667696e-05, "loss": 0.4031, "step": 150 }, { "epoch": 0.050333333333333334, "grad_norm": 0.0875968188047409, "learning_rate": 2.981984774215214e-05, "loss": 0.4066, "step": 151 }, { "epoch": 0.050666666666666665, "grad_norm": 0.07414428889751434, "learning_rate": 2.9817409995304074e-05, "loss": 0.4, "step": 152 }, { "epoch": 0.051, "grad_norm": 0.06896387785673141, "learning_rate": 2.981495596680215e-05, "loss": 0.4117, "step": 153 }, { "epoch": 0.051333333333333335, "grad_norm": 0.0961553156375885, "learning_rate": 2.98124856593429e-05, "loss": 0.4028, "step": 154 }, { "epoch": 0.051666666666666666, "grad_norm": 0.11313239485025406, "learning_rate": 2.980999907564074e-05, "loss": 0.4037, "step": 155 }, { "epoch": 0.052, "grad_norm": 0.11233378201723099, "learning_rate": 2.9807496218427986e-05, "loss": 0.4001, "step": 156 }, { "epoch": 0.052333333333333336, "grad_norm": 0.08463700860738754, "learning_rate": 2.980497709045482e-05, "loss": 0.3983, "step": 157 }, { "epoch": 0.05266666666666667, "grad_norm": 0.08069396764039993, "learning_rate": 2.98024416944893e-05, "loss": 0.3871, "step": 158 }, { "epoch": 0.053, "grad_norm": 0.07506050169467926, "learning_rate": 2.9799890033317382e-05, "loss": 0.4079, "step": 159 }, { "epoch": 0.05333333333333334, "grad_norm": 0.09403230994939804, "learning_rate": 2.979732210974287e-05, "loss": 0.4045, "step": 160 }, { "epoch": 0.05366666666666667, "grad_norm": 0.10112256556749344, "learning_rate": 2.9794737926587453e-05, "loss": 0.4142, "step": 161 }, { "epoch": 0.054, "grad_norm": 0.07786240428686142, "learning_rate": 2.979213748669067e-05, "loss": 0.4016, "step": 162 }, { "epoch": 0.05433333333333333, "grad_norm": 0.10419435054063797, "learning_rate": 2.9789520792909956e-05, "loss": 0.4049, "step": 163 }, { "epoch": 0.05466666666666667, "grad_norm": 0.10456927120685577, "learning_rate": 2.978688784812056e-05, "loss": 0.4043, "step": 164 }, { "epoch": 0.055, "grad_norm": 0.09317093342542648, "learning_rate": 2.9784238655215627e-05, "loss": 0.4021, "step": 165 }, { "epoch": 0.05533333333333333, "grad_norm": 0.09381449967622757, "learning_rate": 2.978157321710614e-05, "loss": 0.3959, "step": 166 }, { "epoch": 0.05566666666666667, "grad_norm": 0.08799547702074051, "learning_rate": 2.9778891536720925e-05, "loss": 0.3902, "step": 167 }, { "epoch": 0.056, "grad_norm": 0.08262615650892258, "learning_rate": 2.9776193617006672e-05, "loss": 0.391, "step": 168 }, { "epoch": 0.05633333333333333, "grad_norm": 0.0956135168671608, "learning_rate": 2.9773479460927904e-05, "loss": 0.4017, "step": 169 }, { "epoch": 0.056666666666666664, "grad_norm": 0.0916408821940422, "learning_rate": 2.9770749071466992e-05, "loss": 0.4013, "step": 170 }, { "epoch": 0.057, "grad_norm": 0.12273528426885605, "learning_rate": 2.976800245162413e-05, "loss": 0.4076, "step": 171 }, { "epoch": 0.05733333333333333, "grad_norm": 0.10626845061779022, "learning_rate": 2.9765239604417365e-05, "loss": 0.4086, "step": 172 }, { "epoch": 0.057666666666666665, "grad_norm": 0.07739051431417465, "learning_rate": 2.976246053288256e-05, "loss": 0.4099, "step": 173 }, { "epoch": 0.058, "grad_norm": 0.08017119765281677, "learning_rate": 2.975966524007342e-05, "loss": 0.4043, "step": 174 }, { "epoch": 0.058333333333333334, "grad_norm": 0.08694978803396225, "learning_rate": 2.9756853729061466e-05, "loss": 0.4027, "step": 175 }, { "epoch": 0.058666666666666666, "grad_norm": 0.13719531893730164, "learning_rate": 2.975402600293603e-05, "loss": 0.4075, "step": 176 }, { "epoch": 0.059, "grad_norm": 0.09418261051177979, "learning_rate": 2.975118206480428e-05, "loss": 0.3978, "step": 177 }, { "epoch": 0.059333333333333335, "grad_norm": 0.08428846299648285, "learning_rate": 2.9748321917791188e-05, "loss": 0.4041, "step": 178 }, { "epoch": 0.059666666666666666, "grad_norm": 0.11274924874305725, "learning_rate": 2.974544556503954e-05, "loss": 0.4087, "step": 179 }, { "epoch": 0.06, "grad_norm": 0.08349188417196274, "learning_rate": 2.9742553009709922e-05, "loss": 0.3979, "step": 180 }, { "epoch": 0.060333333333333336, "grad_norm": 0.08124207705259323, "learning_rate": 2.9739644254980735e-05, "loss": 0.4094, "step": 181 }, { "epoch": 0.06066666666666667, "grad_norm": 0.07733158767223358, "learning_rate": 2.9736719304048166e-05, "loss": 0.4072, "step": 182 }, { "epoch": 0.061, "grad_norm": 0.09636202454566956, "learning_rate": 2.973377816012622e-05, "loss": 0.3974, "step": 183 }, { "epoch": 0.06133333333333333, "grad_norm": 0.07546680420637131, "learning_rate": 2.9730820826446677e-05, "loss": 0.41, "step": 184 }, { "epoch": 0.06166666666666667, "grad_norm": 0.08843699097633362, "learning_rate": 2.9727847306259106e-05, "loss": 0.3952, "step": 185 }, { "epoch": 0.062, "grad_norm": 0.07809021323919296, "learning_rate": 2.9724857602830875e-05, "loss": 0.4008, "step": 186 }, { "epoch": 0.06233333333333333, "grad_norm": 0.07301586121320724, "learning_rate": 2.9721851719447122e-05, "loss": 0.4002, "step": 187 }, { "epoch": 0.06266666666666666, "grad_norm": 0.09703553467988968, "learning_rate": 2.9718829659410772e-05, "loss": 0.4082, "step": 188 }, { "epoch": 0.063, "grad_norm": 0.10257147252559662, "learning_rate": 2.971579142604252e-05, "loss": 0.3996, "step": 189 }, { "epoch": 0.06333333333333334, "grad_norm": 0.13470500707626343, "learning_rate": 2.971273702268084e-05, "loss": 0.4031, "step": 190 }, { "epoch": 0.06366666666666666, "grad_norm": 0.09514757245779037, "learning_rate": 2.9709666452681968e-05, "loss": 0.4024, "step": 191 }, { "epoch": 0.064, "grad_norm": 0.08853461593389511, "learning_rate": 2.9706579719419902e-05, "loss": 0.4051, "step": 192 }, { "epoch": 0.06433333333333334, "grad_norm": 0.1049158051609993, "learning_rate": 2.9703476826286402e-05, "loss": 0.3894, "step": 193 }, { "epoch": 0.06466666666666666, "grad_norm": 0.115349680185318, "learning_rate": 2.9700357776690995e-05, "loss": 0.4019, "step": 194 }, { "epoch": 0.065, "grad_norm": 0.09481100738048553, "learning_rate": 2.969722257406094e-05, "loss": 0.4027, "step": 195 }, { "epoch": 0.06533333333333333, "grad_norm": 0.07482441514730453, "learning_rate": 2.969407122184127e-05, "loss": 0.4064, "step": 196 }, { "epoch": 0.06566666666666666, "grad_norm": 0.08880510181188583, "learning_rate": 2.9690903723494742e-05, "loss": 0.3994, "step": 197 }, { "epoch": 0.066, "grad_norm": 0.11632419377565384, "learning_rate": 2.968772008250187e-05, "loss": 0.4116, "step": 198 }, { "epoch": 0.06633333333333333, "grad_norm": 0.09792345762252808, "learning_rate": 2.9684520302360897e-05, "loss": 0.3996, "step": 199 }, { "epoch": 0.06666666666666667, "grad_norm": 0.07838916778564453, "learning_rate": 2.96813043865878e-05, "loss": 0.3991, "step": 200 }, { "epoch": 0.067, "grad_norm": 0.09950415045022964, "learning_rate": 2.9678072338716295e-05, "loss": 0.4031, "step": 201 }, { "epoch": 0.06733333333333333, "grad_norm": 0.09260636568069458, "learning_rate": 2.9674824162297813e-05, "loss": 0.4026, "step": 202 }, { "epoch": 0.06766666666666667, "grad_norm": 0.09946103394031525, "learning_rate": 2.9671559860901516e-05, "loss": 0.392, "step": 203 }, { "epoch": 0.068, "grad_norm": 0.11478128284215927, "learning_rate": 2.9668279438114278e-05, "loss": 0.4051, "step": 204 }, { "epoch": 0.06833333333333333, "grad_norm": 0.09460713714361191, "learning_rate": 2.966498289754069e-05, "loss": 0.3992, "step": 205 }, { "epoch": 0.06866666666666667, "grad_norm": 0.11014512926340103, "learning_rate": 2.9661670242803057e-05, "loss": 0.403, "step": 206 }, { "epoch": 0.069, "grad_norm": 0.13056829571723938, "learning_rate": 2.9658341477541386e-05, "loss": 0.4017, "step": 207 }, { "epoch": 0.06933333333333333, "grad_norm": 0.08369284868240356, "learning_rate": 2.9654996605413386e-05, "loss": 0.4078, "step": 208 }, { "epoch": 0.06966666666666667, "grad_norm": 0.09303431957960129, "learning_rate": 2.9651635630094472e-05, "loss": 0.4128, "step": 209 }, { "epoch": 0.07, "grad_norm": 0.07765641808509827, "learning_rate": 2.964825855527774e-05, "loss": 0.4124, "step": 210 }, { "epoch": 0.07033333333333333, "grad_norm": 0.1191212609410286, "learning_rate": 2.9644865384673995e-05, "loss": 0.3972, "step": 211 }, { "epoch": 0.07066666666666667, "grad_norm": 0.122700996696949, "learning_rate": 2.9641456122011705e-05, "loss": 0.4066, "step": 212 }, { "epoch": 0.071, "grad_norm": 0.15410679578781128, "learning_rate": 2.963803077103704e-05, "loss": 0.4139, "step": 213 }, { "epoch": 0.07133333333333333, "grad_norm": 0.11170166730880737, "learning_rate": 2.9634589335513846e-05, "loss": 0.4016, "step": 214 }, { "epoch": 0.07166666666666667, "grad_norm": 0.0956307202577591, "learning_rate": 2.9631131819223632e-05, "loss": 0.4002, "step": 215 }, { "epoch": 0.072, "grad_norm": 0.09708225727081299, "learning_rate": 2.962765822596558e-05, "loss": 0.3889, "step": 216 }, { "epoch": 0.07233333333333333, "grad_norm": 0.07844918966293335, "learning_rate": 2.9624168559556554e-05, "loss": 0.3918, "step": 217 }, { "epoch": 0.07266666666666667, "grad_norm": 0.09864295274019241, "learning_rate": 2.962066282383105e-05, "loss": 0.4041, "step": 218 }, { "epoch": 0.073, "grad_norm": 0.09595536440610886, "learning_rate": 2.961714102264125e-05, "loss": 0.3983, "step": 219 }, { "epoch": 0.07333333333333333, "grad_norm": 0.09911186248064041, "learning_rate": 2.961360315985697e-05, "loss": 0.3994, "step": 220 }, { "epoch": 0.07366666666666667, "grad_norm": 0.08480778336524963, "learning_rate": 2.9610049239365683e-05, "loss": 0.406, "step": 221 }, { "epoch": 0.074, "grad_norm": 0.11029253154993057, "learning_rate": 2.96064792650725e-05, "loss": 0.4007, "step": 222 }, { "epoch": 0.07433333333333333, "grad_norm": 0.06971371918916702, "learning_rate": 2.960289324090019e-05, "loss": 0.4008, "step": 223 }, { "epoch": 0.07466666666666667, "grad_norm": 0.07850680500268936, "learning_rate": 2.9599291170789132e-05, "loss": 0.3907, "step": 224 }, { "epoch": 0.075, "grad_norm": 0.08946023881435394, "learning_rate": 2.959567305869736e-05, "loss": 0.4051, "step": 225 }, { "epoch": 0.07533333333333334, "grad_norm": 0.09340225905179977, "learning_rate": 2.9592038908600514e-05, "loss": 0.4088, "step": 226 }, { "epoch": 0.07566666666666666, "grad_norm": 0.0758277103304863, "learning_rate": 2.9588388724491874e-05, "loss": 0.4092, "step": 227 }, { "epoch": 0.076, "grad_norm": 0.09443804621696472, "learning_rate": 2.9584722510382337e-05, "loss": 0.4029, "step": 228 }, { "epoch": 0.07633333333333334, "grad_norm": 0.07971173524856567, "learning_rate": 2.9581040270300397e-05, "loss": 0.3876, "step": 229 }, { "epoch": 0.07666666666666666, "grad_norm": 0.08970299363136292, "learning_rate": 2.9577342008292182e-05, "loss": 0.4021, "step": 230 }, { "epoch": 0.077, "grad_norm": 0.08132510632276535, "learning_rate": 2.9573627728421404e-05, "loss": 0.4031, "step": 231 }, { "epoch": 0.07733333333333334, "grad_norm": 0.08614128082990646, "learning_rate": 2.9569897434769392e-05, "loss": 0.397, "step": 232 }, { "epoch": 0.07766666666666666, "grad_norm": 0.08707490563392639, "learning_rate": 2.956615113143506e-05, "loss": 0.4076, "step": 233 }, { "epoch": 0.078, "grad_norm": 0.07884975522756577, "learning_rate": 2.956238882253492e-05, "loss": 0.3936, "step": 234 }, { "epoch": 0.07833333333333334, "grad_norm": 0.08376781642436981, "learning_rate": 2.9558610512203062e-05, "loss": 0.4029, "step": 235 }, { "epoch": 0.07866666666666666, "grad_norm": 0.3846357464790344, "learning_rate": 2.9554816204591173e-05, "loss": 0.3995, "step": 236 }, { "epoch": 0.079, "grad_norm": 0.08552670478820801, "learning_rate": 2.955100590386851e-05, "loss": 0.3994, "step": 237 }, { "epoch": 0.07933333333333334, "grad_norm": 0.07993961125612259, "learning_rate": 2.9547179614221906e-05, "loss": 0.4071, "step": 238 }, { "epoch": 0.07966666666666666, "grad_norm": 0.06469830870628357, "learning_rate": 2.954333733985576e-05, "loss": 0.3997, "step": 239 }, { "epoch": 0.08, "grad_norm": 0.13646341860294342, "learning_rate": 2.953947908499203e-05, "loss": 0.3958, "step": 240 }, { "epoch": 0.08033333333333334, "grad_norm": 0.07734150439500809, "learning_rate": 2.9535604853870255e-05, "loss": 0.4019, "step": 241 }, { "epoch": 0.08066666666666666, "grad_norm": 0.08741701394319534, "learning_rate": 2.9531714650747497e-05, "loss": 0.4052, "step": 242 }, { "epoch": 0.081, "grad_norm": 0.09813936054706573, "learning_rate": 2.95278084798984e-05, "loss": 0.4, "step": 243 }, { "epoch": 0.08133333333333333, "grad_norm": 0.07729940861463547, "learning_rate": 2.952388634561513e-05, "loss": 0.4005, "step": 244 }, { "epoch": 0.08166666666666667, "grad_norm": 0.0752038061618805, "learning_rate": 2.951994825220741e-05, "loss": 0.4092, "step": 245 }, { "epoch": 0.082, "grad_norm": 0.09082111716270447, "learning_rate": 2.9515994204002485e-05, "loss": 0.4107, "step": 246 }, { "epoch": 0.08233333333333333, "grad_norm": 0.08410289883613586, "learning_rate": 2.9512024205345144e-05, "loss": 0.41, "step": 247 }, { "epoch": 0.08266666666666667, "grad_norm": 0.10373739898204803, "learning_rate": 2.95080382605977e-05, "loss": 0.3984, "step": 248 }, { "epoch": 0.083, "grad_norm": 0.08495409041643143, "learning_rate": 2.9504036374139975e-05, "loss": 0.4082, "step": 249 }, { "epoch": 0.08333333333333333, "grad_norm": 0.10984745621681213, "learning_rate": 2.950001855036933e-05, "loss": 0.3952, "step": 250 }, { "epoch": 0.08366666666666667, "grad_norm": 0.06622229516506195, "learning_rate": 2.9495984793700622e-05, "loss": 0.4035, "step": 251 }, { "epoch": 0.084, "grad_norm": 0.09653183072805405, "learning_rate": 2.949193510856622e-05, "loss": 0.4023, "step": 252 }, { "epoch": 0.08433333333333333, "grad_norm": 0.07279062271118164, "learning_rate": 2.9487869499415997e-05, "loss": 0.3958, "step": 253 }, { "epoch": 0.08466666666666667, "grad_norm": 0.09925714880228043, "learning_rate": 2.948378797071732e-05, "loss": 0.4001, "step": 254 }, { "epoch": 0.085, "grad_norm": 0.13005736470222473, "learning_rate": 2.947969052695505e-05, "loss": 0.3951, "step": 255 }, { "epoch": 0.08533333333333333, "grad_norm": 0.09722208231687546, "learning_rate": 2.9475577172631542e-05, "loss": 0.4041, "step": 256 }, { "epoch": 0.08566666666666667, "grad_norm": 0.08989699184894562, "learning_rate": 2.9471447912266623e-05, "loss": 0.4014, "step": 257 }, { "epoch": 0.086, "grad_norm": 0.09207473695278168, "learning_rate": 2.9467302750397605e-05, "loss": 0.405, "step": 258 }, { "epoch": 0.08633333333333333, "grad_norm": 0.0882800966501236, "learning_rate": 2.9463141691579275e-05, "loss": 0.4003, "step": 259 }, { "epoch": 0.08666666666666667, "grad_norm": 0.07978735119104385, "learning_rate": 2.9458964740383878e-05, "loss": 0.3964, "step": 260 }, { "epoch": 0.087, "grad_norm": 0.0818752720952034, "learning_rate": 2.945477190140113e-05, "loss": 0.4035, "step": 261 }, { "epoch": 0.08733333333333333, "grad_norm": 0.06993523985147476, "learning_rate": 2.9450563179238207e-05, "loss": 0.3999, "step": 262 }, { "epoch": 0.08766666666666667, "grad_norm": 0.06509092450141907, "learning_rate": 2.9446338578519725e-05, "loss": 0.3984, "step": 263 }, { "epoch": 0.088, "grad_norm": 0.08877594769001007, "learning_rate": 2.9442098103887766e-05, "loss": 0.4029, "step": 264 }, { "epoch": 0.08833333333333333, "grad_norm": 0.0869932696223259, "learning_rate": 2.9437841760001837e-05, "loss": 0.3994, "step": 265 }, { "epoch": 0.08866666666666667, "grad_norm": 0.07756466418504715, "learning_rate": 2.9433569551538894e-05, "loss": 0.4052, "step": 266 }, { "epoch": 0.089, "grad_norm": 0.06943570077419281, "learning_rate": 2.9429281483193324e-05, "loss": 0.4046, "step": 267 }, { "epoch": 0.08933333333333333, "grad_norm": 0.08146432787179947, "learning_rate": 2.9424977559676933e-05, "loss": 0.3947, "step": 268 }, { "epoch": 0.08966666666666667, "grad_norm": 0.06675536930561066, "learning_rate": 2.9420657785718953e-05, "loss": 0.4003, "step": 269 }, { "epoch": 0.09, "grad_norm": 0.06987973302602768, "learning_rate": 2.9416322166066042e-05, "loss": 0.3967, "step": 270 }, { "epoch": 0.09033333333333333, "grad_norm": 0.07921211421489716, "learning_rate": 2.9411970705482256e-05, "loss": 0.3958, "step": 271 }, { "epoch": 0.09066666666666667, "grad_norm": 0.07318514585494995, "learning_rate": 2.9407603408749065e-05, "loss": 0.3962, "step": 272 }, { "epoch": 0.091, "grad_norm": 0.08152735978364944, "learning_rate": 2.940322028066534e-05, "loss": 0.391, "step": 273 }, { "epoch": 0.09133333333333334, "grad_norm": 0.08611530065536499, "learning_rate": 2.9398821326047347e-05, "loss": 0.3987, "step": 274 }, { "epoch": 0.09166666666666666, "grad_norm": 0.07577132433652878, "learning_rate": 2.9394406549728737e-05, "loss": 0.3975, "step": 275 }, { "epoch": 0.092, "grad_norm": 0.09083262830972672, "learning_rate": 2.9389975956560555e-05, "loss": 0.3994, "step": 276 }, { "epoch": 0.09233333333333334, "grad_norm": 0.07557782530784607, "learning_rate": 2.9385529551411216e-05, "loss": 0.4071, "step": 277 }, { "epoch": 0.09266666666666666, "grad_norm": 0.09578454494476318, "learning_rate": 2.938106733916652e-05, "loss": 0.4046, "step": 278 }, { "epoch": 0.093, "grad_norm": 0.0767151266336441, "learning_rate": 2.9376589324729632e-05, "loss": 0.3957, "step": 279 }, { "epoch": 0.09333333333333334, "grad_norm": 0.08298475295305252, "learning_rate": 2.9372095513021076e-05, "loss": 0.403, "step": 280 }, { "epoch": 0.09366666666666666, "grad_norm": 0.08236800134181976, "learning_rate": 2.936758590897874e-05, "loss": 0.4035, "step": 281 }, { "epoch": 0.094, "grad_norm": 0.07696409523487091, "learning_rate": 2.9363060517557863e-05, "loss": 0.3995, "step": 282 }, { "epoch": 0.09433333333333334, "grad_norm": 0.07577278465032578, "learning_rate": 2.9358519343731034e-05, "loss": 0.3987, "step": 283 }, { "epoch": 0.09466666666666666, "grad_norm": 0.0783209577202797, "learning_rate": 2.935396239248818e-05, "loss": 0.3976, "step": 284 }, { "epoch": 0.095, "grad_norm": 0.06904885917901993, "learning_rate": 2.934938966883657e-05, "loss": 0.4005, "step": 285 }, { "epoch": 0.09533333333333334, "grad_norm": 0.10414488613605499, "learning_rate": 2.9344801177800788e-05, "loss": 0.4031, "step": 286 }, { "epoch": 0.09566666666666666, "grad_norm": 0.07708293199539185, "learning_rate": 2.9340196924422773e-05, "loss": 0.4071, "step": 287 }, { "epoch": 0.096, "grad_norm": 0.08060728013515472, "learning_rate": 2.9335576913761757e-05, "loss": 0.404, "step": 288 }, { "epoch": 0.09633333333333334, "grad_norm": 0.09676415473222733, "learning_rate": 2.9330941150894294e-05, "loss": 0.4047, "step": 289 }, { "epoch": 0.09666666666666666, "grad_norm": 0.08045460283756256, "learning_rate": 2.9326289640914253e-05, "loss": 0.4041, "step": 290 }, { "epoch": 0.097, "grad_norm": 0.0853654071688652, "learning_rate": 2.9321622388932804e-05, "loss": 0.4047, "step": 291 }, { "epoch": 0.09733333333333333, "grad_norm": 0.07152312248945236, "learning_rate": 2.931693940007841e-05, "loss": 0.3989, "step": 292 }, { "epoch": 0.09766666666666667, "grad_norm": 0.07082869857549667, "learning_rate": 2.931224067949683e-05, "loss": 0.393, "step": 293 }, { "epoch": 0.098, "grad_norm": 0.07617537677288055, "learning_rate": 2.9307526232351107e-05, "loss": 0.4035, "step": 294 }, { "epoch": 0.09833333333333333, "grad_norm": 0.07729070633649826, "learning_rate": 2.9302796063821567e-05, "loss": 0.4038, "step": 295 }, { "epoch": 0.09866666666666667, "grad_norm": 0.07604706287384033, "learning_rate": 2.9298050179105808e-05, "loss": 0.4024, "step": 296 }, { "epoch": 0.099, "grad_norm": 0.07788676023483276, "learning_rate": 2.92932885834187e-05, "loss": 0.401, "step": 297 }, { "epoch": 0.09933333333333333, "grad_norm": 0.10551147162914276, "learning_rate": 2.928851128199238e-05, "loss": 0.4074, "step": 298 }, { "epoch": 0.09966666666666667, "grad_norm": 0.25817251205444336, "learning_rate": 2.928371828007623e-05, "loss": 0.3945, "step": 299 }, { "epoch": 0.1, "grad_norm": 0.08183149248361588, "learning_rate": 2.9278909582936897e-05, "loss": 0.397, "step": 300 }, { "epoch": 0.10033333333333333, "grad_norm": 0.0680360421538353, "learning_rate": 2.927408519585827e-05, "loss": 0.3854, "step": 301 }, { "epoch": 0.10066666666666667, "grad_norm": 0.05961975082755089, "learning_rate": 2.9269245124141478e-05, "loss": 0.4047, "step": 302 }, { "epoch": 0.101, "grad_norm": 0.10706108063459396, "learning_rate": 2.926438937310488e-05, "loss": 0.4024, "step": 303 }, { "epoch": 0.10133333333333333, "grad_norm": 0.09221340715885162, "learning_rate": 2.9259517948084076e-05, "loss": 0.3972, "step": 304 }, { "epoch": 0.10166666666666667, "grad_norm": 0.0785837322473526, "learning_rate": 2.925463085443187e-05, "loss": 0.4056, "step": 305 }, { "epoch": 0.102, "grad_norm": 0.0782548189163208, "learning_rate": 2.9249728097518306e-05, "loss": 0.3998, "step": 306 }, { "epoch": 0.10233333333333333, "grad_norm": 0.07035280764102936, "learning_rate": 2.924480968273062e-05, "loss": 0.401, "step": 307 }, { "epoch": 0.10266666666666667, "grad_norm": 0.0680001899600029, "learning_rate": 2.923987561547326e-05, "loss": 0.4073, "step": 308 }, { "epoch": 0.103, "grad_norm": 0.07907889038324356, "learning_rate": 2.9234925901167882e-05, "loss": 0.4045, "step": 309 }, { "epoch": 0.10333333333333333, "grad_norm": 0.06703273206949234, "learning_rate": 2.9229960545253316e-05, "loss": 0.4046, "step": 310 }, { "epoch": 0.10366666666666667, "grad_norm": 0.08958379924297333, "learning_rate": 2.9224979553185598e-05, "loss": 0.3986, "step": 311 }, { "epoch": 0.104, "grad_norm": 0.09543123096227646, "learning_rate": 2.9219982930437932e-05, "loss": 0.4022, "step": 312 }, { "epoch": 0.10433333333333333, "grad_norm": 0.07684731483459473, "learning_rate": 2.9214970682500706e-05, "loss": 0.3939, "step": 313 }, { "epoch": 0.10466666666666667, "grad_norm": 0.08497552573680878, "learning_rate": 2.9209942814881475e-05, "loss": 0.3989, "step": 314 }, { "epoch": 0.105, "grad_norm": 0.07787726819515228, "learning_rate": 2.920489933310495e-05, "loss": 0.3959, "step": 315 }, { "epoch": 0.10533333333333333, "grad_norm": 0.10642126947641373, "learning_rate": 2.919984024271301e-05, "loss": 0.404, "step": 316 }, { "epoch": 0.10566666666666667, "grad_norm": 0.07626046985387802, "learning_rate": 2.9194765549264682e-05, "loss": 0.4069, "step": 317 }, { "epoch": 0.106, "grad_norm": 0.07205960154533386, "learning_rate": 2.9189675258336136e-05, "loss": 0.3945, "step": 318 }, { "epoch": 0.10633333333333334, "grad_norm": 0.08077576011419296, "learning_rate": 2.918456937552068e-05, "loss": 0.3997, "step": 319 }, { "epoch": 0.10666666666666667, "grad_norm": 0.07724360376596451, "learning_rate": 2.917944790642875e-05, "loss": 0.4033, "step": 320 }, { "epoch": 0.107, "grad_norm": 0.0722527876496315, "learning_rate": 2.9174310856687927e-05, "loss": 0.399, "step": 321 }, { "epoch": 0.10733333333333334, "grad_norm": 0.07858041673898697, "learning_rate": 2.9169158231942887e-05, "loss": 0.4016, "step": 322 }, { "epoch": 0.10766666666666666, "grad_norm": 0.07508265972137451, "learning_rate": 2.916399003785544e-05, "loss": 0.3931, "step": 323 }, { "epoch": 0.108, "grad_norm": 0.08171650767326355, "learning_rate": 2.9158806280104494e-05, "loss": 0.401, "step": 324 }, { "epoch": 0.10833333333333334, "grad_norm": 0.3539506196975708, "learning_rate": 2.9153606964386067e-05, "loss": 0.3924, "step": 325 }, { "epoch": 0.10866666666666666, "grad_norm": 0.07772829383611679, "learning_rate": 2.9148392096413253e-05, "loss": 0.4131, "step": 326 }, { "epoch": 0.109, "grad_norm": 0.07205811887979507, "learning_rate": 2.9143161681916264e-05, "loss": 0.3995, "step": 327 }, { "epoch": 0.10933333333333334, "grad_norm": 0.126749187707901, "learning_rate": 2.913791572664237e-05, "loss": 0.3994, "step": 328 }, { "epoch": 0.10966666666666666, "grad_norm": 0.07271267473697662, "learning_rate": 2.9132654236355932e-05, "loss": 0.4071, "step": 329 }, { "epoch": 0.11, "grad_norm": 0.07398531585931778, "learning_rate": 2.9127377216838377e-05, "loss": 0.403, "step": 330 }, { "epoch": 0.11033333333333334, "grad_norm": 0.08033479750156403, "learning_rate": 2.9122084673888184e-05, "loss": 0.3873, "step": 331 }, { "epoch": 0.11066666666666666, "grad_norm": 0.09432309865951538, "learning_rate": 2.9116776613320917e-05, "loss": 0.4069, "step": 332 }, { "epoch": 0.111, "grad_norm": 0.10375412553548813, "learning_rate": 2.9111453040969166e-05, "loss": 0.4067, "step": 333 }, { "epoch": 0.11133333333333334, "grad_norm": 0.10372140258550644, "learning_rate": 2.9106113962682575e-05, "loss": 0.3975, "step": 334 }, { "epoch": 0.11166666666666666, "grad_norm": 0.05635470151901245, "learning_rate": 2.9100759384327822e-05, "loss": 0.3942, "step": 335 }, { "epoch": 0.112, "grad_norm": 0.14441388845443726, "learning_rate": 2.9095389311788626e-05, "loss": 0.4142, "step": 336 }, { "epoch": 0.11233333333333333, "grad_norm": 0.10628091543912888, "learning_rate": 2.9090003750965726e-05, "loss": 0.3887, "step": 337 }, { "epoch": 0.11266666666666666, "grad_norm": 0.07962295413017273, "learning_rate": 2.9084602707776873e-05, "loss": 0.3903, "step": 338 }, { "epoch": 0.113, "grad_norm": 0.06609530746936798, "learning_rate": 2.9079186188156842e-05, "loss": 0.4008, "step": 339 }, { "epoch": 0.11333333333333333, "grad_norm": 0.06437975913286209, "learning_rate": 2.90737541980574e-05, "loss": 0.3992, "step": 340 }, { "epoch": 0.11366666666666667, "grad_norm": 0.060702331364154816, "learning_rate": 2.906830674344734e-05, "loss": 0.3923, "step": 341 }, { "epoch": 0.114, "grad_norm": 0.07603217661380768, "learning_rate": 2.9062843830312412e-05, "loss": 0.3917, "step": 342 }, { "epoch": 0.11433333333333333, "grad_norm": 0.08434806019067764, "learning_rate": 2.9057365464655378e-05, "loss": 0.3944, "step": 343 }, { "epoch": 0.11466666666666667, "grad_norm": 0.08167912065982819, "learning_rate": 2.9051871652495967e-05, "loss": 0.3927, "step": 344 }, { "epoch": 0.115, "grad_norm": 0.0735151395201683, "learning_rate": 2.9046362399870884e-05, "loss": 0.3969, "step": 345 }, { "epoch": 0.11533333333333333, "grad_norm": 0.08642247319221497, "learning_rate": 2.9040837712833807e-05, "loss": 0.3941, "step": 346 }, { "epoch": 0.11566666666666667, "grad_norm": 0.09913762658834457, "learning_rate": 2.9035297597455365e-05, "loss": 0.3983, "step": 347 }, { "epoch": 0.116, "grad_norm": 0.07676286995410919, "learning_rate": 2.9029742059823144e-05, "loss": 0.3986, "step": 348 }, { "epoch": 0.11633333333333333, "grad_norm": 0.061535585671663284, "learning_rate": 2.902417110604167e-05, "loss": 0.3969, "step": 349 }, { "epoch": 0.11666666666666667, "grad_norm": 0.06754449754953384, "learning_rate": 2.9018584742232424e-05, "loss": 0.3921, "step": 350 }, { "epoch": 0.117, "grad_norm": 0.08357475697994232, "learning_rate": 2.90129829745338e-05, "loss": 0.3966, "step": 351 }, { "epoch": 0.11733333333333333, "grad_norm": 0.06442773342132568, "learning_rate": 2.900736580910113e-05, "loss": 0.3956, "step": 352 }, { "epoch": 0.11766666666666667, "grad_norm": 0.1226372942328453, "learning_rate": 2.9001733252106662e-05, "loss": 0.392, "step": 353 }, { "epoch": 0.118, "grad_norm": 0.07925254851579666, "learning_rate": 2.899608530973956e-05, "loss": 0.3938, "step": 354 }, { "epoch": 0.11833333333333333, "grad_norm": 0.08369602262973785, "learning_rate": 2.899042198820589e-05, "loss": 0.404, "step": 355 }, { "epoch": 0.11866666666666667, "grad_norm": 0.06470812112092972, "learning_rate": 2.8984743293728622e-05, "loss": 0.4012, "step": 356 }, { "epoch": 0.119, "grad_norm": 0.07801231741905212, "learning_rate": 2.8979049232547612e-05, "loss": 0.3962, "step": 357 }, { "epoch": 0.11933333333333333, "grad_norm": 0.0731973648071289, "learning_rate": 2.8973339810919595e-05, "loss": 0.3988, "step": 358 }, { "epoch": 0.11966666666666667, "grad_norm": 0.07564742118120193, "learning_rate": 2.8967615035118204e-05, "loss": 0.3984, "step": 359 }, { "epoch": 0.12, "grad_norm": 0.09006942808628082, "learning_rate": 2.896187491143393e-05, "loss": 0.4029, "step": 360 }, { "epoch": 0.12033333333333333, "grad_norm": 0.07540722191333771, "learning_rate": 2.8956119446174128e-05, "loss": 0.4068, "step": 361 }, { "epoch": 0.12066666666666667, "grad_norm": 0.10612918436527252, "learning_rate": 2.8950348645663015e-05, "loss": 0.3924, "step": 362 }, { "epoch": 0.121, "grad_norm": 0.07247863709926605, "learning_rate": 2.8944562516241658e-05, "loss": 0.3924, "step": 363 }, { "epoch": 0.12133333333333333, "grad_norm": 0.06262069195508957, "learning_rate": 2.8938761064267966e-05, "loss": 0.3923, "step": 364 }, { "epoch": 0.12166666666666667, "grad_norm": 0.08624915778636932, "learning_rate": 2.893294429611668e-05, "loss": 0.4061, "step": 365 }, { "epoch": 0.122, "grad_norm": 0.07624340057373047, "learning_rate": 2.892711221817939e-05, "loss": 0.3942, "step": 366 }, { "epoch": 0.12233333333333334, "grad_norm": 0.10336243361234665, "learning_rate": 2.8921264836864478e-05, "loss": 0.3985, "step": 367 }, { "epoch": 0.12266666666666666, "grad_norm": 0.08877639472484589, "learning_rate": 2.891540215859717e-05, "loss": 0.4047, "step": 368 }, { "epoch": 0.123, "grad_norm": 0.0944904237985611, "learning_rate": 2.8909524189819484e-05, "loss": 0.3971, "step": 369 }, { "epoch": 0.12333333333333334, "grad_norm": 0.06598222255706787, "learning_rate": 2.890363093699025e-05, "loss": 0.3915, "step": 370 }, { "epoch": 0.12366666666666666, "grad_norm": 0.07404331117868423, "learning_rate": 2.889772240658508e-05, "loss": 0.4008, "step": 371 }, { "epoch": 0.124, "grad_norm": 0.07888274639844894, "learning_rate": 2.8891798605096388e-05, "loss": 0.4063, "step": 372 }, { "epoch": 0.12433333333333334, "grad_norm": 0.07934743165969849, "learning_rate": 2.888585953903336e-05, "loss": 0.3979, "step": 373 }, { "epoch": 0.12466666666666666, "grad_norm": 0.08698104321956635, "learning_rate": 2.8879905214921944e-05, "loss": 0.404, "step": 374 }, { "epoch": 0.125, "grad_norm": 0.09798512607812881, "learning_rate": 2.8873935639304877e-05, "loss": 0.4021, "step": 375 }, { "epoch": 0.12533333333333332, "grad_norm": 0.13052140176296234, "learning_rate": 2.886795081874164e-05, "loss": 0.398, "step": 376 }, { "epoch": 0.12566666666666668, "grad_norm": 0.07280424982309341, "learning_rate": 2.8861950759808468e-05, "loss": 0.4008, "step": 377 }, { "epoch": 0.126, "grad_norm": 0.07985760271549225, "learning_rate": 2.8855935469098337e-05, "loss": 0.4, "step": 378 }, { "epoch": 0.12633333333333333, "grad_norm": 0.07918935269117355, "learning_rate": 2.8849904953220972e-05, "loss": 0.3917, "step": 379 }, { "epoch": 0.12666666666666668, "grad_norm": 0.06692895293235779, "learning_rate": 2.8843859218802815e-05, "loss": 0.4017, "step": 380 }, { "epoch": 0.127, "grad_norm": 0.07598675042390823, "learning_rate": 2.883779827248703e-05, "loss": 0.396, "step": 381 }, { "epoch": 0.12733333333333333, "grad_norm": 0.09816335886716843, "learning_rate": 2.883172212093351e-05, "loss": 0.3957, "step": 382 }, { "epoch": 0.12766666666666668, "grad_norm": 0.10168103128671646, "learning_rate": 2.882563077081884e-05, "loss": 0.3996, "step": 383 }, { "epoch": 0.128, "grad_norm": 0.07491239905357361, "learning_rate": 2.881952422883631e-05, "loss": 0.3865, "step": 384 }, { "epoch": 0.12833333333333333, "grad_norm": 0.08111091703176498, "learning_rate": 2.8813402501695914e-05, "loss": 0.3898, "step": 385 }, { "epoch": 0.12866666666666668, "grad_norm": 0.08263547718524933, "learning_rate": 2.8807265596124318e-05, "loss": 0.3954, "step": 386 }, { "epoch": 0.129, "grad_norm": 0.09575605392456055, "learning_rate": 2.8801113518864872e-05, "loss": 0.3999, "step": 387 }, { "epoch": 0.12933333333333333, "grad_norm": 0.07800937443971634, "learning_rate": 2.8794946276677597e-05, "loss": 0.3942, "step": 388 }, { "epoch": 0.12966666666666668, "grad_norm": 0.09121564775705338, "learning_rate": 2.878876387633917e-05, "loss": 0.3975, "step": 389 }, { "epoch": 0.13, "grad_norm": 0.07915686070919037, "learning_rate": 2.8782566324642943e-05, "loss": 0.3988, "step": 390 }, { "epoch": 0.13033333333333333, "grad_norm": 0.06793887913227081, "learning_rate": 2.8776353628398893e-05, "loss": 0.3948, "step": 391 }, { "epoch": 0.13066666666666665, "grad_norm": 0.07873862236738205, "learning_rate": 2.877012579443366e-05, "loss": 0.3928, "step": 392 }, { "epoch": 0.131, "grad_norm": 0.06824980676174164, "learning_rate": 2.8763882829590497e-05, "loss": 0.4026, "step": 393 }, { "epoch": 0.13133333333333333, "grad_norm": 0.08604731410741806, "learning_rate": 2.8757624740729302e-05, "loss": 0.4051, "step": 394 }, { "epoch": 0.13166666666666665, "grad_norm": 0.07145987451076508, "learning_rate": 2.875135153472658e-05, "loss": 0.392, "step": 395 }, { "epoch": 0.132, "grad_norm": 0.08327634632587433, "learning_rate": 2.8745063218475448e-05, "loss": 0.3961, "step": 396 }, { "epoch": 0.13233333333333333, "grad_norm": 0.07430984824895859, "learning_rate": 2.8738759798885627e-05, "loss": 0.4021, "step": 397 }, { "epoch": 0.13266666666666665, "grad_norm": 0.0826864242553711, "learning_rate": 2.8732441282883443e-05, "loss": 0.3991, "step": 398 }, { "epoch": 0.133, "grad_norm": 0.08936093002557755, "learning_rate": 2.8726107677411793e-05, "loss": 0.4033, "step": 399 }, { "epoch": 0.13333333333333333, "grad_norm": 0.09043749421834946, "learning_rate": 2.8719758989430167e-05, "loss": 0.4054, "step": 400 }, { "epoch": 0.13366666666666666, "grad_norm": 0.14378689229488373, "learning_rate": 2.871339522591463e-05, "loss": 0.4084, "step": 401 }, { "epoch": 0.134, "grad_norm": 0.06745938956737518, "learning_rate": 2.87070163938578e-05, "loss": 0.3882, "step": 402 }, { "epoch": 0.13433333333333333, "grad_norm": 0.08120747655630112, "learning_rate": 2.8700622500268864e-05, "loss": 0.3896, "step": 403 }, { "epoch": 0.13466666666666666, "grad_norm": 0.08638457208871841, "learning_rate": 2.8694213552173554e-05, "loss": 0.4006, "step": 404 }, { "epoch": 0.135, "grad_norm": 0.08196260035037994, "learning_rate": 2.8687789556614142e-05, "loss": 0.3973, "step": 405 }, { "epoch": 0.13533333333333333, "grad_norm": 0.06938280165195465, "learning_rate": 2.8681350520649444e-05, "loss": 0.395, "step": 406 }, { "epoch": 0.13566666666666666, "grad_norm": 0.0848786011338234, "learning_rate": 2.867489645135479e-05, "loss": 0.4004, "step": 407 }, { "epoch": 0.136, "grad_norm": 0.09470508247613907, "learning_rate": 2.8668427355822036e-05, "loss": 0.3965, "step": 408 }, { "epoch": 0.13633333333333333, "grad_norm": 0.0767105221748352, "learning_rate": 2.8661943241159552e-05, "loss": 0.4061, "step": 409 }, { "epoch": 0.13666666666666666, "grad_norm": 0.08069413900375366, "learning_rate": 2.86554441144922e-05, "loss": 0.3987, "step": 410 }, { "epoch": 0.137, "grad_norm": 0.09806078672409058, "learning_rate": 2.864892998296135e-05, "loss": 0.3971, "step": 411 }, { "epoch": 0.13733333333333334, "grad_norm": 0.09635350108146667, "learning_rate": 2.864240085372486e-05, "loss": 0.3998, "step": 412 }, { "epoch": 0.13766666666666666, "grad_norm": 0.07235170155763626, "learning_rate": 2.863585673395705e-05, "loss": 0.403, "step": 413 }, { "epoch": 0.138, "grad_norm": 0.06797248870134354, "learning_rate": 2.8629297630848732e-05, "loss": 0.3971, "step": 414 }, { "epoch": 0.13833333333333334, "grad_norm": 0.08283325284719467, "learning_rate": 2.8622723551607167e-05, "loss": 0.4014, "step": 415 }, { "epoch": 0.13866666666666666, "grad_norm": 0.07700398564338684, "learning_rate": 2.861613450345609e-05, "loss": 0.4048, "step": 416 }, { "epoch": 0.139, "grad_norm": 0.15653598308563232, "learning_rate": 2.8609530493635667e-05, "loss": 0.3902, "step": 417 }, { "epoch": 0.13933333333333334, "grad_norm": 0.07878995686769485, "learning_rate": 2.860291152940251e-05, "loss": 0.41, "step": 418 }, { "epoch": 0.13966666666666666, "grad_norm": 0.07963881641626358, "learning_rate": 2.8596277618029665e-05, "loss": 0.3964, "step": 419 }, { "epoch": 0.14, "grad_norm": 0.06498411297798157, "learning_rate": 2.8589628766806596e-05, "loss": 0.4027, "step": 420 }, { "epoch": 0.14033333333333334, "grad_norm": 0.13951826095581055, "learning_rate": 2.85829649830392e-05, "loss": 0.3987, "step": 421 }, { "epoch": 0.14066666666666666, "grad_norm": 0.08994141966104507, "learning_rate": 2.857628627404976e-05, "loss": 0.4016, "step": 422 }, { "epoch": 0.141, "grad_norm": 0.08292854577302933, "learning_rate": 2.8569592647176973e-05, "loss": 0.3991, "step": 423 }, { "epoch": 0.14133333333333334, "grad_norm": 0.0773169994354248, "learning_rate": 2.856288410977592e-05, "loss": 0.4024, "step": 424 }, { "epoch": 0.14166666666666666, "grad_norm": 0.10431760549545288, "learning_rate": 2.8556160669218075e-05, "loss": 0.4008, "step": 425 }, { "epoch": 0.142, "grad_norm": 0.06706692278385162, "learning_rate": 2.8549422332891285e-05, "loss": 0.3968, "step": 426 }, { "epoch": 0.14233333333333334, "grad_norm": 0.07307305186986923, "learning_rate": 2.854266910819976e-05, "loss": 0.4064, "step": 427 }, { "epoch": 0.14266666666666666, "grad_norm": 0.0693906620144844, "learning_rate": 2.8535901002564072e-05, "loss": 0.3968, "step": 428 }, { "epoch": 0.143, "grad_norm": 0.06352703273296356, "learning_rate": 2.8529118023421146e-05, "loss": 0.3902, "step": 429 }, { "epoch": 0.14333333333333334, "grad_norm": 0.057499658316373825, "learning_rate": 2.8522320178224244e-05, "loss": 0.3981, "step": 430 }, { "epoch": 0.14366666666666666, "grad_norm": 0.0764322280883789, "learning_rate": 2.851550747444298e-05, "loss": 0.399, "step": 431 }, { "epoch": 0.144, "grad_norm": 0.07218629121780396, "learning_rate": 2.8508679919563277e-05, "loss": 0.4033, "step": 432 }, { "epoch": 0.14433333333333334, "grad_norm": 0.06222138553857803, "learning_rate": 2.850183752108738e-05, "loss": 0.4069, "step": 433 }, { "epoch": 0.14466666666666667, "grad_norm": 0.06475608050823212, "learning_rate": 2.8494980286533854e-05, "loss": 0.3977, "step": 434 }, { "epoch": 0.145, "grad_norm": 0.06914796680212021, "learning_rate": 2.8488108223437552e-05, "loss": 0.4035, "step": 435 }, { "epoch": 0.14533333333333334, "grad_norm": 0.07394059002399445, "learning_rate": 2.8481221339349637e-05, "loss": 0.4, "step": 436 }, { "epoch": 0.14566666666666667, "grad_norm": 0.06739216297864914, "learning_rate": 2.847431964183754e-05, "loss": 0.3986, "step": 437 }, { "epoch": 0.146, "grad_norm": 0.20250780880451202, "learning_rate": 2.8467403138484987e-05, "loss": 0.3953, "step": 438 }, { "epoch": 0.14633333333333334, "grad_norm": 0.09453870356082916, "learning_rate": 2.846047183689196e-05, "loss": 0.398, "step": 439 }, { "epoch": 0.14666666666666667, "grad_norm": 0.07102149724960327, "learning_rate": 2.8453525744674707e-05, "loss": 0.396, "step": 440 }, { "epoch": 0.147, "grad_norm": 0.0838518962264061, "learning_rate": 2.844656486946573e-05, "loss": 0.4017, "step": 441 }, { "epoch": 0.14733333333333334, "grad_norm": 0.09836380928754807, "learning_rate": 2.843958921891376e-05, "loss": 0.399, "step": 442 }, { "epoch": 0.14766666666666667, "grad_norm": 0.06925001740455627, "learning_rate": 2.843259880068379e-05, "loss": 0.3983, "step": 443 }, { "epoch": 0.148, "grad_norm": 0.08360330015420914, "learning_rate": 2.8425593622457017e-05, "loss": 0.3952, "step": 444 }, { "epoch": 0.14833333333333334, "grad_norm": 0.09107210487127304, "learning_rate": 2.841857369193087e-05, "loss": 0.3898, "step": 445 }, { "epoch": 0.14866666666666667, "grad_norm": 0.09790302813053131, "learning_rate": 2.841153901681898e-05, "loss": 0.3938, "step": 446 }, { "epoch": 0.149, "grad_norm": 0.07933268696069717, "learning_rate": 2.8404489604851186e-05, "loss": 0.395, "step": 447 }, { "epoch": 0.14933333333333335, "grad_norm": 0.1117924153804779, "learning_rate": 2.839742546377351e-05, "loss": 0.3941, "step": 448 }, { "epoch": 0.14966666666666667, "grad_norm": 0.07319331169128418, "learning_rate": 2.8390346601348172e-05, "loss": 0.3927, "step": 449 }, { "epoch": 0.15, "grad_norm": 0.06543871015310287, "learning_rate": 2.8383253025353557e-05, "loss": 0.3957, "step": 450 }, { "epoch": 0.15033333333333335, "grad_norm": 0.06376197934150696, "learning_rate": 2.8376144743584225e-05, "loss": 0.3914, "step": 451 }, { "epoch": 0.15066666666666667, "grad_norm": 0.07094628363847733, "learning_rate": 2.8369021763850896e-05, "loss": 0.3927, "step": 452 }, { "epoch": 0.151, "grad_norm": 0.08331236988306046, "learning_rate": 2.8361884093980426e-05, "loss": 0.4003, "step": 453 }, { "epoch": 0.15133333333333332, "grad_norm": 0.09568315744400024, "learning_rate": 2.8354731741815832e-05, "loss": 0.3952, "step": 454 }, { "epoch": 0.15166666666666667, "grad_norm": 0.07307212054729462, "learning_rate": 2.834756471521625e-05, "loss": 0.4047, "step": 455 }, { "epoch": 0.152, "grad_norm": 0.08194286376237869, "learning_rate": 2.8340383022056956e-05, "loss": 0.3967, "step": 456 }, { "epoch": 0.15233333333333332, "grad_norm": 0.07233957946300507, "learning_rate": 2.8333186670229317e-05, "loss": 0.3995, "step": 457 }, { "epoch": 0.15266666666666667, "grad_norm": 0.06717851012945175, "learning_rate": 2.8325975667640837e-05, "loss": 0.3903, "step": 458 }, { "epoch": 0.153, "grad_norm": 0.11562392115592957, "learning_rate": 2.8318750022215093e-05, "loss": 0.4025, "step": 459 }, { "epoch": 0.15333333333333332, "grad_norm": 0.09476692974567413, "learning_rate": 2.831150974189177e-05, "loss": 0.3976, "step": 460 }, { "epoch": 0.15366666666666667, "grad_norm": 0.08770398050546646, "learning_rate": 2.8304254834626622e-05, "loss": 0.3953, "step": 461 }, { "epoch": 0.154, "grad_norm": 0.0838746428489685, "learning_rate": 2.8296985308391478e-05, "loss": 0.388, "step": 462 }, { "epoch": 0.15433333333333332, "grad_norm": 0.06210022792220116, "learning_rate": 2.8289701171174243e-05, "loss": 0.3979, "step": 463 }, { "epoch": 0.15466666666666667, "grad_norm": 0.09069151431322098, "learning_rate": 2.8282402430978852e-05, "loss": 0.4016, "step": 464 }, { "epoch": 0.155, "grad_norm": 0.07017865777015686, "learning_rate": 2.827508909582531e-05, "loss": 0.3897, "step": 465 }, { "epoch": 0.15533333333333332, "grad_norm": 0.07779236882925034, "learning_rate": 2.826776117374965e-05, "loss": 0.3808, "step": 466 }, { "epoch": 0.15566666666666668, "grad_norm": 0.07623061537742615, "learning_rate": 2.826041867280393e-05, "loss": 0.391, "step": 467 }, { "epoch": 0.156, "grad_norm": 0.06496694684028625, "learning_rate": 2.8253061601056228e-05, "loss": 0.3975, "step": 468 }, { "epoch": 0.15633333333333332, "grad_norm": 0.09723429381847382, "learning_rate": 2.824568996659064e-05, "loss": 0.3971, "step": 469 }, { "epoch": 0.15666666666666668, "grad_norm": 0.08059398084878922, "learning_rate": 2.8238303777507262e-05, "loss": 0.4038, "step": 470 }, { "epoch": 0.157, "grad_norm": 0.09883049130439758, "learning_rate": 2.823090304192217e-05, "loss": 0.3961, "step": 471 }, { "epoch": 0.15733333333333333, "grad_norm": 0.06483320891857147, "learning_rate": 2.8223487767967446e-05, "loss": 0.3962, "step": 472 }, { "epoch": 0.15766666666666668, "grad_norm": 0.059585098177194595, "learning_rate": 2.8216057963791125e-05, "loss": 0.392, "step": 473 }, { "epoch": 0.158, "grad_norm": 0.08190373331308365, "learning_rate": 2.820861363755722e-05, "loss": 0.3945, "step": 474 }, { "epoch": 0.15833333333333333, "grad_norm": 0.07096624374389648, "learning_rate": 2.8201154797445705e-05, "loss": 0.404, "step": 475 }, { "epoch": 0.15866666666666668, "grad_norm": 0.0865093544125557, "learning_rate": 2.819368145165249e-05, "loss": 0.3941, "step": 476 }, { "epoch": 0.159, "grad_norm": 0.12594720721244812, "learning_rate": 2.8186193608389433e-05, "loss": 0.3975, "step": 477 }, { "epoch": 0.15933333333333333, "grad_norm": 0.08053870499134064, "learning_rate": 2.8178691275884323e-05, "loss": 0.3835, "step": 478 }, { "epoch": 0.15966666666666668, "grad_norm": 0.09675949066877365, "learning_rate": 2.8171174462380857e-05, "loss": 0.394, "step": 479 }, { "epoch": 0.16, "grad_norm": 0.07245815545320511, "learning_rate": 2.8163643176138665e-05, "loss": 0.407, "step": 480 }, { "epoch": 0.16033333333333333, "grad_norm": 0.07707836478948593, "learning_rate": 2.815609742543326e-05, "loss": 0.3981, "step": 481 }, { "epoch": 0.16066666666666668, "grad_norm": 0.0718529224395752, "learning_rate": 2.8148537218556064e-05, "loss": 0.3944, "step": 482 }, { "epoch": 0.161, "grad_norm": 0.07409583777189255, "learning_rate": 2.8140962563814372e-05, "loss": 0.3967, "step": 483 }, { "epoch": 0.16133333333333333, "grad_norm": 0.09771796315908432, "learning_rate": 2.8133373469531362e-05, "loss": 0.3965, "step": 484 }, { "epoch": 0.16166666666666665, "grad_norm": 0.07497180253267288, "learning_rate": 2.8125769944046076e-05, "loss": 0.3975, "step": 485 }, { "epoch": 0.162, "grad_norm": 0.08904554694890976, "learning_rate": 2.8118151995713414e-05, "loss": 0.3945, "step": 486 }, { "epoch": 0.16233333333333333, "grad_norm": 0.17748968303203583, "learning_rate": 2.8110519632904123e-05, "loss": 0.3978, "step": 487 }, { "epoch": 0.16266666666666665, "grad_norm": 0.06822582334280014, "learning_rate": 2.8102872864004785e-05, "loss": 0.3955, "step": 488 }, { "epoch": 0.163, "grad_norm": 0.07604636996984482, "learning_rate": 2.8095211697417823e-05, "loss": 0.3949, "step": 489 }, { "epoch": 0.16333333333333333, "grad_norm": 0.07109887152910233, "learning_rate": 2.8087536141561472e-05, "loss": 0.3981, "step": 490 }, { "epoch": 0.16366666666666665, "grad_norm": 0.06634732335805893, "learning_rate": 2.8079846204869776e-05, "loss": 0.3914, "step": 491 }, { "epoch": 0.164, "grad_norm": 0.07768316566944122, "learning_rate": 2.807214189579259e-05, "loss": 0.3904, "step": 492 }, { "epoch": 0.16433333333333333, "grad_norm": 0.1119157075881958, "learning_rate": 2.806442322279555e-05, "loss": 0.3846, "step": 493 }, { "epoch": 0.16466666666666666, "grad_norm": 0.08310552686452866, "learning_rate": 2.8056690194360086e-05, "loss": 0.3949, "step": 494 }, { "epoch": 0.165, "grad_norm": 0.07564808428287506, "learning_rate": 2.8048942818983394e-05, "loss": 0.3986, "step": 495 }, { "epoch": 0.16533333333333333, "grad_norm": 0.06991252303123474, "learning_rate": 2.8041181105178446e-05, "loss": 0.4001, "step": 496 }, { "epoch": 0.16566666666666666, "grad_norm": 0.1030757874250412, "learning_rate": 2.8033405061473957e-05, "loss": 0.3955, "step": 497 }, { "epoch": 0.166, "grad_norm": 0.1326310932636261, "learning_rate": 2.8025614696414392e-05, "loss": 0.3971, "step": 498 }, { "epoch": 0.16633333333333333, "grad_norm": 0.07370123267173767, "learning_rate": 2.8017810018559954e-05, "loss": 0.3976, "step": 499 }, { "epoch": 0.16666666666666666, "grad_norm": 0.07924503087997437, "learning_rate": 2.800999103648657e-05, "loss": 0.3989, "step": 500 }, { "epoch": 0.167, "grad_norm": 0.18303152918815613, "learning_rate": 2.8002157758785897e-05, "loss": 0.3985, "step": 501 }, { "epoch": 0.16733333333333333, "grad_norm": 0.07873231172561646, "learning_rate": 2.7994310194065275e-05, "loss": 0.4011, "step": 502 }, { "epoch": 0.16766666666666666, "grad_norm": 0.1172589585185051, "learning_rate": 2.798644835094777e-05, "loss": 0.3952, "step": 503 }, { "epoch": 0.168, "grad_norm": 0.17478032410144806, "learning_rate": 2.7978572238072125e-05, "loss": 0.4037, "step": 504 }, { "epoch": 0.16833333333333333, "grad_norm": 0.07915951311588287, "learning_rate": 2.797068186409276e-05, "loss": 0.394, "step": 505 }, { "epoch": 0.16866666666666666, "grad_norm": 0.1356993466615677, "learning_rate": 2.796277723767977e-05, "loss": 0.395, "step": 506 }, { "epoch": 0.169, "grad_norm": 0.09696149080991745, "learning_rate": 2.795485836751891e-05, "loss": 0.3974, "step": 507 }, { "epoch": 0.16933333333333334, "grad_norm": 0.10044852644205093, "learning_rate": 2.7946925262311586e-05, "loss": 0.3993, "step": 508 }, { "epoch": 0.16966666666666666, "grad_norm": 0.06569673866033554, "learning_rate": 2.7938977930774848e-05, "loss": 0.3919, "step": 509 }, { "epoch": 0.17, "grad_norm": 0.08906219899654388, "learning_rate": 2.793101638164137e-05, "loss": 0.3964, "step": 510 }, { "epoch": 0.17033333333333334, "grad_norm": 0.06609756499528885, "learning_rate": 2.7923040623659466e-05, "loss": 0.4072, "step": 511 }, { "epoch": 0.17066666666666666, "grad_norm": 0.06747300177812576, "learning_rate": 2.7915050665593038e-05, "loss": 0.3999, "step": 512 }, { "epoch": 0.171, "grad_norm": 0.06163829565048218, "learning_rate": 2.7907046516221616e-05, "loss": 0.4054, "step": 513 }, { "epoch": 0.17133333333333334, "grad_norm": 0.08990393579006195, "learning_rate": 2.7899028184340307e-05, "loss": 0.402, "step": 514 }, { "epoch": 0.17166666666666666, "grad_norm": 0.07645025849342346, "learning_rate": 2.7890995678759807e-05, "loss": 0.3904, "step": 515 }, { "epoch": 0.172, "grad_norm": 0.07896158844232559, "learning_rate": 2.7882949008306392e-05, "loss": 0.3951, "step": 516 }, { "epoch": 0.17233333333333334, "grad_norm": 0.0977073535323143, "learning_rate": 2.787488818182189e-05, "loss": 0.3945, "step": 517 }, { "epoch": 0.17266666666666666, "grad_norm": 0.06847943365573883, "learning_rate": 2.78668132081637e-05, "loss": 0.3978, "step": 518 }, { "epoch": 0.173, "grad_norm": 0.11429166793823242, "learning_rate": 2.7858724096204752e-05, "loss": 0.3882, "step": 519 }, { "epoch": 0.17333333333333334, "grad_norm": 0.09510332345962524, "learning_rate": 2.7850620854833523e-05, "loss": 0.3848, "step": 520 }, { "epoch": 0.17366666666666666, "grad_norm": 0.2805318832397461, "learning_rate": 2.7842503492953996e-05, "loss": 0.4008, "step": 521 }, { "epoch": 0.174, "grad_norm": 0.06742902100086212, "learning_rate": 2.78343720194857e-05, "loss": 0.3942, "step": 522 }, { "epoch": 0.17433333333333334, "grad_norm": 0.09917930513620377, "learning_rate": 2.7826226443363647e-05, "loss": 0.3996, "step": 523 }, { "epoch": 0.17466666666666666, "grad_norm": 0.2743907868862152, "learning_rate": 2.781806677353835e-05, "loss": 0.4024, "step": 524 }, { "epoch": 0.175, "grad_norm": 0.07000214606523514, "learning_rate": 2.7809893018975812e-05, "loss": 0.3962, "step": 525 }, { "epoch": 0.17533333333333334, "grad_norm": 0.06358301639556885, "learning_rate": 2.7801705188657513e-05, "loss": 0.3987, "step": 526 }, { "epoch": 0.17566666666666667, "grad_norm": 0.07583878189325333, "learning_rate": 2.7793503291580395e-05, "loss": 0.3963, "step": 527 }, { "epoch": 0.176, "grad_norm": 0.10152607411146164, "learning_rate": 2.7785287336756858e-05, "loss": 0.3975, "step": 528 }, { "epoch": 0.17633333333333334, "grad_norm": 0.10646385699510574, "learning_rate": 2.777705733321476e-05, "loss": 0.3963, "step": 529 }, { "epoch": 0.17666666666666667, "grad_norm": 0.09196841716766357, "learning_rate": 2.7768813289997376e-05, "loss": 0.3939, "step": 530 }, { "epoch": 0.177, "grad_norm": 0.10688714683055878, "learning_rate": 2.776055521616342e-05, "loss": 0.3961, "step": 531 }, { "epoch": 0.17733333333333334, "grad_norm": 0.07822298258543015, "learning_rate": 2.775228312078703e-05, "loss": 0.3941, "step": 532 }, { "epoch": 0.17766666666666667, "grad_norm": 0.07612007856369019, "learning_rate": 2.7743997012957736e-05, "loss": 0.3928, "step": 533 }, { "epoch": 0.178, "grad_norm": 0.13912902772426605, "learning_rate": 2.7735696901780466e-05, "loss": 0.3977, "step": 534 }, { "epoch": 0.17833333333333334, "grad_norm": 0.10280914604663849, "learning_rate": 2.7727382796375555e-05, "loss": 0.3893, "step": 535 }, { "epoch": 0.17866666666666667, "grad_norm": 0.07283594459295273, "learning_rate": 2.7719054705878692e-05, "loss": 0.3938, "step": 536 }, { "epoch": 0.179, "grad_norm": 0.08338384330272675, "learning_rate": 2.7710712639440945e-05, "loss": 0.3941, "step": 537 }, { "epoch": 0.17933333333333334, "grad_norm": 0.08918158710002899, "learning_rate": 2.7702356606228735e-05, "loss": 0.4005, "step": 538 }, { "epoch": 0.17966666666666667, "grad_norm": 0.07569151371717453, "learning_rate": 2.769398661542383e-05, "loss": 0.4001, "step": 539 }, { "epoch": 0.18, "grad_norm": 0.0886971727013588, "learning_rate": 2.7685602676223343e-05, "loss": 0.3985, "step": 540 }, { "epoch": 0.18033333333333335, "grad_norm": 0.06841359287500381, "learning_rate": 2.7677204797839697e-05, "loss": 0.3881, "step": 541 }, { "epoch": 0.18066666666666667, "grad_norm": 0.07248853147029877, "learning_rate": 2.7668792989500653e-05, "loss": 0.3974, "step": 542 }, { "epoch": 0.181, "grad_norm": 0.07901567965745926, "learning_rate": 2.766036726044926e-05, "loss": 0.4007, "step": 543 }, { "epoch": 0.18133333333333335, "grad_norm": 0.06357505917549133, "learning_rate": 2.7651927619943864e-05, "loss": 0.3951, "step": 544 }, { "epoch": 0.18166666666666667, "grad_norm": 0.09565428644418716, "learning_rate": 2.764347407725812e-05, "loss": 0.3996, "step": 545 }, { "epoch": 0.182, "grad_norm": 0.08062463998794556, "learning_rate": 2.7635006641680928e-05, "loss": 0.3893, "step": 546 }, { "epoch": 0.18233333333333332, "grad_norm": 0.09939523041248322, "learning_rate": 2.7626525322516477e-05, "loss": 0.3921, "step": 547 }, { "epoch": 0.18266666666666667, "grad_norm": 0.07321367412805557, "learning_rate": 2.7618030129084197e-05, "loss": 0.395, "step": 548 }, { "epoch": 0.183, "grad_norm": 0.0846652090549469, "learning_rate": 2.7609521070718772e-05, "loss": 0.3936, "step": 549 }, { "epoch": 0.18333333333333332, "grad_norm": 0.07799533754587173, "learning_rate": 2.760099815677012e-05, "loss": 0.3883, "step": 550 }, { "epoch": 0.18366666666666667, "grad_norm": 0.06409861147403717, "learning_rate": 2.7592461396603385e-05, "loss": 0.3926, "step": 551 }, { "epoch": 0.184, "grad_norm": 0.09729819744825363, "learning_rate": 2.7583910799598912e-05, "loss": 0.3954, "step": 552 }, { "epoch": 0.18433333333333332, "grad_norm": 0.07753082364797592, "learning_rate": 2.7575346375152267e-05, "loss": 0.3965, "step": 553 }, { "epoch": 0.18466666666666667, "grad_norm": 0.0905788242816925, "learning_rate": 2.7566768132674204e-05, "loss": 0.3876, "step": 554 }, { "epoch": 0.185, "grad_norm": 0.09240823239088058, "learning_rate": 2.7558176081590663e-05, "loss": 0.4003, "step": 555 }, { "epoch": 0.18533333333333332, "grad_norm": 0.07483207434415817, "learning_rate": 2.754957023134275e-05, "loss": 0.401, "step": 556 }, { "epoch": 0.18566666666666667, "grad_norm": 0.08398556709289551, "learning_rate": 2.754095059138673e-05, "loss": 0.3969, "step": 557 }, { "epoch": 0.186, "grad_norm": 0.0917467251420021, "learning_rate": 2.753231717119405e-05, "loss": 0.4028, "step": 558 }, { "epoch": 0.18633333333333332, "grad_norm": 0.06649760901927948, "learning_rate": 2.7523669980251254e-05, "loss": 0.3982, "step": 559 }, { "epoch": 0.18666666666666668, "grad_norm": 0.0690835639834404, "learning_rate": 2.751500902806006e-05, "loss": 0.4017, "step": 560 }, { "epoch": 0.187, "grad_norm": 0.14173080027103424, "learning_rate": 2.7506334324137277e-05, "loss": 0.3966, "step": 561 }, { "epoch": 0.18733333333333332, "grad_norm": 0.06984788924455643, "learning_rate": 2.7497645878014833e-05, "loss": 0.3969, "step": 562 }, { "epoch": 0.18766666666666668, "grad_norm": 0.06656695902347565, "learning_rate": 2.748894369923977e-05, "loss": 0.3973, "step": 563 }, { "epoch": 0.188, "grad_norm": 0.07877188175916672, "learning_rate": 2.7480227797374203e-05, "loss": 0.396, "step": 564 }, { "epoch": 0.18833333333333332, "grad_norm": 0.13153541088104248, "learning_rate": 2.7471498181995336e-05, "loss": 0.3948, "step": 565 }, { "epoch": 0.18866666666666668, "grad_norm": 0.07687252759933472, "learning_rate": 2.7462754862695425e-05, "loss": 0.3926, "step": 566 }, { "epoch": 0.189, "grad_norm": 0.0700930655002594, "learning_rate": 2.7453997849081812e-05, "loss": 0.3904, "step": 567 }, { "epoch": 0.18933333333333333, "grad_norm": 0.0607755072414875, "learning_rate": 2.7445227150776862e-05, "loss": 0.3949, "step": 568 }, { "epoch": 0.18966666666666668, "grad_norm": 0.07725103944540024, "learning_rate": 2.743644277741799e-05, "loss": 0.3901, "step": 569 }, { "epoch": 0.19, "grad_norm": 0.057856328785419464, "learning_rate": 2.7427644738657635e-05, "loss": 0.3969, "step": 570 }, { "epoch": 0.19033333333333333, "grad_norm": 0.07412249594926834, "learning_rate": 2.7418833044163244e-05, "loss": 0.3919, "step": 571 }, { "epoch": 0.19066666666666668, "grad_norm": 0.11894376575946808, "learning_rate": 2.7410007703617282e-05, "loss": 0.4003, "step": 572 }, { "epoch": 0.191, "grad_norm": 0.07260050624608994, "learning_rate": 2.74011687267172e-05, "loss": 0.3953, "step": 573 }, { "epoch": 0.19133333333333333, "grad_norm": 0.06583017110824585, "learning_rate": 2.7392316123175432e-05, "loss": 0.3889, "step": 574 }, { "epoch": 0.19166666666666668, "grad_norm": 0.06338493525981903, "learning_rate": 2.738344990271939e-05, "loss": 0.3999, "step": 575 }, { "epoch": 0.192, "grad_norm": 0.06654443591833115, "learning_rate": 2.7374570075091455e-05, "loss": 0.3902, "step": 576 }, { "epoch": 0.19233333333333333, "grad_norm": 0.10660549998283386, "learning_rate": 2.736567665004894e-05, "loss": 0.3928, "step": 577 }, { "epoch": 0.19266666666666668, "grad_norm": 0.09502895176410675, "learning_rate": 2.7356769637364118e-05, "loss": 0.3934, "step": 578 }, { "epoch": 0.193, "grad_norm": 0.06218428537249565, "learning_rate": 2.734784904682418e-05, "loss": 0.4003, "step": 579 }, { "epoch": 0.19333333333333333, "grad_norm": 0.07611879706382751, "learning_rate": 2.733891488823125e-05, "loss": 0.3977, "step": 580 }, { "epoch": 0.19366666666666665, "grad_norm": 0.06724075973033905, "learning_rate": 2.732996717140234e-05, "loss": 0.3849, "step": 581 }, { "epoch": 0.194, "grad_norm": 0.1461971253156662, "learning_rate": 2.732100590616938e-05, "loss": 0.393, "step": 582 }, { "epoch": 0.19433333333333333, "grad_norm": 0.07766017317771912, "learning_rate": 2.7312031102379182e-05, "loss": 0.3982, "step": 583 }, { "epoch": 0.19466666666666665, "grad_norm": 0.17546874284744263, "learning_rate": 2.730304276989343e-05, "loss": 0.4029, "step": 584 }, { "epoch": 0.195, "grad_norm": 0.07098980247974396, "learning_rate": 2.7294040918588674e-05, "loss": 0.3941, "step": 585 }, { "epoch": 0.19533333333333333, "grad_norm": 0.0921400785446167, "learning_rate": 2.728502555835632e-05, "loss": 0.3902, "step": 586 }, { "epoch": 0.19566666666666666, "grad_norm": 0.08164967596530914, "learning_rate": 2.7275996699102624e-05, "loss": 0.4044, "step": 587 }, { "epoch": 0.196, "grad_norm": 0.10538074374198914, "learning_rate": 2.726695435074867e-05, "loss": 0.3962, "step": 588 }, { "epoch": 0.19633333333333333, "grad_norm": 0.08706244826316833, "learning_rate": 2.725789852323035e-05, "loss": 0.3931, "step": 589 }, { "epoch": 0.19666666666666666, "grad_norm": 0.12084713578224182, "learning_rate": 2.7248829226498397e-05, "loss": 0.4008, "step": 590 }, { "epoch": 0.197, "grad_norm": 0.09170005470514297, "learning_rate": 2.723974647051832e-05, "loss": 0.3997, "step": 591 }, { "epoch": 0.19733333333333333, "grad_norm": 0.06838574260473251, "learning_rate": 2.7230650265270427e-05, "loss": 0.3977, "step": 592 }, { "epoch": 0.19766666666666666, "grad_norm": 0.08076560497283936, "learning_rate": 2.72215406207498e-05, "loss": 0.3954, "step": 593 }, { "epoch": 0.198, "grad_norm": 0.08761175721883774, "learning_rate": 2.721241754696629e-05, "loss": 0.403, "step": 594 }, { "epoch": 0.19833333333333333, "grad_norm": 0.06780976802110672, "learning_rate": 2.7203281053944512e-05, "loss": 0.3998, "step": 595 }, { "epoch": 0.19866666666666666, "grad_norm": 0.06798809766769409, "learning_rate": 2.7194131151723817e-05, "loss": 0.3903, "step": 596 }, { "epoch": 0.199, "grad_norm": 0.07392572611570358, "learning_rate": 2.7184967850358288e-05, "loss": 0.3917, "step": 597 }, { "epoch": 0.19933333333333333, "grad_norm": 0.12577314674854279, "learning_rate": 2.717579115991674e-05, "loss": 0.4041, "step": 598 }, { "epoch": 0.19966666666666666, "grad_norm": 0.06545430421829224, "learning_rate": 2.7166601090482697e-05, "loss": 0.3947, "step": 599 }, { "epoch": 0.2, "grad_norm": 0.073726125061512, "learning_rate": 2.715739765215438e-05, "loss": 0.3893, "step": 600 }, { "epoch": 0.20033333333333334, "grad_norm": 0.0704723373055458, "learning_rate": 2.7148180855044707e-05, "loss": 0.4052, "step": 601 }, { "epoch": 0.20066666666666666, "grad_norm": 0.09748171269893646, "learning_rate": 2.713895070928127e-05, "loss": 0.3835, "step": 602 }, { "epoch": 0.201, "grad_norm": 0.10597138106822968, "learning_rate": 2.7129707225006325e-05, "loss": 0.397, "step": 603 }, { "epoch": 0.20133333333333334, "grad_norm": 0.07200044393539429, "learning_rate": 2.7120450412376793e-05, "loss": 0.3943, "step": 604 }, { "epoch": 0.20166666666666666, "grad_norm": 0.08247645944356918, "learning_rate": 2.7111180281564242e-05, "loss": 0.3994, "step": 605 }, { "epoch": 0.202, "grad_norm": 0.07661160081624985, "learning_rate": 2.7101896842754866e-05, "loss": 0.391, "step": 606 }, { "epoch": 0.20233333333333334, "grad_norm": 0.07381271570920944, "learning_rate": 2.709260010614948e-05, "loss": 0.4001, "step": 607 }, { "epoch": 0.20266666666666666, "grad_norm": 0.0741034597158432, "learning_rate": 2.708329008196352e-05, "loss": 0.3984, "step": 608 }, { "epoch": 0.203, "grad_norm": 0.13572147488594055, "learning_rate": 2.7073966780427025e-05, "loss": 0.3936, "step": 609 }, { "epoch": 0.20333333333333334, "grad_norm": 0.07812809199094772, "learning_rate": 2.7064630211784607e-05, "loss": 0.398, "step": 610 }, { "epoch": 0.20366666666666666, "grad_norm": 0.06216133013367653, "learning_rate": 2.7055280386295474e-05, "loss": 0.3965, "step": 611 }, { "epoch": 0.204, "grad_norm": 0.06244543567299843, "learning_rate": 2.7045917314233385e-05, "loss": 0.3943, "step": 612 }, { "epoch": 0.20433333333333334, "grad_norm": 0.07707785069942474, "learning_rate": 2.703654100588667e-05, "loss": 0.3871, "step": 613 }, { "epoch": 0.20466666666666666, "grad_norm": 0.14317896962165833, "learning_rate": 2.7027151471558197e-05, "loss": 0.4013, "step": 614 }, { "epoch": 0.205, "grad_norm": 0.10041557997465134, "learning_rate": 2.7017748721565364e-05, "loss": 0.3951, "step": 615 }, { "epoch": 0.20533333333333334, "grad_norm": 0.09096670895814896, "learning_rate": 2.700833276624009e-05, "loss": 0.3868, "step": 616 }, { "epoch": 0.20566666666666666, "grad_norm": 0.07329723238945007, "learning_rate": 2.699890361592881e-05, "loss": 0.398, "step": 617 }, { "epoch": 0.206, "grad_norm": 0.07461106032133102, "learning_rate": 2.6989461280992456e-05, "loss": 0.3982, "step": 618 }, { "epoch": 0.20633333333333334, "grad_norm": 0.07819489389657974, "learning_rate": 2.698000577180644e-05, "loss": 0.3949, "step": 619 }, { "epoch": 0.20666666666666667, "grad_norm": 0.07052688300609589, "learning_rate": 2.6970537098760664e-05, "loss": 0.397, "step": 620 }, { "epoch": 0.207, "grad_norm": 0.09199440479278564, "learning_rate": 2.6961055272259485e-05, "loss": 0.3925, "step": 621 }, { "epoch": 0.20733333333333334, "grad_norm": 0.0653718113899231, "learning_rate": 2.6951560302721717e-05, "loss": 0.3935, "step": 622 }, { "epoch": 0.20766666666666667, "grad_norm": 0.10402780771255493, "learning_rate": 2.694205220058061e-05, "loss": 0.3939, "step": 623 }, { "epoch": 0.208, "grad_norm": 0.07083833962678909, "learning_rate": 2.693253097628385e-05, "loss": 0.3881, "step": 624 }, { "epoch": 0.20833333333333334, "grad_norm": 0.07100730389356613, "learning_rate": 2.6922996640293542e-05, "loss": 0.3964, "step": 625 }, { "epoch": 0.20866666666666667, "grad_norm": 0.10416380316019058, "learning_rate": 2.6913449203086198e-05, "loss": 0.3912, "step": 626 }, { "epoch": 0.209, "grad_norm": 0.06814076751470566, "learning_rate": 2.6903888675152726e-05, "loss": 0.3968, "step": 627 }, { "epoch": 0.20933333333333334, "grad_norm": 0.0710282102227211, "learning_rate": 2.689431506699841e-05, "loss": 0.4051, "step": 628 }, { "epoch": 0.20966666666666667, "grad_norm": 0.07684691250324249, "learning_rate": 2.6884728389142918e-05, "loss": 0.3977, "step": 629 }, { "epoch": 0.21, "grad_norm": 0.09206927567720413, "learning_rate": 2.687512865212028e-05, "loss": 0.3972, "step": 630 }, { "epoch": 0.21033333333333334, "grad_norm": 0.10883582383394241, "learning_rate": 2.6865515866478865e-05, "loss": 0.3956, "step": 631 }, { "epoch": 0.21066666666666667, "grad_norm": 0.09812434762716293, "learning_rate": 2.685589004278139e-05, "loss": 0.3955, "step": 632 }, { "epoch": 0.211, "grad_norm": 0.07155134528875351, "learning_rate": 2.684625119160489e-05, "loss": 0.3947, "step": 633 }, { "epoch": 0.21133333333333335, "grad_norm": 0.07830075174570084, "learning_rate": 2.6836599323540725e-05, "loss": 0.3959, "step": 634 }, { "epoch": 0.21166666666666667, "grad_norm": 0.07536168396472931, "learning_rate": 2.6826934449194544e-05, "loss": 0.3897, "step": 635 }, { "epoch": 0.212, "grad_norm": 0.08846879005432129, "learning_rate": 2.68172565791863e-05, "loss": 0.3934, "step": 636 }, { "epoch": 0.21233333333333335, "grad_norm": 0.07006418704986572, "learning_rate": 2.6807565724150223e-05, "loss": 0.3989, "step": 637 }, { "epoch": 0.21266666666666667, "grad_norm": 0.08928602188825607, "learning_rate": 2.6797861894734817e-05, "loss": 0.3848, "step": 638 }, { "epoch": 0.213, "grad_norm": 0.08377428352832794, "learning_rate": 2.6788145101602823e-05, "loss": 0.3911, "step": 639 }, { "epoch": 0.21333333333333335, "grad_norm": 0.07750868052244186, "learning_rate": 2.6778415355431246e-05, "loss": 0.3947, "step": 640 }, { "epoch": 0.21366666666666667, "grad_norm": 0.0812450721859932, "learning_rate": 2.6768672666911317e-05, "loss": 0.4073, "step": 641 }, { "epoch": 0.214, "grad_norm": 0.0822344496846199, "learning_rate": 2.6758917046748486e-05, "loss": 0.3924, "step": 642 }, { "epoch": 0.21433333333333332, "grad_norm": 0.09324200451374054, "learning_rate": 2.674914850566242e-05, "loss": 0.3917, "step": 643 }, { "epoch": 0.21466666666666667, "grad_norm": 0.0711062029004097, "learning_rate": 2.6739367054386972e-05, "loss": 0.3925, "step": 644 }, { "epoch": 0.215, "grad_norm": 0.07486855983734131, "learning_rate": 2.6729572703670194e-05, "loss": 0.404, "step": 645 }, { "epoch": 0.21533333333333332, "grad_norm": 0.07398603111505508, "learning_rate": 2.671976546427431e-05, "loss": 0.3813, "step": 646 }, { "epoch": 0.21566666666666667, "grad_norm": 0.05453566089272499, "learning_rate": 2.670994534697569e-05, "loss": 0.3949, "step": 647 }, { "epoch": 0.216, "grad_norm": 0.06493794918060303, "learning_rate": 2.6700112362564875e-05, "loss": 0.4047, "step": 648 }, { "epoch": 0.21633333333333332, "grad_norm": 0.0812997817993164, "learning_rate": 2.6690266521846538e-05, "loss": 0.4035, "step": 649 }, { "epoch": 0.21666666666666667, "grad_norm": 0.09222182631492615, "learning_rate": 2.6680407835639472e-05, "loss": 0.3919, "step": 650 }, { "epoch": 0.217, "grad_norm": 0.08601685613393784, "learning_rate": 2.6670536314776593e-05, "loss": 0.3967, "step": 651 }, { "epoch": 0.21733333333333332, "grad_norm": 0.09161385148763657, "learning_rate": 2.666065197010492e-05, "loss": 0.4025, "step": 652 }, { "epoch": 0.21766666666666667, "grad_norm": 0.07147339731454849, "learning_rate": 2.6650754812485556e-05, "loss": 0.3934, "step": 653 }, { "epoch": 0.218, "grad_norm": 0.06850660592317581, "learning_rate": 2.6640844852793684e-05, "loss": 0.39, "step": 654 }, { "epoch": 0.21833333333333332, "grad_norm": 0.08219245821237564, "learning_rate": 2.6630922101918568e-05, "loss": 0.4037, "step": 655 }, { "epoch": 0.21866666666666668, "grad_norm": 0.06995467096567154, "learning_rate": 2.662098657076351e-05, "loss": 0.3935, "step": 656 }, { "epoch": 0.219, "grad_norm": 0.08977138996124268, "learning_rate": 2.661103827024586e-05, "loss": 0.3917, "step": 657 }, { "epoch": 0.21933333333333332, "grad_norm": 0.07334495335817337, "learning_rate": 2.6601077211297006e-05, "loss": 0.3913, "step": 658 }, { "epoch": 0.21966666666666668, "grad_norm": 0.06842540949583054, "learning_rate": 2.6591103404862347e-05, "loss": 0.392, "step": 659 }, { "epoch": 0.22, "grad_norm": 0.08481068909168243, "learning_rate": 2.6581116861901292e-05, "loss": 0.3919, "step": 660 }, { "epoch": 0.22033333333333333, "grad_norm": 0.0970882698893547, "learning_rate": 2.6571117593387254e-05, "loss": 0.3872, "step": 661 }, { "epoch": 0.22066666666666668, "grad_norm": 0.092220239341259, "learning_rate": 2.6561105610307607e-05, "loss": 0.3889, "step": 662 }, { "epoch": 0.221, "grad_norm": 0.06652519851922989, "learning_rate": 2.655108092366372e-05, "loss": 0.3865, "step": 663 }, { "epoch": 0.22133333333333333, "grad_norm": 0.07592567801475525, "learning_rate": 2.6541043544470905e-05, "loss": 0.3936, "step": 664 }, { "epoch": 0.22166666666666668, "grad_norm": 0.07639186829328537, "learning_rate": 2.653099348375843e-05, "loss": 0.3927, "step": 665 }, { "epoch": 0.222, "grad_norm": 0.06904681771993637, "learning_rate": 2.6520930752569496e-05, "loss": 0.3887, "step": 666 }, { "epoch": 0.22233333333333333, "grad_norm": 0.08211184293031693, "learning_rate": 2.6510855361961218e-05, "loss": 0.3964, "step": 667 }, { "epoch": 0.22266666666666668, "grad_norm": 0.06762734055519104, "learning_rate": 2.6500767323004636e-05, "loss": 0.3868, "step": 668 }, { "epoch": 0.223, "grad_norm": 0.06954944878816605, "learning_rate": 2.649066664678467e-05, "loss": 0.3903, "step": 669 }, { "epoch": 0.22333333333333333, "grad_norm": 0.09212101250886917, "learning_rate": 2.648055334440015e-05, "loss": 0.3826, "step": 670 }, { "epoch": 0.22366666666666668, "grad_norm": 0.08538312464952469, "learning_rate": 2.6470427426963752e-05, "loss": 0.3968, "step": 671 }, { "epoch": 0.224, "grad_norm": 0.07034341245889664, "learning_rate": 2.646028890560204e-05, "loss": 0.3895, "step": 672 }, { "epoch": 0.22433333333333333, "grad_norm": 0.07700680941343307, "learning_rate": 2.645013779145541e-05, "loss": 0.3932, "step": 673 }, { "epoch": 0.22466666666666665, "grad_norm": 0.06648755818605423, "learning_rate": 2.64399740956781e-05, "loss": 0.393, "step": 674 }, { "epoch": 0.225, "grad_norm": 0.07598274946212769, "learning_rate": 2.6429797829438176e-05, "loss": 0.4025, "step": 675 }, { "epoch": 0.22533333333333333, "grad_norm": 0.10431588441133499, "learning_rate": 2.6419609003917515e-05, "loss": 0.3963, "step": 676 }, { "epoch": 0.22566666666666665, "grad_norm": 0.07743339985609055, "learning_rate": 2.640940763031179e-05, "loss": 0.3982, "step": 677 }, { "epoch": 0.226, "grad_norm": 0.07258343696594238, "learning_rate": 2.6399193719830463e-05, "loss": 0.3937, "step": 678 }, { "epoch": 0.22633333333333333, "grad_norm": 0.07332821190357208, "learning_rate": 2.6388967283696783e-05, "loss": 0.3983, "step": 679 }, { "epoch": 0.22666666666666666, "grad_norm": 0.08629845827817917, "learning_rate": 2.637872833314775e-05, "loss": 0.3968, "step": 680 }, { "epoch": 0.227, "grad_norm": 0.1110173687338829, "learning_rate": 2.6368476879434117e-05, "loss": 0.3976, "step": 681 }, { "epoch": 0.22733333333333333, "grad_norm": 0.06741318106651306, "learning_rate": 2.6358212933820377e-05, "loss": 0.3898, "step": 682 }, { "epoch": 0.22766666666666666, "grad_norm": 0.07799811661243439, "learning_rate": 2.6347936507584755e-05, "loss": 0.3909, "step": 683 }, { "epoch": 0.228, "grad_norm": 0.07672885060310364, "learning_rate": 2.6337647612019182e-05, "loss": 0.3995, "step": 684 }, { "epoch": 0.22833333333333333, "grad_norm": 0.0664236918091774, "learning_rate": 2.6327346258429295e-05, "loss": 0.3922, "step": 685 }, { "epoch": 0.22866666666666666, "grad_norm": 0.09785909205675125, "learning_rate": 2.6317032458134412e-05, "loss": 0.3877, "step": 686 }, { "epoch": 0.229, "grad_norm": 0.06995262205600739, "learning_rate": 2.6306706222467545e-05, "loss": 0.3915, "step": 687 }, { "epoch": 0.22933333333333333, "grad_norm": 0.06692627817392349, "learning_rate": 2.6296367562775352e-05, "loss": 0.3985, "step": 688 }, { "epoch": 0.22966666666666666, "grad_norm": 0.06870029121637344, "learning_rate": 2.6286016490418147e-05, "loss": 0.3922, "step": 689 }, { "epoch": 0.23, "grad_norm": 0.08361747115850449, "learning_rate": 2.62756530167699e-05, "loss": 0.3844, "step": 690 }, { "epoch": 0.23033333333333333, "grad_norm": 0.09248767048120499, "learning_rate": 2.626527715321818e-05, "loss": 0.4018, "step": 691 }, { "epoch": 0.23066666666666666, "grad_norm": 0.08598216623067856, "learning_rate": 2.6254888911164196e-05, "loss": 0.3894, "step": 692 }, { "epoch": 0.231, "grad_norm": 0.07559878379106522, "learning_rate": 2.6244488302022736e-05, "loss": 0.3836, "step": 693 }, { "epoch": 0.23133333333333334, "grad_norm": 0.06496915966272354, "learning_rate": 2.6234075337222202e-05, "loss": 0.3922, "step": 694 }, { "epoch": 0.23166666666666666, "grad_norm": 0.07012240588665009, "learning_rate": 2.6223650028204548e-05, "loss": 0.3895, "step": 695 }, { "epoch": 0.232, "grad_norm": 0.07961571216583252, "learning_rate": 2.6213212386425305e-05, "loss": 0.3894, "step": 696 }, { "epoch": 0.23233333333333334, "grad_norm": 0.09083829820156097, "learning_rate": 2.6202762423353557e-05, "loss": 0.3924, "step": 697 }, { "epoch": 0.23266666666666666, "grad_norm": 0.08126447349786758, "learning_rate": 2.619230015047192e-05, "loss": 0.3938, "step": 698 }, { "epoch": 0.233, "grad_norm": 0.08376878499984741, "learning_rate": 2.6181825579276545e-05, "loss": 0.4028, "step": 699 }, { "epoch": 0.23333333333333334, "grad_norm": 0.08771473169326782, "learning_rate": 2.617133872127708e-05, "loss": 0.4059, "step": 700 }, { "epoch": 0.23366666666666666, "grad_norm": 0.10992510616779327, "learning_rate": 2.6160839587996705e-05, "loss": 0.3912, "step": 701 }, { "epoch": 0.234, "grad_norm": 0.0921119675040245, "learning_rate": 2.615032819097205e-05, "loss": 0.3901, "step": 702 }, { "epoch": 0.23433333333333334, "grad_norm": 0.07596377283334732, "learning_rate": 2.613980454175325e-05, "loss": 0.3972, "step": 703 }, { "epoch": 0.23466666666666666, "grad_norm": 0.07436643540859222, "learning_rate": 2.612926865190389e-05, "loss": 0.3929, "step": 704 }, { "epoch": 0.235, "grad_norm": 0.05803614854812622, "learning_rate": 2.6118720533001007e-05, "loss": 0.3889, "step": 705 }, { "epoch": 0.23533333333333334, "grad_norm": 0.14010901749134064, "learning_rate": 2.610816019663507e-05, "loss": 0.3977, "step": 706 }, { "epoch": 0.23566666666666666, "grad_norm": 0.07612130790948868, "learning_rate": 2.6097587654409988e-05, "loss": 0.3903, "step": 707 }, { "epoch": 0.236, "grad_norm": 0.08844217658042908, "learning_rate": 2.6087002917943064e-05, "loss": 0.4, "step": 708 }, { "epoch": 0.23633333333333334, "grad_norm": 0.09091449528932571, "learning_rate": 2.607640599886502e-05, "loss": 0.3972, "step": 709 }, { "epoch": 0.23666666666666666, "grad_norm": 0.06690631806850433, "learning_rate": 2.6065796908819948e-05, "loss": 0.393, "step": 710 }, { "epoch": 0.237, "grad_norm": 0.0732693150639534, "learning_rate": 2.6055175659465323e-05, "loss": 0.4, "step": 711 }, { "epoch": 0.23733333333333334, "grad_norm": 0.07398512959480286, "learning_rate": 2.6044542262471966e-05, "loss": 0.397, "step": 712 }, { "epoch": 0.23766666666666666, "grad_norm": 0.06254737079143524, "learning_rate": 2.6033896729524067e-05, "loss": 0.3992, "step": 713 }, { "epoch": 0.238, "grad_norm": 0.06746969372034073, "learning_rate": 2.602323907231914e-05, "loss": 0.3902, "step": 714 }, { "epoch": 0.23833333333333334, "grad_norm": 0.09360481798648834, "learning_rate": 2.601256930256802e-05, "loss": 0.3952, "step": 715 }, { "epoch": 0.23866666666666667, "grad_norm": 0.3266569674015045, "learning_rate": 2.6001887431994857e-05, "loss": 0.3932, "step": 716 }, { "epoch": 0.239, "grad_norm": 0.06378496438264847, "learning_rate": 2.59911934723371e-05, "loss": 0.3944, "step": 717 }, { "epoch": 0.23933333333333334, "grad_norm": 0.13448865711688995, "learning_rate": 2.5980487435345462e-05, "loss": 0.3929, "step": 718 }, { "epoch": 0.23966666666666667, "grad_norm": 0.06114168465137482, "learning_rate": 2.5969769332783956e-05, "loss": 0.3874, "step": 719 }, { "epoch": 0.24, "grad_norm": 0.06729370355606079, "learning_rate": 2.5959039176429834e-05, "loss": 0.3888, "step": 720 }, { "epoch": 0.24033333333333334, "grad_norm": 0.06077619642019272, "learning_rate": 2.594829697807359e-05, "loss": 0.3852, "step": 721 }, { "epoch": 0.24066666666666667, "grad_norm": 0.07954922318458557, "learning_rate": 2.593754274951897e-05, "loss": 0.3919, "step": 722 }, { "epoch": 0.241, "grad_norm": 0.06147879362106323, "learning_rate": 2.5926776502582915e-05, "loss": 0.3892, "step": 723 }, { "epoch": 0.24133333333333334, "grad_norm": 0.0671185627579689, "learning_rate": 2.591599824909559e-05, "loss": 0.3856, "step": 724 }, { "epoch": 0.24166666666666667, "grad_norm": 0.07106798142194748, "learning_rate": 2.590520800090034e-05, "loss": 0.3914, "step": 725 }, { "epoch": 0.242, "grad_norm": 0.07727113366127014, "learning_rate": 2.5894405769853708e-05, "loss": 0.4035, "step": 726 }, { "epoch": 0.24233333333333335, "grad_norm": 0.07881835848093033, "learning_rate": 2.588359156782538e-05, "loss": 0.3946, "step": 727 }, { "epoch": 0.24266666666666667, "grad_norm": 0.07727718353271484, "learning_rate": 2.5872765406698216e-05, "loss": 0.3942, "step": 728 }, { "epoch": 0.243, "grad_norm": 0.08583398163318634, "learning_rate": 2.58619272983682e-05, "loss": 0.3881, "step": 729 }, { "epoch": 0.24333333333333335, "grad_norm": 0.0706910714507103, "learning_rate": 2.5851077254744465e-05, "loss": 0.3989, "step": 730 }, { "epoch": 0.24366666666666667, "grad_norm": 0.06808780133724213, "learning_rate": 2.5840215287749243e-05, "loss": 0.3987, "step": 731 }, { "epoch": 0.244, "grad_norm": 0.08337313681840897, "learning_rate": 2.5829341409317866e-05, "loss": 0.4033, "step": 732 }, { "epoch": 0.24433333333333335, "grad_norm": 0.08202660828828812, "learning_rate": 2.5818455631398766e-05, "loss": 0.3903, "step": 733 }, { "epoch": 0.24466666666666667, "grad_norm": 0.07991184294223785, "learning_rate": 2.580755796595344e-05, "loss": 0.3932, "step": 734 }, { "epoch": 0.245, "grad_norm": 0.08579890429973602, "learning_rate": 2.5796648424956454e-05, "loss": 0.3932, "step": 735 }, { "epoch": 0.24533333333333332, "grad_norm": 0.07296209037303925, "learning_rate": 2.578572702039542e-05, "loss": 0.3938, "step": 736 }, { "epoch": 0.24566666666666667, "grad_norm": 0.07027027010917664, "learning_rate": 2.577479376427098e-05, "loss": 0.3981, "step": 737 }, { "epoch": 0.246, "grad_norm": 0.08338930457830429, "learning_rate": 2.5763848668596817e-05, "loss": 0.3916, "step": 738 }, { "epoch": 0.24633333333333332, "grad_norm": 0.07491536438465118, "learning_rate": 2.575289174539961e-05, "loss": 0.4005, "step": 739 }, { "epoch": 0.24666666666666667, "grad_norm": 0.08889907598495483, "learning_rate": 2.5741923006719026e-05, "loss": 0.3872, "step": 740 }, { "epoch": 0.247, "grad_norm": 0.07078216224908829, "learning_rate": 2.5730942464607732e-05, "loss": 0.3875, "step": 741 }, { "epoch": 0.24733333333333332, "grad_norm": 0.09624441713094711, "learning_rate": 2.5719950131131357e-05, "loss": 0.3915, "step": 742 }, { "epoch": 0.24766666666666667, "grad_norm": 0.09027419239282608, "learning_rate": 2.570894601836849e-05, "loss": 0.3991, "step": 743 }, { "epoch": 0.248, "grad_norm": 0.10291597247123718, "learning_rate": 2.5697930138410654e-05, "loss": 0.3912, "step": 744 }, { "epoch": 0.24833333333333332, "grad_norm": 0.07671041041612625, "learning_rate": 2.5686902503362317e-05, "loss": 0.3928, "step": 745 }, { "epoch": 0.24866666666666667, "grad_norm": 0.06340360641479492, "learning_rate": 2.567586312534085e-05, "loss": 0.4004, "step": 746 }, { "epoch": 0.249, "grad_norm": 0.07121552526950836, "learning_rate": 2.5664812016476534e-05, "loss": 0.3921, "step": 747 }, { "epoch": 0.24933333333333332, "grad_norm": 0.07056095451116562, "learning_rate": 2.565374918891254e-05, "loss": 0.39, "step": 748 }, { "epoch": 0.24966666666666668, "grad_norm": 0.06268753856420517, "learning_rate": 2.564267465480492e-05, "loss": 0.3879, "step": 749 }, { "epoch": 0.25, "grad_norm": 0.06733932346105576, "learning_rate": 2.5631588426322576e-05, "loss": 0.3793, "step": 750 }, { "epoch": 0.25033333333333335, "grad_norm": 0.07227770984172821, "learning_rate": 2.562049051564727e-05, "loss": 0.3953, "step": 751 }, { "epoch": 0.25066666666666665, "grad_norm": 0.11179983615875244, "learning_rate": 2.56093809349736e-05, "loss": 0.4084, "step": 752 }, { "epoch": 0.251, "grad_norm": 0.07635368406772614, "learning_rate": 2.5598259696508985e-05, "loss": 0.3896, "step": 753 }, { "epoch": 0.25133333333333335, "grad_norm": 0.07336881756782532, "learning_rate": 2.5587126812473656e-05, "loss": 0.3924, "step": 754 }, { "epoch": 0.25166666666666665, "grad_norm": 0.06216335669159889, "learning_rate": 2.5575982295100642e-05, "loss": 0.4058, "step": 755 }, { "epoch": 0.252, "grad_norm": 0.1049053743481636, "learning_rate": 2.5564826156635746e-05, "loss": 0.4017, "step": 756 }, { "epoch": 0.25233333333333335, "grad_norm": 0.11290983110666275, "learning_rate": 2.5553658409337553e-05, "loss": 0.4036, "step": 757 }, { "epoch": 0.25266666666666665, "grad_norm": 0.10427603125572205, "learning_rate": 2.554247906547739e-05, "loss": 0.3983, "step": 758 }, { "epoch": 0.253, "grad_norm": 0.07328946143388748, "learning_rate": 2.5531288137339343e-05, "loss": 0.3906, "step": 759 }, { "epoch": 0.25333333333333335, "grad_norm": 0.09262118488550186, "learning_rate": 2.55200856372202e-05, "loss": 0.3901, "step": 760 }, { "epoch": 0.25366666666666665, "grad_norm": 0.09377763420343399, "learning_rate": 2.5508871577429512e-05, "loss": 0.3964, "step": 761 }, { "epoch": 0.254, "grad_norm": 0.0681890919804573, "learning_rate": 2.5497645970289483e-05, "loss": 0.4002, "step": 762 }, { "epoch": 0.25433333333333336, "grad_norm": 0.06989490240812302, "learning_rate": 2.5486408828135025e-05, "loss": 0.3916, "step": 763 }, { "epoch": 0.25466666666666665, "grad_norm": 0.07199423015117645, "learning_rate": 2.5475160163313733e-05, "loss": 0.3915, "step": 764 }, { "epoch": 0.255, "grad_norm": 0.06069866940379143, "learning_rate": 2.5463899988185844e-05, "loss": 0.3948, "step": 765 }, { "epoch": 0.25533333333333336, "grad_norm": 0.10206281393766403, "learning_rate": 2.5452628315124263e-05, "loss": 0.3876, "step": 766 }, { "epoch": 0.25566666666666665, "grad_norm": 0.08838728070259094, "learning_rate": 2.5441345156514527e-05, "loss": 0.3901, "step": 767 }, { "epoch": 0.256, "grad_norm": 0.07876778393983841, "learning_rate": 2.5430050524754772e-05, "loss": 0.3929, "step": 768 }, { "epoch": 0.25633333333333336, "grad_norm": 0.08219266682863235, "learning_rate": 2.5418744432255758e-05, "loss": 0.3973, "step": 769 }, { "epoch": 0.25666666666666665, "grad_norm": 0.072428859770298, "learning_rate": 2.5407426891440843e-05, "loss": 0.3868, "step": 770 }, { "epoch": 0.257, "grad_norm": 0.08133817464113235, "learning_rate": 2.5396097914745958e-05, "loss": 0.3969, "step": 771 }, { "epoch": 0.25733333333333336, "grad_norm": 0.0774032399058342, "learning_rate": 2.5384757514619594e-05, "loss": 0.3889, "step": 772 }, { "epoch": 0.25766666666666665, "grad_norm": 0.09629921615123749, "learning_rate": 2.53734057035228e-05, "loss": 0.3808, "step": 773 }, { "epoch": 0.258, "grad_norm": 0.0627819150686264, "learning_rate": 2.5362042493929168e-05, "loss": 0.3977, "step": 774 }, { "epoch": 0.25833333333333336, "grad_norm": 0.08256880193948746, "learning_rate": 2.5350667898324805e-05, "loss": 0.3911, "step": 775 }, { "epoch": 0.25866666666666666, "grad_norm": 0.06877050548791885, "learning_rate": 2.5339281929208334e-05, "loss": 0.3898, "step": 776 }, { "epoch": 0.259, "grad_norm": 0.08655121922492981, "learning_rate": 2.5327884599090884e-05, "loss": 0.3917, "step": 777 }, { "epoch": 0.25933333333333336, "grad_norm": 0.07403165102005005, "learning_rate": 2.531647592049605e-05, "loss": 0.3932, "step": 778 }, { "epoch": 0.25966666666666666, "grad_norm": 0.0852067619562149, "learning_rate": 2.5305055905959914e-05, "loss": 0.4041, "step": 779 }, { "epoch": 0.26, "grad_norm": 0.06515070796012878, "learning_rate": 2.5293624568031008e-05, "loss": 0.3949, "step": 780 }, { "epoch": 0.26033333333333336, "grad_norm": 0.15489745140075684, "learning_rate": 2.5282181919270297e-05, "loss": 0.3875, "step": 781 }, { "epoch": 0.26066666666666666, "grad_norm": 0.08469709008932114, "learning_rate": 2.5270727972251182e-05, "loss": 0.3919, "step": 782 }, { "epoch": 0.261, "grad_norm": 0.11431268602609634, "learning_rate": 2.5259262739559486e-05, "loss": 0.4007, "step": 783 }, { "epoch": 0.2613333333333333, "grad_norm": 0.0710538700222969, "learning_rate": 2.5247786233793424e-05, "loss": 0.3887, "step": 784 }, { "epoch": 0.26166666666666666, "grad_norm": 0.1067187562584877, "learning_rate": 2.5236298467563602e-05, "loss": 0.3918, "step": 785 }, { "epoch": 0.262, "grad_norm": 0.10342296212911606, "learning_rate": 2.5224799453492993e-05, "loss": 0.3938, "step": 786 }, { "epoch": 0.2623333333333333, "grad_norm": 0.07224294543266296, "learning_rate": 2.5213289204216938e-05, "loss": 0.3818, "step": 787 }, { "epoch": 0.26266666666666666, "grad_norm": 0.09801632165908813, "learning_rate": 2.520176773238312e-05, "loss": 0.3915, "step": 788 }, { "epoch": 0.263, "grad_norm": 0.07551579177379608, "learning_rate": 2.5190235050651548e-05, "loss": 0.3904, "step": 789 }, { "epoch": 0.2633333333333333, "grad_norm": 0.12261134386062622, "learning_rate": 2.5178691171694556e-05, "loss": 0.3901, "step": 790 }, { "epoch": 0.26366666666666666, "grad_norm": 0.07186991721391678, "learning_rate": 2.516713610819678e-05, "loss": 0.3806, "step": 791 }, { "epoch": 0.264, "grad_norm": 0.09946735203266144, "learning_rate": 2.5155569872855145e-05, "loss": 0.3878, "step": 792 }, { "epoch": 0.2643333333333333, "grad_norm": 0.08250347524881363, "learning_rate": 2.514399247837885e-05, "loss": 0.3979, "step": 793 }, { "epoch": 0.26466666666666666, "grad_norm": 0.07636059075593948, "learning_rate": 2.5132403937489366e-05, "loss": 0.3933, "step": 794 }, { "epoch": 0.265, "grad_norm": 0.08953174948692322, "learning_rate": 2.512080426292039e-05, "loss": 0.3956, "step": 795 }, { "epoch": 0.2653333333333333, "grad_norm": 0.0768996924161911, "learning_rate": 2.5109193467417877e-05, "loss": 0.3879, "step": 796 }, { "epoch": 0.26566666666666666, "grad_norm": 0.10207580775022507, "learning_rate": 2.5097571563739985e-05, "loss": 0.3975, "step": 797 }, { "epoch": 0.266, "grad_norm": 0.15181824564933777, "learning_rate": 2.508593856465709e-05, "loss": 0.4012, "step": 798 }, { "epoch": 0.2663333333333333, "grad_norm": 0.08374739438295364, "learning_rate": 2.5074294482951747e-05, "loss": 0.3996, "step": 799 }, { "epoch": 0.26666666666666666, "grad_norm": 0.07542639225721359, "learning_rate": 2.5062639331418703e-05, "loss": 0.3845, "step": 800 }, { "epoch": 0.267, "grad_norm": 0.08687286823987961, "learning_rate": 2.505097312286486e-05, "loss": 0.3849, "step": 801 }, { "epoch": 0.2673333333333333, "grad_norm": 0.0609232597053051, "learning_rate": 2.503929587010927e-05, "loss": 0.4037, "step": 802 }, { "epoch": 0.26766666666666666, "grad_norm": 0.07681442052125931, "learning_rate": 2.5027607585983122e-05, "loss": 0.3889, "step": 803 }, { "epoch": 0.268, "grad_norm": 0.06915973871946335, "learning_rate": 2.5015908283329726e-05, "loss": 0.3883, "step": 804 }, { "epoch": 0.2683333333333333, "grad_norm": 0.08430593460798264, "learning_rate": 2.50041979750045e-05, "loss": 0.3879, "step": 805 }, { "epoch": 0.26866666666666666, "grad_norm": 0.06186683103442192, "learning_rate": 2.499247667387496e-05, "loss": 0.3933, "step": 806 }, { "epoch": 0.269, "grad_norm": 0.06822565197944641, "learning_rate": 2.498074439282069e-05, "loss": 0.3888, "step": 807 }, { "epoch": 0.2693333333333333, "grad_norm": 0.06783200055360794, "learning_rate": 2.496900114473335e-05, "loss": 0.3924, "step": 808 }, { "epoch": 0.26966666666666667, "grad_norm": 0.07165578752756119, "learning_rate": 2.495724694251664e-05, "loss": 0.3982, "step": 809 }, { "epoch": 0.27, "grad_norm": 0.07777950912714005, "learning_rate": 2.49454817990863e-05, "loss": 0.3875, "step": 810 }, { "epoch": 0.2703333333333333, "grad_norm": 0.06777460873126984, "learning_rate": 2.4933705727370108e-05, "loss": 0.3944, "step": 811 }, { "epoch": 0.27066666666666667, "grad_norm": 0.0661645457148552, "learning_rate": 2.4921918740307824e-05, "loss": 0.3868, "step": 812 }, { "epoch": 0.271, "grad_norm": 0.06158517301082611, "learning_rate": 2.491012085085122e-05, "loss": 0.3931, "step": 813 }, { "epoch": 0.2713333333333333, "grad_norm": 0.08492922782897949, "learning_rate": 2.4898312071964046e-05, "loss": 0.3905, "step": 814 }, { "epoch": 0.27166666666666667, "grad_norm": 0.08095858246088028, "learning_rate": 2.4886492416622016e-05, "loss": 0.394, "step": 815 }, { "epoch": 0.272, "grad_norm": 0.07325801253318787, "learning_rate": 2.4874661897812783e-05, "loss": 0.3916, "step": 816 }, { "epoch": 0.2723333333333333, "grad_norm": 0.057264331728219986, "learning_rate": 2.4862820528535955e-05, "loss": 0.3933, "step": 817 }, { "epoch": 0.27266666666666667, "grad_norm": 0.07635866850614548, "learning_rate": 2.4850968321803055e-05, "loss": 0.3906, "step": 818 }, { "epoch": 0.273, "grad_norm": 0.06792899966239929, "learning_rate": 2.483910529063751e-05, "loss": 0.3909, "step": 819 }, { "epoch": 0.2733333333333333, "grad_norm": 0.07419731467962265, "learning_rate": 2.4827231448074656e-05, "loss": 0.3899, "step": 820 }, { "epoch": 0.27366666666666667, "grad_norm": 0.07581748813390732, "learning_rate": 2.4815346807161696e-05, "loss": 0.3912, "step": 821 }, { "epoch": 0.274, "grad_norm": 0.06977403908967972, "learning_rate": 2.4803451380957693e-05, "loss": 0.3937, "step": 822 }, { "epoch": 0.2743333333333333, "grad_norm": 0.0895097479224205, "learning_rate": 2.479154518253357e-05, "loss": 0.3929, "step": 823 }, { "epoch": 0.27466666666666667, "grad_norm": 0.10247452557086945, "learning_rate": 2.4779628224972092e-05, "loss": 0.3975, "step": 824 }, { "epoch": 0.275, "grad_norm": 0.07179001718759537, "learning_rate": 2.4767700521367837e-05, "loss": 0.3864, "step": 825 }, { "epoch": 0.2753333333333333, "grad_norm": 0.08397818356752396, "learning_rate": 2.4755762084827196e-05, "loss": 0.3864, "step": 826 }, { "epoch": 0.27566666666666667, "grad_norm": 0.08457384258508682, "learning_rate": 2.474381292846835e-05, "loss": 0.3902, "step": 827 }, { "epoch": 0.276, "grad_norm": 0.06496579200029373, "learning_rate": 2.4731853065421258e-05, "loss": 0.3876, "step": 828 }, { "epoch": 0.2763333333333333, "grad_norm": 0.08433189243078232, "learning_rate": 2.4719882508827654e-05, "loss": 0.3942, "step": 829 }, { "epoch": 0.27666666666666667, "grad_norm": 0.10385525226593018, "learning_rate": 2.4707901271841008e-05, "loss": 0.3926, "step": 830 }, { "epoch": 0.277, "grad_norm": 0.0660572424530983, "learning_rate": 2.469590936762654e-05, "loss": 0.3916, "step": 831 }, { "epoch": 0.2773333333333333, "grad_norm": 0.06004255264997482, "learning_rate": 2.4683906809361173e-05, "loss": 0.3808, "step": 832 }, { "epoch": 0.2776666666666667, "grad_norm": 0.10047128051519394, "learning_rate": 2.467189361023356e-05, "loss": 0.39, "step": 833 }, { "epoch": 0.278, "grad_norm": 0.07074391096830368, "learning_rate": 2.4659869783444025e-05, "loss": 0.3928, "step": 834 }, { "epoch": 0.2783333333333333, "grad_norm": 0.11394793540239334, "learning_rate": 2.4647835342204584e-05, "loss": 0.3942, "step": 835 }, { "epoch": 0.2786666666666667, "grad_norm": 0.12948262691497803, "learning_rate": 2.463579029973891e-05, "loss": 0.3797, "step": 836 }, { "epoch": 0.279, "grad_norm": 0.0728902667760849, "learning_rate": 2.4623734669282323e-05, "loss": 0.3912, "step": 837 }, { "epoch": 0.2793333333333333, "grad_norm": 0.07522733509540558, "learning_rate": 2.461166846408179e-05, "loss": 0.4026, "step": 838 }, { "epoch": 0.2796666666666667, "grad_norm": 0.08814632892608643, "learning_rate": 2.459959169739588e-05, "loss": 0.3944, "step": 839 }, { "epoch": 0.28, "grad_norm": 0.07012124359607697, "learning_rate": 2.4587504382494775e-05, "loss": 0.4038, "step": 840 }, { "epoch": 0.2803333333333333, "grad_norm": 0.08482559025287628, "learning_rate": 2.4575406532660255e-05, "loss": 0.3886, "step": 841 }, { "epoch": 0.2806666666666667, "grad_norm": 0.0865422710776329, "learning_rate": 2.456329816118566e-05, "loss": 0.3881, "step": 842 }, { "epoch": 0.281, "grad_norm": 0.09462694078683853, "learning_rate": 2.4551179281375908e-05, "loss": 0.3842, "step": 843 }, { "epoch": 0.2813333333333333, "grad_norm": 0.0709611028432846, "learning_rate": 2.4539049906547458e-05, "loss": 0.394, "step": 844 }, { "epoch": 0.2816666666666667, "grad_norm": 0.09025023132562637, "learning_rate": 2.4526910050028288e-05, "loss": 0.3924, "step": 845 }, { "epoch": 0.282, "grad_norm": 0.08445398509502411, "learning_rate": 2.4514759725157916e-05, "loss": 0.389, "step": 846 }, { "epoch": 0.2823333333333333, "grad_norm": 0.0793897956609726, "learning_rate": 2.4502598945287345e-05, "loss": 0.3976, "step": 847 }, { "epoch": 0.2826666666666667, "grad_norm": 0.11206970363855362, "learning_rate": 2.4490427723779078e-05, "loss": 0.4023, "step": 848 }, { "epoch": 0.283, "grad_norm": 0.06987151503562927, "learning_rate": 2.447824607400708e-05, "loss": 0.3967, "step": 849 }, { "epoch": 0.2833333333333333, "grad_norm": 0.08427228778600693, "learning_rate": 2.446605400935679e-05, "loss": 0.3979, "step": 850 }, { "epoch": 0.2836666666666667, "grad_norm": 0.07964316010475159, "learning_rate": 2.445385154322507e-05, "loss": 0.3972, "step": 851 }, { "epoch": 0.284, "grad_norm": 0.10865399241447449, "learning_rate": 2.444163868902024e-05, "loss": 0.3821, "step": 852 }, { "epoch": 0.2843333333333333, "grad_norm": 0.06401266902685165, "learning_rate": 2.4429415460162e-05, "loss": 0.3935, "step": 853 }, { "epoch": 0.2846666666666667, "grad_norm": 0.062374409288167953, "learning_rate": 2.441718187008148e-05, "loss": 0.3909, "step": 854 }, { "epoch": 0.285, "grad_norm": 0.06425438821315765, "learning_rate": 2.440493793222118e-05, "loss": 0.3884, "step": 855 }, { "epoch": 0.2853333333333333, "grad_norm": 0.1312638372182846, "learning_rate": 2.439268366003497e-05, "loss": 0.3854, "step": 856 }, { "epoch": 0.2856666666666667, "grad_norm": 0.08623103052377701, "learning_rate": 2.4380419066988078e-05, "loss": 0.3947, "step": 857 }, { "epoch": 0.286, "grad_norm": 0.06618097424507141, "learning_rate": 2.4368144166557088e-05, "loss": 0.3796, "step": 858 }, { "epoch": 0.28633333333333333, "grad_norm": 0.06809880584478378, "learning_rate": 2.4355858972229875e-05, "loss": 0.3898, "step": 859 }, { "epoch": 0.2866666666666667, "grad_norm": 0.06110743433237076, "learning_rate": 2.434356349750566e-05, "loss": 0.3894, "step": 860 }, { "epoch": 0.287, "grad_norm": 0.10863514244556427, "learning_rate": 2.433125775589494e-05, "loss": 0.3937, "step": 861 }, { "epoch": 0.28733333333333333, "grad_norm": 0.07726925611495972, "learning_rate": 2.4318941760919506e-05, "loss": 0.3931, "step": 862 }, { "epoch": 0.2876666666666667, "grad_norm": 0.07466909289360046, "learning_rate": 2.43066155261124e-05, "loss": 0.3926, "step": 863 }, { "epoch": 0.288, "grad_norm": 0.06493972986936569, "learning_rate": 2.4294279065017932e-05, "loss": 0.394, "step": 864 }, { "epoch": 0.28833333333333333, "grad_norm": 0.06132260710000992, "learning_rate": 2.428193239119164e-05, "loss": 0.3932, "step": 865 }, { "epoch": 0.2886666666666667, "grad_norm": 0.07256238162517548, "learning_rate": 2.4269575518200284e-05, "loss": 0.3904, "step": 866 }, { "epoch": 0.289, "grad_norm": 0.07277689129114151, "learning_rate": 2.425720845962183e-05, "loss": 0.3846, "step": 867 }, { "epoch": 0.28933333333333333, "grad_norm": 0.07684313505887985, "learning_rate": 2.4244831229045444e-05, "loss": 0.3991, "step": 868 }, { "epoch": 0.2896666666666667, "grad_norm": 0.08739008754491806, "learning_rate": 2.4232443840071464e-05, "loss": 0.3873, "step": 869 }, { "epoch": 0.29, "grad_norm": 0.10849937796592712, "learning_rate": 2.4220046306311387e-05, "loss": 0.3894, "step": 870 }, { "epoch": 0.29033333333333333, "grad_norm": 0.08161067217588425, "learning_rate": 2.4207638641387858e-05, "loss": 0.4016, "step": 871 }, { "epoch": 0.2906666666666667, "grad_norm": 0.08074972778558731, "learning_rate": 2.4195220858934668e-05, "loss": 0.3913, "step": 872 }, { "epoch": 0.291, "grad_norm": 0.08097244054079056, "learning_rate": 2.4182792972596705e-05, "loss": 0.3955, "step": 873 }, { "epoch": 0.29133333333333333, "grad_norm": 0.0908852145075798, "learning_rate": 2.417035499602997e-05, "loss": 0.3905, "step": 874 }, { "epoch": 0.2916666666666667, "grad_norm": 0.07025647908449173, "learning_rate": 2.415790694290155e-05, "loss": 0.3922, "step": 875 }, { "epoch": 0.292, "grad_norm": 0.10233119875192642, "learning_rate": 2.4145448826889608e-05, "loss": 0.3937, "step": 876 }, { "epoch": 0.29233333333333333, "grad_norm": 0.07630763947963715, "learning_rate": 2.4132980661683354e-05, "loss": 0.3894, "step": 877 }, { "epoch": 0.2926666666666667, "grad_norm": 0.06094655394554138, "learning_rate": 2.4120502460983044e-05, "loss": 0.3873, "step": 878 }, { "epoch": 0.293, "grad_norm": 0.05985435098409653, "learning_rate": 2.4108014238499977e-05, "loss": 0.3849, "step": 879 }, { "epoch": 0.29333333333333333, "grad_norm": 0.07596146315336227, "learning_rate": 2.4095516007956442e-05, "loss": 0.3977, "step": 880 }, { "epoch": 0.2936666666666667, "grad_norm": 0.06483784317970276, "learning_rate": 2.4083007783085736e-05, "loss": 0.3991, "step": 881 }, { "epoch": 0.294, "grad_norm": 0.07104095816612244, "learning_rate": 2.4070489577632132e-05, "loss": 0.387, "step": 882 }, { "epoch": 0.29433333333333334, "grad_norm": 0.09084516763687134, "learning_rate": 2.405796140535088e-05, "loss": 0.3934, "step": 883 }, { "epoch": 0.2946666666666667, "grad_norm": 0.12309431284666061, "learning_rate": 2.4045423280008176e-05, "loss": 0.3945, "step": 884 }, { "epoch": 0.295, "grad_norm": 0.07743195444345474, "learning_rate": 2.4032875215381142e-05, "loss": 0.4025, "step": 885 }, { "epoch": 0.29533333333333334, "grad_norm": 0.06329652667045593, "learning_rate": 2.4020317225257846e-05, "loss": 0.3881, "step": 886 }, { "epoch": 0.2956666666666667, "grad_norm": 0.12551455199718475, "learning_rate": 2.4007749323437242e-05, "loss": 0.3882, "step": 887 }, { "epoch": 0.296, "grad_norm": 0.07368959486484528, "learning_rate": 2.3995171523729173e-05, "loss": 0.3944, "step": 888 }, { "epoch": 0.29633333333333334, "grad_norm": 0.10857134312391281, "learning_rate": 2.398258383995438e-05, "loss": 0.3879, "step": 889 }, { "epoch": 0.2966666666666667, "grad_norm": 0.07044094055891037, "learning_rate": 2.396998628594444e-05, "loss": 0.3878, "step": 890 }, { "epoch": 0.297, "grad_norm": 0.08371040970087051, "learning_rate": 2.3957378875541795e-05, "loss": 0.3918, "step": 891 }, { "epoch": 0.29733333333333334, "grad_norm": 0.08405163139104843, "learning_rate": 2.39447616225997e-05, "loss": 0.3891, "step": 892 }, { "epoch": 0.2976666666666667, "grad_norm": 0.0888223946094513, "learning_rate": 2.3932134540982244e-05, "loss": 0.3788, "step": 893 }, { "epoch": 0.298, "grad_norm": 0.09781074523925781, "learning_rate": 2.3919497644564302e-05, "loss": 0.3955, "step": 894 }, { "epoch": 0.29833333333333334, "grad_norm": 0.07494714856147766, "learning_rate": 2.390685094723153e-05, "loss": 0.3881, "step": 895 }, { "epoch": 0.2986666666666667, "grad_norm": 0.10566014796495438, "learning_rate": 2.3894194462880378e-05, "loss": 0.3855, "step": 896 }, { "epoch": 0.299, "grad_norm": 0.07543744146823883, "learning_rate": 2.388152820541802e-05, "loss": 0.3866, "step": 897 }, { "epoch": 0.29933333333333334, "grad_norm": 0.08110293745994568, "learning_rate": 2.3868852188762383e-05, "loss": 0.3846, "step": 898 }, { "epoch": 0.2996666666666667, "grad_norm": 0.08289629220962524, "learning_rate": 2.3856166426842122e-05, "loss": 0.3881, "step": 899 }, { "epoch": 0.3, "grad_norm": 0.07877600938081741, "learning_rate": 2.384347093359659e-05, "loss": 0.3891, "step": 900 }, { "epoch": 0.30033333333333334, "grad_norm": 0.07096068561077118, "learning_rate": 2.3830765722975848e-05, "loss": 0.3895, "step": 901 }, { "epoch": 0.3006666666666667, "grad_norm": 0.07809846848249435, "learning_rate": 2.381805080894061e-05, "loss": 0.3874, "step": 902 }, { "epoch": 0.301, "grad_norm": 0.09168948978185654, "learning_rate": 2.380532620546228e-05, "loss": 0.3947, "step": 903 }, { "epoch": 0.30133333333333334, "grad_norm": 0.16298097372055054, "learning_rate": 2.3792591926522888e-05, "loss": 0.3789, "step": 904 }, { "epoch": 0.3016666666666667, "grad_norm": 0.12330535054206848, "learning_rate": 2.377984798611511e-05, "loss": 0.3965, "step": 905 }, { "epoch": 0.302, "grad_norm": 0.07757151871919632, "learning_rate": 2.3767094398242225e-05, "loss": 0.3976, "step": 906 }, { "epoch": 0.30233333333333334, "grad_norm": 0.0756138414144516, "learning_rate": 2.3754331176918124e-05, "loss": 0.3932, "step": 907 }, { "epoch": 0.30266666666666664, "grad_norm": 0.08295882493257523, "learning_rate": 2.3741558336167277e-05, "loss": 0.3935, "step": 908 }, { "epoch": 0.303, "grad_norm": 0.07058203965425491, "learning_rate": 2.372877589002473e-05, "loss": 0.3905, "step": 909 }, { "epoch": 0.30333333333333334, "grad_norm": 0.07463571429252625, "learning_rate": 2.371598385253607e-05, "loss": 0.3827, "step": 910 }, { "epoch": 0.30366666666666664, "grad_norm": 0.08255108445882797, "learning_rate": 2.3703182237757447e-05, "loss": 0.3937, "step": 911 }, { "epoch": 0.304, "grad_norm": 0.07903891056776047, "learning_rate": 2.3690371059755505e-05, "loss": 0.3982, "step": 912 }, { "epoch": 0.30433333333333334, "grad_norm": 0.0821046531200409, "learning_rate": 2.3677550332607424e-05, "loss": 0.3962, "step": 913 }, { "epoch": 0.30466666666666664, "grad_norm": 0.07636953890323639, "learning_rate": 2.3664720070400857e-05, "loss": 0.3912, "step": 914 }, { "epoch": 0.305, "grad_norm": 0.09057646244764328, "learning_rate": 2.3651880287233946e-05, "loss": 0.3865, "step": 915 }, { "epoch": 0.30533333333333335, "grad_norm": 0.12608659267425537, "learning_rate": 2.363903099721529e-05, "loss": 0.3949, "step": 916 }, { "epoch": 0.30566666666666664, "grad_norm": 0.08007372170686722, "learning_rate": 2.3626172214463932e-05, "loss": 0.3986, "step": 917 }, { "epoch": 0.306, "grad_norm": 0.08780207484960556, "learning_rate": 2.3613303953109354e-05, "loss": 0.3848, "step": 918 }, { "epoch": 0.30633333333333335, "grad_norm": 0.35411593317985535, "learning_rate": 2.3600426227291445e-05, "loss": 0.3938, "step": 919 }, { "epoch": 0.30666666666666664, "grad_norm": 0.07527846843004227, "learning_rate": 2.3587539051160496e-05, "loss": 0.389, "step": 920 }, { "epoch": 0.307, "grad_norm": 0.055986419320106506, "learning_rate": 2.3574642438877183e-05, "loss": 0.3853, "step": 921 }, { "epoch": 0.30733333333333335, "grad_norm": 0.06491363048553467, "learning_rate": 2.3561736404612552e-05, "loss": 0.3984, "step": 922 }, { "epoch": 0.30766666666666664, "grad_norm": 0.07597916573286057, "learning_rate": 2.3548820962547996e-05, "loss": 0.3844, "step": 923 }, { "epoch": 0.308, "grad_norm": 0.0713745579123497, "learning_rate": 2.3535896126875258e-05, "loss": 0.3822, "step": 924 }, { "epoch": 0.30833333333333335, "grad_norm": 0.08596102148294449, "learning_rate": 2.352296191179639e-05, "loss": 0.4056, "step": 925 }, { "epoch": 0.30866666666666664, "grad_norm": 0.06763771921396255, "learning_rate": 2.3510018331523755e-05, "loss": 0.3875, "step": 926 }, { "epoch": 0.309, "grad_norm": 0.07536867260932922, "learning_rate": 2.349706540028001e-05, "loss": 0.3974, "step": 927 }, { "epoch": 0.30933333333333335, "grad_norm": 0.08879021555185318, "learning_rate": 2.3484103132298082e-05, "loss": 0.3892, "step": 928 }, { "epoch": 0.30966666666666665, "grad_norm": 0.082004114985466, "learning_rate": 2.3471131541821157e-05, "loss": 0.3882, "step": 929 }, { "epoch": 0.31, "grad_norm": 0.0734950453042984, "learning_rate": 2.345815064310267e-05, "loss": 0.3883, "step": 930 }, { "epoch": 0.31033333333333335, "grad_norm": 0.10848116874694824, "learning_rate": 2.3445160450406278e-05, "loss": 0.4015, "step": 931 }, { "epoch": 0.31066666666666665, "grad_norm": 0.08048858493566513, "learning_rate": 2.343216097800586e-05, "loss": 0.3947, "step": 932 }, { "epoch": 0.311, "grad_norm": 0.07212584465742111, "learning_rate": 2.341915224018548e-05, "loss": 0.3827, "step": 933 }, { "epoch": 0.31133333333333335, "grad_norm": 0.13018056750297546, "learning_rate": 2.3406134251239387e-05, "loss": 0.4001, "step": 934 }, { "epoch": 0.31166666666666665, "grad_norm": 0.081763356924057, "learning_rate": 2.3393107025472e-05, "loss": 0.3919, "step": 935 }, { "epoch": 0.312, "grad_norm": 0.07652576267719269, "learning_rate": 2.3380070577197884e-05, "loss": 0.3904, "step": 936 }, { "epoch": 0.31233333333333335, "grad_norm": 0.08289916813373566, "learning_rate": 2.336702492074173e-05, "loss": 0.3951, "step": 937 }, { "epoch": 0.31266666666666665, "grad_norm": 0.08150366693735123, "learning_rate": 2.335397007043837e-05, "loss": 0.3885, "step": 938 }, { "epoch": 0.313, "grad_norm": 0.08853591978549957, "learning_rate": 2.3340906040632714e-05, "loss": 0.391, "step": 939 }, { "epoch": 0.31333333333333335, "grad_norm": 0.08500761538743973, "learning_rate": 2.332783284567977e-05, "loss": 0.3907, "step": 940 }, { "epoch": 0.31366666666666665, "grad_norm": 0.0895693376660347, "learning_rate": 2.3314750499944615e-05, "loss": 0.3853, "step": 941 }, { "epoch": 0.314, "grad_norm": 0.06789961457252502, "learning_rate": 2.330165901780238e-05, "loss": 0.3886, "step": 942 }, { "epoch": 0.31433333333333335, "grad_norm": 0.07783786952495575, "learning_rate": 2.3288558413638238e-05, "loss": 0.3898, "step": 943 }, { "epoch": 0.31466666666666665, "grad_norm": 0.16049596667289734, "learning_rate": 2.327544870184738e-05, "loss": 0.3929, "step": 944 }, { "epoch": 0.315, "grad_norm": 0.09164539724588394, "learning_rate": 2.326232989683501e-05, "loss": 0.3924, "step": 945 }, { "epoch": 0.31533333333333335, "grad_norm": 0.14347492158412933, "learning_rate": 2.3249202013016328e-05, "loss": 0.3948, "step": 946 }, { "epoch": 0.31566666666666665, "grad_norm": 0.06853768229484558, "learning_rate": 2.3236065064816493e-05, "loss": 0.3935, "step": 947 }, { "epoch": 0.316, "grad_norm": 0.06414780020713806, "learning_rate": 2.322291906667065e-05, "loss": 0.3975, "step": 948 }, { "epoch": 0.31633333333333336, "grad_norm": 0.08647346496582031, "learning_rate": 2.3209764033023857e-05, "loss": 0.3975, "step": 949 }, { "epoch": 0.31666666666666665, "grad_norm": 0.07072674483060837, "learning_rate": 2.3196599978331133e-05, "loss": 0.3949, "step": 950 }, { "epoch": 0.317, "grad_norm": 0.09344999492168427, "learning_rate": 2.318342691705738e-05, "loss": 0.3803, "step": 951 }, { "epoch": 0.31733333333333336, "grad_norm": 0.07115736603736877, "learning_rate": 2.3170244863677413e-05, "loss": 0.3958, "step": 952 }, { "epoch": 0.31766666666666665, "grad_norm": 0.06738381087779999, "learning_rate": 2.3157053832675932e-05, "loss": 0.3929, "step": 953 }, { "epoch": 0.318, "grad_norm": 0.0818004161119461, "learning_rate": 2.314385383854749e-05, "loss": 0.3944, "step": 954 }, { "epoch": 0.31833333333333336, "grad_norm": 0.06983306258916855, "learning_rate": 2.3130644895796494e-05, "loss": 0.3933, "step": 955 }, { "epoch": 0.31866666666666665, "grad_norm": 0.10573015362024307, "learning_rate": 2.311742701893718e-05, "loss": 0.3932, "step": 956 }, { "epoch": 0.319, "grad_norm": 0.08442802727222443, "learning_rate": 2.3104200222493605e-05, "loss": 0.4007, "step": 957 }, { "epoch": 0.31933333333333336, "grad_norm": 0.08786413818597794, "learning_rate": 2.309096452099963e-05, "loss": 0.4012, "step": 958 }, { "epoch": 0.31966666666666665, "grad_norm": 0.06305647641420364, "learning_rate": 2.3077719928998892e-05, "loss": 0.3932, "step": 959 }, { "epoch": 0.32, "grad_norm": 0.07171636074781418, "learning_rate": 2.306446646104481e-05, "loss": 0.3993, "step": 960 }, { "epoch": 0.32033333333333336, "grad_norm": 0.06937883049249649, "learning_rate": 2.3051204131700543e-05, "loss": 0.3957, "step": 961 }, { "epoch": 0.32066666666666666, "grad_norm": 0.07027225941419601, "learning_rate": 2.303793295553899e-05, "loss": 0.3943, "step": 962 }, { "epoch": 0.321, "grad_norm": 0.07853047549724579, "learning_rate": 2.3024652947142777e-05, "loss": 0.3997, "step": 963 }, { "epoch": 0.32133333333333336, "grad_norm": 0.16764932870864868, "learning_rate": 2.3011364121104234e-05, "loss": 0.3961, "step": 964 }, { "epoch": 0.32166666666666666, "grad_norm": 0.06335241347551346, "learning_rate": 2.2998066492025372e-05, "loss": 0.3926, "step": 965 }, { "epoch": 0.322, "grad_norm": 0.08964049816131592, "learning_rate": 2.298476007451788e-05, "loss": 0.3964, "step": 966 }, { "epoch": 0.32233333333333336, "grad_norm": 0.07612470537424088, "learning_rate": 2.2971444883203113e-05, "loss": 0.3978, "step": 967 }, { "epoch": 0.32266666666666666, "grad_norm": 0.0625949278473854, "learning_rate": 2.295812093271205e-05, "loss": 0.3994, "step": 968 }, { "epoch": 0.323, "grad_norm": 0.0614905022084713, "learning_rate": 2.2944788237685307e-05, "loss": 0.3991, "step": 969 }, { "epoch": 0.3233333333333333, "grad_norm": 0.10780761390924454, "learning_rate": 2.293144681277311e-05, "loss": 0.3903, "step": 970 }, { "epoch": 0.32366666666666666, "grad_norm": 0.061830729246139526, "learning_rate": 2.2918096672635256e-05, "loss": 0.3982, "step": 971 }, { "epoch": 0.324, "grad_norm": 0.11550798267126083, "learning_rate": 2.2904737831941147e-05, "loss": 0.3821, "step": 972 }, { "epoch": 0.3243333333333333, "grad_norm": 0.07610489428043365, "learning_rate": 2.2891370305369733e-05, "loss": 0.3961, "step": 973 }, { "epoch": 0.32466666666666666, "grad_norm": 0.07019032537937164, "learning_rate": 2.2877994107609495e-05, "loss": 0.3926, "step": 974 }, { "epoch": 0.325, "grad_norm": 0.07942754775285721, "learning_rate": 2.2864609253358477e-05, "loss": 0.3897, "step": 975 }, { "epoch": 0.3253333333333333, "grad_norm": 0.08658365160226822, "learning_rate": 2.2851215757324196e-05, "loss": 0.3996, "step": 976 }, { "epoch": 0.32566666666666666, "grad_norm": 0.0784073919057846, "learning_rate": 2.283781363422369e-05, "loss": 0.381, "step": 977 }, { "epoch": 0.326, "grad_norm": 0.09680619090795517, "learning_rate": 2.282440289878347e-05, "loss": 0.388, "step": 978 }, { "epoch": 0.3263333333333333, "grad_norm": 0.06596861034631729, "learning_rate": 2.28109835657395e-05, "loss": 0.4, "step": 979 }, { "epoch": 0.32666666666666666, "grad_norm": 0.10127798467874527, "learning_rate": 2.279755564983721e-05, "loss": 0.4003, "step": 980 }, { "epoch": 0.327, "grad_norm": 0.06937387585639954, "learning_rate": 2.278411916583144e-05, "loss": 0.3999, "step": 981 }, { "epoch": 0.3273333333333333, "grad_norm": 0.06643220782279968, "learning_rate": 2.2770674128486463e-05, "loss": 0.3967, "step": 982 }, { "epoch": 0.32766666666666666, "grad_norm": 0.07779614627361298, "learning_rate": 2.2757220552575947e-05, "loss": 0.3782, "step": 983 }, { "epoch": 0.328, "grad_norm": 0.0821090042591095, "learning_rate": 2.2743758452882932e-05, "loss": 0.4009, "step": 984 }, { "epoch": 0.3283333333333333, "grad_norm": 0.13471460342407227, "learning_rate": 2.2730287844199835e-05, "loss": 0.3892, "step": 985 }, { "epoch": 0.32866666666666666, "grad_norm": 0.1240953803062439, "learning_rate": 2.2716808741328417e-05, "loss": 0.3907, "step": 986 }, { "epoch": 0.329, "grad_norm": 0.07573273032903671, "learning_rate": 2.2703321159079775e-05, "loss": 0.3863, "step": 987 }, { "epoch": 0.3293333333333333, "grad_norm": 0.08096013218164444, "learning_rate": 2.2689825112274325e-05, "loss": 0.3907, "step": 988 }, { "epoch": 0.32966666666666666, "grad_norm": 0.09414678812026978, "learning_rate": 2.2676320615741778e-05, "loss": 0.3875, "step": 989 }, { "epoch": 0.33, "grad_norm": 0.07273001223802567, "learning_rate": 2.2662807684321132e-05, "loss": 0.391, "step": 990 }, { "epoch": 0.3303333333333333, "grad_norm": 0.085142582654953, "learning_rate": 2.264928633286066e-05, "loss": 0.3964, "step": 991 }, { "epoch": 0.33066666666666666, "grad_norm": 0.06178944557905197, "learning_rate": 2.2635756576217873e-05, "loss": 0.3938, "step": 992 }, { "epoch": 0.331, "grad_norm": 0.08922847360372543, "learning_rate": 2.262221842925954e-05, "loss": 0.3825, "step": 993 }, { "epoch": 0.3313333333333333, "grad_norm": 0.06506519764661789, "learning_rate": 2.260867190686163e-05, "loss": 0.3884, "step": 994 }, { "epoch": 0.33166666666666667, "grad_norm": 0.07402695715427399, "learning_rate": 2.2595117023909317e-05, "loss": 0.3908, "step": 995 }, { "epoch": 0.332, "grad_norm": 0.13558800518512726, "learning_rate": 2.2581553795296966e-05, "loss": 0.3936, "step": 996 }, { "epoch": 0.3323333333333333, "grad_norm": 0.0724274143576622, "learning_rate": 2.2567982235928124e-05, "loss": 0.3849, "step": 997 }, { "epoch": 0.33266666666666667, "grad_norm": 0.08910559862852097, "learning_rate": 2.2554402360715466e-05, "loss": 0.3929, "step": 998 }, { "epoch": 0.333, "grad_norm": 0.07489339262247086, "learning_rate": 2.2540814184580827e-05, "loss": 0.3941, "step": 999 }, { "epoch": 0.3333333333333333, "grad_norm": 0.07453542202711105, "learning_rate": 2.2527217722455156e-05, "loss": 0.3886, "step": 1000 }, { "epoch": 0.33366666666666667, "grad_norm": 0.07982893288135529, "learning_rate": 2.25136129892785e-05, "loss": 0.3885, "step": 1001 }, { "epoch": 0.334, "grad_norm": 0.08016817271709442, "learning_rate": 2.25e-05, "loss": 0.386, "step": 1002 }, { "epoch": 0.3343333333333333, "grad_norm": 0.1040651798248291, "learning_rate": 2.2486378769577878e-05, "loss": 0.3825, "step": 1003 }, { "epoch": 0.33466666666666667, "grad_norm": 0.07928641140460968, "learning_rate": 2.2472749312979396e-05, "loss": 0.3858, "step": 1004 }, { "epoch": 0.335, "grad_norm": 0.07108528167009354, "learning_rate": 2.2459111645180862e-05, "loss": 0.396, "step": 1005 }, { "epoch": 0.3353333333333333, "grad_norm": 0.10905561596155167, "learning_rate": 2.244546578116761e-05, "loss": 0.3977, "step": 1006 }, { "epoch": 0.33566666666666667, "grad_norm": 0.08046133071184158, "learning_rate": 2.243181173593398e-05, "loss": 0.3945, "step": 1007 }, { "epoch": 0.336, "grad_norm": 0.08508317917585373, "learning_rate": 2.2418149524483284e-05, "loss": 0.3808, "step": 1008 }, { "epoch": 0.3363333333333333, "grad_norm": 0.10766371339559555, "learning_rate": 2.2404479161827835e-05, "loss": 0.3908, "step": 1009 }, { "epoch": 0.33666666666666667, "grad_norm": 0.08420019596815109, "learning_rate": 2.2390800662988882e-05, "loss": 0.3914, "step": 1010 }, { "epoch": 0.337, "grad_norm": 0.07775302231311798, "learning_rate": 2.2377114042996627e-05, "loss": 0.3979, "step": 1011 }, { "epoch": 0.3373333333333333, "grad_norm": 0.1257321983575821, "learning_rate": 2.2363419316890186e-05, "loss": 0.3942, "step": 1012 }, { "epoch": 0.33766666666666667, "grad_norm": 0.11004406958818436, "learning_rate": 2.2349716499717588e-05, "loss": 0.3967, "step": 1013 }, { "epoch": 0.338, "grad_norm": 0.07298004627227783, "learning_rate": 2.2336005606535755e-05, "loss": 0.3759, "step": 1014 }, { "epoch": 0.3383333333333333, "grad_norm": 0.09525076299905777, "learning_rate": 2.2322286652410468e-05, "loss": 0.3984, "step": 1015 }, { "epoch": 0.33866666666666667, "grad_norm": 0.06937120109796524, "learning_rate": 2.230855965241639e-05, "loss": 0.3984, "step": 1016 }, { "epoch": 0.339, "grad_norm": 0.06975382566452026, "learning_rate": 2.2294824621637003e-05, "loss": 0.3961, "step": 1017 }, { "epoch": 0.3393333333333333, "grad_norm": 0.07742251455783844, "learning_rate": 2.228108157516462e-05, "loss": 0.3897, "step": 1018 }, { "epoch": 0.3396666666666667, "grad_norm": 0.08864080160856247, "learning_rate": 2.2267330528100372e-05, "loss": 0.3896, "step": 1019 }, { "epoch": 0.34, "grad_norm": 0.06561156362295151, "learning_rate": 2.2253571495554167e-05, "loss": 0.3885, "step": 1020 }, { "epoch": 0.3403333333333333, "grad_norm": 0.08256422728300095, "learning_rate": 2.2239804492644694e-05, "loss": 0.385, "step": 1021 }, { "epoch": 0.3406666666666667, "grad_norm": 0.09764555096626282, "learning_rate": 2.22260295344994e-05, "loss": 0.3895, "step": 1022 }, { "epoch": 0.341, "grad_norm": 0.06840568035840988, "learning_rate": 2.2212246636254473e-05, "loss": 0.3951, "step": 1023 }, { "epoch": 0.3413333333333333, "grad_norm": 0.07367914915084839, "learning_rate": 2.2198455813054825e-05, "loss": 0.3961, "step": 1024 }, { "epoch": 0.3416666666666667, "grad_norm": 0.0690588653087616, "learning_rate": 2.2184657080054077e-05, "loss": 0.3937, "step": 1025 }, { "epoch": 0.342, "grad_norm": 0.07426725327968597, "learning_rate": 2.2170850452414542e-05, "loss": 0.3861, "step": 1026 }, { "epoch": 0.3423333333333333, "grad_norm": 0.09223897755146027, "learning_rate": 2.2157035945307205e-05, "loss": 0.3806, "step": 1027 }, { "epoch": 0.3426666666666667, "grad_norm": 0.07263705134391785, "learning_rate": 2.2143213573911714e-05, "loss": 0.3869, "step": 1028 }, { "epoch": 0.343, "grad_norm": 0.1309090107679367, "learning_rate": 2.212938335341635e-05, "loss": 0.3895, "step": 1029 }, { "epoch": 0.3433333333333333, "grad_norm": 0.06947149336338043, "learning_rate": 2.211554529901803e-05, "loss": 0.3804, "step": 1030 }, { "epoch": 0.3436666666666667, "grad_norm": 0.12488541007041931, "learning_rate": 2.210169942592227e-05, "loss": 0.3887, "step": 1031 }, { "epoch": 0.344, "grad_norm": 0.08121713995933533, "learning_rate": 2.208784574934318e-05, "loss": 0.3929, "step": 1032 }, { "epoch": 0.3443333333333333, "grad_norm": 0.07729239761829376, "learning_rate": 2.2073984284503444e-05, "loss": 0.3833, "step": 1033 }, { "epoch": 0.3446666666666667, "grad_norm": 0.0993746891617775, "learning_rate": 2.2060115046634314e-05, "loss": 0.3957, "step": 1034 }, { "epoch": 0.345, "grad_norm": 0.07430441677570343, "learning_rate": 2.2046238050975564e-05, "loss": 0.394, "step": 1035 }, { "epoch": 0.3453333333333333, "grad_norm": 0.09236864000558853, "learning_rate": 2.2032353312775505e-05, "loss": 0.38, "step": 1036 }, { "epoch": 0.3456666666666667, "grad_norm": 0.06384909152984619, "learning_rate": 2.2018460847290957e-05, "loss": 0.3948, "step": 1037 }, { "epoch": 0.346, "grad_norm": 0.07869940996170044, "learning_rate": 2.2004560669787224e-05, "loss": 0.3924, "step": 1038 }, { "epoch": 0.3463333333333333, "grad_norm": 0.07507019490003586, "learning_rate": 2.1990652795538085e-05, "loss": 0.3901, "step": 1039 }, { "epoch": 0.3466666666666667, "grad_norm": 0.06865093111991882, "learning_rate": 2.1976737239825782e-05, "loss": 0.4022, "step": 1040 }, { "epoch": 0.347, "grad_norm": 0.08105417340993881, "learning_rate": 2.196281401794099e-05, "loss": 0.3963, "step": 1041 }, { "epoch": 0.3473333333333333, "grad_norm": 0.08678477257490158, "learning_rate": 2.194888314518282e-05, "loss": 0.3835, "step": 1042 }, { "epoch": 0.3476666666666667, "grad_norm": 0.07183339446783066, "learning_rate": 2.1934944636858773e-05, "loss": 0.3894, "step": 1043 }, { "epoch": 0.348, "grad_norm": 0.07760298252105713, "learning_rate": 2.192099850828476e-05, "loss": 0.389, "step": 1044 }, { "epoch": 0.34833333333333333, "grad_norm": 0.09603295475244522, "learning_rate": 2.190704477478504e-05, "loss": 0.3879, "step": 1045 }, { "epoch": 0.3486666666666667, "grad_norm": 0.08722009509801865, "learning_rate": 2.1893083451692254e-05, "loss": 0.3947, "step": 1046 }, { "epoch": 0.349, "grad_norm": 0.09787790477275848, "learning_rate": 2.1879114554347363e-05, "loss": 0.3922, "step": 1047 }, { "epoch": 0.34933333333333333, "grad_norm": 0.06902310252189636, "learning_rate": 2.1865138098099662e-05, "loss": 0.3841, "step": 1048 }, { "epoch": 0.3496666666666667, "grad_norm": 0.0859937071800232, "learning_rate": 2.1851154098306755e-05, "loss": 0.3981, "step": 1049 }, { "epoch": 0.35, "grad_norm": 0.06702365726232529, "learning_rate": 2.1837162570334518e-05, "loss": 0.3837, "step": 1050 }, { "epoch": 0.35033333333333333, "grad_norm": 0.07341064512729645, "learning_rate": 2.1823163529557118e-05, "loss": 0.3932, "step": 1051 }, { "epoch": 0.3506666666666667, "grad_norm": 0.07279200106859207, "learning_rate": 2.1809156991356964e-05, "loss": 0.3862, "step": 1052 }, { "epoch": 0.351, "grad_norm": 0.06256987154483795, "learning_rate": 2.1795142971124713e-05, "loss": 0.3905, "step": 1053 }, { "epoch": 0.35133333333333333, "grad_norm": 0.07171976566314697, "learning_rate": 2.1781121484259237e-05, "loss": 0.3854, "step": 1054 }, { "epoch": 0.3516666666666667, "grad_norm": 0.09197834879159927, "learning_rate": 2.176709254616761e-05, "loss": 0.3892, "step": 1055 }, { "epoch": 0.352, "grad_norm": 0.06557931751012802, "learning_rate": 2.17530561722651e-05, "loss": 0.3884, "step": 1056 }, { "epoch": 0.35233333333333333, "grad_norm": 0.10799882560968399, "learning_rate": 2.173901237797515e-05, "loss": 0.3941, "step": 1057 }, { "epoch": 0.3526666666666667, "grad_norm": 0.10656439512968063, "learning_rate": 2.1724961178729342e-05, "loss": 0.3856, "step": 1058 }, { "epoch": 0.353, "grad_norm": 0.06610308587551117, "learning_rate": 2.1710902589967404e-05, "loss": 0.3873, "step": 1059 }, { "epoch": 0.35333333333333333, "grad_norm": 0.07236327230930328, "learning_rate": 2.1696836627137188e-05, "loss": 0.3965, "step": 1060 }, { "epoch": 0.3536666666666667, "grad_norm": 0.06622308492660522, "learning_rate": 2.168276330569464e-05, "loss": 0.3958, "step": 1061 }, { "epoch": 0.354, "grad_norm": 0.07964096963405609, "learning_rate": 2.166868264110379e-05, "loss": 0.3977, "step": 1062 }, { "epoch": 0.35433333333333333, "grad_norm": 0.06790298968553543, "learning_rate": 2.1654594648836753e-05, "loss": 0.4005, "step": 1063 }, { "epoch": 0.3546666666666667, "grad_norm": 0.07271687686443329, "learning_rate": 2.1640499344373674e-05, "loss": 0.3865, "step": 1064 }, { "epoch": 0.355, "grad_norm": 0.0658349096775055, "learning_rate": 2.1626396743202747e-05, "loss": 0.3939, "step": 1065 }, { "epoch": 0.35533333333333333, "grad_norm": 0.1068524494767189, "learning_rate": 2.1612286860820182e-05, "loss": 0.3874, "step": 1066 }, { "epoch": 0.3556666666666667, "grad_norm": 0.0740644633769989, "learning_rate": 2.159816971273019e-05, "loss": 0.3919, "step": 1067 }, { "epoch": 0.356, "grad_norm": 0.07219831645488739, "learning_rate": 2.1584045314444958e-05, "loss": 0.3948, "step": 1068 }, { "epoch": 0.35633333333333334, "grad_norm": 0.07156819850206375, "learning_rate": 2.156991368148465e-05, "loss": 0.3932, "step": 1069 }, { "epoch": 0.3566666666666667, "grad_norm": 0.10638052970170975, "learning_rate": 2.1555774829377372e-05, "loss": 0.3893, "step": 1070 }, { "epoch": 0.357, "grad_norm": 0.05723827704787254, "learning_rate": 2.1541628773659166e-05, "loss": 0.3788, "step": 1071 }, { "epoch": 0.35733333333333334, "grad_norm": 0.07071038335561752, "learning_rate": 2.152747552987399e-05, "loss": 0.3898, "step": 1072 }, { "epoch": 0.3576666666666667, "grad_norm": 0.08696084469556808, "learning_rate": 2.1513315113573702e-05, "loss": 0.3909, "step": 1073 }, { "epoch": 0.358, "grad_norm": 0.06636428087949753, "learning_rate": 2.1499147540318032e-05, "loss": 0.3864, "step": 1074 }, { "epoch": 0.35833333333333334, "grad_norm": 0.11212602257728577, "learning_rate": 2.1484972825674583e-05, "loss": 0.3972, "step": 1075 }, { "epoch": 0.3586666666666667, "grad_norm": 0.07029841840267181, "learning_rate": 2.1470790985218804e-05, "loss": 0.3883, "step": 1076 }, { "epoch": 0.359, "grad_norm": 0.07790768891572952, "learning_rate": 2.1456602034533973e-05, "loss": 0.3906, "step": 1077 }, { "epoch": 0.35933333333333334, "grad_norm": 0.0654536709189415, "learning_rate": 2.1442405989211182e-05, "loss": 0.3856, "step": 1078 }, { "epoch": 0.3596666666666667, "grad_norm": 0.08489619940519333, "learning_rate": 2.142820286484931e-05, "loss": 0.3936, "step": 1079 }, { "epoch": 0.36, "grad_norm": 0.21239297091960907, "learning_rate": 2.141399267705504e-05, "loss": 0.3915, "step": 1080 }, { "epoch": 0.36033333333333334, "grad_norm": 0.07595282793045044, "learning_rate": 2.139977544144278e-05, "loss": 0.3903, "step": 1081 }, { "epoch": 0.3606666666666667, "grad_norm": 0.07132305204868317, "learning_rate": 2.1385551173634707e-05, "loss": 0.3871, "step": 1082 }, { "epoch": 0.361, "grad_norm": 0.07647266238927841, "learning_rate": 2.137131988926072e-05, "loss": 0.3866, "step": 1083 }, { "epoch": 0.36133333333333334, "grad_norm": 0.07537363469600677, "learning_rate": 2.1357081603958422e-05, "loss": 0.3813, "step": 1084 }, { "epoch": 0.3616666666666667, "grad_norm": 0.09433251619338989, "learning_rate": 2.134283633337312e-05, "loss": 0.3966, "step": 1085 }, { "epoch": 0.362, "grad_norm": 0.09339366853237152, "learning_rate": 2.132858409315779e-05, "loss": 0.3926, "step": 1086 }, { "epoch": 0.36233333333333334, "grad_norm": 0.08243247866630554, "learning_rate": 2.1314324898973064e-05, "loss": 0.3961, "step": 1087 }, { "epoch": 0.3626666666666667, "grad_norm": 0.07815536111593246, "learning_rate": 2.1300058766487217e-05, "loss": 0.3885, "step": 1088 }, { "epoch": 0.363, "grad_norm": 0.10072636604309082, "learning_rate": 2.128578571137615e-05, "loss": 0.3932, "step": 1089 }, { "epoch": 0.36333333333333334, "grad_norm": 0.07483893632888794, "learning_rate": 2.127150574932337e-05, "loss": 0.386, "step": 1090 }, { "epoch": 0.3636666666666667, "grad_norm": 0.07684021443128586, "learning_rate": 2.125721889601997e-05, "loss": 0.3893, "step": 1091 }, { "epoch": 0.364, "grad_norm": 0.08044262230396271, "learning_rate": 2.1242925167164613e-05, "loss": 0.3976, "step": 1092 }, { "epoch": 0.36433333333333334, "grad_norm": 0.08650103211402893, "learning_rate": 2.1228624578463537e-05, "loss": 0.3999, "step": 1093 }, { "epoch": 0.36466666666666664, "grad_norm": 0.0810331180691719, "learning_rate": 2.1214317145630494e-05, "loss": 0.3945, "step": 1094 }, { "epoch": 0.365, "grad_norm": 0.06581077724695206, "learning_rate": 2.120000288438676e-05, "loss": 0.393, "step": 1095 }, { "epoch": 0.36533333333333334, "grad_norm": 0.11926189810037613, "learning_rate": 2.1185681810461128e-05, "loss": 0.4005, "step": 1096 }, { "epoch": 0.36566666666666664, "grad_norm": 0.07679393887519836, "learning_rate": 2.1171353939589864e-05, "loss": 0.3893, "step": 1097 }, { "epoch": 0.366, "grad_norm": 0.06894869357347488, "learning_rate": 2.115701928751671e-05, "loss": 0.3957, "step": 1098 }, { "epoch": 0.36633333333333334, "grad_norm": 0.06123379245400429, "learning_rate": 2.114267786999285e-05, "loss": 0.3819, "step": 1099 }, { "epoch": 0.36666666666666664, "grad_norm": 0.06761491298675537, "learning_rate": 2.1128329702776916e-05, "loss": 0.3895, "step": 1100 }, { "epoch": 0.367, "grad_norm": 0.06875380128622055, "learning_rate": 2.1113974801634946e-05, "loss": 0.3914, "step": 1101 }, { "epoch": 0.36733333333333335, "grad_norm": 0.06855609267950058, "learning_rate": 2.109961318234038e-05, "loss": 0.3927, "step": 1102 }, { "epoch": 0.36766666666666664, "grad_norm": 0.0789770558476448, "learning_rate": 2.1085244860674033e-05, "loss": 0.393, "step": 1103 }, { "epoch": 0.368, "grad_norm": 0.08032726496458054, "learning_rate": 2.1070869852424106e-05, "loss": 0.3864, "step": 1104 }, { "epoch": 0.36833333333333335, "grad_norm": 0.09428355097770691, "learning_rate": 2.105648817338612e-05, "loss": 0.387, "step": 1105 }, { "epoch": 0.36866666666666664, "grad_norm": 0.0948861762881279, "learning_rate": 2.1042099839362952e-05, "loss": 0.3975, "step": 1106 }, { "epoch": 0.369, "grad_norm": 0.07522736489772797, "learning_rate": 2.1027704866164768e-05, "loss": 0.39, "step": 1107 }, { "epoch": 0.36933333333333335, "grad_norm": 0.08855721354484558, "learning_rate": 2.1013303269609048e-05, "loss": 0.3882, "step": 1108 }, { "epoch": 0.36966666666666664, "grad_norm": 0.10535915195941925, "learning_rate": 2.0998895065520536e-05, "loss": 0.3958, "step": 1109 }, { "epoch": 0.37, "grad_norm": 0.07471587508916855, "learning_rate": 2.0984480269731246e-05, "loss": 0.3886, "step": 1110 }, { "epoch": 0.37033333333333335, "grad_norm": 0.06689638644456863, "learning_rate": 2.097005889808043e-05, "loss": 0.3852, "step": 1111 }, { "epoch": 0.37066666666666664, "grad_norm": 0.08864542841911316, "learning_rate": 2.0955630966414576e-05, "loss": 0.385, "step": 1112 }, { "epoch": 0.371, "grad_norm": 0.16058078408241272, "learning_rate": 2.0941196490587352e-05, "loss": 0.3958, "step": 1113 }, { "epoch": 0.37133333333333335, "grad_norm": 0.08248073607683182, "learning_rate": 2.0926755486459652e-05, "loss": 0.3851, "step": 1114 }, { "epoch": 0.37166666666666665, "grad_norm": 0.10938184708356857, "learning_rate": 2.0912307969899527e-05, "loss": 0.3922, "step": 1115 }, { "epoch": 0.372, "grad_norm": 0.06783577054738998, "learning_rate": 2.0897853956782186e-05, "loss": 0.3867, "step": 1116 }, { "epoch": 0.37233333333333335, "grad_norm": 0.16796107590198517, "learning_rate": 2.088339346298997e-05, "loss": 0.3905, "step": 1117 }, { "epoch": 0.37266666666666665, "grad_norm": 0.08231581002473831, "learning_rate": 2.0868926504412346e-05, "loss": 0.3832, "step": 1118 }, { "epoch": 0.373, "grad_norm": 0.07750124484300613, "learning_rate": 2.0854453096945885e-05, "loss": 0.4009, "step": 1119 }, { "epoch": 0.37333333333333335, "grad_norm": 0.0817628875374794, "learning_rate": 2.0839973256494248e-05, "loss": 0.3974, "step": 1120 }, { "epoch": 0.37366666666666665, "grad_norm": 0.06388069689273834, "learning_rate": 2.082548699896816e-05, "loss": 0.3969, "step": 1121 }, { "epoch": 0.374, "grad_norm": 0.08899057656526566, "learning_rate": 2.0810994340285395e-05, "loss": 0.387, "step": 1122 }, { "epoch": 0.37433333333333335, "grad_norm": 0.09685548394918442, "learning_rate": 2.079649529637077e-05, "loss": 0.3847, "step": 1123 }, { "epoch": 0.37466666666666665, "grad_norm": 0.10471872985363007, "learning_rate": 2.0781989883156106e-05, "loss": 0.399, "step": 1124 }, { "epoch": 0.375, "grad_norm": 0.09297645837068558, "learning_rate": 2.0767478116580235e-05, "loss": 0.3832, "step": 1125 }, { "epoch": 0.37533333333333335, "grad_norm": 0.0683860331773758, "learning_rate": 2.0752960012588963e-05, "loss": 0.3904, "step": 1126 }, { "epoch": 0.37566666666666665, "grad_norm": 0.06369779258966446, "learning_rate": 2.0738435587135057e-05, "loss": 0.3848, "step": 1127 }, { "epoch": 0.376, "grad_norm": 0.07713232189416885, "learning_rate": 2.0723904856178227e-05, "loss": 0.3946, "step": 1128 }, { "epoch": 0.37633333333333335, "grad_norm": 0.06976217776536942, "learning_rate": 2.0709367835685133e-05, "loss": 0.3883, "step": 1129 }, { "epoch": 0.37666666666666665, "grad_norm": 0.7178500890731812, "learning_rate": 2.0694824541629322e-05, "loss": 0.3883, "step": 1130 }, { "epoch": 0.377, "grad_norm": 0.08650045096874237, "learning_rate": 2.0680274989991253e-05, "loss": 0.3891, "step": 1131 }, { "epoch": 0.37733333333333335, "grad_norm": 0.09387006610631943, "learning_rate": 2.0665719196758242e-05, "loss": 0.3937, "step": 1132 }, { "epoch": 0.37766666666666665, "grad_norm": 0.08664409071207047, "learning_rate": 2.0651157177924477e-05, "loss": 0.3984, "step": 1133 }, { "epoch": 0.378, "grad_norm": 0.086481012403965, "learning_rate": 2.0636588949490983e-05, "loss": 0.3837, "step": 1134 }, { "epoch": 0.37833333333333335, "grad_norm": 0.08463256806135178, "learning_rate": 2.0622014527465612e-05, "loss": 0.394, "step": 1135 }, { "epoch": 0.37866666666666665, "grad_norm": 0.08275792002677917, "learning_rate": 2.0607433927863017e-05, "loss": 0.3805, "step": 1136 }, { "epoch": 0.379, "grad_norm": 0.06935501843690872, "learning_rate": 2.059284716670463e-05, "loss": 0.3997, "step": 1137 }, { "epoch": 0.37933333333333336, "grad_norm": 0.09198120981454849, "learning_rate": 2.0578254260018674e-05, "loss": 0.3827, "step": 1138 }, { "epoch": 0.37966666666666665, "grad_norm": 0.08649156242609024, "learning_rate": 2.0563655223840116e-05, "loss": 0.3943, "step": 1139 }, { "epoch": 0.38, "grad_norm": 0.11710778623819351, "learning_rate": 2.054905007421065e-05, "loss": 0.394, "step": 1140 }, { "epoch": 0.38033333333333336, "grad_norm": 0.06448473781347275, "learning_rate": 2.0534438827178697e-05, "loss": 0.3947, "step": 1141 }, { "epoch": 0.38066666666666665, "grad_norm": 0.17229340970516205, "learning_rate": 2.051982149879937e-05, "loss": 0.3875, "step": 1142 }, { "epoch": 0.381, "grad_norm": 0.0628683939576149, "learning_rate": 2.050519810513448e-05, "loss": 0.3969, "step": 1143 }, { "epoch": 0.38133333333333336, "grad_norm": 0.11730989068746567, "learning_rate": 2.0490568662252485e-05, "loss": 0.3922, "step": 1144 }, { "epoch": 0.38166666666666665, "grad_norm": 0.08238154649734497, "learning_rate": 2.04759331862285e-05, "loss": 0.3862, "step": 1145 }, { "epoch": 0.382, "grad_norm": 0.08221995830535889, "learning_rate": 2.0461291693144258e-05, "loss": 0.3901, "step": 1146 }, { "epoch": 0.38233333333333336, "grad_norm": 0.06150755658745766, "learning_rate": 2.044664419908812e-05, "loss": 0.3888, "step": 1147 }, { "epoch": 0.38266666666666665, "grad_norm": 0.06826188415288925, "learning_rate": 2.0431990720155035e-05, "loss": 0.3933, "step": 1148 }, { "epoch": 0.383, "grad_norm": 0.10763668268918991, "learning_rate": 2.0417331272446518e-05, "loss": 0.382, "step": 1149 }, { "epoch": 0.38333333333333336, "grad_norm": 0.09600989520549774, "learning_rate": 2.0402665872070656e-05, "loss": 0.3813, "step": 1150 }, { "epoch": 0.38366666666666666, "grad_norm": 0.08191089332103729, "learning_rate": 2.038799453514207e-05, "loss": 0.3896, "step": 1151 }, { "epoch": 0.384, "grad_norm": 0.08791036158800125, "learning_rate": 2.0373317277781907e-05, "loss": 0.398, "step": 1152 }, { "epoch": 0.38433333333333336, "grad_norm": 0.14020171761512756, "learning_rate": 2.0358634116117827e-05, "loss": 0.3822, "step": 1153 }, { "epoch": 0.38466666666666666, "grad_norm": 0.08211301267147064, "learning_rate": 2.0343945066283957e-05, "loss": 0.386, "step": 1154 }, { "epoch": 0.385, "grad_norm": 0.07084356993436813, "learning_rate": 2.032925014442091e-05, "loss": 0.3888, "step": 1155 }, { "epoch": 0.38533333333333336, "grad_norm": 0.06986358761787415, "learning_rate": 2.0314549366675742e-05, "loss": 0.3922, "step": 1156 }, { "epoch": 0.38566666666666666, "grad_norm": 0.08533968776464462, "learning_rate": 2.0299842749201956e-05, "loss": 0.3928, "step": 1157 }, { "epoch": 0.386, "grad_norm": 0.11023092269897461, "learning_rate": 2.028513030815947e-05, "loss": 0.3935, "step": 1158 }, { "epoch": 0.3863333333333333, "grad_norm": 0.07337897270917892, "learning_rate": 2.027041205971458e-05, "loss": 0.3898, "step": 1159 }, { "epoch": 0.38666666666666666, "grad_norm": 0.09906651824712753, "learning_rate": 2.0255688020039994e-05, "loss": 0.3929, "step": 1160 }, { "epoch": 0.387, "grad_norm": 0.06609717011451721, "learning_rate": 2.0240958205314762e-05, "loss": 0.3834, "step": 1161 }, { "epoch": 0.3873333333333333, "grad_norm": 0.10034853219985962, "learning_rate": 2.022622263172429e-05, "loss": 0.3883, "step": 1162 }, { "epoch": 0.38766666666666666, "grad_norm": 0.08622638136148453, "learning_rate": 2.021148131546031e-05, "loss": 0.3858, "step": 1163 }, { "epoch": 0.388, "grad_norm": 0.1059880331158638, "learning_rate": 2.0196734272720857e-05, "loss": 0.3882, "step": 1164 }, { "epoch": 0.3883333333333333, "grad_norm": 0.07418672740459442, "learning_rate": 2.0181981519710264e-05, "loss": 0.3905, "step": 1165 }, { "epoch": 0.38866666666666666, "grad_norm": 0.08262262493371964, "learning_rate": 2.016722307263914e-05, "loss": 0.3911, "step": 1166 }, { "epoch": 0.389, "grad_norm": 0.11467868834733963, "learning_rate": 2.015245894772435e-05, "loss": 0.3856, "step": 1167 }, { "epoch": 0.3893333333333333, "grad_norm": 0.13305817544460297, "learning_rate": 2.0137689161188996e-05, "loss": 0.3958, "step": 1168 }, { "epoch": 0.38966666666666666, "grad_norm": 0.061945486813783646, "learning_rate": 2.0122913729262407e-05, "loss": 0.3843, "step": 1169 }, { "epoch": 0.39, "grad_norm": 0.09077613800764084, "learning_rate": 2.0108132668180106e-05, "loss": 0.3921, "step": 1170 }, { "epoch": 0.3903333333333333, "grad_norm": 0.09267352521419525, "learning_rate": 2.0093345994183806e-05, "loss": 0.3919, "step": 1171 }, { "epoch": 0.39066666666666666, "grad_norm": 0.10213073343038559, "learning_rate": 2.007855372352139e-05, "loss": 0.3945, "step": 1172 }, { "epoch": 0.391, "grad_norm": 0.0777328759431839, "learning_rate": 2.006375587244689e-05, "loss": 0.389, "step": 1173 }, { "epoch": 0.3913333333333333, "grad_norm": 0.0874200090765953, "learning_rate": 2.0048952457220456e-05, "loss": 0.3852, "step": 1174 }, { "epoch": 0.39166666666666666, "grad_norm": 0.08938947319984436, "learning_rate": 2.003414349410838e-05, "loss": 0.39, "step": 1175 }, { "epoch": 0.392, "grad_norm": 0.09282711148262024, "learning_rate": 2.0019328999383024e-05, "loss": 0.3797, "step": 1176 }, { "epoch": 0.3923333333333333, "grad_norm": 0.06565161794424057, "learning_rate": 2.000450898932284e-05, "loss": 0.3806, "step": 1177 }, { "epoch": 0.39266666666666666, "grad_norm": 0.0998082086443901, "learning_rate": 1.9989683480212346e-05, "loss": 0.3868, "step": 1178 }, { "epoch": 0.393, "grad_norm": 0.07175910472869873, "learning_rate": 1.9974852488342087e-05, "loss": 0.3919, "step": 1179 }, { "epoch": 0.3933333333333333, "grad_norm": 0.06837297230958939, "learning_rate": 1.9960016030008645e-05, "loss": 0.373, "step": 1180 }, { "epoch": 0.39366666666666666, "grad_norm": 0.07262791693210602, "learning_rate": 1.9945174121514604e-05, "loss": 0.3937, "step": 1181 }, { "epoch": 0.394, "grad_norm": 0.16558918356895447, "learning_rate": 1.9930326779168534e-05, "loss": 0.3955, "step": 1182 }, { "epoch": 0.3943333333333333, "grad_norm": 0.08805783838033676, "learning_rate": 1.9915474019284983e-05, "loss": 0.3968, "step": 1183 }, { "epoch": 0.39466666666666667, "grad_norm": 0.07241909950971603, "learning_rate": 1.990061585818445e-05, "loss": 0.3938, "step": 1184 }, { "epoch": 0.395, "grad_norm": 0.11513689160346985, "learning_rate": 1.988575231219336e-05, "loss": 0.3888, "step": 1185 }, { "epoch": 0.3953333333333333, "grad_norm": 0.09278181195259094, "learning_rate": 1.9870883397644066e-05, "loss": 0.3879, "step": 1186 }, { "epoch": 0.39566666666666667, "grad_norm": 0.1131439283490181, "learning_rate": 1.985600913087482e-05, "loss": 0.3922, "step": 1187 }, { "epoch": 0.396, "grad_norm": 0.07732473313808441, "learning_rate": 1.9841129528229737e-05, "loss": 0.3908, "step": 1188 }, { "epoch": 0.3963333333333333, "grad_norm": 0.08509481698274612, "learning_rate": 1.9826244606058827e-05, "loss": 0.3879, "step": 1189 }, { "epoch": 0.39666666666666667, "grad_norm": 0.093540258705616, "learning_rate": 1.981135438071792e-05, "loss": 0.3869, "step": 1190 }, { "epoch": 0.397, "grad_norm": 0.08076231926679611, "learning_rate": 1.979645886856868e-05, "loss": 0.3874, "step": 1191 }, { "epoch": 0.3973333333333333, "grad_norm": 0.08851117640733719, "learning_rate": 1.9781558085978583e-05, "loss": 0.3902, "step": 1192 }, { "epoch": 0.39766666666666667, "grad_norm": 0.08414346724748611, "learning_rate": 1.976665204932089e-05, "loss": 0.3907, "step": 1193 }, { "epoch": 0.398, "grad_norm": 0.09770607203245163, "learning_rate": 1.9751740774974644e-05, "loss": 0.3779, "step": 1194 }, { "epoch": 0.3983333333333333, "grad_norm": 0.06547784060239792, "learning_rate": 1.9736824279324635e-05, "loss": 0.3877, "step": 1195 }, { "epoch": 0.39866666666666667, "grad_norm": 0.06962061673402786, "learning_rate": 1.9721902578761398e-05, "loss": 0.3894, "step": 1196 }, { "epoch": 0.399, "grad_norm": 0.12581466138362885, "learning_rate": 1.970697568968118e-05, "loss": 0.3937, "step": 1197 }, { "epoch": 0.3993333333333333, "grad_norm": 0.06632498651742935, "learning_rate": 1.9692043628485933e-05, "loss": 0.3894, "step": 1198 }, { "epoch": 0.39966666666666667, "grad_norm": 0.07760920375585556, "learning_rate": 1.9677106411583295e-05, "loss": 0.4018, "step": 1199 }, { "epoch": 0.4, "grad_norm": 0.14822301268577576, "learning_rate": 1.9662164055386567e-05, "loss": 0.3877, "step": 1200 }, { "epoch": 0.4003333333333333, "grad_norm": 0.08218836039304733, "learning_rate": 1.9647216576314693e-05, "loss": 0.3756, "step": 1201 }, { "epoch": 0.40066666666666667, "grad_norm": 0.08144700527191162, "learning_rate": 1.963226399079225e-05, "loss": 0.3922, "step": 1202 }, { "epoch": 0.401, "grad_norm": 0.07156865298748016, "learning_rate": 1.9617306315249416e-05, "loss": 0.388, "step": 1203 }, { "epoch": 0.4013333333333333, "grad_norm": 0.11239401996135712, "learning_rate": 1.9602343566121986e-05, "loss": 0.3963, "step": 1204 }, { "epoch": 0.40166666666666667, "grad_norm": 0.08732177317142487, "learning_rate": 1.958737575985131e-05, "loss": 0.3955, "step": 1205 }, { "epoch": 0.402, "grad_norm": 0.08214534819126129, "learning_rate": 1.95724029128843e-05, "loss": 0.3917, "step": 1206 }, { "epoch": 0.4023333333333333, "grad_norm": 0.07760186493396759, "learning_rate": 1.9557425041673403e-05, "loss": 0.3758, "step": 1207 }, { "epoch": 0.4026666666666667, "grad_norm": 0.10141512006521225, "learning_rate": 1.9542442162676597e-05, "loss": 0.3903, "step": 1208 }, { "epoch": 0.403, "grad_norm": 0.11692721396684647, "learning_rate": 1.9527454292357355e-05, "loss": 0.3785, "step": 1209 }, { "epoch": 0.4033333333333333, "grad_norm": 0.06463226675987244, "learning_rate": 1.951246144718463e-05, "loss": 0.3893, "step": 1210 }, { "epoch": 0.4036666666666667, "grad_norm": 0.07223467528820038, "learning_rate": 1.9497463643632852e-05, "loss": 0.3928, "step": 1211 }, { "epoch": 0.404, "grad_norm": 0.08990504592657089, "learning_rate": 1.9482460898181895e-05, "loss": 0.3853, "step": 1212 }, { "epoch": 0.4043333333333333, "grad_norm": 0.0866391733288765, "learning_rate": 1.9467453227317064e-05, "loss": 0.3894, "step": 1213 }, { "epoch": 0.4046666666666667, "grad_norm": 0.06781402975320816, "learning_rate": 1.9452440647529075e-05, "loss": 0.391, "step": 1214 }, { "epoch": 0.405, "grad_norm": 0.09346762299537659, "learning_rate": 1.943742317531404e-05, "loss": 0.3947, "step": 1215 }, { "epoch": 0.4053333333333333, "grad_norm": 0.0883321613073349, "learning_rate": 1.9422400827173435e-05, "loss": 0.3964, "step": 1216 }, { "epoch": 0.4056666666666667, "grad_norm": 0.08615533262491226, "learning_rate": 1.9407373619614114e-05, "loss": 0.3863, "step": 1217 }, { "epoch": 0.406, "grad_norm": 0.07001233845949173, "learning_rate": 1.9392341569148254e-05, "loss": 0.3866, "step": 1218 }, { "epoch": 0.4063333333333333, "grad_norm": 0.09243067353963852, "learning_rate": 1.9377304692293366e-05, "loss": 0.3937, "step": 1219 }, { "epoch": 0.4066666666666667, "grad_norm": 0.08866457641124725, "learning_rate": 1.9362263005572262e-05, "loss": 0.3867, "step": 1220 }, { "epoch": 0.407, "grad_norm": 0.13490533828735352, "learning_rate": 1.934721652551302e-05, "loss": 0.3856, "step": 1221 }, { "epoch": 0.4073333333333333, "grad_norm": 0.07480959594249725, "learning_rate": 1.933216526864901e-05, "loss": 0.3959, "step": 1222 }, { "epoch": 0.4076666666666667, "grad_norm": 0.07555894553661346, "learning_rate": 1.9317109251518844e-05, "loss": 0.3924, "step": 1223 }, { "epoch": 0.408, "grad_norm": 0.08360566943883896, "learning_rate": 1.9302048490666356e-05, "loss": 0.3857, "step": 1224 }, { "epoch": 0.4083333333333333, "grad_norm": 0.06594213098287582, "learning_rate": 1.92869830026406e-05, "loss": 0.4, "step": 1225 }, { "epoch": 0.4086666666666667, "grad_norm": 0.07420819252729416, "learning_rate": 1.9271912803995827e-05, "loss": 0.4025, "step": 1226 }, { "epoch": 0.409, "grad_norm": 0.08649836480617523, "learning_rate": 1.9256837911291455e-05, "loss": 0.3955, "step": 1227 }, { "epoch": 0.4093333333333333, "grad_norm": 0.09754025936126709, "learning_rate": 1.9241758341092065e-05, "loss": 0.3965, "step": 1228 }, { "epoch": 0.4096666666666667, "grad_norm": 0.08942166715860367, "learning_rate": 1.9226674109967383e-05, "loss": 0.3944, "step": 1229 }, { "epoch": 0.41, "grad_norm": 0.07631989568471909, "learning_rate": 1.9211585234492245e-05, "loss": 0.3832, "step": 1230 }, { "epoch": 0.4103333333333333, "grad_norm": 0.11912316828966141, "learning_rate": 1.9196491731246593e-05, "loss": 0.3919, "step": 1231 }, { "epoch": 0.4106666666666667, "grad_norm": 0.07888847589492798, "learning_rate": 1.9181393616815467e-05, "loss": 0.3985, "step": 1232 }, { "epoch": 0.411, "grad_norm": 0.09189970791339874, "learning_rate": 1.916629090778896e-05, "loss": 0.3954, "step": 1233 }, { "epoch": 0.41133333333333333, "grad_norm": 0.09143964946269989, "learning_rate": 1.9151183620762214e-05, "loss": 0.3942, "step": 1234 }, { "epoch": 0.4116666666666667, "grad_norm": 0.2694031298160553, "learning_rate": 1.9136071772335414e-05, "loss": 0.3914, "step": 1235 }, { "epoch": 0.412, "grad_norm": 0.08273480832576752, "learning_rate": 1.912095537911375e-05, "loss": 0.3829, "step": 1236 }, { "epoch": 0.41233333333333333, "grad_norm": 0.13571184873580933, "learning_rate": 1.9105834457707388e-05, "loss": 0.397, "step": 1237 }, { "epoch": 0.4126666666666667, "grad_norm": 0.0760810449719429, "learning_rate": 1.9090709024731497e-05, "loss": 0.3911, "step": 1238 }, { "epoch": 0.413, "grad_norm": 0.14880076050758362, "learning_rate": 1.9075579096806193e-05, "loss": 0.3889, "step": 1239 }, { "epoch": 0.41333333333333333, "grad_norm": 0.10175302624702454, "learning_rate": 1.9060444690556524e-05, "loss": 0.3891, "step": 1240 }, { "epoch": 0.4136666666666667, "grad_norm": 0.09843520075082779, "learning_rate": 1.9045305822612475e-05, "loss": 0.3996, "step": 1241 }, { "epoch": 0.414, "grad_norm": 0.13361984491348267, "learning_rate": 1.9030162509608918e-05, "loss": 0.3934, "step": 1242 }, { "epoch": 0.41433333333333333, "grad_norm": 0.14264364540576935, "learning_rate": 1.901501476818562e-05, "loss": 0.3838, "step": 1243 }, { "epoch": 0.4146666666666667, "grad_norm": 0.0860832929611206, "learning_rate": 1.89998626149872e-05, "loss": 0.3974, "step": 1244 }, { "epoch": 0.415, "grad_norm": 0.07927248626947403, "learning_rate": 1.8984706066663144e-05, "loss": 0.3899, "step": 1245 }, { "epoch": 0.41533333333333333, "grad_norm": 0.06865067034959793, "learning_rate": 1.8969545139867757e-05, "loss": 0.3891, "step": 1246 }, { "epoch": 0.4156666666666667, "grad_norm": 0.06931287795305252, "learning_rate": 1.8954379851260145e-05, "loss": 0.3849, "step": 1247 }, { "epoch": 0.416, "grad_norm": 0.0688989982008934, "learning_rate": 1.893921021750423e-05, "loss": 0.3816, "step": 1248 }, { "epoch": 0.41633333333333333, "grad_norm": 0.06637155264616013, "learning_rate": 1.892403625526869e-05, "loss": 0.3825, "step": 1249 }, { "epoch": 0.4166666666666667, "grad_norm": 0.08339284360408783, "learning_rate": 1.8908857981226964e-05, "loss": 0.3928, "step": 1250 }, { "epoch": 0.417, "grad_norm": 0.0880589410662651, "learning_rate": 1.8893675412057233e-05, "loss": 0.3878, "step": 1251 }, { "epoch": 0.41733333333333333, "grad_norm": 0.07774151861667633, "learning_rate": 1.8878488564442396e-05, "loss": 0.3978, "step": 1252 }, { "epoch": 0.4176666666666667, "grad_norm": 0.13054326176643372, "learning_rate": 1.886329745507005e-05, "loss": 0.3826, "step": 1253 }, { "epoch": 0.418, "grad_norm": 0.0948263630270958, "learning_rate": 1.884810210063248e-05, "loss": 0.3947, "step": 1254 }, { "epoch": 0.41833333333333333, "grad_norm": 0.09414488077163696, "learning_rate": 1.8832902517826626e-05, "loss": 0.3973, "step": 1255 }, { "epoch": 0.4186666666666667, "grad_norm": 0.09326168149709702, "learning_rate": 1.881769872335408e-05, "loss": 0.3869, "step": 1256 }, { "epoch": 0.419, "grad_norm": 0.08871980011463165, "learning_rate": 1.8802490733921073e-05, "loss": 0.3953, "step": 1257 }, { "epoch": 0.41933333333333334, "grad_norm": 0.08670683950185776, "learning_rate": 1.8787278566238427e-05, "loss": 0.3884, "step": 1258 }, { "epoch": 0.4196666666666667, "grad_norm": 0.06800033152103424, "learning_rate": 1.8772062237021566e-05, "loss": 0.385, "step": 1259 }, { "epoch": 0.42, "grad_norm": 0.0880570039153099, "learning_rate": 1.875684176299048e-05, "loss": 0.399, "step": 1260 }, { "epoch": 0.42033333333333334, "grad_norm": 0.07300975173711777, "learning_rate": 1.874161716086972e-05, "loss": 0.3855, "step": 1261 }, { "epoch": 0.4206666666666667, "grad_norm": 0.08715545386075974, "learning_rate": 1.872638844738837e-05, "loss": 0.3821, "step": 1262 }, { "epoch": 0.421, "grad_norm": 0.33256086707115173, "learning_rate": 1.871115563928004e-05, "loss": 0.384, "step": 1263 }, { "epoch": 0.42133333333333334, "grad_norm": 0.0997050404548645, "learning_rate": 1.8695918753282816e-05, "loss": 0.3867, "step": 1264 }, { "epoch": 0.4216666666666667, "grad_norm": 0.07549349218606949, "learning_rate": 1.868067780613929e-05, "loss": 0.393, "step": 1265 }, { "epoch": 0.422, "grad_norm": 0.0683009997010231, "learning_rate": 1.8665432814596505e-05, "loss": 0.3899, "step": 1266 }, { "epoch": 0.42233333333333334, "grad_norm": 0.07953429967164993, "learning_rate": 1.865018379540595e-05, "loss": 0.3851, "step": 1267 }, { "epoch": 0.4226666666666667, "grad_norm": 0.08106075972318649, "learning_rate": 1.8634930765323537e-05, "loss": 0.3856, "step": 1268 }, { "epoch": 0.423, "grad_norm": 0.09918402880430222, "learning_rate": 1.8619673741109587e-05, "loss": 0.3892, "step": 1269 }, { "epoch": 0.42333333333333334, "grad_norm": 0.07061031460762024, "learning_rate": 1.8604412739528817e-05, "loss": 0.3856, "step": 1270 }, { "epoch": 0.4236666666666667, "grad_norm": 0.07177641242742538, "learning_rate": 1.85891477773503e-05, "loss": 0.3862, "step": 1271 }, { "epoch": 0.424, "grad_norm": 0.13166557252407074, "learning_rate": 1.8573878871347474e-05, "loss": 0.3847, "step": 1272 }, { "epoch": 0.42433333333333334, "grad_norm": 0.08196094632148743, "learning_rate": 1.855860603829811e-05, "loss": 0.4076, "step": 1273 }, { "epoch": 0.4246666666666667, "grad_norm": 0.07605481147766113, "learning_rate": 1.854332929498427e-05, "loss": 0.3985, "step": 1274 }, { "epoch": 0.425, "grad_norm": 0.07430890947580338, "learning_rate": 1.8528048658192353e-05, "loss": 0.3907, "step": 1275 }, { "epoch": 0.42533333333333334, "grad_norm": 0.08660392463207245, "learning_rate": 1.8512764144713006e-05, "loss": 0.3805, "step": 1276 }, { "epoch": 0.4256666666666667, "grad_norm": 0.08854813128709793, "learning_rate": 1.849747577134114e-05, "loss": 0.391, "step": 1277 }, { "epoch": 0.426, "grad_norm": 0.0747266411781311, "learning_rate": 1.8482183554875923e-05, "loss": 0.3881, "step": 1278 }, { "epoch": 0.42633333333333334, "grad_norm": 0.09584492444992065, "learning_rate": 1.8466887512120733e-05, "loss": 0.3968, "step": 1279 }, { "epoch": 0.4266666666666667, "grad_norm": 0.0853409469127655, "learning_rate": 1.845158765988315e-05, "loss": 0.3844, "step": 1280 }, { "epoch": 0.427, "grad_norm": 0.18080979585647583, "learning_rate": 1.843628401497495e-05, "loss": 0.3925, "step": 1281 }, { "epoch": 0.42733333333333334, "grad_norm": 0.09565355628728867, "learning_rate": 1.8420976594212067e-05, "loss": 0.3909, "step": 1282 }, { "epoch": 0.42766666666666664, "grad_norm": 0.08563031256198883, "learning_rate": 1.8405665414414593e-05, "loss": 0.3955, "step": 1283 }, { "epoch": 0.428, "grad_norm": 0.07256192713975906, "learning_rate": 1.8390350492406736e-05, "loss": 0.3831, "step": 1284 }, { "epoch": 0.42833333333333334, "grad_norm": 0.08017537742853165, "learning_rate": 1.8375031845016837e-05, "loss": 0.3869, "step": 1285 }, { "epoch": 0.42866666666666664, "grad_norm": 0.09691718220710754, "learning_rate": 1.835970948907731e-05, "loss": 0.3921, "step": 1286 }, { "epoch": 0.429, "grad_norm": 0.07629893720149994, "learning_rate": 1.8344383441424658e-05, "loss": 0.3809, "step": 1287 }, { "epoch": 0.42933333333333334, "grad_norm": 0.09628855437040329, "learning_rate": 1.8329053718899436e-05, "loss": 0.4034, "step": 1288 }, { "epoch": 0.42966666666666664, "grad_norm": 0.1438627988100052, "learning_rate": 1.8313720338346235e-05, "loss": 0.3857, "step": 1289 }, { "epoch": 0.43, "grad_norm": 0.1447266936302185, "learning_rate": 1.8298383316613666e-05, "loss": 0.3879, "step": 1290 }, { "epoch": 0.43033333333333335, "grad_norm": 0.08475913852453232, "learning_rate": 1.8283042670554347e-05, "loss": 0.3923, "step": 1291 }, { "epoch": 0.43066666666666664, "grad_norm": 0.06412012130022049, "learning_rate": 1.8267698417024866e-05, "loss": 0.3835, "step": 1292 }, { "epoch": 0.431, "grad_norm": 0.12510941922664642, "learning_rate": 1.825235057288579e-05, "loss": 0.399, "step": 1293 }, { "epoch": 0.43133333333333335, "grad_norm": 0.07273551821708679, "learning_rate": 1.8236999155001617e-05, "loss": 0.3945, "step": 1294 }, { "epoch": 0.43166666666666664, "grad_norm": 0.1523517519235611, "learning_rate": 1.8221644180240787e-05, "loss": 0.3884, "step": 1295 }, { "epoch": 0.432, "grad_norm": 0.10677522420883179, "learning_rate": 1.8206285665475634e-05, "loss": 0.4064, "step": 1296 }, { "epoch": 0.43233333333333335, "grad_norm": 0.08104746043682098, "learning_rate": 1.8190923627582396e-05, "loss": 0.3907, "step": 1297 }, { "epoch": 0.43266666666666664, "grad_norm": 0.09623787552118301, "learning_rate": 1.8175558083441162e-05, "loss": 0.3977, "step": 1298 }, { "epoch": 0.433, "grad_norm": 0.07333867251873016, "learning_rate": 1.8160189049935895e-05, "loss": 0.3979, "step": 1299 }, { "epoch": 0.43333333333333335, "grad_norm": 0.14986005425453186, "learning_rate": 1.814481654395438e-05, "loss": 0.3945, "step": 1300 }, { "epoch": 0.43366666666666664, "grad_norm": 0.09590572118759155, "learning_rate": 1.812944058238823e-05, "loss": 0.4011, "step": 1301 }, { "epoch": 0.434, "grad_norm": 0.11223363131284714, "learning_rate": 1.811406118213283e-05, "loss": 0.3927, "step": 1302 }, { "epoch": 0.43433333333333335, "grad_norm": 0.12607021629810333, "learning_rate": 1.809867836008737e-05, "loss": 0.3924, "step": 1303 }, { "epoch": 0.43466666666666665, "grad_norm": 0.1548328995704651, "learning_rate": 1.808329213315479e-05, "loss": 0.4143, "step": 1304 }, { "epoch": 0.435, "grad_norm": 0.08618252724409103, "learning_rate": 1.8067902518241766e-05, "loss": 0.393, "step": 1305 }, { "epoch": 0.43533333333333335, "grad_norm": 0.07650744915008545, "learning_rate": 1.80525095322587e-05, "loss": 0.3997, "step": 1306 }, { "epoch": 0.43566666666666665, "grad_norm": 0.22610335052013397, "learning_rate": 1.8037113192119706e-05, "loss": 0.3801, "step": 1307 }, { "epoch": 0.436, "grad_norm": 0.0766909196972847, "learning_rate": 1.8021713514742575e-05, "loss": 0.3897, "step": 1308 }, { "epoch": 0.43633333333333335, "grad_norm": 0.14783307909965515, "learning_rate": 1.8006310517048774e-05, "loss": 0.3879, "step": 1309 }, { "epoch": 0.43666666666666665, "grad_norm": 0.29977864027023315, "learning_rate": 1.7990904215963398e-05, "loss": 0.4005, "step": 1310 }, { "epoch": 0.437, "grad_norm": 0.08716636896133423, "learning_rate": 1.7975494628415195e-05, "loss": 0.3972, "step": 1311 }, { "epoch": 0.43733333333333335, "grad_norm": 0.12498290836811066, "learning_rate": 1.7960081771336512e-05, "loss": 0.3995, "step": 1312 }, { "epoch": 0.43766666666666665, "grad_norm": 0.1038796603679657, "learning_rate": 1.7944665661663292e-05, "loss": 0.387, "step": 1313 }, { "epoch": 0.438, "grad_norm": 0.2213956117630005, "learning_rate": 1.792924631633505e-05, "loss": 0.4031, "step": 1314 }, { "epoch": 0.43833333333333335, "grad_norm": 0.1281321793794632, "learning_rate": 1.791382375229486e-05, "loss": 0.3983, "step": 1315 }, { "epoch": 0.43866666666666665, "grad_norm": 0.1635884791612625, "learning_rate": 1.7898397986489332e-05, "loss": 0.4035, "step": 1316 }, { "epoch": 0.439, "grad_norm": 0.12013929337263107, "learning_rate": 1.7882969035868593e-05, "loss": 0.3886, "step": 1317 }, { "epoch": 0.43933333333333335, "grad_norm": 0.09467470645904541, "learning_rate": 1.7867536917386267e-05, "loss": 0.4076, "step": 1318 }, { "epoch": 0.43966666666666665, "grad_norm": 0.0993010401725769, "learning_rate": 1.7852101647999464e-05, "loss": 0.3955, "step": 1319 }, { "epoch": 0.44, "grad_norm": 0.11124761402606964, "learning_rate": 1.7836663244668747e-05, "loss": 0.399, "step": 1320 }, { "epoch": 0.44033333333333335, "grad_norm": 0.0959797129034996, "learning_rate": 1.7821221724358133e-05, "loss": 0.3942, "step": 1321 }, { "epoch": 0.44066666666666665, "grad_norm": 0.08365540951490402, "learning_rate": 1.7805777104035062e-05, "loss": 0.4026, "step": 1322 }, { "epoch": 0.441, "grad_norm": 0.11786701530218124, "learning_rate": 1.779032940067038e-05, "loss": 0.3931, "step": 1323 }, { "epoch": 0.44133333333333336, "grad_norm": 0.3577548563480377, "learning_rate": 1.777487863123832e-05, "loss": 0.4186, "step": 1324 }, { "epoch": 0.44166666666666665, "grad_norm": 0.12141890823841095, "learning_rate": 1.7759424812716475e-05, "loss": 0.4188, "step": 1325 }, { "epoch": 0.442, "grad_norm": 0.09190542995929718, "learning_rate": 1.77439679620858e-05, "loss": 0.3856, "step": 1326 }, { "epoch": 0.44233333333333336, "grad_norm": 0.20025382936000824, "learning_rate": 1.7728508096330587e-05, "loss": 0.4018, "step": 1327 }, { "epoch": 0.44266666666666665, "grad_norm": 0.11125951260328293, "learning_rate": 1.771304523243842e-05, "loss": 0.4024, "step": 1328 }, { "epoch": 0.443, "grad_norm": 0.18983201682567596, "learning_rate": 1.76975793874002e-05, "loss": 0.3977, "step": 1329 }, { "epoch": 0.44333333333333336, "grad_norm": 0.11271662265062332, "learning_rate": 1.7682110578210086e-05, "loss": 0.4077, "step": 1330 }, { "epoch": 0.44366666666666665, "grad_norm": 0.09551364183425903, "learning_rate": 1.766663882186551e-05, "loss": 0.402, "step": 1331 }, { "epoch": 0.444, "grad_norm": 0.17096690833568573, "learning_rate": 1.7651164135367127e-05, "loss": 0.3909, "step": 1332 }, { "epoch": 0.44433333333333336, "grad_norm": 0.07646861672401428, "learning_rate": 1.763568653571882e-05, "loss": 0.4026, "step": 1333 }, { "epoch": 0.44466666666666665, "grad_norm": 0.08835890144109726, "learning_rate": 1.7620206039927677e-05, "loss": 0.3939, "step": 1334 }, { "epoch": 0.445, "grad_norm": 0.14442117512226105, "learning_rate": 1.760472266500396e-05, "loss": 0.3865, "step": 1335 }, { "epoch": 0.44533333333333336, "grad_norm": 0.16146233677864075, "learning_rate": 1.7589236427961092e-05, "loss": 0.4012, "step": 1336 }, { "epoch": 0.44566666666666666, "grad_norm": 0.1466033011674881, "learning_rate": 1.7573747345815657e-05, "loss": 0.3878, "step": 1337 }, { "epoch": 0.446, "grad_norm": 0.13334554433822632, "learning_rate": 1.7558255435587348e-05, "loss": 0.4011, "step": 1338 }, { "epoch": 0.44633333333333336, "grad_norm": 0.1098080649971962, "learning_rate": 1.7542760714298976e-05, "loss": 0.4056, "step": 1339 }, { "epoch": 0.44666666666666666, "grad_norm": 0.12046606093645096, "learning_rate": 1.7527263198976435e-05, "loss": 0.4009, "step": 1340 }, { "epoch": 0.447, "grad_norm": 0.13703535497188568, "learning_rate": 1.7511762906648695e-05, "loss": 0.4152, "step": 1341 }, { "epoch": 0.44733333333333336, "grad_norm": 0.19936688244342804, "learning_rate": 1.7496259854347773e-05, "loss": 0.3965, "step": 1342 }, { "epoch": 0.44766666666666666, "grad_norm": 0.10971736162900925, "learning_rate": 1.7480754059108715e-05, "loss": 0.3956, "step": 1343 }, { "epoch": 0.448, "grad_norm": 0.15427790582180023, "learning_rate": 1.746524553796959e-05, "loss": 0.4011, "step": 1344 }, { "epoch": 0.4483333333333333, "grad_norm": 0.1631358414888382, "learning_rate": 1.7449734307971462e-05, "loss": 0.4035, "step": 1345 }, { "epoch": 0.44866666666666666, "grad_norm": 0.22105121612548828, "learning_rate": 1.7434220386158365e-05, "loss": 0.4014, "step": 1346 }, { "epoch": 0.449, "grad_norm": 0.1082887351512909, "learning_rate": 1.7418703789577288e-05, "loss": 0.3901, "step": 1347 }, { "epoch": 0.4493333333333333, "grad_norm": 0.1595471203327179, "learning_rate": 1.7403184535278167e-05, "loss": 0.3933, "step": 1348 }, { "epoch": 0.44966666666666666, "grad_norm": 0.1344825178384781, "learning_rate": 1.7387662640313857e-05, "loss": 0.387, "step": 1349 }, { "epoch": 0.45, "grad_norm": 0.12301710247993469, "learning_rate": 1.7372138121740115e-05, "loss": 0.4079, "step": 1350 }, { "epoch": 0.4503333333333333, "grad_norm": 0.1390131711959839, "learning_rate": 1.7356610996615574e-05, "loss": 0.4095, "step": 1351 }, { "epoch": 0.45066666666666666, "grad_norm": 0.18015798926353455, "learning_rate": 1.7341081282001744e-05, "loss": 0.4127, "step": 1352 }, { "epoch": 0.451, "grad_norm": 0.13142900168895721, "learning_rate": 1.732554899496297e-05, "loss": 0.3938, "step": 1353 }, { "epoch": 0.4513333333333333, "grad_norm": 0.13197918236255646, "learning_rate": 1.7310014152566423e-05, "loss": 0.4103, "step": 1354 }, { "epoch": 0.45166666666666666, "grad_norm": 0.11337435245513916, "learning_rate": 1.7294476771882086e-05, "loss": 0.3952, "step": 1355 }, { "epoch": 0.452, "grad_norm": 0.12437447905540466, "learning_rate": 1.727893686998274e-05, "loss": 0.3912, "step": 1356 }, { "epoch": 0.4523333333333333, "grad_norm": 0.18291231989860535, "learning_rate": 1.726339446394391e-05, "loss": 0.3881, "step": 1357 }, { "epoch": 0.45266666666666666, "grad_norm": 0.202926367521286, "learning_rate": 1.72478495708439e-05, "loss": 0.3937, "step": 1358 }, { "epoch": 0.453, "grad_norm": 0.14112457633018494, "learning_rate": 1.7232302207763734e-05, "loss": 0.3914, "step": 1359 }, { "epoch": 0.4533333333333333, "grad_norm": 0.15368323028087616, "learning_rate": 1.7216752391787158e-05, "loss": 0.4043, "step": 1360 }, { "epoch": 0.45366666666666666, "grad_norm": 0.11287616938352585, "learning_rate": 1.7201200140000598e-05, "loss": 0.4076, "step": 1361 }, { "epoch": 0.454, "grad_norm": 0.150605246424675, "learning_rate": 1.718564546949317e-05, "loss": 0.4057, "step": 1362 }, { "epoch": 0.4543333333333333, "grad_norm": 0.18264701962471008, "learning_rate": 1.7170088397356648e-05, "loss": 0.3893, "step": 1363 }, { "epoch": 0.45466666666666666, "grad_norm": 0.1129564568400383, "learning_rate": 1.7154528940685433e-05, "loss": 0.3961, "step": 1364 }, { "epoch": 0.455, "grad_norm": 0.15021106600761414, "learning_rate": 1.7138967116576565e-05, "loss": 0.3986, "step": 1365 }, { "epoch": 0.4553333333333333, "grad_norm": 0.10364805161952972, "learning_rate": 1.7123402942129663e-05, "loss": 0.4217, "step": 1366 }, { "epoch": 0.45566666666666666, "grad_norm": 0.12454470247030258, "learning_rate": 1.7107836434446943e-05, "loss": 0.4004, "step": 1367 }, { "epoch": 0.456, "grad_norm": 0.14225070178508759, "learning_rate": 1.7092267610633182e-05, "loss": 0.4083, "step": 1368 }, { "epoch": 0.4563333333333333, "grad_norm": 0.11907993257045746, "learning_rate": 1.7076696487795708e-05, "loss": 0.4053, "step": 1369 }, { "epoch": 0.45666666666666667, "grad_norm": 0.10533799976110458, "learning_rate": 1.706112308304436e-05, "loss": 0.4021, "step": 1370 }, { "epoch": 0.457, "grad_norm": 0.11694048345088959, "learning_rate": 1.70455474134915e-05, "loss": 0.3958, "step": 1371 }, { "epoch": 0.4573333333333333, "grad_norm": 0.11180102825164795, "learning_rate": 1.702996949625197e-05, "loss": 0.4012, "step": 1372 }, { "epoch": 0.45766666666666667, "grad_norm": 0.20632494986057281, "learning_rate": 1.7014389348443077e-05, "loss": 0.3954, "step": 1373 }, { "epoch": 0.458, "grad_norm": 0.11916197836399078, "learning_rate": 1.6998806987184598e-05, "loss": 0.4036, "step": 1374 }, { "epoch": 0.4583333333333333, "grad_norm": 0.20115572214126587, "learning_rate": 1.6983222429598723e-05, "loss": 0.4068, "step": 1375 }, { "epoch": 0.45866666666666667, "grad_norm": 0.12367333471775055, "learning_rate": 1.696763569281006e-05, "loss": 0.4198, "step": 1376 }, { "epoch": 0.459, "grad_norm": 0.21014368534088135, "learning_rate": 1.6952046793945617e-05, "loss": 0.3937, "step": 1377 }, { "epoch": 0.4593333333333333, "grad_norm": 0.1273868978023529, "learning_rate": 1.6936455750134777e-05, "loss": 0.3971, "step": 1378 }, { "epoch": 0.45966666666666667, "grad_norm": 0.1232411190867424, "learning_rate": 1.692086257850927e-05, "loss": 0.4029, "step": 1379 }, { "epoch": 0.46, "grad_norm": 0.10556524991989136, "learning_rate": 1.6905267296203182e-05, "loss": 0.4053, "step": 1380 }, { "epoch": 0.4603333333333333, "grad_norm": 0.1476040631532669, "learning_rate": 1.68896699203529e-05, "loss": 0.4093, "step": 1381 }, { "epoch": 0.46066666666666667, "grad_norm": 0.12860190868377686, "learning_rate": 1.6874070468097125e-05, "loss": 0.3951, "step": 1382 }, { "epoch": 0.461, "grad_norm": 0.23625850677490234, "learning_rate": 1.685846895657683e-05, "loss": 0.3963, "step": 1383 }, { "epoch": 0.4613333333333333, "grad_norm": 0.12820041179656982, "learning_rate": 1.6842865402935252e-05, "loss": 0.4098, "step": 1384 }, { "epoch": 0.46166666666666667, "grad_norm": 0.26058322191238403, "learning_rate": 1.682725982431788e-05, "loss": 0.4126, "step": 1385 }, { "epoch": 0.462, "grad_norm": 0.12617254257202148, "learning_rate": 1.6811652237872417e-05, "loss": 0.4223, "step": 1386 }, { "epoch": 0.4623333333333333, "grad_norm": 0.15049412846565247, "learning_rate": 1.6796042660748787e-05, "loss": 0.4072, "step": 1387 }, { "epoch": 0.46266666666666667, "grad_norm": 0.15001720190048218, "learning_rate": 1.678043111009908e-05, "loss": 0.4197, "step": 1388 }, { "epoch": 0.463, "grad_norm": 0.09669163823127747, "learning_rate": 1.6764817603077578e-05, "loss": 0.3917, "step": 1389 }, { "epoch": 0.4633333333333333, "grad_norm": 0.1566540002822876, "learning_rate": 1.6749202156840694e-05, "loss": 0.4171, "step": 1390 }, { "epoch": 0.46366666666666667, "grad_norm": 0.16118958592414856, "learning_rate": 1.6733584788546987e-05, "loss": 0.4181, "step": 1391 }, { "epoch": 0.464, "grad_norm": 0.15210892260074615, "learning_rate": 1.6717965515357118e-05, "loss": 0.4117, "step": 1392 }, { "epoch": 0.4643333333333333, "grad_norm": 0.12752756476402283, "learning_rate": 1.6702344354433833e-05, "loss": 0.4155, "step": 1393 }, { "epoch": 0.4646666666666667, "grad_norm": 0.3127383589744568, "learning_rate": 1.668672132294198e-05, "loss": 0.398, "step": 1394 }, { "epoch": 0.465, "grad_norm": 0.09421467036008835, "learning_rate": 1.6671096438048424e-05, "loss": 0.4056, "step": 1395 }, { "epoch": 0.4653333333333333, "grad_norm": 0.13256895542144775, "learning_rate": 1.6655469716922105e-05, "loss": 0.4306, "step": 1396 }, { "epoch": 0.4656666666666667, "grad_norm": 0.11943450570106506, "learning_rate": 1.663984117673396e-05, "loss": 0.3997, "step": 1397 }, { "epoch": 0.466, "grad_norm": 0.19050586223602295, "learning_rate": 1.662421083465693e-05, "loss": 0.4156, "step": 1398 }, { "epoch": 0.4663333333333333, "grad_norm": 0.15429037809371948, "learning_rate": 1.6608578707865924e-05, "loss": 0.3867, "step": 1399 }, { "epoch": 0.4666666666666667, "grad_norm": 0.10755494982004166, "learning_rate": 1.6592944813537834e-05, "loss": 0.4021, "step": 1400 }, { "epoch": 0.467, "grad_norm": 0.14572648704051971, "learning_rate": 1.6577309168851474e-05, "loss": 0.4104, "step": 1401 }, { "epoch": 0.4673333333333333, "grad_norm": 0.11015962809324265, "learning_rate": 1.6561671790987598e-05, "loss": 0.4148, "step": 1402 }, { "epoch": 0.4676666666666667, "grad_norm": 0.17617906630039215, "learning_rate": 1.654603269712885e-05, "loss": 0.3892, "step": 1403 }, { "epoch": 0.468, "grad_norm": 0.12850865721702576, "learning_rate": 1.6530391904459764e-05, "loss": 0.4154, "step": 1404 }, { "epoch": 0.4683333333333333, "grad_norm": 0.12336891889572144, "learning_rate": 1.6514749430166746e-05, "loss": 0.391, "step": 1405 }, { "epoch": 0.4686666666666667, "grad_norm": 0.13786128163337708, "learning_rate": 1.649910529143805e-05, "loss": 0.3969, "step": 1406 }, { "epoch": 0.469, "grad_norm": 0.11889367550611496, "learning_rate": 1.648345950546375e-05, "loss": 0.3984, "step": 1407 }, { "epoch": 0.4693333333333333, "grad_norm": 0.1824120432138443, "learning_rate": 1.6467812089435733e-05, "loss": 0.4201, "step": 1408 }, { "epoch": 0.4696666666666667, "grad_norm": 0.1324736773967743, "learning_rate": 1.6452163060547687e-05, "loss": 0.383, "step": 1409 }, { "epoch": 0.47, "grad_norm": 0.16101354360580444, "learning_rate": 1.643651243599506e-05, "loss": 0.4142, "step": 1410 }, { "epoch": 0.4703333333333333, "grad_norm": 0.11105132102966309, "learning_rate": 1.642086023297506e-05, "loss": 0.4105, "step": 1411 }, { "epoch": 0.4706666666666667, "grad_norm": 0.13480591773986816, "learning_rate": 1.6405206468686623e-05, "loss": 0.4049, "step": 1412 }, { "epoch": 0.471, "grad_norm": 0.13494586944580078, "learning_rate": 1.6389551160330414e-05, "loss": 0.3988, "step": 1413 }, { "epoch": 0.4713333333333333, "grad_norm": 0.1324906200170517, "learning_rate": 1.6373894325108775e-05, "loss": 0.4187, "step": 1414 }, { "epoch": 0.4716666666666667, "grad_norm": 0.1638818085193634, "learning_rate": 1.6358235980225742e-05, "loss": 0.4071, "step": 1415 }, { "epoch": 0.472, "grad_norm": 0.14069747924804688, "learning_rate": 1.6342576142887e-05, "loss": 0.4148, "step": 1416 }, { "epoch": 0.4723333333333333, "grad_norm": 0.1294422447681427, "learning_rate": 1.6326914830299882e-05, "loss": 0.4012, "step": 1417 }, { "epoch": 0.4726666666666667, "grad_norm": 0.1625107228755951, "learning_rate": 1.631125205967334e-05, "loss": 0.4215, "step": 1418 }, { "epoch": 0.473, "grad_norm": 0.09515418857336044, "learning_rate": 1.6295587848217927e-05, "loss": 0.4231, "step": 1419 }, { "epoch": 0.47333333333333333, "grad_norm": 0.12203451991081238, "learning_rate": 1.6279922213145775e-05, "loss": 0.4061, "step": 1420 }, { "epoch": 0.4736666666666667, "grad_norm": 0.15508030354976654, "learning_rate": 1.6264255171670583e-05, "loss": 0.398, "step": 1421 }, { "epoch": 0.474, "grad_norm": 0.14531497657299042, "learning_rate": 1.6248586741007594e-05, "loss": 0.4045, "step": 1422 }, { "epoch": 0.47433333333333333, "grad_norm": 0.1257476955652237, "learning_rate": 1.6232916938373588e-05, "loss": 0.3936, "step": 1423 }, { "epoch": 0.4746666666666667, "grad_norm": 0.22386384010314941, "learning_rate": 1.621724578098683e-05, "loss": 0.395, "step": 1424 }, { "epoch": 0.475, "grad_norm": 0.14373908936977386, "learning_rate": 1.6201573286067106e-05, "loss": 0.429, "step": 1425 }, { "epoch": 0.47533333333333333, "grad_norm": 0.182508185505867, "learning_rate": 1.6185899470835645e-05, "loss": 0.4331, "step": 1426 }, { "epoch": 0.4756666666666667, "grad_norm": 0.09533011168241501, "learning_rate": 1.617022435251513e-05, "loss": 0.389, "step": 1427 }, { "epoch": 0.476, "grad_norm": 0.18885669112205505, "learning_rate": 1.615454794832969e-05, "loss": 0.411, "step": 1428 }, { "epoch": 0.47633333333333333, "grad_norm": 0.13814935088157654, "learning_rate": 1.613887027550486e-05, "loss": 0.4098, "step": 1429 }, { "epoch": 0.4766666666666667, "grad_norm": 0.11529996991157532, "learning_rate": 1.6123191351267555e-05, "loss": 0.3917, "step": 1430 }, { "epoch": 0.477, "grad_norm": 0.13460268080234528, "learning_rate": 1.6107511192846083e-05, "loss": 0.395, "step": 1431 }, { "epoch": 0.47733333333333333, "grad_norm": 0.15151165425777435, "learning_rate": 1.60918298174701e-05, "loss": 0.4064, "step": 1432 }, { "epoch": 0.4776666666666667, "grad_norm": 0.11129703372716904, "learning_rate": 1.6076147242370613e-05, "loss": 0.4122, "step": 1433 }, { "epoch": 0.478, "grad_norm": 0.10926714539527893, "learning_rate": 1.606046348477992e-05, "loss": 0.4248, "step": 1434 }, { "epoch": 0.47833333333333333, "grad_norm": 0.1314486712217331, "learning_rate": 1.6044778561931648e-05, "loss": 0.3885, "step": 1435 }, { "epoch": 0.4786666666666667, "grad_norm": 0.10373717546463013, "learning_rate": 1.602909249106068e-05, "loss": 0.4304, "step": 1436 }, { "epoch": 0.479, "grad_norm": 0.1049436703324318, "learning_rate": 1.6013405289403177e-05, "loss": 0.4027, "step": 1437 }, { "epoch": 0.47933333333333333, "grad_norm": 0.13591954112052917, "learning_rate": 1.5997716974196535e-05, "loss": 0.4082, "step": 1438 }, { "epoch": 0.4796666666666667, "grad_norm": 0.14216141402721405, "learning_rate": 1.5982027562679373e-05, "loss": 0.4098, "step": 1439 }, { "epoch": 0.48, "grad_norm": 0.12853115797042847, "learning_rate": 1.5966337072091524e-05, "loss": 0.4399, "step": 1440 }, { "epoch": 0.48033333333333333, "grad_norm": 0.14561453461647034, "learning_rate": 1.595064551967399e-05, "loss": 0.4252, "step": 1441 }, { "epoch": 0.4806666666666667, "grad_norm": 0.1549253612756729, "learning_rate": 1.593495292266896e-05, "loss": 0.4093, "step": 1442 }, { "epoch": 0.481, "grad_norm": 0.11880400031805038, "learning_rate": 1.5919259298319745e-05, "loss": 0.4125, "step": 1443 }, { "epoch": 0.48133333333333334, "grad_norm": 0.17918922007083893, "learning_rate": 1.5903564663870817e-05, "loss": 0.3922, "step": 1444 }, { "epoch": 0.4816666666666667, "grad_norm": 0.20739828050136566, "learning_rate": 1.5887869036567726e-05, "loss": 0.3934, "step": 1445 }, { "epoch": 0.482, "grad_norm": 0.12215067446231842, "learning_rate": 1.587217243365714e-05, "loss": 0.4171, "step": 1446 }, { "epoch": 0.48233333333333334, "grad_norm": 0.1140151247382164, "learning_rate": 1.585647487238678e-05, "loss": 0.417, "step": 1447 }, { "epoch": 0.4826666666666667, "grad_norm": 0.12007586658000946, "learning_rate": 1.5840776370005425e-05, "loss": 0.4274, "step": 1448 }, { "epoch": 0.483, "grad_norm": 0.21886271238327026, "learning_rate": 1.5825076943762897e-05, "loss": 0.4007, "step": 1449 }, { "epoch": 0.48333333333333334, "grad_norm": 0.16618141531944275, "learning_rate": 1.5809376610910024e-05, "loss": 0.3985, "step": 1450 }, { "epoch": 0.4836666666666667, "grad_norm": 0.14589448273181915, "learning_rate": 1.5793675388698628e-05, "loss": 0.4285, "step": 1451 }, { "epoch": 0.484, "grad_norm": 0.17436283826828003, "learning_rate": 1.5777973294381517e-05, "loss": 0.437, "step": 1452 }, { "epoch": 0.48433333333333334, "grad_norm": 0.2890316843986511, "learning_rate": 1.5762270345212453e-05, "loss": 0.4032, "step": 1453 }, { "epoch": 0.4846666666666667, "grad_norm": 0.3288451135158539, "learning_rate": 1.5746566558446128e-05, "loss": 0.434, "step": 1454 }, { "epoch": 0.485, "grad_norm": 0.3091217279434204, "learning_rate": 1.5730861951338182e-05, "loss": 0.4013, "step": 1455 }, { "epoch": 0.48533333333333334, "grad_norm": 0.14289318025112152, "learning_rate": 1.571515654114513e-05, "loss": 0.4299, "step": 1456 }, { "epoch": 0.4856666666666667, "grad_norm": 0.15575061738491058, "learning_rate": 1.5699450345124365e-05, "loss": 0.391, "step": 1457 }, { "epoch": 0.486, "grad_norm": 0.15660011768341064, "learning_rate": 1.568374338053417e-05, "loss": 0.4224, "step": 1458 }, { "epoch": 0.48633333333333334, "grad_norm": 0.13337193429470062, "learning_rate": 1.5668035664633657e-05, "loss": 0.416, "step": 1459 }, { "epoch": 0.4866666666666667, "grad_norm": 0.1275089830160141, "learning_rate": 1.565232721468276e-05, "loss": 0.3873, "step": 1460 }, { "epoch": 0.487, "grad_norm": 0.12245573848485947, "learning_rate": 1.5636618047942225e-05, "loss": 0.3978, "step": 1461 }, { "epoch": 0.48733333333333334, "grad_norm": 0.14685821533203125, "learning_rate": 1.5620908181673588e-05, "loss": 0.4022, "step": 1462 }, { "epoch": 0.4876666666666667, "grad_norm": 0.12389673292636871, "learning_rate": 1.5605197633139153e-05, "loss": 0.4042, "step": 1463 }, { "epoch": 0.488, "grad_norm": 0.14142712950706482, "learning_rate": 1.558948641960197e-05, "loss": 0.4173, "step": 1464 }, { "epoch": 0.48833333333333334, "grad_norm": 0.10775840282440186, "learning_rate": 1.557377455832582e-05, "loss": 0.4127, "step": 1465 }, { "epoch": 0.4886666666666667, "grad_norm": 0.09976796805858612, "learning_rate": 1.55580620665752e-05, "loss": 0.3981, "step": 1466 }, { "epoch": 0.489, "grad_norm": 0.16972969472408295, "learning_rate": 1.554234896161529e-05, "loss": 0.3918, "step": 1467 }, { "epoch": 0.48933333333333334, "grad_norm": 0.11004693061113358, "learning_rate": 1.5526635260711954e-05, "loss": 0.421, "step": 1468 }, { "epoch": 0.48966666666666664, "grad_norm": 0.1271660029888153, "learning_rate": 1.5510920981131706e-05, "loss": 0.3843, "step": 1469 }, { "epoch": 0.49, "grad_norm": 0.15842384099960327, "learning_rate": 1.5495206140141703e-05, "loss": 0.4084, "step": 1470 }, { "epoch": 0.49033333333333334, "grad_norm": 0.12457161396741867, "learning_rate": 1.547949075500971e-05, "loss": 0.4276, "step": 1471 }, { "epoch": 0.49066666666666664, "grad_norm": 0.12086895108222961, "learning_rate": 1.5463774843004094e-05, "loss": 0.3964, "step": 1472 }, { "epoch": 0.491, "grad_norm": 0.1318652331829071, "learning_rate": 1.5448058421393796e-05, "loss": 0.4154, "step": 1473 }, { "epoch": 0.49133333333333334, "grad_norm": 0.35126161575317383, "learning_rate": 1.543234150744833e-05, "loss": 0.4243, "step": 1474 }, { "epoch": 0.49166666666666664, "grad_norm": 0.19002766907215118, "learning_rate": 1.5416624118437737e-05, "loss": 0.4158, "step": 1475 }, { "epoch": 0.492, "grad_norm": 0.14946207404136658, "learning_rate": 1.5400906271632573e-05, "loss": 0.3803, "step": 1476 }, { "epoch": 0.49233333333333335, "grad_norm": 0.11075470596551895, "learning_rate": 1.5385187984303927e-05, "loss": 0.4101, "step": 1477 }, { "epoch": 0.49266666666666664, "grad_norm": 0.1933182030916214, "learning_rate": 1.5369469273723346e-05, "loss": 0.4058, "step": 1478 }, { "epoch": 0.493, "grad_norm": 0.11623676866292953, "learning_rate": 1.5353750157162855e-05, "loss": 0.3979, "step": 1479 }, { "epoch": 0.49333333333333335, "grad_norm": 0.08018264174461365, "learning_rate": 1.5338030651894916e-05, "loss": 0.4242, "step": 1480 }, { "epoch": 0.49366666666666664, "grad_norm": 0.09631709009408951, "learning_rate": 1.5322310775192422e-05, "loss": 0.3943, "step": 1481 }, { "epoch": 0.494, "grad_norm": 0.19250094890594482, "learning_rate": 1.5306590544328674e-05, "loss": 0.414, "step": 1482 }, { "epoch": 0.49433333333333335, "grad_norm": 0.14607667922973633, "learning_rate": 1.5290869976577365e-05, "loss": 0.3978, "step": 1483 }, { "epoch": 0.49466666666666664, "grad_norm": 0.3501090109348297, "learning_rate": 1.527514908921256e-05, "loss": 0.4007, "step": 1484 }, { "epoch": 0.495, "grad_norm": 0.1069198027253151, "learning_rate": 1.525942789950866e-05, "loss": 0.4255, "step": 1485 }, { "epoch": 0.49533333333333335, "grad_norm": 0.13731446862220764, "learning_rate": 1.5243706424740422e-05, "loss": 0.3957, "step": 1486 }, { "epoch": 0.49566666666666664, "grad_norm": 0.1327466368675232, "learning_rate": 1.5227984682182894e-05, "loss": 0.411, "step": 1487 }, { "epoch": 0.496, "grad_norm": 0.10991028696298599, "learning_rate": 1.5212262689111433e-05, "loss": 0.4139, "step": 1488 }, { "epoch": 0.49633333333333335, "grad_norm": 0.16393546760082245, "learning_rate": 1.5196540462801664e-05, "loss": 0.4248, "step": 1489 }, { "epoch": 0.49666666666666665, "grad_norm": 0.1945236623287201, "learning_rate": 1.5180818020529471e-05, "loss": 0.4157, "step": 1490 }, { "epoch": 0.497, "grad_norm": 0.10080232471227646, "learning_rate": 1.516509537957097e-05, "loss": 0.3901, "step": 1491 }, { "epoch": 0.49733333333333335, "grad_norm": 0.15036848187446594, "learning_rate": 1.5149372557202509e-05, "loss": 0.3875, "step": 1492 }, { "epoch": 0.49766666666666665, "grad_norm": 0.12603254616260529, "learning_rate": 1.5133649570700621e-05, "loss": 0.4163, "step": 1493 }, { "epoch": 0.498, "grad_norm": 0.14271917939186096, "learning_rate": 1.5117926437342026e-05, "loss": 0.425, "step": 1494 }, { "epoch": 0.49833333333333335, "grad_norm": 0.16890709102153778, "learning_rate": 1.51022031744036e-05, "loss": 0.4148, "step": 1495 }, { "epoch": 0.49866666666666665, "grad_norm": 0.17484191060066223, "learning_rate": 1.5086479799162372e-05, "loss": 0.4188, "step": 1496 }, { "epoch": 0.499, "grad_norm": 0.1586344838142395, "learning_rate": 1.5070756328895485e-05, "loss": 0.422, "step": 1497 }, { "epoch": 0.49933333333333335, "grad_norm": 0.13924749195575714, "learning_rate": 1.505503278088018e-05, "loss": 0.4133, "step": 1498 }, { "epoch": 0.49966666666666665, "grad_norm": 0.147207111120224, "learning_rate": 1.5039309172393812e-05, "loss": 0.4006, "step": 1499 }, { "epoch": 0.5, "grad_norm": 0.14246512949466705, "learning_rate": 1.5023585520713769e-05, "loss": 0.4198, "step": 1500 }, { "epoch": 0.5003333333333333, "grad_norm": 0.18183016777038574, "learning_rate": 1.5007861843117506e-05, "loss": 0.4192, "step": 1501 }, { "epoch": 0.5006666666666667, "grad_norm": 0.13746844232082367, "learning_rate": 1.4992138156882495e-05, "loss": 0.4076, "step": 1502 }, { "epoch": 0.501, "grad_norm": 0.1033945232629776, "learning_rate": 1.497641447928623e-05, "loss": 0.4041, "step": 1503 }, { "epoch": 0.5013333333333333, "grad_norm": 0.1279228776693344, "learning_rate": 1.4960690827606189e-05, "loss": 0.4096, "step": 1504 }, { "epoch": 0.5016666666666667, "grad_norm": 0.1267336905002594, "learning_rate": 1.4944967219119817e-05, "loss": 0.4004, "step": 1505 }, { "epoch": 0.502, "grad_norm": 0.22218924760818481, "learning_rate": 1.492924367110452e-05, "loss": 0.3935, "step": 1506 }, { "epoch": 0.5023333333333333, "grad_norm": 0.14732174575328827, "learning_rate": 1.4913520200837631e-05, "loss": 0.4167, "step": 1507 }, { "epoch": 0.5026666666666667, "grad_norm": 0.11853842437267303, "learning_rate": 1.48977968255964e-05, "loss": 0.4031, "step": 1508 }, { "epoch": 0.503, "grad_norm": 0.10440696030855179, "learning_rate": 1.4882073562657977e-05, "loss": 0.4247, "step": 1509 }, { "epoch": 0.5033333333333333, "grad_norm": 0.16233743727207184, "learning_rate": 1.486635042929938e-05, "loss": 0.4276, "step": 1510 }, { "epoch": 0.5036666666666667, "grad_norm": 0.2145102471113205, "learning_rate": 1.4850627442797492e-05, "loss": 0.4148, "step": 1511 }, { "epoch": 0.504, "grad_norm": 0.27408620715141296, "learning_rate": 1.4834904620429033e-05, "loss": 0.4248, "step": 1512 }, { "epoch": 0.5043333333333333, "grad_norm": 0.10076998174190521, "learning_rate": 1.4819181979470536e-05, "loss": 0.4191, "step": 1513 }, { "epoch": 0.5046666666666667, "grad_norm": 0.13493318855762482, "learning_rate": 1.4803459537198342e-05, "loss": 0.4158, "step": 1514 }, { "epoch": 0.505, "grad_norm": 0.13589276373386383, "learning_rate": 1.4787737310888571e-05, "loss": 0.4388, "step": 1515 }, { "epoch": 0.5053333333333333, "grad_norm": 0.25959333777427673, "learning_rate": 1.477201531781711e-05, "loss": 0.417, "step": 1516 }, { "epoch": 0.5056666666666667, "grad_norm": 0.18174301087856293, "learning_rate": 1.4756293575259577e-05, "loss": 0.432, "step": 1517 }, { "epoch": 0.506, "grad_norm": 0.1515473574399948, "learning_rate": 1.4740572100491336e-05, "loss": 0.4514, "step": 1518 }, { "epoch": 0.5063333333333333, "grad_norm": 0.16129618883132935, "learning_rate": 1.4724850910787444e-05, "loss": 0.4113, "step": 1519 }, { "epoch": 0.5066666666666667, "grad_norm": 0.135826975107193, "learning_rate": 1.4709130023422636e-05, "loss": 0.436, "step": 1520 }, { "epoch": 0.507, "grad_norm": 0.16651684045791626, "learning_rate": 1.4693409455671329e-05, "loss": 0.4315, "step": 1521 }, { "epoch": 0.5073333333333333, "grad_norm": 0.14542430639266968, "learning_rate": 1.4677689224807582e-05, "loss": 0.4321, "step": 1522 }, { "epoch": 0.5076666666666667, "grad_norm": 0.2060871720314026, "learning_rate": 1.466196934810509e-05, "loss": 0.4421, "step": 1523 }, { "epoch": 0.508, "grad_norm": 0.1499873846769333, "learning_rate": 1.4646249842837149e-05, "loss": 0.4141, "step": 1524 }, { "epoch": 0.5083333333333333, "grad_norm": 0.13032309710979462, "learning_rate": 1.4630530726276654e-05, "loss": 0.4245, "step": 1525 }, { "epoch": 0.5086666666666667, "grad_norm": 0.15322183072566986, "learning_rate": 1.4614812015696075e-05, "loss": 0.4242, "step": 1526 }, { "epoch": 0.509, "grad_norm": 0.10694827884435654, "learning_rate": 1.459909372836743e-05, "loss": 0.4136, "step": 1527 }, { "epoch": 0.5093333333333333, "grad_norm": 0.1423022300004959, "learning_rate": 1.4583375881562272e-05, "loss": 0.4297, "step": 1528 }, { "epoch": 0.5096666666666667, "grad_norm": 0.3229556977748871, "learning_rate": 1.4567658492551674e-05, "loss": 0.4194, "step": 1529 }, { "epoch": 0.51, "grad_norm": 0.17278243601322174, "learning_rate": 1.4551941578606205e-05, "loss": 0.4208, "step": 1530 }, { "epoch": 0.5103333333333333, "grad_norm": 0.13713674247264862, "learning_rate": 1.4536225156995913e-05, "loss": 0.4392, "step": 1531 }, { "epoch": 0.5106666666666667, "grad_norm": 0.1435316503047943, "learning_rate": 1.4520509244990288e-05, "loss": 0.4478, "step": 1532 }, { "epoch": 0.511, "grad_norm": 0.21230216324329376, "learning_rate": 1.4504793859858295e-05, "loss": 0.4186, "step": 1533 }, { "epoch": 0.5113333333333333, "grad_norm": 0.13237504661083221, "learning_rate": 1.4489079018868293e-05, "loss": 0.4385, "step": 1534 }, { "epoch": 0.5116666666666667, "grad_norm": 0.13295085728168488, "learning_rate": 1.447336473928805e-05, "loss": 0.4445, "step": 1535 }, { "epoch": 0.512, "grad_norm": 0.26337000727653503, "learning_rate": 1.4457651038384714e-05, "loss": 0.4197, "step": 1536 }, { "epoch": 0.5123333333333333, "grad_norm": 0.14921258389949799, "learning_rate": 1.4441937933424805e-05, "loss": 0.4368, "step": 1537 }, { "epoch": 0.5126666666666667, "grad_norm": 0.12646102905273438, "learning_rate": 1.4426225441674181e-05, "loss": 0.4162, "step": 1538 }, { "epoch": 0.513, "grad_norm": 0.13705869019031525, "learning_rate": 1.4410513580398034e-05, "loss": 0.4327, "step": 1539 }, { "epoch": 0.5133333333333333, "grad_norm": 0.12781678140163422, "learning_rate": 1.4394802366860847e-05, "loss": 0.4373, "step": 1540 }, { "epoch": 0.5136666666666667, "grad_norm": 0.13693149387836456, "learning_rate": 1.4379091818326414e-05, "loss": 0.4317, "step": 1541 }, { "epoch": 0.514, "grad_norm": 0.21739083528518677, "learning_rate": 1.4363381952057779e-05, "loss": 0.4116, "step": 1542 }, { "epoch": 0.5143333333333333, "grad_norm": 0.13123472034931183, "learning_rate": 1.4347672785317246e-05, "loss": 0.4298, "step": 1543 }, { "epoch": 0.5146666666666667, "grad_norm": 0.16110458970069885, "learning_rate": 1.4331964335366349e-05, "loss": 0.4109, "step": 1544 }, { "epoch": 0.515, "grad_norm": 0.22793282568454742, "learning_rate": 1.4316256619465835e-05, "loss": 0.4282, "step": 1545 }, { "epoch": 0.5153333333333333, "grad_norm": 0.09469234943389893, "learning_rate": 1.4300549654875638e-05, "loss": 0.4132, "step": 1546 }, { "epoch": 0.5156666666666667, "grad_norm": 0.19331270456314087, "learning_rate": 1.4284843458854876e-05, "loss": 0.4373, "step": 1547 }, { "epoch": 0.516, "grad_norm": 0.18292807042598724, "learning_rate": 1.4269138048661818e-05, "loss": 0.4233, "step": 1548 }, { "epoch": 0.5163333333333333, "grad_norm": 0.18188177049160004, "learning_rate": 1.4253433441553867e-05, "loss": 0.425, "step": 1549 }, { "epoch": 0.5166666666666667, "grad_norm": 0.20500248670578003, "learning_rate": 1.423772965478755e-05, "loss": 0.4324, "step": 1550 }, { "epoch": 0.517, "grad_norm": 0.13423563539981842, "learning_rate": 1.4222026705618484e-05, "loss": 0.455, "step": 1551 }, { "epoch": 0.5173333333333333, "grad_norm": 0.16279727220535278, "learning_rate": 1.4206324611301373e-05, "loss": 0.4253, "step": 1552 }, { "epoch": 0.5176666666666667, "grad_norm": 0.1534702330827713, "learning_rate": 1.419062338908998e-05, "loss": 0.4362, "step": 1553 }, { "epoch": 0.518, "grad_norm": 0.45299211144447327, "learning_rate": 1.4174923056237106e-05, "loss": 0.4523, "step": 1554 }, { "epoch": 0.5183333333333333, "grad_norm": 0.6014995574951172, "learning_rate": 1.4159223629994576e-05, "loss": 0.4322, "step": 1555 }, { "epoch": 0.5186666666666667, "grad_norm": 0.22663302719593048, "learning_rate": 1.4143525127613224e-05, "loss": 0.4293, "step": 1556 }, { "epoch": 0.519, "grad_norm": 0.16156230866909027, "learning_rate": 1.4127827566342864e-05, "loss": 0.4375, "step": 1557 }, { "epoch": 0.5193333333333333, "grad_norm": 0.1390482485294342, "learning_rate": 1.4112130963432278e-05, "loss": 0.4136, "step": 1558 }, { "epoch": 0.5196666666666667, "grad_norm": 0.19662712514400482, "learning_rate": 1.4096435336129193e-05, "loss": 0.4356, "step": 1559 }, { "epoch": 0.52, "grad_norm": 0.12625816464424133, "learning_rate": 1.4080740701680259e-05, "loss": 0.4178, "step": 1560 }, { "epoch": 0.5203333333333333, "grad_norm": 0.164443239569664, "learning_rate": 1.4065047077331044e-05, "loss": 0.4309, "step": 1561 }, { "epoch": 0.5206666666666667, "grad_norm": 0.1937655508518219, "learning_rate": 1.4049354480326008e-05, "loss": 0.4327, "step": 1562 }, { "epoch": 0.521, "grad_norm": 0.15079551935195923, "learning_rate": 1.4033662927908477e-05, "loss": 0.4203, "step": 1563 }, { "epoch": 0.5213333333333333, "grad_norm": 0.13982456922531128, "learning_rate": 1.4017972437320624e-05, "loss": 0.4502, "step": 1564 }, { "epoch": 0.5216666666666666, "grad_norm": 0.21363282203674316, "learning_rate": 1.4002283025803468e-05, "loss": 0.442, "step": 1565 }, { "epoch": 0.522, "grad_norm": 0.14876939356327057, "learning_rate": 1.3986594710596825e-05, "loss": 0.4267, "step": 1566 }, { "epoch": 0.5223333333333333, "grad_norm": 0.12198831140995026, "learning_rate": 1.3970907508939324e-05, "loss": 0.4569, "step": 1567 }, { "epoch": 0.5226666666666666, "grad_norm": 0.16050787270069122, "learning_rate": 1.3955221438068358e-05, "loss": 0.4439, "step": 1568 }, { "epoch": 0.523, "grad_norm": 0.13548098504543304, "learning_rate": 1.3939536515220082e-05, "loss": 0.4433, "step": 1569 }, { "epoch": 0.5233333333333333, "grad_norm": 0.1565140187740326, "learning_rate": 1.3923852757629393e-05, "loss": 0.4165, "step": 1570 }, { "epoch": 0.5236666666666666, "grad_norm": 0.15035183727741241, "learning_rate": 1.3908170182529903e-05, "loss": 0.4492, "step": 1571 }, { "epoch": 0.524, "grad_norm": 0.17445732653141022, "learning_rate": 1.3892488807153925e-05, "loss": 0.4383, "step": 1572 }, { "epoch": 0.5243333333333333, "grad_norm": 0.13883352279663086, "learning_rate": 1.3876808648732454e-05, "loss": 0.4319, "step": 1573 }, { "epoch": 0.5246666666666666, "grad_norm": 0.15788735449314117, "learning_rate": 1.3861129724495148e-05, "loss": 0.4388, "step": 1574 }, { "epoch": 0.525, "grad_norm": 0.17215953767299652, "learning_rate": 1.3845452051670313e-05, "loss": 0.4447, "step": 1575 }, { "epoch": 0.5253333333333333, "grad_norm": 0.16516736149787903, "learning_rate": 1.382977564748487e-05, "loss": 0.4462, "step": 1576 }, { "epoch": 0.5256666666666666, "grad_norm": 0.16381579637527466, "learning_rate": 1.3814100529164356e-05, "loss": 0.4347, "step": 1577 }, { "epoch": 0.526, "grad_norm": 0.12321676313877106, "learning_rate": 1.3798426713932893e-05, "loss": 0.4329, "step": 1578 }, { "epoch": 0.5263333333333333, "grad_norm": 0.16357184946537018, "learning_rate": 1.3782754219013168e-05, "loss": 0.4391, "step": 1579 }, { "epoch": 0.5266666666666666, "grad_norm": 0.15330630540847778, "learning_rate": 1.3767083061626417e-05, "loss": 0.4275, "step": 1580 }, { "epoch": 0.527, "grad_norm": 0.13778182864189148, "learning_rate": 1.3751413258992408e-05, "loss": 0.4371, "step": 1581 }, { "epoch": 0.5273333333333333, "grad_norm": 0.16684705018997192, "learning_rate": 1.3735744828329421e-05, "loss": 0.4272, "step": 1582 }, { "epoch": 0.5276666666666666, "grad_norm": 0.20603236556053162, "learning_rate": 1.372007778685423e-05, "loss": 0.4489, "step": 1583 }, { "epoch": 0.528, "grad_norm": 0.14476722478866577, "learning_rate": 1.3704412151782075e-05, "loss": 0.4297, "step": 1584 }, { "epoch": 0.5283333333333333, "grad_norm": 0.18081313371658325, "learning_rate": 1.368874794032666e-05, "loss": 0.436, "step": 1585 }, { "epoch": 0.5286666666666666, "grad_norm": 0.17337478697299957, "learning_rate": 1.367308516970012e-05, "loss": 0.4352, "step": 1586 }, { "epoch": 0.529, "grad_norm": 0.18534405529499054, "learning_rate": 1.3657423857113004e-05, "loss": 0.4461, "step": 1587 }, { "epoch": 0.5293333333333333, "grad_norm": 0.1463351845741272, "learning_rate": 1.3641764019774267e-05, "loss": 0.4411, "step": 1588 }, { "epoch": 0.5296666666666666, "grad_norm": 0.15290865302085876, "learning_rate": 1.3626105674891233e-05, "loss": 0.4519, "step": 1589 }, { "epoch": 0.53, "grad_norm": 0.1928117722272873, "learning_rate": 1.3610448839669594e-05, "loss": 0.4397, "step": 1590 }, { "epoch": 0.5303333333333333, "grad_norm": 0.23013252019882202, "learning_rate": 1.3594793531313374e-05, "loss": 0.4473, "step": 1591 }, { "epoch": 0.5306666666666666, "grad_norm": 0.13208509981632233, "learning_rate": 1.3579139767024943e-05, "loss": 0.4404, "step": 1592 }, { "epoch": 0.531, "grad_norm": 0.20254307985305786, "learning_rate": 1.356348756400494e-05, "loss": 0.4627, "step": 1593 }, { "epoch": 0.5313333333333333, "grad_norm": 0.23897132277488708, "learning_rate": 1.3547836939452315e-05, "loss": 0.4417, "step": 1594 }, { "epoch": 0.5316666666666666, "grad_norm": 0.23964568972587585, "learning_rate": 1.3532187910564267e-05, "loss": 0.4428, "step": 1595 }, { "epoch": 0.532, "grad_norm": 0.11673401296138763, "learning_rate": 1.3516540494536256e-05, "loss": 0.4474, "step": 1596 }, { "epoch": 0.5323333333333333, "grad_norm": 0.14648935198783875, "learning_rate": 1.3500894708561954e-05, "loss": 0.4432, "step": 1597 }, { "epoch": 0.5326666666666666, "grad_norm": 0.12555024027824402, "learning_rate": 1.3485250569833256e-05, "loss": 0.4421, "step": 1598 }, { "epoch": 0.533, "grad_norm": 0.2703610062599182, "learning_rate": 1.346960809554024e-05, "loss": 0.4407, "step": 1599 }, { "epoch": 0.5333333333333333, "grad_norm": 0.2288275808095932, "learning_rate": 1.3453967302871157e-05, "loss": 0.4311, "step": 1600 }, { "epoch": 0.5336666666666666, "grad_norm": 0.1449580043554306, "learning_rate": 1.3438328209012406e-05, "loss": 0.4451, "step": 1601 }, { "epoch": 0.534, "grad_norm": 0.24328768253326416, "learning_rate": 1.3422690831148527e-05, "loss": 0.4368, "step": 1602 }, { "epoch": 0.5343333333333333, "grad_norm": 0.1832456737756729, "learning_rate": 1.340705518646217e-05, "loss": 0.4582, "step": 1603 }, { "epoch": 0.5346666666666666, "grad_norm": 0.22864294052124023, "learning_rate": 1.3391421292134079e-05, "loss": 0.4395, "step": 1604 }, { "epoch": 0.535, "grad_norm": 0.17940868437290192, "learning_rate": 1.337578916534307e-05, "loss": 0.4514, "step": 1605 }, { "epoch": 0.5353333333333333, "grad_norm": 0.11834193766117096, "learning_rate": 1.3360158823266038e-05, "loss": 0.4467, "step": 1606 }, { "epoch": 0.5356666666666666, "grad_norm": 0.1490141749382019, "learning_rate": 1.3344530283077892e-05, "loss": 0.4313, "step": 1607 }, { "epoch": 0.536, "grad_norm": 0.10677068680524826, "learning_rate": 1.3328903561951575e-05, "loss": 0.4398, "step": 1608 }, { "epoch": 0.5363333333333333, "grad_norm": 0.16688181459903717, "learning_rate": 1.3313278677058026e-05, "loss": 0.4487, "step": 1609 }, { "epoch": 0.5366666666666666, "grad_norm": 0.22187680006027222, "learning_rate": 1.3297655645566168e-05, "loss": 0.4501, "step": 1610 }, { "epoch": 0.537, "grad_norm": 0.28300920128822327, "learning_rate": 1.3282034484642886e-05, "loss": 0.4559, "step": 1611 }, { "epoch": 0.5373333333333333, "grad_norm": 0.17077474296092987, "learning_rate": 1.3266415211453015e-05, "loss": 0.4372, "step": 1612 }, { "epoch": 0.5376666666666666, "grad_norm": 0.19354255497455597, "learning_rate": 1.3250797843159305e-05, "loss": 0.4468, "step": 1613 }, { "epoch": 0.538, "grad_norm": 0.1274261772632599, "learning_rate": 1.3235182396922423e-05, "loss": 0.4382, "step": 1614 }, { "epoch": 0.5383333333333333, "grad_norm": 0.14919717609882355, "learning_rate": 1.3219568889900923e-05, "loss": 0.4459, "step": 1615 }, { "epoch": 0.5386666666666666, "grad_norm": 0.17349685728549957, "learning_rate": 1.3203957339251219e-05, "loss": 0.4408, "step": 1616 }, { "epoch": 0.539, "grad_norm": 0.22605636715888977, "learning_rate": 1.3188347762127587e-05, "loss": 0.4382, "step": 1617 }, { "epoch": 0.5393333333333333, "grad_norm": 0.21401150524616241, "learning_rate": 1.3172740175682126e-05, "loss": 0.475, "step": 1618 }, { "epoch": 0.5396666666666666, "grad_norm": 0.3119587004184723, "learning_rate": 1.3157134597064754e-05, "loss": 0.4696, "step": 1619 }, { "epoch": 0.54, "grad_norm": 0.1782238483428955, "learning_rate": 1.3141531043423174e-05, "loss": 0.4498, "step": 1620 }, { "epoch": 0.5403333333333333, "grad_norm": 0.14955677092075348, "learning_rate": 1.3125929531902877e-05, "loss": 0.453, "step": 1621 }, { "epoch": 0.5406666666666666, "grad_norm": 0.12673331797122955, "learning_rate": 1.31103300796471e-05, "loss": 0.4386, "step": 1622 }, { "epoch": 0.541, "grad_norm": 0.13372762501239777, "learning_rate": 1.3094732703796819e-05, "loss": 0.4457, "step": 1623 }, { "epoch": 0.5413333333333333, "grad_norm": 0.1735633909702301, "learning_rate": 1.307913742149073e-05, "loss": 0.4345, "step": 1624 }, { "epoch": 0.5416666666666666, "grad_norm": 0.1503012329339981, "learning_rate": 1.3063544249865226e-05, "loss": 0.4557, "step": 1625 }, { "epoch": 0.542, "grad_norm": 0.1495400071144104, "learning_rate": 1.3047953206054386e-05, "loss": 0.4444, "step": 1626 }, { "epoch": 0.5423333333333333, "grad_norm": 0.17686377465724945, "learning_rate": 1.3032364307189945e-05, "loss": 0.4383, "step": 1627 }, { "epoch": 0.5426666666666666, "grad_norm": 0.15429513156414032, "learning_rate": 1.3016777570401283e-05, "loss": 0.4375, "step": 1628 }, { "epoch": 0.543, "grad_norm": 0.10852011293172836, "learning_rate": 1.3001193012815405e-05, "loss": 0.4581, "step": 1629 }, { "epoch": 0.5433333333333333, "grad_norm": 0.14358091354370117, "learning_rate": 1.2985610651556922e-05, "loss": 0.4472, "step": 1630 }, { "epoch": 0.5436666666666666, "grad_norm": 0.22788040339946747, "learning_rate": 1.2970030503748039e-05, "loss": 0.4522, "step": 1631 }, { "epoch": 0.544, "grad_norm": 0.11774171888828278, "learning_rate": 1.2954452586508506e-05, "loss": 0.4508, "step": 1632 }, { "epoch": 0.5443333333333333, "grad_norm": 0.19135354459285736, "learning_rate": 1.2938876916955644e-05, "loss": 0.4508, "step": 1633 }, { "epoch": 0.5446666666666666, "grad_norm": 0.26229095458984375, "learning_rate": 1.2923303512204296e-05, "loss": 0.448, "step": 1634 }, { "epoch": 0.545, "grad_norm": 0.2207985520362854, "learning_rate": 1.2907732389366815e-05, "loss": 0.4429, "step": 1635 }, { "epoch": 0.5453333333333333, "grad_norm": 0.11848615109920502, "learning_rate": 1.2892163565553056e-05, "loss": 0.4472, "step": 1636 }, { "epoch": 0.5456666666666666, "grad_norm": 0.18580716848373413, "learning_rate": 1.2876597057870338e-05, "loss": 0.4514, "step": 1637 }, { "epoch": 0.546, "grad_norm": 0.20998458564281464, "learning_rate": 1.2861032883423438e-05, "loss": 0.4558, "step": 1638 }, { "epoch": 0.5463333333333333, "grad_norm": 0.17059984803199768, "learning_rate": 1.2845471059314566e-05, "loss": 0.4467, "step": 1639 }, { "epoch": 0.5466666666666666, "grad_norm": 0.15547244250774384, "learning_rate": 1.2829911602643355e-05, "loss": 0.4446, "step": 1640 }, { "epoch": 0.547, "grad_norm": 0.16724519431591034, "learning_rate": 1.281435453050683e-05, "loss": 0.4339, "step": 1641 }, { "epoch": 0.5473333333333333, "grad_norm": 0.20871689915657043, "learning_rate": 1.2798799859999405e-05, "loss": 0.4391, "step": 1642 }, { "epoch": 0.5476666666666666, "grad_norm": 0.21640051901340485, "learning_rate": 1.2783247608212846e-05, "loss": 0.459, "step": 1643 }, { "epoch": 0.548, "grad_norm": 0.2106454074382782, "learning_rate": 1.2767697792236268e-05, "loss": 0.4567, "step": 1644 }, { "epoch": 0.5483333333333333, "grad_norm": 0.21336570382118225, "learning_rate": 1.2752150429156103e-05, "loss": 0.4588, "step": 1645 }, { "epoch": 0.5486666666666666, "grad_norm": 0.1344500631093979, "learning_rate": 1.2736605536056095e-05, "loss": 0.4403, "step": 1646 }, { "epoch": 0.549, "grad_norm": 0.15834809839725494, "learning_rate": 1.2721063130017268e-05, "loss": 0.4561, "step": 1647 }, { "epoch": 0.5493333333333333, "grad_norm": 0.21589328348636627, "learning_rate": 1.2705523228117916e-05, "loss": 0.443, "step": 1648 }, { "epoch": 0.5496666666666666, "grad_norm": 0.16399520635604858, "learning_rate": 1.2689985847433581e-05, "loss": 0.4452, "step": 1649 }, { "epoch": 0.55, "grad_norm": 0.7646008729934692, "learning_rate": 1.2674451005037032e-05, "loss": 0.4555, "step": 1650 }, { "epoch": 0.5503333333333333, "grad_norm": 0.13384152948856354, "learning_rate": 1.2658918717998256e-05, "loss": 0.4589, "step": 1651 }, { "epoch": 0.5506666666666666, "grad_norm": 0.11332467198371887, "learning_rate": 1.2643389003384425e-05, "loss": 0.4425, "step": 1652 }, { "epoch": 0.551, "grad_norm": 0.14594268798828125, "learning_rate": 1.2627861878259887e-05, "loss": 0.4591, "step": 1653 }, { "epoch": 0.5513333333333333, "grad_norm": 0.14314104616641998, "learning_rate": 1.2612337359686143e-05, "loss": 0.4441, "step": 1654 }, { "epoch": 0.5516666666666666, "grad_norm": 0.1410287469625473, "learning_rate": 1.2596815464721835e-05, "loss": 0.4491, "step": 1655 }, { "epoch": 0.552, "grad_norm": 0.17141197621822357, "learning_rate": 1.2581296210422715e-05, "loss": 0.4469, "step": 1656 }, { "epoch": 0.5523333333333333, "grad_norm": 0.2897915244102478, "learning_rate": 1.256577961384164e-05, "loss": 0.4572, "step": 1657 }, { "epoch": 0.5526666666666666, "grad_norm": 0.21992014348506927, "learning_rate": 1.2550265692028542e-05, "loss": 0.4469, "step": 1658 }, { "epoch": 0.553, "grad_norm": 0.19263851642608643, "learning_rate": 1.2534754462030413e-05, "loss": 0.4405, "step": 1659 }, { "epoch": 0.5533333333333333, "grad_norm": 0.15793143212795258, "learning_rate": 1.251924594089129e-05, "loss": 0.439, "step": 1660 }, { "epoch": 0.5536666666666666, "grad_norm": 0.17978155612945557, "learning_rate": 1.2503740145652233e-05, "loss": 0.4418, "step": 1661 }, { "epoch": 0.554, "grad_norm": 0.17303550243377686, "learning_rate": 1.2488237093351311e-05, "loss": 0.4566, "step": 1662 }, { "epoch": 0.5543333333333333, "grad_norm": 0.20319980382919312, "learning_rate": 1.247273680102357e-05, "loss": 0.4644, "step": 1663 }, { "epoch": 0.5546666666666666, "grad_norm": 0.17695239186286926, "learning_rate": 1.2457239285701025e-05, "loss": 0.4504, "step": 1664 }, { "epoch": 0.555, "grad_norm": 0.14325912296772003, "learning_rate": 1.2441744564412656e-05, "loss": 0.445, "step": 1665 }, { "epoch": 0.5553333333333333, "grad_norm": 0.14811359345912933, "learning_rate": 1.2426252654184347e-05, "loss": 0.426, "step": 1666 }, { "epoch": 0.5556666666666666, "grad_norm": 0.24754361808300018, "learning_rate": 1.241076357203891e-05, "loss": 0.4483, "step": 1667 }, { "epoch": 0.556, "grad_norm": 0.1614680290222168, "learning_rate": 1.2395277334996045e-05, "loss": 0.4581, "step": 1668 }, { "epoch": 0.5563333333333333, "grad_norm": 0.12248064577579498, "learning_rate": 1.2379793960072327e-05, "loss": 0.4694, "step": 1669 }, { "epoch": 0.5566666666666666, "grad_norm": 0.12389501184225082, "learning_rate": 1.2364313464281181e-05, "loss": 0.4456, "step": 1670 }, { "epoch": 0.557, "grad_norm": 0.31267908215522766, "learning_rate": 1.2348835864632876e-05, "loss": 0.4437, "step": 1671 }, { "epoch": 0.5573333333333333, "grad_norm": 0.2030293345451355, "learning_rate": 1.2333361178134494e-05, "loss": 0.4488, "step": 1672 }, { "epoch": 0.5576666666666666, "grad_norm": 0.15170632302761078, "learning_rate": 1.2317889421789917e-05, "loss": 0.4425, "step": 1673 }, { "epoch": 0.558, "grad_norm": 0.20115451514720917, "learning_rate": 1.2302420612599803e-05, "loss": 0.4513, "step": 1674 }, { "epoch": 0.5583333333333333, "grad_norm": 0.12831945717334747, "learning_rate": 1.2286954767561582e-05, "loss": 0.4444, "step": 1675 }, { "epoch": 0.5586666666666666, "grad_norm": 0.14585813879966736, "learning_rate": 1.2271491903669419e-05, "loss": 0.4319, "step": 1676 }, { "epoch": 0.559, "grad_norm": 0.12395578622817993, "learning_rate": 1.2256032037914201e-05, "loss": 0.4494, "step": 1677 }, { "epoch": 0.5593333333333333, "grad_norm": 0.13149762153625488, "learning_rate": 1.2240575187283534e-05, "loss": 0.4506, "step": 1678 }, { "epoch": 0.5596666666666666, "grad_norm": 0.1655535101890564, "learning_rate": 1.2225121368761684e-05, "loss": 0.4503, "step": 1679 }, { "epoch": 0.56, "grad_norm": 0.11203271895647049, "learning_rate": 1.220967059932962e-05, "loss": 0.4475, "step": 1680 }, { "epoch": 0.5603333333333333, "grad_norm": 0.11213741451501846, "learning_rate": 1.2194222895964935e-05, "loss": 0.4525, "step": 1681 }, { "epoch": 0.5606666666666666, "grad_norm": 0.19450919330120087, "learning_rate": 1.2178778275641866e-05, "loss": 0.45, "step": 1682 }, { "epoch": 0.561, "grad_norm": 0.22292481362819672, "learning_rate": 1.2163336755331254e-05, "loss": 0.4382, "step": 1683 }, { "epoch": 0.5613333333333334, "grad_norm": 0.17417661845684052, "learning_rate": 1.2147898352000539e-05, "loss": 0.4387, "step": 1684 }, { "epoch": 0.5616666666666666, "grad_norm": 0.1834043562412262, "learning_rate": 1.2132463082613737e-05, "loss": 0.4447, "step": 1685 }, { "epoch": 0.562, "grad_norm": 0.14437870681285858, "learning_rate": 1.211703096413141e-05, "loss": 0.4512, "step": 1686 }, { "epoch": 0.5623333333333334, "grad_norm": 0.39382970333099365, "learning_rate": 1.2101602013510668e-05, "loss": 0.4478, "step": 1687 }, { "epoch": 0.5626666666666666, "grad_norm": 0.17507176101207733, "learning_rate": 1.208617624770514e-05, "loss": 0.4534, "step": 1688 }, { "epoch": 0.563, "grad_norm": 0.18888933956623077, "learning_rate": 1.2070753683664953e-05, "loss": 0.4482, "step": 1689 }, { "epoch": 0.5633333333333334, "grad_norm": 0.1883387416601181, "learning_rate": 1.2055334338336712e-05, "loss": 0.444, "step": 1690 }, { "epoch": 0.5636666666666666, "grad_norm": 0.18498770892620087, "learning_rate": 1.2039918228663492e-05, "loss": 0.4579, "step": 1691 }, { "epoch": 0.564, "grad_norm": 0.17666125297546387, "learning_rate": 1.2024505371584811e-05, "loss": 0.4494, "step": 1692 }, { "epoch": 0.5643333333333334, "grad_norm": 0.13232167065143585, "learning_rate": 1.2009095784036606e-05, "loss": 0.44, "step": 1693 }, { "epoch": 0.5646666666666667, "grad_norm": 0.12102425843477249, "learning_rate": 1.1993689482951227e-05, "loss": 0.4541, "step": 1694 }, { "epoch": 0.565, "grad_norm": 0.11810900270938873, "learning_rate": 1.1978286485257422e-05, "loss": 0.4487, "step": 1695 }, { "epoch": 0.5653333333333334, "grad_norm": 0.1203630194067955, "learning_rate": 1.1962886807880291e-05, "loss": 0.4394, "step": 1696 }, { "epoch": 0.5656666666666667, "grad_norm": 0.15613166987895966, "learning_rate": 1.19474904677413e-05, "loss": 0.4497, "step": 1697 }, { "epoch": 0.566, "grad_norm": 0.1661338210105896, "learning_rate": 1.1932097481758238e-05, "loss": 0.4481, "step": 1698 }, { "epoch": 0.5663333333333334, "grad_norm": 0.15287432074546814, "learning_rate": 1.1916707866845214e-05, "loss": 0.4504, "step": 1699 }, { "epoch": 0.5666666666666667, "grad_norm": 0.14399483799934387, "learning_rate": 1.190132163991263e-05, "loss": 0.4537, "step": 1700 }, { "epoch": 0.567, "grad_norm": 0.1907748430967331, "learning_rate": 1.1885938817867172e-05, "loss": 0.455, "step": 1701 }, { "epoch": 0.5673333333333334, "grad_norm": 0.16006487607955933, "learning_rate": 1.1870559417611774e-05, "loss": 0.4536, "step": 1702 }, { "epoch": 0.5676666666666667, "grad_norm": 0.19763900339603424, "learning_rate": 1.1855183456045618e-05, "loss": 0.4497, "step": 1703 }, { "epoch": 0.568, "grad_norm": 0.13070185482501984, "learning_rate": 1.183981095006411e-05, "loss": 0.4416, "step": 1704 }, { "epoch": 0.5683333333333334, "grad_norm": 0.15909285843372345, "learning_rate": 1.1824441916558843e-05, "loss": 0.4455, "step": 1705 }, { "epoch": 0.5686666666666667, "grad_norm": 0.14207002520561218, "learning_rate": 1.1809076372417611e-05, "loss": 0.4538, "step": 1706 }, { "epoch": 0.569, "grad_norm": 0.21800024807453156, "learning_rate": 1.1793714334524368e-05, "loss": 0.4521, "step": 1707 }, { "epoch": 0.5693333333333334, "grad_norm": 0.2978110611438751, "learning_rate": 1.1778355819759217e-05, "loss": 0.4509, "step": 1708 }, { "epoch": 0.5696666666666667, "grad_norm": 0.1751805692911148, "learning_rate": 1.176300084499838e-05, "loss": 0.4532, "step": 1709 }, { "epoch": 0.57, "grad_norm": 0.122956782579422, "learning_rate": 1.174764942711421e-05, "loss": 0.4483, "step": 1710 }, { "epoch": 0.5703333333333334, "grad_norm": 0.18063077330589294, "learning_rate": 1.1732301582975133e-05, "loss": 0.4556, "step": 1711 }, { "epoch": 0.5706666666666667, "grad_norm": 0.16617561876773834, "learning_rate": 1.1716957329445657e-05, "loss": 0.4443, "step": 1712 }, { "epoch": 0.571, "grad_norm": 0.15725111961364746, "learning_rate": 1.1701616683386336e-05, "loss": 0.4566, "step": 1713 }, { "epoch": 0.5713333333333334, "grad_norm": 0.19654949009418488, "learning_rate": 1.1686279661653769e-05, "loss": 0.4408, "step": 1714 }, { "epoch": 0.5716666666666667, "grad_norm": 0.16336305439472198, "learning_rate": 1.1670946281100567e-05, "loss": 0.4399, "step": 1715 }, { "epoch": 0.572, "grad_norm": 0.18000881373882294, "learning_rate": 1.1655616558575345e-05, "loss": 0.4578, "step": 1716 }, { "epoch": 0.5723333333333334, "grad_norm": 0.1662307232618332, "learning_rate": 1.1640290510922691e-05, "loss": 0.4443, "step": 1717 }, { "epoch": 0.5726666666666667, "grad_norm": 0.12008036673069, "learning_rate": 1.1624968154983167e-05, "loss": 0.4464, "step": 1718 }, { "epoch": 0.573, "grad_norm": 0.18432001769542694, "learning_rate": 1.1609649507593266e-05, "loss": 0.443, "step": 1719 }, { "epoch": 0.5733333333333334, "grad_norm": 0.1895570009946823, "learning_rate": 1.1594334585585413e-05, "loss": 0.4421, "step": 1720 }, { "epoch": 0.5736666666666667, "grad_norm": 0.1673545092344284, "learning_rate": 1.1579023405787935e-05, "loss": 0.4448, "step": 1721 }, { "epoch": 0.574, "grad_norm": 0.17492252588272095, "learning_rate": 1.1563715985025052e-05, "loss": 0.4515, "step": 1722 }, { "epoch": 0.5743333333333334, "grad_norm": 0.1756337434053421, "learning_rate": 1.1548412340116848e-05, "loss": 0.4464, "step": 1723 }, { "epoch": 0.5746666666666667, "grad_norm": 0.15360793471336365, "learning_rate": 1.1533112487879267e-05, "loss": 0.4547, "step": 1724 }, { "epoch": 0.575, "grad_norm": 0.18119968473911285, "learning_rate": 1.1517816445124075e-05, "loss": 0.447, "step": 1725 }, { "epoch": 0.5753333333333334, "grad_norm": 0.17921459674835205, "learning_rate": 1.1502524228658858e-05, "loss": 0.4527, "step": 1726 }, { "epoch": 0.5756666666666667, "grad_norm": 0.14405949413776398, "learning_rate": 1.1487235855286999e-05, "loss": 0.4464, "step": 1727 }, { "epoch": 0.576, "grad_norm": 0.14178450405597687, "learning_rate": 1.1471951341807651e-05, "loss": 0.445, "step": 1728 }, { "epoch": 0.5763333333333334, "grad_norm": 0.1341332644224167, "learning_rate": 1.145667070501573e-05, "loss": 0.454, "step": 1729 }, { "epoch": 0.5766666666666667, "grad_norm": 0.20660725235939026, "learning_rate": 1.1441393961701895e-05, "loss": 0.4427, "step": 1730 }, { "epoch": 0.577, "grad_norm": 0.18905872106552124, "learning_rate": 1.1426121128652527e-05, "loss": 0.4569, "step": 1731 }, { "epoch": 0.5773333333333334, "grad_norm": 0.15068361163139343, "learning_rate": 1.1410852222649703e-05, "loss": 0.458, "step": 1732 }, { "epoch": 0.5776666666666667, "grad_norm": 0.20161719620227814, "learning_rate": 1.1395587260471186e-05, "loss": 0.4433, "step": 1733 }, { "epoch": 0.578, "grad_norm": 0.15236033499240875, "learning_rate": 1.1380326258890414e-05, "loss": 0.4384, "step": 1734 }, { "epoch": 0.5783333333333334, "grad_norm": 0.48405444622039795, "learning_rate": 1.1365069234676466e-05, "loss": 0.4423, "step": 1735 }, { "epoch": 0.5786666666666667, "grad_norm": 0.1499585509300232, "learning_rate": 1.1349816204594054e-05, "loss": 0.4453, "step": 1736 }, { "epoch": 0.579, "grad_norm": 0.1208709105849266, "learning_rate": 1.1334567185403499e-05, "loss": 0.4469, "step": 1737 }, { "epoch": 0.5793333333333334, "grad_norm": 0.2217736542224884, "learning_rate": 1.131932219386071e-05, "loss": 0.4499, "step": 1738 }, { "epoch": 0.5796666666666667, "grad_norm": 0.11253860592842102, "learning_rate": 1.1304081246717184e-05, "loss": 0.4499, "step": 1739 }, { "epoch": 0.58, "grad_norm": 0.15124881267547607, "learning_rate": 1.1288844360719965e-05, "loss": 0.4472, "step": 1740 }, { "epoch": 0.5803333333333334, "grad_norm": 0.18967649340629578, "learning_rate": 1.1273611552611628e-05, "loss": 0.4452, "step": 1741 }, { "epoch": 0.5806666666666667, "grad_norm": 0.14993087947368622, "learning_rate": 1.1258382839130282e-05, "loss": 0.4574, "step": 1742 }, { "epoch": 0.581, "grad_norm": 0.15519820153713226, "learning_rate": 1.1243158237009523e-05, "loss": 0.4534, "step": 1743 }, { "epoch": 0.5813333333333334, "grad_norm": 0.14090430736541748, "learning_rate": 1.122793776297844e-05, "loss": 0.4418, "step": 1744 }, { "epoch": 0.5816666666666667, "grad_norm": 0.14791853725910187, "learning_rate": 1.1212721433761577e-05, "loss": 0.4525, "step": 1745 }, { "epoch": 0.582, "grad_norm": 0.1659964621067047, "learning_rate": 1.119750926607893e-05, "loss": 0.4465, "step": 1746 }, { "epoch": 0.5823333333333334, "grad_norm": 0.13298290967941284, "learning_rate": 1.1182301276645922e-05, "loss": 0.4475, "step": 1747 }, { "epoch": 0.5826666666666667, "grad_norm": 0.16240611672401428, "learning_rate": 1.116709748217338e-05, "loss": 0.4477, "step": 1748 }, { "epoch": 0.583, "grad_norm": 0.14399637281894684, "learning_rate": 1.1151897899367526e-05, "loss": 0.4387, "step": 1749 }, { "epoch": 0.5833333333333334, "grad_norm": 0.17615117132663727, "learning_rate": 1.1136702544929951e-05, "loss": 0.4482, "step": 1750 }, { "epoch": 0.5836666666666667, "grad_norm": 0.16343551874160767, "learning_rate": 1.1121511435557608e-05, "loss": 0.4445, "step": 1751 }, { "epoch": 0.584, "grad_norm": 0.18164125084877014, "learning_rate": 1.110632458794277e-05, "loss": 0.4457, "step": 1752 }, { "epoch": 0.5843333333333334, "grad_norm": 0.18893833458423615, "learning_rate": 1.1091142018773035e-05, "loss": 0.4458, "step": 1753 }, { "epoch": 0.5846666666666667, "grad_norm": 0.19381000101566315, "learning_rate": 1.107596374473131e-05, "loss": 0.4463, "step": 1754 }, { "epoch": 0.585, "grad_norm": 0.14959441125392914, "learning_rate": 1.106078978249577e-05, "loss": 0.4501, "step": 1755 }, { "epoch": 0.5853333333333334, "grad_norm": 0.16267000138759613, "learning_rate": 1.1045620148739854e-05, "loss": 0.4499, "step": 1756 }, { "epoch": 0.5856666666666667, "grad_norm": 0.12143011391162872, "learning_rate": 1.1030454860132244e-05, "loss": 0.4488, "step": 1757 }, { "epoch": 0.586, "grad_norm": 0.1466178447008133, "learning_rate": 1.1015293933336858e-05, "loss": 0.448, "step": 1758 }, { "epoch": 0.5863333333333334, "grad_norm": 0.11600182950496674, "learning_rate": 1.10001373850128e-05, "loss": 0.4455, "step": 1759 }, { "epoch": 0.5866666666666667, "grad_norm": 0.14939551055431366, "learning_rate": 1.0984985231814384e-05, "loss": 0.4471, "step": 1760 }, { "epoch": 0.587, "grad_norm": 0.14526131749153137, "learning_rate": 1.0969837490391084e-05, "loss": 0.4565, "step": 1761 }, { "epoch": 0.5873333333333334, "grad_norm": 0.24255003035068512, "learning_rate": 1.095469417738753e-05, "loss": 0.4486, "step": 1762 }, { "epoch": 0.5876666666666667, "grad_norm": 0.14782176911830902, "learning_rate": 1.093955530944348e-05, "loss": 0.4444, "step": 1763 }, { "epoch": 0.588, "grad_norm": 0.18562796711921692, "learning_rate": 1.0924420903193815e-05, "loss": 0.4466, "step": 1764 }, { "epoch": 0.5883333333333334, "grad_norm": 0.18054147064685822, "learning_rate": 1.090929097526851e-05, "loss": 0.4531, "step": 1765 }, { "epoch": 0.5886666666666667, "grad_norm": 0.21849040687084198, "learning_rate": 1.089416554229262e-05, "loss": 0.4459, "step": 1766 }, { "epoch": 0.589, "grad_norm": 0.3506872057914734, "learning_rate": 1.087904462088626e-05, "loss": 0.4445, "step": 1767 }, { "epoch": 0.5893333333333334, "grad_norm": 0.1391906887292862, "learning_rate": 1.0863928227664585e-05, "loss": 0.4583, "step": 1768 }, { "epoch": 0.5896666666666667, "grad_norm": 0.1600528210401535, "learning_rate": 1.0848816379237783e-05, "loss": 0.4469, "step": 1769 }, { "epoch": 0.59, "grad_norm": 0.16630464792251587, "learning_rate": 1.0833709092211041e-05, "loss": 0.4386, "step": 1770 }, { "epoch": 0.5903333333333334, "grad_norm": 0.1517966091632843, "learning_rate": 1.0818606383184534e-05, "loss": 0.4504, "step": 1771 }, { "epoch": 0.5906666666666667, "grad_norm": 0.13418260216712952, "learning_rate": 1.0803508268753408e-05, "loss": 0.44, "step": 1772 }, { "epoch": 0.591, "grad_norm": 0.15409336984157562, "learning_rate": 1.078841476550776e-05, "loss": 0.4523, "step": 1773 }, { "epoch": 0.5913333333333334, "grad_norm": 0.3580331802368164, "learning_rate": 1.0773325890032623e-05, "loss": 0.4488, "step": 1774 }, { "epoch": 0.5916666666666667, "grad_norm": 0.10775382071733475, "learning_rate": 1.0758241658907936e-05, "loss": 0.4425, "step": 1775 }, { "epoch": 0.592, "grad_norm": 0.22701434791088104, "learning_rate": 1.0743162088708548e-05, "loss": 0.4482, "step": 1776 }, { "epoch": 0.5923333333333334, "grad_norm": 0.1208280399441719, "learning_rate": 1.0728087196004175e-05, "loss": 0.4485, "step": 1777 }, { "epoch": 0.5926666666666667, "grad_norm": 0.137598916888237, "learning_rate": 1.0713016997359404e-05, "loss": 0.4461, "step": 1778 }, { "epoch": 0.593, "grad_norm": 0.2101089060306549, "learning_rate": 1.069795150933365e-05, "loss": 0.4451, "step": 1779 }, { "epoch": 0.5933333333333334, "grad_norm": 0.15141059458255768, "learning_rate": 1.0682890748481164e-05, "loss": 0.4564, "step": 1780 }, { "epoch": 0.5936666666666667, "grad_norm": 0.15700660645961761, "learning_rate": 1.0667834731350996e-05, "loss": 0.4445, "step": 1781 }, { "epoch": 0.594, "grad_norm": 0.20990587770938873, "learning_rate": 1.0652783474486987e-05, "loss": 0.4401, "step": 1782 }, { "epoch": 0.5943333333333334, "grad_norm": 0.17784811556339264, "learning_rate": 1.063773699442774e-05, "loss": 0.4472, "step": 1783 }, { "epoch": 0.5946666666666667, "grad_norm": 0.2250799983739853, "learning_rate": 1.062269530770663e-05, "loss": 0.4544, "step": 1784 }, { "epoch": 0.595, "grad_norm": 0.34936952590942383, "learning_rate": 1.0607658430851745e-05, "loss": 0.453, "step": 1785 }, { "epoch": 0.5953333333333334, "grad_norm": 0.3371087610721588, "learning_rate": 1.0592626380385888e-05, "loss": 0.45, "step": 1786 }, { "epoch": 0.5956666666666667, "grad_norm": 0.20463305711746216, "learning_rate": 1.0577599172826567e-05, "loss": 0.4641, "step": 1787 }, { "epoch": 0.596, "grad_norm": 0.1780925840139389, "learning_rate": 1.0562576824685965e-05, "loss": 0.447, "step": 1788 }, { "epoch": 0.5963333333333334, "grad_norm": 0.1466449648141861, "learning_rate": 1.0547559352470926e-05, "loss": 0.4472, "step": 1789 }, { "epoch": 0.5966666666666667, "grad_norm": 0.2338668256998062, "learning_rate": 1.0532546772682937e-05, "loss": 0.4609, "step": 1790 }, { "epoch": 0.597, "grad_norm": 0.14223243296146393, "learning_rate": 1.0517539101818104e-05, "loss": 0.4536, "step": 1791 }, { "epoch": 0.5973333333333334, "grad_norm": 0.1622159332036972, "learning_rate": 1.0502536356367149e-05, "loss": 0.452, "step": 1792 }, { "epoch": 0.5976666666666667, "grad_norm": 0.12326337397098541, "learning_rate": 1.0487538552815375e-05, "loss": 0.4538, "step": 1793 }, { "epoch": 0.598, "grad_norm": 0.14207206666469574, "learning_rate": 1.047254570764265e-05, "loss": 0.4532, "step": 1794 }, { "epoch": 0.5983333333333334, "grad_norm": 0.20168113708496094, "learning_rate": 1.0457557837323407e-05, "loss": 0.4573, "step": 1795 }, { "epoch": 0.5986666666666667, "grad_norm": 0.1831780970096588, "learning_rate": 1.0442574958326598e-05, "loss": 0.4482, "step": 1796 }, { "epoch": 0.599, "grad_norm": 0.1852816343307495, "learning_rate": 1.04275970871157e-05, "loss": 0.4458, "step": 1797 }, { "epoch": 0.5993333333333334, "grad_norm": 0.15029150247573853, "learning_rate": 1.041262424014869e-05, "loss": 0.4586, "step": 1798 }, { "epoch": 0.5996666666666667, "grad_norm": 0.16819410026073456, "learning_rate": 1.0397656433878013e-05, "loss": 0.4505, "step": 1799 }, { "epoch": 0.6, "grad_norm": 0.16067756712436676, "learning_rate": 1.0382693684750583e-05, "loss": 0.4566, "step": 1800 }, { "epoch": 0.6003333333333334, "grad_norm": 0.18759694695472717, "learning_rate": 1.0367736009207754e-05, "loss": 0.45, "step": 1801 }, { "epoch": 0.6006666666666667, "grad_norm": 0.14662595093250275, "learning_rate": 1.0352783423685308e-05, "loss": 0.4464, "step": 1802 }, { "epoch": 0.601, "grad_norm": 0.1822032779455185, "learning_rate": 1.0337835944613432e-05, "loss": 0.4597, "step": 1803 }, { "epoch": 0.6013333333333334, "grad_norm": 0.12155884504318237, "learning_rate": 1.0322893588416704e-05, "loss": 0.4563, "step": 1804 }, { "epoch": 0.6016666666666667, "grad_norm": 0.14108073711395264, "learning_rate": 1.0307956371514066e-05, "loss": 0.4576, "step": 1805 }, { "epoch": 0.602, "grad_norm": 0.15410113334655762, "learning_rate": 1.0293024310318823e-05, "loss": 0.4455, "step": 1806 }, { "epoch": 0.6023333333333334, "grad_norm": 0.16524378955364227, "learning_rate": 1.0278097421238606e-05, "loss": 0.4533, "step": 1807 }, { "epoch": 0.6026666666666667, "grad_norm": 0.11339142173528671, "learning_rate": 1.026317572067537e-05, "loss": 0.4365, "step": 1808 }, { "epoch": 0.603, "grad_norm": 0.11446211487054825, "learning_rate": 1.0248259225025362e-05, "loss": 0.4499, "step": 1809 }, { "epoch": 0.6033333333333334, "grad_norm": 0.2236861288547516, "learning_rate": 1.0233347950679115e-05, "loss": 0.4503, "step": 1810 }, { "epoch": 0.6036666666666667, "grad_norm": 0.17991165816783905, "learning_rate": 1.0218441914021423e-05, "loss": 0.4512, "step": 1811 }, { "epoch": 0.604, "grad_norm": 0.14736506342887878, "learning_rate": 1.0203541131431321e-05, "loss": 0.4477, "step": 1812 }, { "epoch": 0.6043333333333333, "grad_norm": 0.1380821317434311, "learning_rate": 1.018864561928208e-05, "loss": 0.4481, "step": 1813 }, { "epoch": 0.6046666666666667, "grad_norm": 0.1782415509223938, "learning_rate": 1.0173755393941172e-05, "loss": 0.4534, "step": 1814 }, { "epoch": 0.605, "grad_norm": 0.30977168679237366, "learning_rate": 1.0158870471770262e-05, "loss": 0.456, "step": 1815 }, { "epoch": 0.6053333333333333, "grad_norm": 0.1762005239725113, "learning_rate": 1.0143990869125185e-05, "loss": 0.4506, "step": 1816 }, { "epoch": 0.6056666666666667, "grad_norm": 0.14462240040302277, "learning_rate": 1.0129116602355937e-05, "loss": 0.4517, "step": 1817 }, { "epoch": 0.606, "grad_norm": 0.16631874442100525, "learning_rate": 1.0114247687806644e-05, "loss": 0.4512, "step": 1818 }, { "epoch": 0.6063333333333333, "grad_norm": 0.21120049059391022, "learning_rate": 1.0099384141815555e-05, "loss": 0.4617, "step": 1819 }, { "epoch": 0.6066666666666667, "grad_norm": 0.17290540039539337, "learning_rate": 1.0084525980715017e-05, "loss": 0.4564, "step": 1820 }, { "epoch": 0.607, "grad_norm": 0.2311388999223709, "learning_rate": 1.006967322083147e-05, "loss": 0.4501, "step": 1821 }, { "epoch": 0.6073333333333333, "grad_norm": 0.20729202032089233, "learning_rate": 1.00548258784854e-05, "loss": 0.4566, "step": 1822 }, { "epoch": 0.6076666666666667, "grad_norm": 0.22770291566848755, "learning_rate": 1.0039983969991357e-05, "loss": 0.448, "step": 1823 }, { "epoch": 0.608, "grad_norm": 0.18537363409996033, "learning_rate": 1.002514751165792e-05, "loss": 0.4488, "step": 1824 }, { "epoch": 0.6083333333333333, "grad_norm": 0.13945850729942322, "learning_rate": 1.001031651978766e-05, "loss": 0.4364, "step": 1825 }, { "epoch": 0.6086666666666667, "grad_norm": 0.1501425951719284, "learning_rate": 9.995491010677164e-06, "loss": 0.4393, "step": 1826 }, { "epoch": 0.609, "grad_norm": 0.13744089007377625, "learning_rate": 9.980671000616977e-06, "loss": 0.4499, "step": 1827 }, { "epoch": 0.6093333333333333, "grad_norm": 0.11671090871095657, "learning_rate": 9.965856505891622e-06, "loss": 0.4559, "step": 1828 }, { "epoch": 0.6096666666666667, "grad_norm": 0.20003961026668549, "learning_rate": 9.951047542779543e-06, "loss": 0.4498, "step": 1829 }, { "epoch": 0.61, "grad_norm": 0.1568612903356552, "learning_rate": 9.936244127553115e-06, "loss": 0.4513, "step": 1830 }, { "epoch": 0.6103333333333333, "grad_norm": 0.1220272034406662, "learning_rate": 9.921446276478614e-06, "loss": 0.4595, "step": 1831 }, { "epoch": 0.6106666666666667, "grad_norm": 0.13968101143836975, "learning_rate": 9.906654005816196e-06, "loss": 0.4525, "step": 1832 }, { "epoch": 0.611, "grad_norm": 0.13944678008556366, "learning_rate": 9.891867331819898e-06, "loss": 0.4392, "step": 1833 }, { "epoch": 0.6113333333333333, "grad_norm": 0.13327741622924805, "learning_rate": 9.877086270737596e-06, "loss": 0.4525, "step": 1834 }, { "epoch": 0.6116666666666667, "grad_norm": 0.1221248060464859, "learning_rate": 9.862310838811006e-06, "loss": 0.4479, "step": 1835 }, { "epoch": 0.612, "grad_norm": 0.12989147007465363, "learning_rate": 9.847541052275654e-06, "loss": 0.4518, "step": 1836 }, { "epoch": 0.6123333333333333, "grad_norm": 0.19472447037696838, "learning_rate": 9.832776927360866e-06, "loss": 0.4427, "step": 1837 }, { "epoch": 0.6126666666666667, "grad_norm": 0.19038447737693787, "learning_rate": 9.818018480289744e-06, "loss": 0.4606, "step": 1838 }, { "epoch": 0.613, "grad_norm": 0.16250276565551758, "learning_rate": 9.80326572727915e-06, "loss": 0.4497, "step": 1839 }, { "epoch": 0.6133333333333333, "grad_norm": 0.16239461302757263, "learning_rate": 9.788518684539695e-06, "loss": 0.4501, "step": 1840 }, { "epoch": 0.6136666666666667, "grad_norm": 0.13008621335029602, "learning_rate": 9.77377736827571e-06, "loss": 0.4462, "step": 1841 }, { "epoch": 0.614, "grad_norm": 0.16453827917575836, "learning_rate": 9.759041794685237e-06, "loss": 0.4554, "step": 1842 }, { "epoch": 0.6143333333333333, "grad_norm": 0.16678793728351593, "learning_rate": 9.744311979960006e-06, "loss": 0.4457, "step": 1843 }, { "epoch": 0.6146666666666667, "grad_norm": 0.15915203094482422, "learning_rate": 9.72958794028542e-06, "loss": 0.4357, "step": 1844 }, { "epoch": 0.615, "grad_norm": 0.19041460752487183, "learning_rate": 9.714869691840536e-06, "loss": 0.4439, "step": 1845 }, { "epoch": 0.6153333333333333, "grad_norm": 0.19956307113170624, "learning_rate": 9.700157250798044e-06, "loss": 0.4425, "step": 1846 }, { "epoch": 0.6156666666666667, "grad_norm": 0.1836625188589096, "learning_rate": 9.68545063332426e-06, "loss": 0.4632, "step": 1847 }, { "epoch": 0.616, "grad_norm": 0.18119974434375763, "learning_rate": 9.670749855579096e-06, "loss": 0.4526, "step": 1848 }, { "epoch": 0.6163333333333333, "grad_norm": 0.18274536728858948, "learning_rate": 9.656054933716047e-06, "loss": 0.4418, "step": 1849 }, { "epoch": 0.6166666666666667, "grad_norm": 0.12352490425109863, "learning_rate": 9.641365883882175e-06, "loss": 0.452, "step": 1850 }, { "epoch": 0.617, "grad_norm": 0.16507700085639954, "learning_rate": 9.626682722218092e-06, "loss": 0.4443, "step": 1851 }, { "epoch": 0.6173333333333333, "grad_norm": 0.1470641940832138, "learning_rate": 9.61200546485793e-06, "loss": 0.4494, "step": 1852 }, { "epoch": 0.6176666666666667, "grad_norm": 0.14340347051620483, "learning_rate": 9.597334127929346e-06, "loss": 0.446, "step": 1853 }, { "epoch": 0.618, "grad_norm": 0.16581104695796967, "learning_rate": 9.582668727553486e-06, "loss": 0.4469, "step": 1854 }, { "epoch": 0.6183333333333333, "grad_norm": 0.11419650167226791, "learning_rate": 9.568009279844971e-06, "loss": 0.4472, "step": 1855 }, { "epoch": 0.6186666666666667, "grad_norm": 0.18092063069343567, "learning_rate": 9.553355800911877e-06, "loss": 0.4459, "step": 1856 }, { "epoch": 0.619, "grad_norm": 0.14096984267234802, "learning_rate": 9.53870830685574e-06, "loss": 0.4517, "step": 1857 }, { "epoch": 0.6193333333333333, "grad_norm": 0.1815613955259323, "learning_rate": 9.524066813771506e-06, "loss": 0.4359, "step": 1858 }, { "epoch": 0.6196666666666667, "grad_norm": 0.16683903336524963, "learning_rate": 9.509431337747517e-06, "loss": 0.453, "step": 1859 }, { "epoch": 0.62, "grad_norm": 0.3626139760017395, "learning_rate": 9.49480189486552e-06, "loss": 0.4504, "step": 1860 }, { "epoch": 0.6203333333333333, "grad_norm": 0.21524040400981903, "learning_rate": 9.48017850120063e-06, "loss": 0.448, "step": 1861 }, { "epoch": 0.6206666666666667, "grad_norm": 0.16077488660812378, "learning_rate": 9.465561172821306e-06, "loss": 0.4568, "step": 1862 }, { "epoch": 0.621, "grad_norm": 0.1377391368150711, "learning_rate": 9.450949925789354e-06, "loss": 0.4486, "step": 1863 }, { "epoch": 0.6213333333333333, "grad_norm": 0.20425613224506378, "learning_rate": 9.436344776159886e-06, "loss": 0.4551, "step": 1864 }, { "epoch": 0.6216666666666667, "grad_norm": 0.13616272807121277, "learning_rate": 9.421745739981325e-06, "loss": 0.4464, "step": 1865 }, { "epoch": 0.622, "grad_norm": 0.173282653093338, "learning_rate": 9.407152833295373e-06, "loss": 0.4457, "step": 1866 }, { "epoch": 0.6223333333333333, "grad_norm": 0.2095450758934021, "learning_rate": 9.39256607213699e-06, "loss": 0.4469, "step": 1867 }, { "epoch": 0.6226666666666667, "grad_norm": 0.15443363785743713, "learning_rate": 9.377985472534392e-06, "loss": 0.4486, "step": 1868 }, { "epoch": 0.623, "grad_norm": 0.16538318991661072, "learning_rate": 9.36341105050902e-06, "loss": 0.4384, "step": 1869 }, { "epoch": 0.6233333333333333, "grad_norm": 0.1988583505153656, "learning_rate": 9.348842822075529e-06, "loss": 0.4348, "step": 1870 }, { "epoch": 0.6236666666666667, "grad_norm": 0.13701044023036957, "learning_rate": 9.334280803241759e-06, "loss": 0.447, "step": 1871 }, { "epoch": 0.624, "grad_norm": 0.14641763269901276, "learning_rate": 9.319725010008748e-06, "loss": 0.4462, "step": 1872 }, { "epoch": 0.6243333333333333, "grad_norm": 0.14675500988960266, "learning_rate": 9.305175458370675e-06, "loss": 0.4469, "step": 1873 }, { "epoch": 0.6246666666666667, "grad_norm": 0.16822141408920288, "learning_rate": 9.290632164314867e-06, "loss": 0.4528, "step": 1874 }, { "epoch": 0.625, "grad_norm": 0.16104361414909363, "learning_rate": 9.276095143821772e-06, "loss": 0.4401, "step": 1875 }, { "epoch": 0.6253333333333333, "grad_norm": 0.17899633944034576, "learning_rate": 9.261564412864947e-06, "loss": 0.4547, "step": 1876 }, { "epoch": 0.6256666666666667, "grad_norm": 0.12329237163066864, "learning_rate": 9.24703998741104e-06, "loss": 0.4472, "step": 1877 }, { "epoch": 0.626, "grad_norm": 0.14606481790542603, "learning_rate": 9.232521883419766e-06, "loss": 0.4542, "step": 1878 }, { "epoch": 0.6263333333333333, "grad_norm": 0.1303902566432953, "learning_rate": 9.218010116843893e-06, "loss": 0.4577, "step": 1879 }, { "epoch": 0.6266666666666667, "grad_norm": 0.16434095799922943, "learning_rate": 9.203504703629233e-06, "loss": 0.4417, "step": 1880 }, { "epoch": 0.627, "grad_norm": 0.15749900043010712, "learning_rate": 9.189005659714608e-06, "loss": 0.4502, "step": 1881 }, { "epoch": 0.6273333333333333, "grad_norm": 0.18393966555595398, "learning_rate": 9.174513001031846e-06, "loss": 0.4554, "step": 1882 }, { "epoch": 0.6276666666666667, "grad_norm": 0.21589817106723785, "learning_rate": 9.160026743505758e-06, "loss": 0.4547, "step": 1883 }, { "epoch": 0.628, "grad_norm": 0.16711097955703735, "learning_rate": 9.145546903054119e-06, "loss": 0.4409, "step": 1884 }, { "epoch": 0.6283333333333333, "grad_norm": 0.18679720163345337, "learning_rate": 9.131073495587662e-06, "loss": 0.453, "step": 1885 }, { "epoch": 0.6286666666666667, "grad_norm": 0.20977896451950073, "learning_rate": 9.116606537010034e-06, "loss": 0.4452, "step": 1886 }, { "epoch": 0.629, "grad_norm": 0.12225223332643509, "learning_rate": 9.102146043217816e-06, "loss": 0.4496, "step": 1887 }, { "epoch": 0.6293333333333333, "grad_norm": 0.1351037174463272, "learning_rate": 9.087692030100472e-06, "loss": 0.4541, "step": 1888 }, { "epoch": 0.6296666666666667, "grad_norm": 0.17769064009189606, "learning_rate": 9.073244513540345e-06, "loss": 0.4527, "step": 1889 }, { "epoch": 0.63, "grad_norm": 0.17207615077495575, "learning_rate": 9.058803509412647e-06, "loss": 0.4482, "step": 1890 }, { "epoch": 0.6303333333333333, "grad_norm": 0.17776212096214294, "learning_rate": 9.04436903358543e-06, "loss": 0.4591, "step": 1891 }, { "epoch": 0.6306666666666667, "grad_norm": 0.17782287299633026, "learning_rate": 9.02994110191957e-06, "loss": 0.4401, "step": 1892 }, { "epoch": 0.631, "grad_norm": 0.19803811609745026, "learning_rate": 9.015519730268755e-06, "loss": 0.443, "step": 1893 }, { "epoch": 0.6313333333333333, "grad_norm": 0.15314330160617828, "learning_rate": 9.001104934479467e-06, "loss": 0.4486, "step": 1894 }, { "epoch": 0.6316666666666667, "grad_norm": 0.20101319253444672, "learning_rate": 8.986696730390956e-06, "loss": 0.4451, "step": 1895 }, { "epoch": 0.632, "grad_norm": 0.17421817779541016, "learning_rate": 8.972295133835234e-06, "loss": 0.4427, "step": 1896 }, { "epoch": 0.6323333333333333, "grad_norm": 0.10956616699695587, "learning_rate": 8.957900160637053e-06, "loss": 0.4471, "step": 1897 }, { "epoch": 0.6326666666666667, "grad_norm": 0.15793286263942719, "learning_rate": 8.943511826613883e-06, "loss": 0.449, "step": 1898 }, { "epoch": 0.633, "grad_norm": 0.1688617765903473, "learning_rate": 8.929130147575902e-06, "loss": 0.4465, "step": 1899 }, { "epoch": 0.6333333333333333, "grad_norm": 0.14856867492198944, "learning_rate": 8.914755139325971e-06, "loss": 0.445, "step": 1900 }, { "epoch": 0.6336666666666667, "grad_norm": 0.16318689286708832, "learning_rate": 8.900386817659622e-06, "loss": 0.4467, "step": 1901 }, { "epoch": 0.634, "grad_norm": 0.1693338304758072, "learning_rate": 8.886025198365055e-06, "loss": 0.4576, "step": 1902 }, { "epoch": 0.6343333333333333, "grad_norm": 0.13822267949581146, "learning_rate": 8.871670297223082e-06, "loss": 0.4405, "step": 1903 }, { "epoch": 0.6346666666666667, "grad_norm": 0.23474542796611786, "learning_rate": 8.857322130007151e-06, "loss": 0.442, "step": 1904 }, { "epoch": 0.635, "grad_norm": 0.16575895249843597, "learning_rate": 8.842980712483295e-06, "loss": 0.4412, "step": 1905 }, { "epoch": 0.6353333333333333, "grad_norm": 0.16694355010986328, "learning_rate": 8.828646060410139e-06, "loss": 0.4477, "step": 1906 }, { "epoch": 0.6356666666666667, "grad_norm": 0.12011069059371948, "learning_rate": 8.814318189538876e-06, "loss": 0.4502, "step": 1907 }, { "epoch": 0.636, "grad_norm": 0.12465480715036392, "learning_rate": 8.799997115613242e-06, "loss": 0.4421, "step": 1908 }, { "epoch": 0.6363333333333333, "grad_norm": 0.1634395569562912, "learning_rate": 8.785682854369512e-06, "loss": 0.4487, "step": 1909 }, { "epoch": 0.6366666666666667, "grad_norm": 0.19118636846542358, "learning_rate": 8.771375421536465e-06, "loss": 0.4537, "step": 1910 }, { "epoch": 0.637, "grad_norm": 0.13847550749778748, "learning_rate": 8.757074832835386e-06, "loss": 0.4453, "step": 1911 }, { "epoch": 0.6373333333333333, "grad_norm": 0.13233605027198792, "learning_rate": 8.74278110398004e-06, "loss": 0.4573, "step": 1912 }, { "epoch": 0.6376666666666667, "grad_norm": 0.16247040033340454, "learning_rate": 8.728494250676636e-06, "loss": 0.4472, "step": 1913 }, { "epoch": 0.638, "grad_norm": 0.16531902551651, "learning_rate": 8.714214288623856e-06, "loss": 0.445, "step": 1914 }, { "epoch": 0.6383333333333333, "grad_norm": 0.15184128284454346, "learning_rate": 8.69994123351278e-06, "loss": 0.4491, "step": 1915 }, { "epoch": 0.6386666666666667, "grad_norm": 0.19652915000915527, "learning_rate": 8.685675101026936e-06, "loss": 0.452, "step": 1916 }, { "epoch": 0.639, "grad_norm": 0.171346977353096, "learning_rate": 8.671415906842207e-06, "loss": 0.4564, "step": 1917 }, { "epoch": 0.6393333333333333, "grad_norm": 0.13563266396522522, "learning_rate": 8.657163666626877e-06, "loss": 0.4504, "step": 1918 }, { "epoch": 0.6396666666666667, "grad_norm": 0.12407342344522476, "learning_rate": 8.64291839604158e-06, "loss": 0.4506, "step": 1919 }, { "epoch": 0.64, "grad_norm": 0.1405506432056427, "learning_rate": 8.628680110739283e-06, "loss": 0.4568, "step": 1920 }, { "epoch": 0.6403333333333333, "grad_norm": 0.153152734041214, "learning_rate": 8.614448826365297e-06, "loss": 0.4521, "step": 1921 }, { "epoch": 0.6406666666666667, "grad_norm": 0.15859097242355347, "learning_rate": 8.600224558557224e-06, "loss": 0.4476, "step": 1922 }, { "epoch": 0.641, "grad_norm": 0.17752249538898468, "learning_rate": 8.586007322944967e-06, "loss": 0.4439, "step": 1923 }, { "epoch": 0.6413333333333333, "grad_norm": 0.17975454032421112, "learning_rate": 8.571797135150686e-06, "loss": 0.4437, "step": 1924 }, { "epoch": 0.6416666666666667, "grad_norm": 0.11802849173545837, "learning_rate": 8.557594010788824e-06, "loss": 0.4515, "step": 1925 }, { "epoch": 0.642, "grad_norm": 0.1693839728832245, "learning_rate": 8.54339796546603e-06, "loss": 0.4483, "step": 1926 }, { "epoch": 0.6423333333333333, "grad_norm": 0.13517670333385468, "learning_rate": 8.529209014781202e-06, "loss": 0.4474, "step": 1927 }, { "epoch": 0.6426666666666667, "grad_norm": 0.32714444398880005, "learning_rate": 8.515027174325421e-06, "loss": 0.4562, "step": 1928 }, { "epoch": 0.643, "grad_norm": 0.18290787935256958, "learning_rate": 8.500852459681976e-06, "loss": 0.4521, "step": 1929 }, { "epoch": 0.6433333333333333, "grad_norm": 0.1829795390367508, "learning_rate": 8.486684886426304e-06, "loss": 0.4531, "step": 1930 }, { "epoch": 0.6436666666666667, "grad_norm": 0.23581714928150177, "learning_rate": 8.472524470126008e-06, "loss": 0.4489, "step": 1931 }, { "epoch": 0.644, "grad_norm": 0.17281410098075867, "learning_rate": 8.458371226340835e-06, "loss": 0.4473, "step": 1932 }, { "epoch": 0.6443333333333333, "grad_norm": 0.18796159327030182, "learning_rate": 8.444225170622627e-06, "loss": 0.4551, "step": 1933 }, { "epoch": 0.6446666666666667, "grad_norm": 0.15321554243564606, "learning_rate": 8.430086318515351e-06, "loss": 0.4437, "step": 1934 }, { "epoch": 0.645, "grad_norm": 0.20365898311138153, "learning_rate": 8.41595468555504e-06, "loss": 0.4607, "step": 1935 }, { "epoch": 0.6453333333333333, "grad_norm": 0.15445156395435333, "learning_rate": 8.401830287269811e-06, "loss": 0.4446, "step": 1936 }, { "epoch": 0.6456666666666667, "grad_norm": 0.17456650733947754, "learning_rate": 8.38771313917982e-06, "loss": 0.4566, "step": 1937 }, { "epoch": 0.646, "grad_norm": 0.17046645283699036, "learning_rate": 8.373603256797253e-06, "loss": 0.4469, "step": 1938 }, { "epoch": 0.6463333333333333, "grad_norm": 0.13129237294197083, "learning_rate": 8.359500655626332e-06, "loss": 0.4452, "step": 1939 }, { "epoch": 0.6466666666666666, "grad_norm": 0.1679726541042328, "learning_rate": 8.345405351163251e-06, "loss": 0.4483, "step": 1940 }, { "epoch": 0.647, "grad_norm": 0.23311464488506317, "learning_rate": 8.331317358896214e-06, "loss": 0.4487, "step": 1941 }, { "epoch": 0.6473333333333333, "grad_norm": 0.1429024636745453, "learning_rate": 8.317236694305366e-06, "loss": 0.4462, "step": 1942 }, { "epoch": 0.6476666666666666, "grad_norm": 0.18313561379909515, "learning_rate": 8.303163372862818e-06, "loss": 0.4431, "step": 1943 }, { "epoch": 0.648, "grad_norm": 0.23163796961307526, "learning_rate": 8.289097410032599e-06, "loss": 0.4562, "step": 1944 }, { "epoch": 0.6483333333333333, "grad_norm": 0.1867259293794632, "learning_rate": 8.275038821270659e-06, "loss": 0.4511, "step": 1945 }, { "epoch": 0.6486666666666666, "grad_norm": 0.12599152326583862, "learning_rate": 8.260987622024854e-06, "loss": 0.4513, "step": 1946 }, { "epoch": 0.649, "grad_norm": 0.09844589233398438, "learning_rate": 8.246943827734899e-06, "loss": 0.4532, "step": 1947 }, { "epoch": 0.6493333333333333, "grad_norm": 0.17323224246501923, "learning_rate": 8.232907453832396e-06, "loss": 0.445, "step": 1948 }, { "epoch": 0.6496666666666666, "grad_norm": 0.12326237559318542, "learning_rate": 8.218878515740767e-06, "loss": 0.449, "step": 1949 }, { "epoch": 0.65, "grad_norm": 0.14018161594867706, "learning_rate": 8.204857028875291e-06, "loss": 0.4452, "step": 1950 }, { "epoch": 0.6503333333333333, "grad_norm": 0.19509805738925934, "learning_rate": 8.190843008643037e-06, "loss": 0.4491, "step": 1951 }, { "epoch": 0.6506666666666666, "grad_norm": 0.17423927783966064, "learning_rate": 8.176836470442886e-06, "loss": 0.4531, "step": 1952 }, { "epoch": 0.651, "grad_norm": 0.17106153070926666, "learning_rate": 8.162837429665481e-06, "loss": 0.4413, "step": 1953 }, { "epoch": 0.6513333333333333, "grad_norm": 0.13674265146255493, "learning_rate": 8.14884590169325e-06, "loss": 0.4484, "step": 1954 }, { "epoch": 0.6516666666666666, "grad_norm": 0.19799014925956726, "learning_rate": 8.134861901900334e-06, "loss": 0.4376, "step": 1955 }, { "epoch": 0.652, "grad_norm": 0.19137442111968994, "learning_rate": 8.12088544565264e-06, "loss": 0.4553, "step": 1956 }, { "epoch": 0.6523333333333333, "grad_norm": 0.18754316866397858, "learning_rate": 8.106916548307753e-06, "loss": 0.442, "step": 1957 }, { "epoch": 0.6526666666666666, "grad_norm": 0.16803115606307983, "learning_rate": 8.092955225214962e-06, "loss": 0.451, "step": 1958 }, { "epoch": 0.653, "grad_norm": 0.1450885385274887, "learning_rate": 8.079001491715248e-06, "loss": 0.4521, "step": 1959 }, { "epoch": 0.6533333333333333, "grad_norm": 0.19027674198150635, "learning_rate": 8.06505536314122e-06, "loss": 0.4402, "step": 1960 }, { "epoch": 0.6536666666666666, "grad_norm": 0.19004397094249725, "learning_rate": 8.051116854817179e-06, "loss": 0.4352, "step": 1961 }, { "epoch": 0.654, "grad_norm": 0.3641957640647888, "learning_rate": 8.037185982059005e-06, "loss": 0.4479, "step": 1962 }, { "epoch": 0.6543333333333333, "grad_norm": 0.1995958536863327, "learning_rate": 8.02326276017422e-06, "loss": 0.4536, "step": 1963 }, { "epoch": 0.6546666666666666, "grad_norm": 0.1850118637084961, "learning_rate": 8.009347204461922e-06, "loss": 0.4418, "step": 1964 }, { "epoch": 0.655, "grad_norm": 0.14062193036079407, "learning_rate": 7.99543933021278e-06, "loss": 0.456, "step": 1965 }, { "epoch": 0.6553333333333333, "grad_norm": 0.17289862036705017, "learning_rate": 7.981539152709049e-06, "loss": 0.4416, "step": 1966 }, { "epoch": 0.6556666666666666, "grad_norm": 0.2016402631998062, "learning_rate": 7.967646687224495e-06, "loss": 0.442, "step": 1967 }, { "epoch": 0.656, "grad_norm": 0.2257925420999527, "learning_rate": 7.953761949024442e-06, "loss": 0.4584, "step": 1968 }, { "epoch": 0.6563333333333333, "grad_norm": 0.17190571129322052, "learning_rate": 7.939884953365689e-06, "loss": 0.4413, "step": 1969 }, { "epoch": 0.6566666666666666, "grad_norm": 0.15869510173797607, "learning_rate": 7.926015715496558e-06, "loss": 0.4467, "step": 1970 }, { "epoch": 0.657, "grad_norm": 0.1477171927690506, "learning_rate": 7.912154250656822e-06, "loss": 0.445, "step": 1971 }, { "epoch": 0.6573333333333333, "grad_norm": 0.20549337565898895, "learning_rate": 7.898300574077737e-06, "loss": 0.4496, "step": 1972 }, { "epoch": 0.6576666666666666, "grad_norm": 0.186955064535141, "learning_rate": 7.884454700981973e-06, "loss": 0.4505, "step": 1973 }, { "epoch": 0.658, "grad_norm": 0.18533872067928314, "learning_rate": 7.870616646583648e-06, "loss": 0.4484, "step": 1974 }, { "epoch": 0.6583333333333333, "grad_norm": 0.1654207855463028, "learning_rate": 7.85678642608829e-06, "loss": 0.4459, "step": 1975 }, { "epoch": 0.6586666666666666, "grad_norm": 0.14353342354297638, "learning_rate": 7.842964054692795e-06, "loss": 0.4491, "step": 1976 }, { "epoch": 0.659, "grad_norm": 0.2217366248369217, "learning_rate": 7.82914954758546e-06, "loss": 0.4405, "step": 1977 }, { "epoch": 0.6593333333333333, "grad_norm": 0.12437044084072113, "learning_rate": 7.815342919945922e-06, "loss": 0.4446, "step": 1978 }, { "epoch": 0.6596666666666666, "grad_norm": 0.17929865419864655, "learning_rate": 7.801544186945176e-06, "loss": 0.4411, "step": 1979 }, { "epoch": 0.66, "grad_norm": 0.21923527121543884, "learning_rate": 7.787753363745528e-06, "loss": 0.4504, "step": 1980 }, { "epoch": 0.6603333333333333, "grad_norm": 0.16440168023109436, "learning_rate": 7.773970465500604e-06, "loss": 0.44, "step": 1981 }, { "epoch": 0.6606666666666666, "grad_norm": 0.16407990455627441, "learning_rate": 7.760195507355307e-06, "loss": 0.4531, "step": 1982 }, { "epoch": 0.661, "grad_norm": 0.23955386877059937, "learning_rate": 7.746428504445836e-06, "loss": 0.4472, "step": 1983 }, { "epoch": 0.6613333333333333, "grad_norm": 0.19152548909187317, "learning_rate": 7.732669471899632e-06, "loss": 0.4447, "step": 1984 }, { "epoch": 0.6616666666666666, "grad_norm": 0.11794077605009079, "learning_rate": 7.718918424835381e-06, "loss": 0.4452, "step": 1985 }, { "epoch": 0.662, "grad_norm": 0.14932183921337128, "learning_rate": 7.705175378363003e-06, "loss": 0.4485, "step": 1986 }, { "epoch": 0.6623333333333333, "grad_norm": 0.16379769146442413, "learning_rate": 7.691440347583612e-06, "loss": 0.4444, "step": 1987 }, { "epoch": 0.6626666666666666, "grad_norm": 0.14077985286712646, "learning_rate": 7.677713347589536e-06, "loss": 0.4466, "step": 1988 }, { "epoch": 0.663, "grad_norm": 0.14349988102912903, "learning_rate": 7.663994393464243e-06, "loss": 0.4439, "step": 1989 }, { "epoch": 0.6633333333333333, "grad_norm": 0.14082150161266327, "learning_rate": 7.65028350028241e-06, "loss": 0.4524, "step": 1990 }, { "epoch": 0.6636666666666666, "grad_norm": 0.12440716475248337, "learning_rate": 7.636580683109816e-06, "loss": 0.459, "step": 1991 }, { "epoch": 0.664, "grad_norm": 0.1381293088197708, "learning_rate": 7.622885957003374e-06, "loss": 0.4457, "step": 1992 }, { "epoch": 0.6643333333333333, "grad_norm": 0.22144527733325958, "learning_rate": 7.609199337011123e-06, "loss": 0.4536, "step": 1993 }, { "epoch": 0.6646666666666666, "grad_norm": 0.12061889469623566, "learning_rate": 7.595520838172168e-06, "loss": 0.4464, "step": 1994 }, { "epoch": 0.665, "grad_norm": 0.1934531331062317, "learning_rate": 7.581850475516721e-06, "loss": 0.4458, "step": 1995 }, { "epoch": 0.6653333333333333, "grad_norm": 0.23967750370502472, "learning_rate": 7.568188264066026e-06, "loss": 0.4471, "step": 1996 }, { "epoch": 0.6656666666666666, "grad_norm": 0.1884104609489441, "learning_rate": 7.554534218832393e-06, "loss": 0.4426, "step": 1997 }, { "epoch": 0.666, "grad_norm": 0.18923750519752502, "learning_rate": 7.5408883548191384e-06, "loss": 0.449, "step": 1998 }, { "epoch": 0.6663333333333333, "grad_norm": 0.18437887728214264, "learning_rate": 7.5272506870206094e-06, "loss": 0.4452, "step": 1999 }, { "epoch": 0.6666666666666666, "grad_norm": 0.1798381209373474, "learning_rate": 7.513621230422123e-06, "loss": 0.4437, "step": 2000 } ], "logging_steps": 1.0, "max_steps": 3000, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 1.7194625775297783e+20, "train_batch_size": 2, "trial_name": null, "trial_params": null }