{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.48154093097913325,
  "eval_steps": 500,
  "global_step": 150,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "completion_length": 560.3958587646484,
      "epoch": 0.0032102728731942215,
      "grad_norm": 0.1884765625,
      "kl": 0.0,
      "learning_rate": 6.666666666666667e-08,
      "loss": 0.0,
      "reward": 0.6299200654029846,
      "reward_std": 0.34568188339471817,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3343471363186836,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2955729365348816,
      "step": 1
    },
    {
      "completion_length": 574.9948120117188,
      "epoch": 0.006420545746388443,
      "grad_norm": 0.20703125,
      "kl": 0.0,
      "learning_rate": 1.3333333333333334e-07,
      "loss": 0.0,
      "reward": 0.6667226850986481,
      "reward_std": 0.3381393700838089,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3724518120288849,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2942708432674408,
      "step": 2
    },
    {
      "completion_length": 597.8541870117188,
      "epoch": 0.009630818619582664,
      "grad_norm": 0.185546875,
      "kl": 0.00022509081827593036,
      "learning_rate": 2e-07,
      "loss": 0.0,
      "reward": 0.636066347360611,
      "reward_std": 0.35888948291540146,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.33658717572689056,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.299479179084301,
      "step": 3
    },
    {
      "completion_length": 568.2656555175781,
      "epoch": 0.012841091492776886,
      "grad_norm": 0.2412109375,
      "kl": 0.00023551580670755357,
      "learning_rate": 2.6666666666666667e-07,
      "loss": 0.0,
      "reward": 0.6489640921354294,
      "reward_std": 0.344046413898468,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3677141070365906,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2812500149011612,
      "step": 4
    },
    {
      "completion_length": 637.7135620117188,
      "epoch": 0.016051364365971106,
      "grad_norm": 0.169921875,
      "kl": 0.00023702834732830524,
      "learning_rate": 3.333333333333333e-07,
      "loss": 0.0,
      "reward": 0.6146693080663681,
      "reward_std": 0.35021649301052094,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3256068006157875,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2890625037252903,
      "step": 5
    },
    {
      "completion_length": 607.0260620117188,
      "epoch": 0.019261637239165328,
      "grad_norm": 0.2080078125,
      "kl": 0.00022915955560165457,
      "learning_rate": 4e-07,
      "loss": 0.0,
      "reward": 0.5901845693588257,
      "reward_std": 0.3410582020878792,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3063303604722023,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.283854179084301,
      "step": 6
    },
    {
      "completion_length": 536.9713745117188,
      "epoch": 0.02247191011235955,
      "grad_norm": 0.20703125,
      "kl": 0.00023870709992479533,
      "learning_rate": 4.6666666666666666e-07,
      "loss": 0.0,
      "reward": 0.5996608734130859,
      "reward_std": 0.3273390009999275,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.29497333616018295,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3046875074505806,
      "step": 7
    },
    {
      "completion_length": 579.4062652587891,
      "epoch": 0.025682182985553772,
      "grad_norm": 0.193359375,
      "kl": 0.0002171014821215067,
      "learning_rate": 5.333333333333333e-07,
      "loss": 0.0,
      "reward": 0.6376358270645142,
      "reward_std": 0.34004897624254227,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.355083703994751,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2825520932674408,
      "step": 8
    },
    {
      "completion_length": 546.3750228881836,
      "epoch": 0.028892455858747994,
      "grad_norm": 0.212890625,
      "kl": 0.00022866667859489098,
      "learning_rate": 6e-07,
      "loss": 0.0,
      "reward": 0.6513122767210007,
      "reward_std": 0.32241296768188477,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3576924651861191,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2936197966337204,
      "step": 9
    },
    {
      "completion_length": 573.7396087646484,
      "epoch": 0.03210272873194221,
      "grad_norm": 0.1904296875,
      "kl": 0.0002470466679369565,
      "learning_rate": 6.666666666666666e-07,
      "loss": 0.0,
      "reward": 0.679995134472847,
      "reward_std": 0.3322247415781021,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3909326568245888,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2890625074505806,
      "step": 10
    },
    {
      "completion_length": 563.1927337646484,
      "epoch": 0.03531300160513644,
      "grad_norm": 0.220703125,
      "kl": 0.00023816750763216987,
      "learning_rate": 7.333333333333332e-07,
      "loss": 0.0,
      "reward": 0.6119517982006073,
      "reward_std": 0.3330337107181549,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3124726414680481,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2994791865348816,
      "step": 11
    },
    {
      "completion_length": 520.0416793823242,
      "epoch": 0.038523274478330656,
      "grad_norm": 0.2421875,
      "kl": 0.0002197102876380086,
      "learning_rate": 8e-07,
      "loss": 0.0,
      "reward": 0.608386904001236,
      "reward_std": 0.3292866423726082,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.31997546553611755,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2884114608168602,
      "step": 12
    },
    {
      "completion_length": 564.2135543823242,
      "epoch": 0.04173354735152488,
      "grad_norm": 0.2158203125,
      "kl": 0.00023579742264701054,
      "learning_rate": 8.666666666666667e-07,
      "loss": 0.0,
      "reward": 0.6887014210224152,
      "reward_std": 0.3306478410959244,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.40614935383200645,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2825520895421505,
      "step": 13
    },
    {
      "completion_length": 597.3411712646484,
      "epoch": 0.0449438202247191,
      "grad_norm": 0.18359375,
      "kl": 0.00021818295135744847,
      "learning_rate": 9.333333333333333e-07,
      "loss": 0.0,
      "reward": 0.5946466475725174,
      "reward_std": 0.322207048535347,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3166518397629261,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2779947966337204,
      "step": 14
    },
    {
      "completion_length": 584.4505310058594,
      "epoch": 0.048154093097913325,
      "grad_norm": 0.17578125,
      "kl": 0.00022104514937382191,
      "learning_rate": 1e-06,
      "loss": 0.0,
      "reward": 0.5846492573618889,
      "reward_std": 0.3315364196896553,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.2994930259883404,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2851562574505806,
      "step": 15
    },
    {
      "completion_length": 554.7083587646484,
      "epoch": 0.051364365971107544,
      "grad_norm": 0.2119140625,
      "kl": 0.00023191924265120178,
      "learning_rate": 9.998781585307575e-07,
      "loss": 0.0,
      "reward": 0.6661794185638428,
      "reward_std": 0.3503050282597542,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3647470995783806,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.301432304084301,
      "step": 16
    },
    {
      "completion_length": 580.8854522705078,
      "epoch": 0.05457463884430177,
      "grad_norm": 0.1826171875,
      "kl": 0.0002030548857874237,
      "learning_rate": 9.99512700102336e-07,
      "loss": 0.0,
      "reward": 0.6631067544221878,
      "reward_std": 0.3135067969560623,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3707890138030052,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2923177182674408,
      "step": 17
    },
    {
      "completion_length": 580.8359527587891,
      "epoch": 0.05778491171749599,
      "grad_norm": 0.2001953125,
      "kl": 0.0002304925255884882,
      "learning_rate": 9.989038226169207e-07,
      "loss": 0.0,
      "reward": 0.651978924870491,
      "reward_std": 0.36701615154743195,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3407810106873512,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.311197929084301,
      "step": 18
    },
    {
      "completion_length": 572.1041717529297,
      "epoch": 0.060995184590690206,
      "grad_norm": 0.2236328125,
      "kl": 0.00021570282842731103,
      "learning_rate": 9.98051855792412e-07,
      "loss": 0.0,
      "reward": 0.631376326084137,
      "reward_std": 0.34789177030324936,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3279908671975136,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.303385429084301,
      "step": 19
    },
    {
      "completion_length": 569.4166717529297,
      "epoch": 0.06420545746388442,
      "grad_norm": 0.177734375,
      "kl": 0.00021378670862759463,
      "learning_rate": 9.969572609838744e-07,
      "loss": 0.0,
      "reward": 0.5896809697151184,
      "reward_std": 0.3236342519521713,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.2973632514476776,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2923177182674408,
      "step": 20
    },
    {
      "completion_length": 580.0417022705078,
      "epoch": 0.06741573033707865,
      "grad_norm": 0.1923828125,
      "kl": 0.00023035979393171147,
      "learning_rate": 9.956206309337066e-07,
      "loss": 0.0,
      "reward": 0.6523794531822205,
      "reward_std": 0.3744150176644325,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.35159818083047867,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3007812574505806,
      "step": 21
    },
    {
      "completion_length": 587.8021087646484,
      "epoch": 0.07062600321027288,
      "grad_norm": 0.1962890625,
      "kl": 0.0002475921137374826,
      "learning_rate": 9.940426894506606e-07,
      "loss": 0.0,
      "reward": 0.6196304857730865,
      "reward_std": 0.3361932933330536,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.32015133649110794,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2994791753590107,
      "step": 22
    },
    {
      "completion_length": 518.0104217529297,
      "epoch": 0.0738362760834671,
      "grad_norm": 0.1904296875,
      "kl": 0.00022199605882633477,
      "learning_rate": 9.922242910178859e-07,
      "loss": 0.0,
      "reward": 0.737170621752739,
      "reward_std": 0.3162895292043686,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.44485291838645935,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2923177182674408,
      "step": 23
    },
    {
      "completion_length": 539.7265625,
      "epoch": 0.07704654895666131,
      "grad_norm": 0.1943359375,
      "kl": 0.0002175298322981689,
      "learning_rate": 9.901664203302124e-07,
      "loss": 0.0,
      "reward": 0.7175260633230209,
      "reward_std": 0.3508952334523201,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.40307293832302094,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3144531399011612,
      "step": 24
    },
    {
      "completion_length": 512.5755310058594,
      "epoch": 0.08025682182985554,
      "grad_norm": 0.224609375,
      "kl": 0.0002242086047772318,
      "learning_rate": 9.878701917609207e-07,
      "loss": 0.0,
      "reward": 0.6891498863697052,
      "reward_std": 0.3474579304456711,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.38055606931447983,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3085937574505806,
      "step": 25
    },
    {
      "completion_length": 568.2630310058594,
      "epoch": 0.08346709470304976,
      "grad_norm": 0.20703125,
      "kl": 0.0002301457461726386,
      "learning_rate": 9.853368487582886e-07,
      "loss": 0.0,
      "reward": 0.6178770214319229,
      "reward_std": 0.35181906819343567,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3281634747982025,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2897135466337204,
      "step": 26
    },
    {
      "completion_length": 538.7916946411133,
      "epoch": 0.08667736757624397,
      "grad_norm": 0.2041015625,
      "kl": 0.00026182403962593526,
      "learning_rate": 9.825677631722435e-07,
      "loss": 0.0,
      "reward": 0.7029251009225845,
      "reward_std": 0.360026091337204,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.39693548530340195,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3059896007180214,
      "step": 27
    },
    {
      "completion_length": 552.0781478881836,
      "epoch": 0.0898876404494382,
      "grad_norm": 0.19140625,
      "kl": 0.00023814345331629738,
      "learning_rate": 9.795644345114794e-07,
      "loss": 0.0,
      "reward": 0.7071576714515686,
      "reward_std": 0.33075109869241714,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.4206993207335472,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2864583507180214,
      "step": 28
    },
    {
      "completion_length": 503.5703353881836,
      "epoch": 0.09309791332263243,
      "grad_norm": 0.2197265625,
      "kl": 0.00023130706176743843,
      "learning_rate": 9.76328489131448e-07,
      "loss": 0.0,
      "reward": 0.6565393060445786,
      "reward_std": 0.2805866673588753,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.36096640676259995,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.295572929084301,
      "step": 29
    },
    {
      "completion_length": 532.4583435058594,
      "epoch": 0.09630818619582665,
      "grad_norm": 0.21484375,
      "kl": 0.00023216806584969163,
      "learning_rate": 9.728616793536587e-07,
      "loss": 0.0,
      "reward": 0.6117298901081085,
      "reward_std": 0.32376599311828613,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3122507072985172,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.299479179084301,
      "step": 30
    },
    {
      "completion_length": 576.1484527587891,
      "epoch": 0.09951845906902086,
      "grad_norm": 0.1953125,
      "kl": 0.00021910631767241284,
      "learning_rate": 9.69165882516764e-07,
      "loss": 0.0,
      "reward": 0.6560553312301636,
      "reward_std": 0.3462247848510742,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.37480536848306656,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2812500074505806,
      "step": 31
    },
    {
      "completion_length": 592.3385696411133,
      "epoch": 0.10272873194221509,
      "grad_norm": 0.1767578125,
      "kl": 0.0002467254307703115,
      "learning_rate": 9.65243099959949e-07,
      "loss": 0.0,
      "reward": 0.5856707692146301,
      "reward_std": 0.31634171307086945,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.28033220022916794,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.305338554084301,
      "step": 32
    },
    {
      "completion_length": 583.9010620117188,
      "epoch": 0.10593900481540931,
      "grad_norm": 0.2265625,
      "kl": 0.00024941361698438413,
      "learning_rate": 9.610954559391704e-07,
      "loss": 0.0,
      "reward": 0.6140669733285904,
      "reward_std": 0.32649289071559906,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.327608622610569,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2864583358168602,
      "step": 33
    },
    {
      "completion_length": 538.0364685058594,
      "epoch": 0.10914927768860354,
      "grad_norm": 0.208984375,
      "kl": 0.0002286795133841224,
      "learning_rate": 9.567251964768342e-07,
      "loss": 0.0,
      "reward": 0.6336007714271545,
      "reward_std": 0.32907337695360184,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.34258514642715454,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2910156399011612,
      "step": 34
    },
    {
      "completion_length": 507.6510543823242,
      "epoch": 0.11235955056179775,
      "grad_norm": 0.255859375,
      "kl": 0.00024302997917402536,
      "learning_rate": 9.521346881455354e-07,
      "loss": 0.0,
      "reward": 0.7129171043634415,
      "reward_std": 0.35209202766418457,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.40757858008146286,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3053385615348816,
      "step": 35
    },
    {
      "completion_length": 584.4531555175781,
      "epoch": 0.11556982343499198,
      "grad_norm": 0.2138671875,
      "kl": 0.00023655666518607177,
      "learning_rate": 9.473264167865171e-07,
      "loss": 0.0,
      "reward": 0.6754663735628128,
      "reward_std": 0.33357472717761993,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3831486627459526,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2923177182674408,
      "step": 36
    },
    {
      "completion_length": 619.2396087646484,
      "epoch": 0.1187800963081862,
      "grad_norm": 0.1953125,
      "kl": 0.0002523561015550513,
      "learning_rate": 9.42302986163543e-07,
      "loss": 0.0,
      "reward": 0.6422896459698677,
      "reward_std": 0.3401486799120903,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3831750750541687,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2591145858168602,
      "step": 37
    },
    {
      "completion_length": 632.1067962646484,
      "epoch": 0.12199036918138041,
      "grad_norm": 0.19140625,
      "kl": 0.00025913729768944904,
      "learning_rate": 9.370671165529144e-07,
      "loss": 0.0,
      "reward": 0.5953093469142914,
      "reward_std": 0.33438971638679504,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3147103600203991,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2805989757180214,
      "step": 38
    },
    {
      "completion_length": 569.0026397705078,
      "epoch": 0.12520064205457465,
      "grad_norm": 0.208984375,
      "kl": 0.0002631417410157155,
      "learning_rate": 9.316216432703916e-07,
      "loss": 0.0,
      "reward": 0.6718064844608307,
      "reward_std": 0.3528323844075203,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3859991952776909,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2858073115348816,
      "step": 39
    },
    {
      "completion_length": 542.0260620117188,
      "epoch": 0.12841091492776885,
      "grad_norm": 0.2353515625,
      "kl": 0.0002535913408792112,
      "learning_rate": 9.259695151358214e-07,
      "loss": 0.0,
      "reward": 0.6311447024345398,
      "reward_std": 0.3200613558292389,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3459884449839592,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2851562574505806,
      "step": 40
    },
    {
      "completion_length": 573.9167022705078,
      "epoch": 0.13162118780096307,
      "grad_norm": 0.1923828125,
      "kl": 0.0002568592317402363,
      "learning_rate": 9.20113792876298e-07,
      "loss": 0.0,
      "reward": 0.6579329371452332,
      "reward_std": 0.33611204475164413,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3617089316248894,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2962239682674408,
      "step": 41
    },
    {
      "completion_length": 563.0416793823242,
      "epoch": 0.1348314606741573,
      "grad_norm": 0.205078125,
      "kl": 0.00026875592448050156,
      "learning_rate": 9.140576474687263e-07,
      "loss": 0.0,
      "reward": 0.6627669483423233,
      "reward_std": 0.3593166694045067,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3750064894556999,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2877604253590107,
      "step": 42
    },
    {
      "completion_length": 496.56251525878906,
      "epoch": 0.13804173354735153,
      "grad_norm": 0.2275390625,
      "kl": 0.0002509369187464472,
      "learning_rate": 9.078043584226815e-07,
      "loss": 0.0,
      "reward": 0.693062499165535,
      "reward_std": 0.3470332473516464,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3753541484475136,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3177083432674408,
      "step": 43
    },
    {
      "completion_length": 589.6536712646484,
      "epoch": 0.14125200642054575,
      "grad_norm": 0.1884765625,
      "kl": 0.0002775079774437472,
      "learning_rate": 9.013573120044966e-07,
      "loss": 0.0,
      "reward": 0.5451524406671524,
      "reward_std": 0.3420337289571762,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.2665066123008728,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2786458432674408,
      "step": 44
    },
    {
      "completion_length": 515.5677261352539,
      "epoch": 0.14446227929373998,
      "grad_norm": 0.2431640625,
      "kl": 0.00026737275038613006,
      "learning_rate": 8.9471999940354e-07,
      "loss": 0.0,
      "reward": 0.6689368337392807,
      "reward_std": 0.3494330644607544,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3753170371055603,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2936197966337204,
      "step": 45
    },
    {
      "completion_length": 531.6041870117188,
      "epoch": 0.1476725521669342,
      "grad_norm": 0.2158203125,
      "kl": 0.00027584553754422814,
      "learning_rate": 8.878960148416747e-07,
      "loss": 0.0,
      "reward": 0.6247715353965759,
      "reward_std": 0.3459451347589493,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3357090353965759,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2890625149011612,
      "step": 46
    },
    {
      "completion_length": 523.8359527587891,
      "epoch": 0.1508828250401284,
      "grad_norm": 0.2109375,
      "kl": 0.0002594252800918184,
      "learning_rate": 8.808890536269229e-07,
      "loss": 0.0,
      "reward": 0.6625895947217941,
      "reward_std": 0.35964568704366684,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.36180833727121353,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3007812574505806,
      "step": 47
    },
    {
      "completion_length": 572.2395935058594,
      "epoch": 0.15409309791332262,
      "grad_norm": 0.2001953125,
      "kl": 0.0002760118877631612,
      "learning_rate": 8.737029101523929e-07,
      "loss": 0.0,
      "reward": 0.6687695384025574,
      "reward_std": 0.3379608243703842,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.36733726412057877,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.301432304084301,
      "step": 48
    },
    {
      "completion_length": 565.372428894043,
      "epoch": 0.15730337078651685,
      "grad_norm": 0.2109375,
      "kl": 0.00026545282889856026,
      "learning_rate": 8.663414758415478e-07,
      "loss": 0.0,
      "reward": 0.6460029184818268,
      "reward_std": 0.33386022597551346,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3458726927638054,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3001302108168602,
      "step": 49
    },
    {
      "completion_length": 540.8411560058594,
      "epoch": 0.16051364365971107,
      "grad_norm": 0.2177734375,
      "kl": 0.0002867219809559174,
      "learning_rate": 8.588087370409302e-07,
      "loss": 0.0,
      "reward": 0.6432211250066757,
      "reward_std": 0.35255035012960434,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3235596604645252,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3196614682674408,
      "step": 50
    },
    {
      "completion_length": 583.2864685058594,
      "epoch": 0.1637239165329053,
      "grad_norm": 0.220703125,
      "kl": 0.0003001616059918888,
      "learning_rate": 8.511087728614862e-07,
      "loss": 0.0,
      "reward": 0.6296520233154297,
      "reward_std": 0.3602987676858902,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3295218013226986,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3001302182674408,
      "step": 51
    },
    {
      "completion_length": 596.6302185058594,
      "epoch": 0.16693418940609953,
      "grad_norm": 0.2412109375,
      "kl": 0.0002572698904259596,
      "learning_rate": 8.432457529696548e-07,
      "loss": 0.0,
      "reward": 0.6288764774799347,
      "reward_std": 0.3630865290760994,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3443712741136551,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2845052257180214,
      "step": 52
    },
    {
      "completion_length": 476.7343978881836,
      "epoch": 0.17014446227929375,
      "grad_norm": 0.23828125,
      "kl": 0.0003045099292648956,
      "learning_rate": 8.352239353294194e-07,
      "loss": 0.0,
      "reward": 0.6977786123752594,
      "reward_std": 0.36942026019096375,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3748619332909584,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.322916679084301,
      "step": 53
    },
    {
      "completion_length": 594.0599060058594,
      "epoch": 0.17335473515248795,
      "grad_norm": 0.1982421875,
      "kl": 0.0002901406696764752,
      "learning_rate": 8.270476638965461e-07,
      "loss": 0.0,
      "reward": 0.614113561809063,
      "reward_std": 0.30325619876384735,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.30291564762592316,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3111979216337204,
      "step": 54
    },
    {
      "completion_length": 540.8698120117188,
      "epoch": 0.17656500802568217,
      "grad_norm": 0.2177734375,
      "kl": 0.0002815077095874585,
      "learning_rate": 8.187213662662538e-07,
      "loss": 0.0,
      "reward": 0.7013998925685883,
      "reward_std": 0.345312163233757,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.39671240001916885,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3046875074505806,
      "step": 55
    },
    {
      "completion_length": 551.1432342529297,
      "epoch": 0.1797752808988764,
      "grad_norm": 0.208984375,
      "kl": 0.0003022913369932212,
      "learning_rate": 8.102495512755938e-07,
      "loss": 0.0,
      "reward": 0.6621358841657639,
      "reward_std": 0.3478364497423172,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.35614627599716187,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3059896007180214,
      "step": 56
    },
    {
      "completion_length": 541.5338668823242,
      "epoch": 0.18298555377207062,
      "grad_norm": 0.251953125,
      "kl": 0.00029883202660130337,
      "learning_rate": 8.01636806561836e-07,
      "loss": 0.0,
      "reward": 0.6321840733289719,
      "reward_std": 0.3268617168068886,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3522360995411873,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2799479216337204,
      "step": 57
    },
    {
      "completion_length": 534.2135620117188,
      "epoch": 0.18619582664526485,
      "grad_norm": 0.2177734375,
      "kl": 0.00031317536922870204,
      "learning_rate": 7.928877960781808e-07,
      "loss": 0.0,
      "reward": 0.6300312578678131,
      "reward_std": 0.31237364560365677,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3422708138823509,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2877604216337204,
      "step": 58
    },
    {
      "completion_length": 569.7265930175781,
      "epoch": 0.18940609951845908,
      "grad_norm": 0.1943359375,
      "kl": 0.0002944675215985626,
      "learning_rate": 7.840072575681468e-07,
      "loss": 0.0,
      "reward": 0.6045078411698341,
      "reward_std": 0.33760548382997513,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.30958598107099533,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2949218824505806,
      "step": 59
    },
    {
      "completion_length": 546.7135467529297,
      "epoch": 0.1926163723916533,
      "grad_norm": 0.244140625,
      "kl": 0.0003155921949655749,
      "learning_rate": 7.75e-07,
      "loss": 0.0,
      "reward": 0.6555080115795135,
      "reward_std": 0.32254888117313385,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.33779964968562126,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3177083432674408,
      "step": 60
    },
    {
      "completion_length": 544.5573120117188,
      "epoch": 0.1958266452648475,
      "grad_norm": 0.193359375,
      "kl": 0.00029893887403886765,
      "learning_rate": 7.658709009626109e-07,
      "loss": 0.0,
      "reward": 0.6744174212217331,
      "reward_std": 0.33529237657785416,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3684278205037117,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3059895932674408,
      "step": 61
    },
    {
      "completion_length": 499.6224136352539,
      "epoch": 0.19903691813804172,
      "grad_norm": 0.2353515625,
      "kl": 0.00032137856032932177,
      "learning_rate": 7.566249040241553e-07,
      "loss": 0.0,
      "reward": 0.6523666083812714,
      "reward_std": 0.32566210627555847,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.34898117184638977,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3033854216337204,
      "step": 62
    },
    {
      "completion_length": 578.7239837646484,
      "epoch": 0.20224719101123595,
      "grad_norm": 0.20703125,
      "kl": 0.0003287481522420421,
      "learning_rate": 7.472670160550848e-07,
      "loss": 0.0,
      "reward": 0.634161502122879,
      "reward_std": 0.34120889008045197,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3372865132987499,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2968750074505806,
      "step": 63
    },
    {
      "completion_length": 506.3177261352539,
      "epoch": 0.20545746388443017,
      "grad_norm": 0.2412109375,
      "kl": 0.0003212923475075513,
      "learning_rate": 7.37802304516818e-07,
      "loss": 0.0,
      "reward": 0.6933595240116119,
      "reward_std": 0.3754495605826378,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.38085950165987015,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3125000074505806,
      "step": 64
    },
    {
      "completion_length": 581.5833587646484,
      "epoch": 0.2086677367576244,
      "grad_norm": 0.181640625,
      "kl": 0.00029418900521704927,
      "learning_rate": 7.282358947176205e-07,
      "loss": 0.0,
      "reward": 0.6189248859882355,
      "reward_std": 0.33084874600172043,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3142373785376549,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3046875149011612,
      "step": 65
    },
    {
      "completion_length": 534.5729446411133,
      "epoch": 0.21187800963081863,
      "grad_norm": 0.224609375,
      "kl": 0.00033117266866611317,
      "learning_rate": 7.185729670371604e-07,
      "loss": 0.0,
      "reward": 0.6608574390411377,
      "reward_std": 0.31472062319517136,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3600761741399765,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3007812574505806,
      "step": 66
    },
    {
      "completion_length": 517.5755386352539,
      "epoch": 0.21508828250401285,
      "grad_norm": 0.23828125,
      "kl": 0.00034513785067247227,
      "learning_rate": 7.08818754121241e-07,
      "loss": 0.0,
      "reward": 0.6840898096561432,
      "reward_std": 0.3518378511071205,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3644283339381218,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3196614682674408,
      "step": 67
    },
    {
      "completion_length": 534.2578353881836,
      "epoch": 0.21829855537720708,
      "grad_norm": 0.20703125,
      "kl": 0.00032389759144280106,
      "learning_rate": 6.989785380482312e-07,
      "loss": 0.0,
      "reward": 0.7169905304908752,
      "reward_std": 0.3356803208589554,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.39472493529319763,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3222656324505806,
      "step": 68
    },
    {
      "completion_length": 593.1797027587891,
      "epoch": 0.22150882825040127,
      "grad_norm": 0.205078125,
      "kl": 0.00034336688258918,
      "learning_rate": 6.890576474687263e-07,
      "loss": 0.0,
      "reward": 0.6631477773189545,
      "reward_std": 0.37854011356830597,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.34023110568523407,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.322916679084301,
      "step": 69
    },
    {
      "completion_length": 629.6015625,
      "epoch": 0.2247191011235955,
      "grad_norm": 0.185546875,
      "kl": 0.00032993722561514005,
      "learning_rate": 6.790614547199906e-07,
      "loss": 0.0,
      "reward": 0.5925078019499779,
      "reward_std": 0.3088828846812248,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3125598691403866,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.279947929084301,
      "step": 70
    },
    {
      "completion_length": 559.5963897705078,
      "epoch": 0.22792937399678972,
      "grad_norm": 0.2255859375,
      "kl": 0.0003137872990919277,
      "learning_rate": 6.68995372916741e-07,
      "loss": 0.0,
      "reward": 0.7026459574699402,
      "reward_std": 0.33306000381708145,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.392750084400177,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3098958432674408,
      "step": 71
    },
    {
      "completion_length": 494.39845275878906,
      "epoch": 0.23113964686998395,
      "grad_norm": 0.2275390625,
      "kl": 0.0003587143437471241,
      "learning_rate": 6.588648530198504e-07,
      "loss": 0.0,
      "reward": 0.6391649395227432,
      "reward_std": 0.3157573267817497,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.32080554217100143,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3183593824505806,
      "step": 72
    },
    {
      "completion_length": 583.8672027587891,
      "epoch": 0.23434991974317818,
      "grad_norm": 0.1875,
      "kl": 0.0002944624357041903,
      "learning_rate": 6.486753808845564e-07,
      "loss": 0.0,
      "reward": 0.6462114006280899,
      "reward_std": 0.33720824867486954,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3584509789943695,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.287760429084301,
      "step": 73
    },
    {
      "completion_length": 509.7161560058594,
      "epoch": 0.2375601926163724,
      "grad_norm": 0.2333984375,
      "kl": 0.00037064859498059377,
      "learning_rate": 6.384324742897735e-07,
      "loss": 0.0,
      "reward": 0.6612931340932846,
      "reward_std": 0.3572119027376175,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3448868505656719,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3164062649011612,
      "step": 74
    },
    {
      "completion_length": 549.5651245117188,
      "epoch": 0.24077046548956663,
      "grad_norm": 0.197265625,
      "kl": 0.00032304248452419415,
      "learning_rate": 6.281416799501187e-07,
      "loss": 0.0,
      "reward": 0.6797159165143967,
      "reward_std": 0.34857943654060364,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.36135654896497726,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3183593824505806,
      "step": 75
    },
    {
      "completion_length": 572.7578353881836,
      "epoch": 0.24398073836276082,
      "grad_norm": 0.2119140625,
      "kl": 0.0003249031215091236,
      "learning_rate": 6.178085705122674e-07,
      "loss": 0.0,
      "reward": 0.6995292603969574,
      "reward_std": 0.3806586042046547,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3727063462138176,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3268229216337204,
      "step": 76
    },
    {
      "completion_length": 507.5078353881836,
      "epoch": 0.24719101123595505,
      "grad_norm": 0.255859375,
      "kl": 0.0003559839096851647,
      "learning_rate": 6.074387415372676e-07,
      "loss": 0.0,
      "reward": 0.7540216147899628,
      "reward_std": 0.38066261261701584,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.43045392632484436,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3235677182674408,
      "step": 77
    },
    {
      "completion_length": 618.5390930175781,
      "epoch": 0.2504012841091493,
      "grad_norm": 0.220703125,
      "kl": 0.0003840129793388769,
      "learning_rate": 5.97037808470444e-07,
      "loss": 0.0,
      "reward": 0.5318701416254044,
      "reward_std": 0.35173140466213226,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.26559409499168396,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2662760466337204,
      "step": 78
    },
    {
      "completion_length": 514.5781555175781,
      "epoch": 0.2536115569823435,
      "grad_norm": 0.234375,
      "kl": 0.00037649404839612544,
      "learning_rate": 5.866114036005362e-07,
      "loss": 0.0,
      "reward": 0.677052691578865,
      "reward_std": 0.36026471108198166,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.35348496586084366,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3235677257180214,
      "step": 79
    },
    {
      "completion_length": 546.5338745117188,
      "epoch": 0.2568218298555377,
      "grad_norm": 0.19921875,
      "kl": 0.0003384711453691125,
      "learning_rate": 5.761651730097142e-07,
      "loss": 0.0,
      "reward": 0.6351290941238403,
      "reward_std": 0.34162163734436035,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.34281135350465775,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2923177257180214,
      "step": 80
    },
    {
      "completion_length": 545.1432495117188,
      "epoch": 0.26003210272873195,
      "grad_norm": 0.2001953125,
      "kl": 0.0003302170734968968,
      "learning_rate": 5.657047735161255e-07,
      "loss": 0.0,
      "reward": 0.7321957647800446,
      "reward_std": 0.3832404538989067,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.42946138232946396,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3027343824505806,
      "step": 81
    },
    {
      "completion_length": 602.4036712646484,
      "epoch": 0.26324237560192615,
      "grad_norm": 0.169921875,
      "kl": 0.0003239936995669268,
      "learning_rate": 5.552358696106288e-07,
      "loss": 0.0,
      "reward": 0.6142081022262573,
      "reward_std": 0.33728527277708054,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.31277579814195633,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.301432304084301,
      "step": 82
    },
    {
      "completion_length": 562.7057495117188,
      "epoch": 0.2664526484751204,
      "grad_norm": 0.240234375,
      "kl": 0.00037012308894190937,
      "learning_rate": 5.447641303893714e-07,
      "loss": 0.0,
      "reward": 0.6191717982292175,
      "reward_std": 0.3545895963907242,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.31578636169433594,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.303385429084301,
      "step": 83
    },
    {
      "completion_length": 543.9427261352539,
      "epoch": 0.2696629213483146,
      "grad_norm": 0.2314453125,
      "kl": 0.00037831455847481266,
      "learning_rate": 5.342952264838747e-07,
      "loss": 0.0,
      "reward": 0.7242841571569443,
      "reward_std": 0.3670550063252449,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.4020185172557831,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3222656324505806,
      "step": 84
    },
    {
      "completion_length": 558.5781555175781,
      "epoch": 0.27287319422150885,
      "grad_norm": 0.22265625,
      "kl": 0.00036308395647211,
      "learning_rate": 5.238348269902859e-07,
      "loss": 0.0,
      "reward": 0.6587125062942505,
      "reward_std": 0.36182229965925217,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3572801947593689,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.301432304084301,
      "step": 85
    },
    {
      "completion_length": 581.3099060058594,
      "epoch": 0.27608346709470305,
      "grad_norm": 0.23046875,
      "kl": 0.00038044428947614506,
      "learning_rate": 5.133885963994639e-07,
      "loss": 0.0,
      "reward": 0.6719960719347,
      "reward_std": 0.3624914661049843,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3588450253009796,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.313151054084301,
      "step": 86
    },
    {
      "completion_length": 580.1745147705078,
      "epoch": 0.27929373996789725,
      "grad_norm": 0.1767578125,
      "kl": 0.00034601552761159837,
      "learning_rate": 5.02962191529556e-07,
      "loss": 0.0,
      "reward": 0.6323724538087845,
      "reward_std": 0.32785172015428543,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3433099538087845,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2890625074505806,
      "step": 87
    },
    {
      "completion_length": 530.0156326293945,
      "epoch": 0.2825040128410915,
      "grad_norm": 0.220703125,
      "kl": 0.00040156069735530764,
      "learning_rate": 4.925612584627324e-07,
      "loss": 0.0,
      "reward": 0.7260984629392624,
      "reward_std": 0.38204891979694366,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3940671756863594,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.33203125,
      "step": 88
    },
    {
      "completion_length": 548.8020935058594,
      "epoch": 0.2857142857142857,
      "grad_norm": 0.248046875,
      "kl": 0.0004189757601125166,
      "learning_rate": 4.821914294877326e-07,
      "loss": 0.0,
      "reward": 0.6541236937046051,
      "reward_std": 0.344281330704689,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3533423990011215,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3007812574505806,
      "step": 89
    },
    {
      "completion_length": 609.1432342529297,
      "epoch": 0.28892455858747995,
      "grad_norm": 0.1982421875,
      "kl": 0.0003810434936895035,
      "learning_rate": 4.7185832004988133e-07,
      "loss": 0.0,
      "reward": 0.5851198732852936,
      "reward_std": 0.32441411167383194,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.2947552725672722,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2903645858168602,
      "step": 90
    },
    {
      "completion_length": 574.8021087646484,
      "epoch": 0.29213483146067415,
      "grad_norm": 0.2255859375,
      "kl": 0.0003523045379552059,
      "learning_rate": 4.6156752571022637e-07,
      "loss": 0.0,
      "reward": 0.6396794319152832,
      "reward_std": 0.33973030745983124,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3525700494647026,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.287109375,
      "step": 91
    },
    {
      "completion_length": 551.4505462646484,
      "epoch": 0.2953451043338684,
      "grad_norm": 0.1845703125,
      "kl": 0.00035572806518757716,
      "learning_rate": 4.513246191154434e-07,
      "loss": 0.0,
      "reward": 0.6876581907272339,
      "reward_std": 0.3704243451356888,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3888300210237503,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2988281399011612,
      "step": 92
    },
    {
      "completion_length": 560.6718902587891,
      "epoch": 0.2985553772070626,
      "grad_norm": 0.2001953125,
      "kl": 0.0003872549714287743,
      "learning_rate": 4.4113514698014953e-07,
      "loss": 0.0,
      "reward": 0.6538409739732742,
      "reward_std": 0.35449104756116867,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.35175760090351105,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3020833432674408,
      "step": 93
    },
    {
      "completion_length": 607.7396087646484,
      "epoch": 0.3017656500802568,
      "grad_norm": 0.263671875,
      "kl": 0.0003801950879278593,
      "learning_rate": 4.3100462708325914e-07,
      "loss": 0.0,
      "reward": 0.5898270905017853,
      "reward_std": 0.3407137244939804,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3066239655017853,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2832031287252903,
      "step": 94
    },
    {
      "completion_length": 496.19793701171875,
      "epoch": 0.30497592295345105,
      "grad_norm": 0.240234375,
      "kl": 0.0003671470913104713,
      "learning_rate": 4.209385452800095e-07,
      "loss": 0.0,
      "reward": 0.7184917479753494,
      "reward_std": 0.3648832216858864,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.38646050542593,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3320312574505806,
      "step": 95
    },
    {
      "completion_length": 508.57554626464844,
      "epoch": 0.30818619582664525,
      "grad_norm": 0.2265625,
      "kl": 0.00038119566306704655,
      "learning_rate": 4.1094235253127374e-07,
      "loss": 0.0,
      "reward": 0.6568552851676941,
      "reward_std": 0.3511122092604637,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3293813392519951,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3274739682674408,
      "step": 96
    },
    {
      "completion_length": 549.0312652587891,
      "epoch": 0.3113964686998395,
      "grad_norm": 0.21484375,
      "kl": 0.0003632343214121647,
      "learning_rate": 4.0102146195176887e-07,
      "loss": 0.0,
      "reward": 0.7204606682062149,
      "reward_std": 0.3499609977006912,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.4001481980085373,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3203125074505806,
      "step": 97
    },
    {
      "completion_length": 490.3802261352539,
      "epoch": 0.3146067415730337,
      "grad_norm": 0.2255859375,
      "kl": 0.00044602488924283534,
      "learning_rate": 3.911812458787591e-07,
      "loss": 0.0,
      "reward": 0.6808420717716217,
      "reward_std": 0.35114526003599167,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3728993684053421,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3079427182674408,
      "step": 98
    },
    {
      "completion_length": 524.2682342529297,
      "epoch": 0.31781701444622795,
      "grad_norm": 0.20703125,
      "kl": 0.0003882949022226967,
      "learning_rate": 3.8142703296283953e-07,
      "loss": 0.0,
      "reward": 0.6448683142662048,
      "reward_std": 0.3429142013192177,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.33367037773132324,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.311197929084301,
      "step": 99
    },
    {
      "completion_length": 557.1823043823242,
      "epoch": 0.32102728731942215,
      "grad_norm": 0.1884765625,
      "kl": 0.00035858208866557106,
      "learning_rate": 3.7176410528237945e-07,
      "loss": 0.0,
      "reward": 0.6761815696954727,
      "reward_std": 0.3675583600997925,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.35326486080884933,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.322916679084301,
      "step": 100
    },
    {
      "completion_length": 564.6927337646484,
      "epoch": 0.32423756019261635,
      "grad_norm": 0.22265625,
      "kl": 0.00038343547930708155,
      "learning_rate": 3.62197695483182e-07,
      "loss": 0.0,
      "reward": 0.6524051502346992,
      "reward_std": 0.36947014927864075,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.34055614471435547,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3118489682674408,
      "step": 101
    },
    {
      "completion_length": 551.9453353881836,
      "epoch": 0.3274478330658106,
      "grad_norm": 0.2294921875,
      "kl": 0.0003793273790506646,
      "learning_rate": 3.5273298394491515e-07,
      "loss": 0.0,
      "reward": 0.6944572031497955,
      "reward_std": 0.37888605892658234,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.37870199978351593,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3157552182674408,
      "step": 102
    },
    {
      "completion_length": 530.1771011352539,
      "epoch": 0.3306581059390048,
      "grad_norm": 0.22265625,
      "kl": 0.00038907503767404705,
      "learning_rate": 3.433750959758446e-07,
      "loss": 0.0,
      "reward": 0.6862371563911438,
      "reward_std": 0.3600939214229584,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3555079624056816,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3307291716337204,
      "step": 103
    },
    {
      "completion_length": 504.72398376464844,
      "epoch": 0.33386837881219905,
      "grad_norm": 0.2265625,
      "kl": 0.0004411861809785478,
      "learning_rate": 3.3412909903738936e-07,
      "loss": 0.0,
      "reward": 0.7003691345453262,
      "reward_std": 0.34579480439424515,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.38917120546102524,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.311197929084301,
      "step": 104
    },
    {
      "completion_length": 579.5859527587891,
      "epoch": 0.33707865168539325,
      "grad_norm": 0.2060546875,
      "kl": 0.0003610364656196907,
      "learning_rate": 3.250000000000001e-07,
      "loss": 0.0,
      "reward": 0.7041359394788742,
      "reward_std": 0.3546976149082184,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3883807212114334,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3157552182674408,
      "step": 105
    },
    {
      "completion_length": 504.9349136352539,
      "epoch": 0.3402889245585875,
      "grad_norm": 0.2294921875,
      "kl": 0.0004345797060523182,
      "learning_rate": 3.159927424318531e-07,
      "loss": 0.0,
      "reward": 0.7195965945720673,
      "reward_std": 0.34991642087697983,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.39863305538892746,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3209635466337204,
      "step": 106
    },
    {
      "completion_length": 521.9349060058594,
      "epoch": 0.3434991974317817,
      "grad_norm": 0.2333984375,
      "kl": 0.0004348123256932013,
      "learning_rate": 3.0711220392181934e-07,
      "loss": 0.0,
      "reward": 0.5767635926604271,
      "reward_std": 0.3495699018239975,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.2896541878581047,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2871093824505806,
      "step": 107
    },
    {
      "completion_length": 578.0781402587891,
      "epoch": 0.3467094703049759,
      "grad_norm": 0.26171875,
      "kl": 0.0003971747573814355,
      "learning_rate": 2.9836319343816397e-07,
      "loss": 0.0,
      "reward": 0.5868955999612808,
      "reward_std": 0.3408031612634659,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.29587996006011963,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2910156324505806,
      "step": 108
    },
    {
      "completion_length": 558.0286712646484,
      "epoch": 0.34991974317817015,
      "grad_norm": 0.1845703125,
      "kl": 0.00036870845360681415,
      "learning_rate": 2.897504487244061e-07,
      "loss": 0.0,
      "reward": 0.6787082105875015,
      "reward_std": 0.3448420986533165,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3570936322212219,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3216145932674408,
      "step": 109
    },
    {
      "completion_length": 547.6562652587891,
      "epoch": 0.35313001605136435,
      "grad_norm": 0.2158203125,
      "kl": 0.00039495840610470623,
      "learning_rate": 2.812786337337463e-07,
      "loss": 0.0,
      "reward": 0.5997674912214279,
      "reward_std": 0.32131277769804,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3054966703057289,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2942708432674408,
      "step": 110
    },
    {
      "completion_length": 552.3463745117188,
      "epoch": 0.3563402889245586,
      "grad_norm": 0.2578125,
      "kl": 0.00039361264498438686,
      "learning_rate": 2.729523361034538e-07,
      "loss": 0.0,
      "reward": 0.5880802720785141,
      "reward_std": 0.34414373338222504,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.2827417254447937,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.305338554084301,
      "step": 111
    },
    {
      "completion_length": 542.1927185058594,
      "epoch": 0.3595505617977528,
      "grad_norm": 0.1904296875,
      "kl": 0.0003947726945625618,
      "learning_rate": 2.6477606467058035e-07,
      "loss": 0.0,
      "reward": 0.6639807671308517,
      "reward_std": 0.3379776254296303,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.32934536039829254,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.334635429084301,
      "step": 112
    },
    {
      "completion_length": 550.3698043823242,
      "epoch": 0.36276083467094705,
      "grad_norm": 0.2119140625,
      "kl": 0.00041885858081514016,
      "learning_rate": 2.567542470303452e-07,
      "loss": 0.0,
      "reward": 0.6352178752422333,
      "reward_std": 0.3331167697906494,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3402960002422333,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2949218824505806,
      "step": 113
    },
    {
      "completion_length": 520.3073120117188,
      "epoch": 0.36597110754414125,
      "grad_norm": 0.2158203125,
      "kl": 0.00037509016692638397,
      "learning_rate": 2.488912271385139e-07,
      "loss": 0.0,
      "reward": 0.6496723890304565,
      "reward_std": 0.36061549186706543,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.33131300657987595,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3183593824505806,
      "step": 114
    },
    {
      "completion_length": 545.2890701293945,
      "epoch": 0.36918138041733545,
      "grad_norm": 0.2412109375,
      "kl": 0.00040495285793440416,
      "learning_rate": 2.411912629590699e-07,
      "loss": 0.0,
      "reward": 0.6173844560980797,
      "reward_std": 0.3021947294473648,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3328792154788971,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2845052108168602,
      "step": 115
    },
    {
      "completion_length": 597.0130462646484,
      "epoch": 0.3723916532905297,
      "grad_norm": 0.205078125,
      "kl": 0.0003835263050859794,
      "learning_rate": 2.336585241584522e-07,
      "loss": 0.0,
      "reward": 0.6083859652280807,
      "reward_std": 0.34971795231103897,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.31671928614377975,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2916666716337204,
      "step": 116
    },
    {
      "completion_length": 505.15106201171875,
      "epoch": 0.3756019261637239,
      "grad_norm": 0.259765625,
      "kl": 0.0004204789365758188,
      "learning_rate": 2.2629708984760706e-07,
      "loss": 0.0,
      "reward": 0.6160649359226227,
      "reward_std": 0.3238491714000702,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3263513892889023,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2897135466337204,
      "step": 117
    },
    {
      "completion_length": 567.8411712646484,
      "epoch": 0.37881219903691815,
      "grad_norm": 0.197265625,
      "kl": 0.0003820292549789883,
      "learning_rate": 2.1911094637307714e-07,
      "loss": 0.0,
      "reward": 0.5847776532173157,
      "reward_std": 0.33124052733182907,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.2970172315835953,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2877604216337204,
      "step": 118
    },
    {
      "completion_length": 539.3724136352539,
      "epoch": 0.38202247191011235,
      "grad_norm": 0.212890625,
      "kl": 0.0003783565916819498,
      "learning_rate": 2.1210398515832536e-07,
      "loss": 0.0,
      "reward": 0.7074552923440933,
      "reward_std": 0.33786971867084503,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3910490423440933,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3164062574505806,
      "step": 119
    },
    {
      "completion_length": 578.6484527587891,
      "epoch": 0.3852327447833066,
      "grad_norm": 0.208984375,
      "kl": 0.00036553355312207714,
      "learning_rate": 2.0528000059645995e-07,
      "loss": 0.0,
      "reward": 0.6493179947137833,
      "reward_std": 0.35857032984495163,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.35374507308006287,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.295572929084301,
      "step": 120
    },
    {
      "completion_length": 516.8437576293945,
      "epoch": 0.3884430176565008,
      "grad_norm": 0.2373046875,
      "kl": 0.00045376412163022906,
      "learning_rate": 1.986426879955034e-07,
      "loss": 0.0,
      "reward": 0.684567391872406,
      "reward_std": 0.3590117618441582,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3818329870700836,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3027343824505806,
      "step": 121
    },
    {
      "completion_length": 551.9687652587891,
      "epoch": 0.391653290529695,
      "grad_norm": 0.193359375,
      "kl": 0.0003975575600634329,
      "learning_rate": 1.9219564157731844e-07,
      "loss": 0.0,
      "reward": 0.6631377786397934,
      "reward_std": 0.377517007291317,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3408721387386322,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3222656399011612,
      "step": 122
    },
    {
      "completion_length": 525.5026245117188,
      "epoch": 0.39486356340288925,
      "grad_norm": 0.21875,
      "kl": 0.00042099927668459713,
      "learning_rate": 1.8594235253127372e-07,
      "loss": 0.0,
      "reward": 0.7239128798246384,
      "reward_std": 0.35999199748039246,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.40815767645835876,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3157552182674408,
      "step": 123
    },
    {
      "completion_length": 523.8567886352539,
      "epoch": 0.39807383627608345,
      "grad_norm": 0.318359375,
      "kl": 0.00044889742275699973,
      "learning_rate": 1.7988620712370195e-07,
      "loss": 0.0,
      "reward": 0.716105192899704,
      "reward_std": 0.345996156334877,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.4315999895334244,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2845052182674408,
      "step": 124
    },
    {
      "completion_length": 522.7838668823242,
      "epoch": 0.4012841091492777,
      "grad_norm": 0.255859375,
      "kl": 0.00039373226172756404,
      "learning_rate": 1.7403048486417868e-07,
      "loss": 0.0,
      "reward": 0.6855793744325638,
      "reward_std": 0.3608446344733238,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3704752177000046,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.315104179084301,
      "step": 125
    },
    {
      "completion_length": 557.4557495117188,
      "epoch": 0.4044943820224719,
      "grad_norm": 0.2060546875,
      "kl": 0.00039951602957444265,
      "learning_rate": 1.6837835672960831e-07,
      "loss": 0.0,
      "reward": 0.5974871069192886,
      "reward_std": 0.3423160910606384,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.27131520584225655,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3261718824505806,
      "step": 126
    },
    {
      "completion_length": 578.3697967529297,
      "epoch": 0.40770465489566615,
      "grad_norm": 0.2041015625,
      "kl": 0.00037851801607757807,
      "learning_rate": 1.6293288344708566e-07,
      "loss": 0.0,
      "reward": 0.633305624127388,
      "reward_std": 0.372529074549675,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3253629058599472,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3079427108168602,
      "step": 127
    },
    {
      "completion_length": 535.1666870117188,
      "epoch": 0.41091492776886035,
      "grad_norm": 0.21484375,
      "kl": 0.0003694754414027557,
      "learning_rate": 1.5769701383645698e-07,
      "loss": 0.0,
      "reward": 0.6848493814468384,
      "reward_std": 0.344666950404644,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3814639300107956,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3033854216337204,
      "step": 128
    },
    {
      "completion_length": 513.1224060058594,
      "epoch": 0.41412520064205455,
      "grad_norm": 0.19921875,
      "kl": 0.0003918400325346738,
      "learning_rate": 1.5267358321348285e-07,
      "loss": 0.0,
      "reward": 0.6448424756526947,
      "reward_std": 0.3401818424463272,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3212747722864151,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3235677257180214,
      "step": 129
    },
    {
      "completion_length": 541.6172027587891,
      "epoch": 0.4173354735152488,
      "grad_norm": 0.2060546875,
      "kl": 0.0003936137800337747,
      "learning_rate": 1.4786531185446452e-07,
      "loss": 0.0,
      "reward": 0.583847850561142,
      "reward_std": 0.33960337191820145,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.27004576474428177,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3138020858168602,
      "step": 130
    },
    {
      "completion_length": 533.5599136352539,
      "epoch": 0.420545746388443,
      "grad_norm": 0.2197265625,
      "kl": 0.00039682938950136304,
      "learning_rate": 1.432748035231658e-07,
      "loss": 0.0,
      "reward": 0.6769755631685257,
      "reward_std": 0.3399392068386078,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3683818504214287,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3085937649011612,
      "step": 131
    },
    {
      "completion_length": 523.9271087646484,
      "epoch": 0.42375601926163725,
      "grad_norm": 0.2265625,
      "kl": 0.00040404664468951523,
      "learning_rate": 1.3890454406082956e-07,
      "loss": 0.0,
      "reward": 0.6483045816421509,
      "reward_std": 0.32681532204151154,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3390597552061081,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.309244804084301,
      "step": 132
    },
    {
      "completion_length": 471.9661636352539,
      "epoch": 0.42696629213483145,
      "grad_norm": 0.24609375,
      "kl": 0.00040609255665913224,
      "learning_rate": 1.3475690004005097e-07,
      "loss": 0.0,
      "reward": 0.7119551748037338,
      "reward_std": 0.34096624702215195,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.39619994908571243,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3157552182674408,
      "step": 133
    },
    {
      "completion_length": 565.4192962646484,
      "epoch": 0.4301765650080257,
      "grad_norm": 0.205078125,
      "kl": 0.00037678072112612426,
      "learning_rate": 1.308341174832359e-07,
      "loss": 0.0,
      "reward": 0.6749380528926849,
      "reward_std": 0.3803337290883064,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.37480782717466354,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3001302182674408,
      "step": 134
    },
    {
      "completion_length": 496.27345275878906,
      "epoch": 0.4333868378812199,
      "grad_norm": 0.27734375,
      "kl": 0.0004564332193695009,
      "learning_rate": 1.2713832064634125e-07,
      "loss": 0.0,
      "reward": 0.7301954329013824,
      "reward_std": 0.3306322991847992,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.41378918290138245,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3164062649011612,
      "step": 135
    },
    {
      "completion_length": 530.8125228881836,
      "epoch": 0.43659711075441415,
      "grad_norm": 0.205078125,
      "kl": 0.0003717996005434543,
      "learning_rate": 1.2367151086855187e-07,
      "loss": 0.0,
      "reward": 0.6495877057313919,
      "reward_std": 0.3487004414200783,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3253689482808113,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3242187649011612,
      "step": 136
    },
    {
      "completion_length": 554.2031402587891,
      "epoch": 0.43980738362760835,
      "grad_norm": 0.2109375,
      "kl": 0.0003636257752077654,
      "learning_rate": 1.2043556548852063e-07,
      "loss": 0.0,
      "reward": 0.5865623354911804,
      "reward_std": 0.30131980776786804,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3040102533996105,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2825520932674408,
      "step": 137
    },
    {
      "completion_length": 545.6093826293945,
      "epoch": 0.44301765650080255,
      "grad_norm": 0.22265625,
      "kl": 0.00041512529423926026,
      "learning_rate": 1.1743223682775649e-07,
      "loss": 0.0,
      "reward": 0.6579451262950897,
      "reward_std": 0.3593253716826439,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.36367426812648773,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2942708432674408,
      "step": 138
    },
    {
      "completion_length": 573.9088745117188,
      "epoch": 0.4462279293739968,
      "grad_norm": 0.1982421875,
      "kl": 0.0003498100923025049,
      "learning_rate": 1.1466315124171128e-07,
      "loss": 0.0,
      "reward": 0.6012589037418365,
      "reward_std": 0.34214527904987335,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.31414950639009476,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2871093899011612,
      "step": 139
    },
    {
      "completion_length": 546.6432495117188,
      "epoch": 0.449438202247191,
      "grad_norm": 0.21875,
      "kl": 0.0004052919539390132,
      "learning_rate": 1.1212980823907929e-07,
      "loss": 0.0,
      "reward": 0.63412706553936,
      "reward_std": 0.36361514031887054,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.33920522779226303,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2949218899011612,
      "step": 140
    },
    {
      "completion_length": 547.6432495117188,
      "epoch": 0.45264847512038525,
      "grad_norm": 0.2001953125,
      "kl": 0.0003856433249893598,
      "learning_rate": 1.0983357966978745e-07,
      "loss": 0.0,
      "reward": 0.7091409862041473,
      "reward_std": 0.3494722992181778,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.37906285375356674,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3300781324505806,
      "step": 141
    },
    {
      "completion_length": 562.7890777587891,
      "epoch": 0.45585874799357945,
      "grad_norm": 0.28515625,
      "kl": 0.0004331854870542884,
      "learning_rate": 1.0777570898211405e-07,
      "loss": 0.0,
      "reward": 0.677094116806984,
      "reward_std": 0.36977435648441315,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.35808368027210236,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.319010429084301,
      "step": 142
    },
    {
      "completion_length": 514.6145858764648,
      "epoch": 0.4590690208667737,
      "grad_norm": 0.26171875,
      "kl": 0.0004561090827337466,
      "learning_rate": 1.0595731054933934e-07,
      "loss": 0.0,
      "reward": 0.7047944366931915,
      "reward_std": 0.3853035420179367,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.39815381169319153,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3066406399011612,
      "step": 143
    },
    {
      "completion_length": 515.0520858764648,
      "epoch": 0.4622792937399679,
      "grad_norm": 0.228515625,
      "kl": 0.00042895031219813973,
      "learning_rate": 1.0437936906629334e-07,
      "loss": 0.0,
      "reward": 0.687195435166359,
      "reward_std": 0.39286451041698456,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.37925272434949875,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3079427257180214,
      "step": 144
    },
    {
      "completion_length": 532.7969055175781,
      "epoch": 0.4654895666131621,
      "grad_norm": 0.212890625,
      "kl": 0.00040866951167117804,
      "learning_rate": 1.0304273901612565e-07,
      "loss": 0.0,
      "reward": 0.7079404592514038,
      "reward_std": 0.3612729534506798,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3934873268008232,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3144531324505806,
      "step": 145
    },
    {
      "completion_length": 552.0989837646484,
      "epoch": 0.46869983948635635,
      "grad_norm": 0.2158203125,
      "kl": 0.0003939080925192684,
      "learning_rate": 1.0194814420758804e-07,
      "loss": 0.0,
      "reward": 0.6515837609767914,
      "reward_std": 0.3383214473724365,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3384326733648777,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3131510466337204,
      "step": 146
    },
    {
      "completion_length": 595.5234527587891,
      "epoch": 0.47191011235955055,
      "grad_norm": 0.2099609375,
      "kl": 0.0003522088081808761,
      "learning_rate": 1.0109617738307911e-07,
      "loss": 0.0,
      "reward": 0.5905841588973999,
      "reward_std": 0.36369770765304565,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3151935264468193,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.2753906287252903,
      "step": 147
    },
    {
      "completion_length": 493.57032012939453,
      "epoch": 0.4751203852327448,
      "grad_norm": 0.228515625,
      "kl": 0.0003881813900079578,
      "learning_rate": 1.0048729989766394e-07,
      "loss": 0.0,
      "reward": 0.7446072101593018,
      "reward_std": 0.37431684136390686,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.42234158515930176,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3222656399011612,
      "step": 148
    },
    {
      "completion_length": 543.2708587646484,
      "epoch": 0.478330658105939,
      "grad_norm": 0.1953125,
      "kl": 0.00041060569492401555,
      "learning_rate": 1.0012184146924223e-07,
      "loss": 0.0,
      "reward": 0.6233467310667038,
      "reward_std": 0.3531793877482414,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.3141019344329834,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3092447966337204,
      "step": 149
    },
    {
      "completion_length": 487.1823043823242,
      "epoch": 0.48154093097913325,
      "grad_norm": 0.28515625,
      "kl": 0.0004451891945791431,
      "learning_rate": 1e-07,
      "loss": 0.0,
      "reward": 0.7395021021366119,
      "reward_std": 0.35496869683265686,
      "rewards/expression_based_accuracy_reward_length_penalized": 0.41202811151742935,
      "rewards/format_reward": 0.0,
      "rewards/soft_format_reward": 0.0,
      "rewards/tag_count_reward": 0.3274739682674408,
      "step": 150
    }
  ],
  "logging_steps": 1,
  "max_steps": 150,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}