{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.9977753058954395,
  "eval_steps": 500,
  "global_step": 898,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.002224694104560623,
      "grad_norm": 10.055098914546134,
      "learning_rate": 2.2222222222222224e-07,
      "loss": 1.3661,
      "step": 1
    },
    {
      "epoch": 0.011123470522803115,
      "grad_norm": 9.126296513090308,
      "learning_rate": 1.111111111111111e-06,
      "loss": 1.2942,
      "step": 5
    },
    {
      "epoch": 0.02224694104560623,
      "grad_norm": 7.84364716096091,
      "learning_rate": 2.222222222222222e-06,
      "loss": 1.313,
      "step": 10
    },
    {
      "epoch": 0.03337041156840934,
      "grad_norm": 5.7358942086951625,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 1.173,
      "step": 15
    },
    {
      "epoch": 0.04449388209121246,
      "grad_norm": 1.8899122666121964,
      "learning_rate": 4.444444444444444e-06,
      "loss": 0.9741,
      "step": 20
    },
    {
      "epoch": 0.05561735261401557,
      "grad_norm": 1.3213559323931832,
      "learning_rate": 5.555555555555557e-06,
      "loss": 0.9238,
      "step": 25
    },
    {
      "epoch": 0.06674082313681869,
      "grad_norm": 1.041365244653977,
      "learning_rate": 6.666666666666667e-06,
      "loss": 0.8728,
      "step": 30
    },
    {
      "epoch": 0.0778642936596218,
      "grad_norm": 0.9488843220134849,
      "learning_rate": 7.77777777777778e-06,
      "loss": 0.9007,
      "step": 35
    },
    {
      "epoch": 0.08898776418242492,
      "grad_norm": 0.8275801836954026,
      "learning_rate": 8.888888888888888e-06,
      "loss": 0.8661,
      "step": 40
    },
    {
      "epoch": 0.10011123470522804,
      "grad_norm": 0.9030018185879571,
      "learning_rate": 1e-05,
      "loss": 0.8484,
      "step": 45
    },
    {
      "epoch": 0.11123470522803114,
      "grad_norm": 0.7848210903418559,
      "learning_rate": 1.1111111111111113e-05,
      "loss": 0.8291,
      "step": 50
    },
    {
      "epoch": 0.12235817575083426,
      "grad_norm": 0.9313858219522357,
      "learning_rate": 1.2222222222222224e-05,
      "loss": 0.8707,
      "step": 55
    },
    {
      "epoch": 0.13348164627363737,
      "grad_norm": 0.8227239131251839,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 0.8055,
      "step": 60
    },
    {
      "epoch": 0.1446051167964405,
      "grad_norm": 0.8199201964167689,
      "learning_rate": 1.4444444444444446e-05,
      "loss": 0.8151,
      "step": 65
    },
    {
      "epoch": 0.1557285873192436,
      "grad_norm": 0.7767041809184307,
      "learning_rate": 1.555555555555556e-05,
      "loss": 0.8384,
      "step": 70
    },
    {
      "epoch": 0.1668520578420467,
      "grad_norm": 0.9088502789460952,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 0.8106,
      "step": 75
    },
    {
      "epoch": 0.17797552836484984,
      "grad_norm": 0.8343739709762875,
      "learning_rate": 1.7777777777777777e-05,
      "loss": 0.7932,
      "step": 80
    },
    {
      "epoch": 0.18909899888765294,
      "grad_norm": 0.8939354128507568,
      "learning_rate": 1.888888888888889e-05,
      "loss": 0.8045,
      "step": 85
    },
    {
      "epoch": 0.20022246941045607,
      "grad_norm": 0.885411772323368,
      "learning_rate": 2e-05,
      "loss": 0.8009,
      "step": 90
    },
    {
      "epoch": 0.21134593993325917,
      "grad_norm": 0.8890660179859062,
      "learning_rate": 1.9998110384864614e-05,
      "loss": 0.8225,
      "step": 95
    },
    {
      "epoch": 0.22246941045606228,
      "grad_norm": 0.8371399480864414,
      "learning_rate": 1.9992442253587533e-05,
      "loss": 0.7893,
      "step": 100
    },
    {
      "epoch": 0.2335928809788654,
      "grad_norm": 0.8656120072046296,
      "learning_rate": 1.998299774828608e-05,
      "loss": 0.812,
      "step": 105
    },
    {
      "epoch": 0.2447163515016685,
      "grad_norm": 0.8486947049775396,
      "learning_rate": 1.9969780438256295e-05,
      "loss": 0.7886,
      "step": 110
    },
    {
      "epoch": 0.25583982202447164,
      "grad_norm": 0.8507931458580409,
      "learning_rate": 1.995279531862399e-05,
      "loss": 0.8078,
      "step": 115
    },
    {
      "epoch": 0.26696329254727474,
      "grad_norm": 0.8150830104906274,
      "learning_rate": 1.993204880845699e-05,
      "loss": 0.7672,
      "step": 120
    },
    {
      "epoch": 0.27808676307007785,
      "grad_norm": 0.8642627038468238,
      "learning_rate": 1.9907548748339223e-05,
      "loss": 0.7929,
      "step": 125
    },
    {
      "epoch": 0.289210233592881,
      "grad_norm": 0.8541146407873894,
      "learning_rate": 1.987930439740757e-05,
      "loss": 0.7873,
      "step": 130
    },
    {
      "epoch": 0.3003337041156841,
      "grad_norm": 0.8995167237276087,
      "learning_rate": 1.9847326429852632e-05,
      "loss": 0.7862,
      "step": 135
    },
    {
      "epoch": 0.3114571746384872,
      "grad_norm": 0.8173771695441595,
      "learning_rate": 1.981162693088471e-05,
      "loss": 0.7983,
      "step": 140
    },
    {
      "epoch": 0.3225806451612903,
      "grad_norm": 0.8404409912157184,
      "learning_rate": 1.977221939216652e-05,
      "loss": 0.8037,
      "step": 145
    },
    {
      "epoch": 0.3337041156840934,
      "grad_norm": 0.8245961889334814,
      "learning_rate": 1.9729118706714377e-05,
      "loss": 0.8027,
      "step": 150
    },
    {
      "epoch": 0.3448275862068966,
      "grad_norm": 0.8314933715558246,
      "learning_rate": 1.96823411632698e-05,
      "loss": 0.7843,
      "step": 155
    },
    {
      "epoch": 0.3559510567296997,
      "grad_norm": 0.8726345334934287,
      "learning_rate": 1.9631904440143614e-05,
      "loss": 0.793,
      "step": 160
    },
    {
      "epoch": 0.3670745272525028,
      "grad_norm": 0.8415196157334568,
      "learning_rate": 1.9577827598534888e-05,
      "loss": 0.7668,
      "step": 165
    },
    {
      "epoch": 0.3781979977753059,
      "grad_norm": 0.8815634680126696,
      "learning_rate": 1.95201310753273e-05,
      "loss": 0.7851,
      "step": 170
    },
    {
      "epoch": 0.389321468298109,
      "grad_norm": 0.8024209332569573,
      "learning_rate": 1.945883667536556e-05,
      "loss": 0.7772,
      "step": 175
    },
    {
      "epoch": 0.40044493882091214,
      "grad_norm": 0.8490296704540178,
      "learning_rate": 1.9393967563214833e-05,
      "loss": 0.7761,
      "step": 180
    },
    {
      "epoch": 0.41156840934371525,
      "grad_norm": 0.8454078852442415,
      "learning_rate": 1.9325548254406354e-05,
      "loss": 0.7624,
      "step": 185
    },
    {
      "epoch": 0.42269187986651835,
      "grad_norm": 0.8511908385629164,
      "learning_rate": 1.925360460617242e-05,
      "loss": 0.7668,
      "step": 190
    },
    {
      "epoch": 0.43381535038932145,
      "grad_norm": 0.7982929700309319,
      "learning_rate": 1.9178163807674343e-05,
      "loss": 0.7634,
      "step": 195
    },
    {
      "epoch": 0.44493882091212456,
      "grad_norm": 0.7816495059977551,
      "learning_rate": 1.9099254369727062e-05,
      "loss": 0.7748,
      "step": 200
    },
    {
      "epoch": 0.4560622914349277,
      "grad_norm": 0.7563436109378239,
      "learning_rate": 1.901690611402423e-05,
      "loss": 0.7722,
      "step": 205
    },
    {
      "epoch": 0.4671857619577308,
      "grad_norm": 0.8466958907764663,
      "learning_rate": 1.8931150161867917e-05,
      "loss": 0.7765,
      "step": 210
    },
    {
      "epoch": 0.4783092324805339,
      "grad_norm": 0.7620831089947199,
      "learning_rate": 1.8842018922407153e-05,
      "loss": 0.7704,
      "step": 215
    },
    {
      "epoch": 0.489432703003337,
      "grad_norm": 0.84897869766796,
      "learning_rate": 1.874954608038976e-05,
      "loss": 0.7729,
      "step": 220
    },
    {
      "epoch": 0.5005561735261401,
      "grad_norm": 0.8210216367491153,
      "learning_rate": 1.8653766583432114e-05,
      "loss": 0.7716,
      "step": 225
    },
    {
      "epoch": 0.5116796440489433,
      "grad_norm": 0.8730864132572128,
      "learning_rate": 1.855471662881164e-05,
      "loss": 0.7882,
      "step": 230
    },
    {
      "epoch": 0.5228031145717463,
      "grad_norm": 0.7987767766986732,
      "learning_rate": 1.845243364978702e-05,
      "loss": 0.7609,
      "step": 235
    },
    {
      "epoch": 0.5339265850945495,
      "grad_norm": 0.7622467591417209,
      "learning_rate": 1.8346956301451303e-05,
      "loss": 0.7551,
      "step": 240
    },
    {
      "epoch": 0.5450500556173526,
      "grad_norm": 0.831755089876671,
      "learning_rate": 1.8238324446123265e-05,
      "loss": 0.7634,
      "step": 245
    },
    {
      "epoch": 0.5561735261401557,
      "grad_norm": 0.7942015525420777,
      "learning_rate": 1.8126579138282502e-05,
      "loss": 0.7541,
      "step": 250
    },
    {
      "epoch": 0.5672969966629589,
      "grad_norm": 0.824338690380162,
      "learning_rate": 1.801176260905402e-05,
      "loss": 0.7641,
      "step": 255
    },
    {
      "epoch": 0.578420467185762,
      "grad_norm": 0.8160737587426502,
      "learning_rate": 1.7893918250248106e-05,
      "loss": 0.747,
      "step": 260
    },
    {
      "epoch": 0.5895439377085651,
      "grad_norm": 0.7619822007899363,
      "learning_rate": 1.7773090597961554e-05,
      "loss": 0.7353,
      "step": 265
    },
    {
      "epoch": 0.6006674082313682,
      "grad_norm": 0.7898915967361627,
      "learning_rate": 1.764932531574648e-05,
      "loss": 0.7588,
      "step": 270
    },
    {
      "epoch": 0.6117908787541713,
      "grad_norm": 0.9091978830168115,
      "learning_rate": 1.7522669177352978e-05,
      "loss": 0.781,
      "step": 275
    },
    {
      "epoch": 0.6229143492769744,
      "grad_norm": 0.8198662250585645,
      "learning_rate": 1.7393170049052274e-05,
      "loss": 0.7545,
      "step": 280
    },
    {
      "epoch": 0.6340378197997776,
      "grad_norm": 0.7880789917007047,
      "learning_rate": 1.7260876871546935e-05,
      "loss": 0.7726,
      "step": 285
    },
    {
      "epoch": 0.6451612903225806,
      "grad_norm": 0.8385501161327127,
      "learning_rate": 1.7125839641475074e-05,
      "loss": 0.7619,
      "step": 290
    },
    {
      "epoch": 0.6562847608453838,
      "grad_norm": 0.8924470377096518,
      "learning_rate": 1.6988109392515432e-05,
      "loss": 0.7346,
      "step": 295
    },
    {
      "epoch": 0.6674082313681868,
      "grad_norm": 0.7890602183226353,
      "learning_rate": 1.6847738176100632e-05,
      "loss": 0.7643,
      "step": 300
    },
    {
      "epoch": 0.67853170189099,
      "grad_norm": 0.8110214434516344,
      "learning_rate": 1.6704779041745686e-05,
      "loss": 0.7603,
      "step": 305
    },
    {
      "epoch": 0.6896551724137931,
      "grad_norm": 0.7873486916181355,
      "learning_rate": 1.65592860169994e-05,
      "loss": 0.7595,
      "step": 310
    },
    {
      "epoch": 0.7007786429365962,
      "grad_norm": 0.7527591581883117,
      "learning_rate": 1.6411314087026108e-05,
      "loss": 0.7508,
      "step": 315
    },
    {
      "epoch": 0.7119021134593994,
      "grad_norm": 0.8283445625547928,
      "learning_rate": 1.6260919173825507e-05,
      "loss": 0.7387,
      "step": 320
    },
    {
      "epoch": 0.7230255839822024,
      "grad_norm": 0.7262591008119376,
      "learning_rate": 1.6108158115098443e-05,
      "loss": 0.7264,
      "step": 325
    },
    {
      "epoch": 0.7341490545050056,
      "grad_norm": 0.7739070575646189,
      "learning_rate": 1.595308864276666e-05,
      "loss": 0.7435,
      "step": 330
    },
    {
      "epoch": 0.7452725250278087,
      "grad_norm": 0.8489625309544235,
      "learning_rate": 1.5795769361154548e-05,
      "loss": 0.7615,
      "step": 335
    },
    {
      "epoch": 0.7563959955506118,
      "grad_norm": 0.769293674851008,
      "learning_rate": 1.5636259724841224e-05,
      "loss": 0.7536,
      "step": 340
    },
    {
      "epoch": 0.7675194660734149,
      "grad_norm": 0.7920492833518509,
      "learning_rate": 1.5474620016191296e-05,
      "loss": 0.7431,
      "step": 345
    },
    {
      "epoch": 0.778642936596218,
      "grad_norm": 0.7468241826638446,
      "learning_rate": 1.531091132257275e-05,
      "loss": 0.732,
      "step": 350
    },
    {
      "epoch": 0.7897664071190211,
      "grad_norm": 0.743401655764991,
      "learning_rate": 1.5145195513270644e-05,
      "loss": 0.7291,
      "step": 355
    },
    {
      "epoch": 0.8008898776418243,
      "grad_norm": 0.8018681967515083,
      "learning_rate": 1.4977535216105258e-05,
      "loss": 0.7257,
      "step": 360
    },
    {
      "epoch": 0.8120133481646273,
      "grad_norm": 0.7600864193920938,
      "learning_rate": 1.480799379376362e-05,
      "loss": 0.741,
      "step": 365
    },
    {
      "epoch": 0.8231368186874305,
      "grad_norm": 0.8389942553789884,
      "learning_rate": 1.4636635319853274e-05,
      "loss": 0.742,
      "step": 370
    },
    {
      "epoch": 0.8342602892102335,
      "grad_norm": 0.7886124496265561,
      "learning_rate": 1.4463524554687398e-05,
      "loss": 0.7545,
      "step": 375
    },
    {
      "epoch": 0.8453837597330367,
      "grad_norm": 0.7344461106509269,
      "learning_rate": 1.4288726920810381e-05,
      "loss": 0.7278,
      "step": 380
    },
    {
      "epoch": 0.8565072302558399,
      "grad_norm": 0.8189552942167496,
      "learning_rate": 1.4112308478273144e-05,
      "loss": 0.7461,
      "step": 385
    },
    {
      "epoch": 0.8676307007786429,
      "grad_norm": 0.7834178214856152,
      "learning_rate": 1.3934335899667526e-05,
      "loss": 0.7378,
      "step": 390
    },
    {
      "epoch": 0.8787541713014461,
      "grad_norm": 0.7714482088214847,
      "learning_rate": 1.3754876444929165e-05,
      "loss": 0.7489,
      "step": 395
    },
    {
      "epoch": 0.8898776418242491,
      "grad_norm": 0.7755466989206458,
      "learning_rate": 1.357399793591844e-05,
      "loss": 0.7469,
      "step": 400
    },
    {
      "epoch": 0.9010011123470523,
      "grad_norm": 0.8377177614112041,
      "learning_rate": 1.3391768730789e-05,
      "loss": 0.739,
      "step": 405
    },
    {
      "epoch": 0.9121245828698554,
      "grad_norm": 0.7908000259612985,
      "learning_rate": 1.3208257698153677e-05,
      "loss": 0.7281,
      "step": 410
    },
    {
      "epoch": 0.9232480533926585,
      "grad_norm": 0.7818338363656034,
      "learning_rate": 1.3023534191057427e-05,
      "loss": 0.753,
      "step": 415
    },
    {
      "epoch": 0.9343715239154616,
      "grad_norm": 0.749284045444348,
      "learning_rate": 1.283766802076722e-05,
      "loss": 0.738,
      "step": 420
    },
    {
      "epoch": 0.9454949944382648,
      "grad_norm": 0.7839632426822802,
      "learning_rate": 1.2650729430388764e-05,
      "loss": 0.7436,
      "step": 425
    },
    {
      "epoch": 0.9566184649610678,
      "grad_norm": 0.7721084207333134,
      "learning_rate": 1.2462789068320016e-05,
      "loss": 0.748,
      "step": 430
    },
    {
      "epoch": 0.967741935483871,
      "grad_norm": 0.7290139666717954,
      "learning_rate": 1.2273917961551513e-05,
      "loss": 0.7239,
      "step": 435
    },
    {
      "epoch": 0.978865406006674,
      "grad_norm": 0.8056619429328024,
      "learning_rate": 1.2084187488823657e-05,
      "loss": 0.738,
      "step": 440
    },
    {
      "epoch": 0.9899888765294772,
      "grad_norm": 0.7770001841474352,
      "learning_rate": 1.1893669353651032e-05,
      "loss": 0.7385,
      "step": 445
    },
    {
      "epoch": 0.9988876529477196,
      "eval_loss": 0.7580433487892151,
      "eval_runtime": 5.7595,
      "eval_samples_per_second": 70.666,
      "eval_steps_per_second": 2.257,
      "step": 449
    },
    {
      "epoch": 1.0011123470522802,
      "grad_norm": 0.8135422551691482,
      "learning_rate": 1.1702435557223988e-05,
      "loss": 0.7266,
      "step": 450
    },
    {
      "epoch": 1.0122358175750834,
      "grad_norm": 0.8964435701944624,
      "learning_rate": 1.1510558371197754e-05,
      "loss": 0.6412,
      "step": 455
    },
    {
      "epoch": 1.0233592880978866,
      "grad_norm": 0.8600984235769464,
      "learning_rate": 1.1318110310379303e-05,
      "loss": 0.6433,
      "step": 460
    },
    {
      "epoch": 1.0344827586206897,
      "grad_norm": 0.8458880171077358,
      "learning_rate": 1.112516410532233e-05,
      "loss": 0.6292,
      "step": 465
    },
    {
      "epoch": 1.0456062291434929,
      "grad_norm": 0.8284785412200435,
      "learning_rate": 1.0931792674840718e-05,
      "loss": 0.6339,
      "step": 470
    },
    {
      "epoch": 1.0567296996662958,
      "grad_norm": 0.7444359225044646,
      "learning_rate": 1.073806909845082e-05,
      "loss": 0.6355,
      "step": 475
    },
    {
      "epoch": 1.067853170189099,
      "grad_norm": 0.7723149976392786,
      "learning_rate": 1.0544066588753044e-05,
      "loss": 0.6235,
      "step": 480
    },
    {
      "epoch": 1.0789766407119021,
      "grad_norm": 0.7593187602310192,
      "learning_rate": 1.0349858463763114e-05,
      "loss": 0.6105,
      "step": 485
    },
    {
      "epoch": 1.0901001112347053,
      "grad_norm": 0.7855139607799839,
      "learning_rate": 1.0155518119203511e-05,
      "loss": 0.6568,
      "step": 490
    },
    {
      "epoch": 1.1012235817575085,
      "grad_norm": 0.7898700329509037,
      "learning_rate": 9.961119000765532e-06,
      "loss": 0.6225,
      "step": 495
    },
    {
      "epoch": 1.1123470522803114,
      "grad_norm": 0.8669564798886822,
      "learning_rate": 9.766734576352478e-06,
      "loss": 0.6391,
      "step": 500
    },
    {
      "epoch": 1.1234705228031145,
      "grad_norm": 0.7837289412561955,
      "learning_rate": 9.572438308314447e-06,
      "loss": 0.6171,
      "step": 505
    },
    {
      "epoch": 1.1345939933259177,
      "grad_norm": 0.8070851055141667,
      "learning_rate": 9.378303625685196e-06,
      "loss": 0.6282,
      "step": 510
    },
    {
      "epoch": 1.1457174638487209,
      "grad_norm": 0.7979212620110364,
      "learning_rate": 9.184403896431649e-06,
      "loss": 0.6233,
      "step": 515
    },
    {
      "epoch": 1.156840934371524,
      "grad_norm": 0.7704548256097349,
      "learning_rate": 8.990812399726435e-06,
      "loss": 0.5992,
      "step": 520
    },
    {
      "epoch": 1.167964404894327,
      "grad_norm": 0.8961749452380681,
      "learning_rate": 8.797602298254005e-06,
      "loss": 0.6378,
      "step": 525
    },
    {
      "epoch": 1.1790878754171301,
      "grad_norm": 0.8053259116501744,
      "learning_rate": 8.604846610560771e-06,
      "loss": 0.605,
      "step": 530
    },
    {
      "epoch": 1.1902113459399333,
      "grad_norm": 0.7782548725591264,
      "learning_rate": 8.412618183459707e-06,
      "loss": 0.6081,
      "step": 535
    },
    {
      "epoch": 1.2013348164627364,
      "grad_norm": 0.7780589674933976,
      "learning_rate": 8.22098966449988e-06,
      "loss": 0.6251,
      "step": 540
    },
    {
      "epoch": 1.2124582869855396,
      "grad_norm": 0.8213283153654349,
      "learning_rate": 8.030033474511248e-06,
      "loss": 0.6092,
      "step": 545
    },
    {
      "epoch": 1.2235817575083425,
      "grad_norm": 0.7889430474165346,
      "learning_rate": 7.839821780235168e-06,
      "loss": 0.645,
      "step": 550
    },
    {
      "epoch": 1.2347052280311457,
      "grad_norm": 0.8377912406937705,
      "learning_rate": 7.650426467050926e-06,
      "loss": 0.6286,
      "step": 555
    },
    {
      "epoch": 1.2458286985539488,
      "grad_norm": 0.8488324297083317,
      "learning_rate": 7.4619191118085955e-06,
      "loss": 0.6129,
      "step": 560
    },
    {
      "epoch": 1.256952169076752,
      "grad_norm": 0.7608536209939344,
      "learning_rate": 7.274370955778498e-06,
      "loss": 0.6072,
      "step": 565
    },
    {
      "epoch": 1.2680756395995552,
      "grad_norm": 0.7928583676765779,
      "learning_rate": 7.0878528777274814e-06,
      "loss": 0.6042,
      "step": 570
    },
    {
      "epoch": 1.279199110122358,
      "grad_norm": 1.5882806537259504,
      "learning_rate": 6.9024353671322086e-06,
      "loss": 0.647,
      "step": 575
    },
    {
      "epoch": 1.2903225806451613,
      "grad_norm": 0.8447762128943721,
      "learning_rate": 6.718188497539554e-06,
      "loss": 0.6214,
      "step": 580
    },
    {
      "epoch": 1.3014460511679644,
      "grad_norm": 0.8209371297634136,
      "learning_rate": 6.535181900084206e-06,
      "loss": 0.6079,
      "step": 585
    },
    {
      "epoch": 1.3125695216907676,
      "grad_norm": 0.8624820584895021,
      "learning_rate": 6.35348473717345e-06,
      "loss": 0.6221,
      "step": 590
    },
    {
      "epoch": 1.3236929922135707,
      "grad_norm": 0.8056054069589547,
      "learning_rate": 6.173165676349103e-06,
      "loss": 0.6254,
      "step": 595
    },
    {
      "epoch": 1.3348164627363737,
      "grad_norm": 0.8273703875367165,
      "learning_rate": 5.994292864336473e-06,
      "loss": 0.6119,
      "step": 600
    },
    {
      "epoch": 1.3459399332591768,
      "grad_norm": 0.8723777846098392,
      "learning_rate": 5.816933901290136e-06,
      "loss": 0.6395,
      "step": 605
    },
    {
      "epoch": 1.35706340378198,
      "grad_norm": 0.8674540470170442,
      "learning_rate": 5.64115581524629e-06,
      "loss": 0.6163,
      "step": 610
    },
    {
      "epoch": 1.3681868743047831,
      "grad_norm": 0.8762720501618131,
      "learning_rate": 5.4670250367913025e-06,
      "loss": 0.6225,
      "step": 615
    },
    {
      "epoch": 1.3793103448275863,
      "grad_norm": 0.8491305197357123,
      "learning_rate": 5.294607373956071e-06,
      "loss": 0.6093,
      "step": 620
    },
    {
      "epoch": 1.3904338153503892,
      "grad_norm": 0.8166208130830984,
      "learning_rate": 5.1239679873456636e-06,
      "loss": 0.6361,
      "step": 625
    },
    {
      "epoch": 1.4015572858731924,
      "grad_norm": 0.8009131846316857,
      "learning_rate": 4.955171365513603e-06,
      "loss": 0.617,
      "step": 630
    },
    {
      "epoch": 1.4126807563959956,
      "grad_norm": 0.8366294436519559,
      "learning_rate": 4.788281300590169e-06,
      "loss": 0.6118,
      "step": 635
    },
    {
      "epoch": 1.4238042269187987,
      "grad_norm": 0.8808417873595291,
      "learning_rate": 4.623360864173893e-06,
      "loss": 0.6177,
      "step": 640
    },
    {
      "epoch": 1.4349276974416019,
      "grad_norm": 0.8629287010139255,
      "learning_rate": 4.4604723834953315e-06,
      "loss": 0.6251,
      "step": 645
    },
    {
      "epoch": 1.4460511679644048,
      "grad_norm": 0.7875671775994082,
      "learning_rate": 4.299677417862174e-06,
      "loss": 0.6199,
      "step": 650
    },
    {
      "epoch": 1.457174638487208,
      "grad_norm": 0.7828729245421459,
      "learning_rate": 4.141036735394575e-06,
      "loss": 0.6215,
      "step": 655
    },
    {
      "epoch": 1.4682981090100111,
      "grad_norm": 0.8007957527163657,
      "learning_rate": 3.984610290059467e-06,
      "loss": 0.6253,
      "step": 660
    },
    {
      "epoch": 1.4794215795328143,
      "grad_norm": 0.7910153849628225,
      "learning_rate": 3.830457199012585e-06,
      "loss": 0.6157,
      "step": 665
    },
    {
      "epoch": 1.4905450500556174,
      "grad_norm": 0.8255633946537543,
      "learning_rate": 3.6786357202567367e-06,
      "loss": 0.6182,
      "step": 670
    },
    {
      "epoch": 1.5016685205784204,
      "grad_norm": 0.8740651322002517,
      "learning_rate": 3.529203230624747e-06,
      "loss": 0.6334,
      "step": 675
    },
    {
      "epoch": 1.5127919911012235,
      "grad_norm": 0.7540939777667681,
      "learning_rate": 3.3822162040954355e-06,
      "loss": 0.596,
      "step": 680
    },
    {
      "epoch": 1.5239154616240267,
      "grad_norm": 0.7934734563966453,
      "learning_rate": 3.2377301904508163e-06,
      "loss": 0.5951,
      "step": 685
    },
    {
      "epoch": 1.5350389321468298,
      "grad_norm": 0.8131581917254441,
      "learning_rate": 3.0957997942825337e-06,
      "loss": 0.612,
      "step": 690
    },
    {
      "epoch": 1.546162402669633,
      "grad_norm": 0.8454586171154052,
      "learning_rate": 2.956478654355539e-06,
      "loss": 0.6293,
      "step": 695
    },
    {
      "epoch": 1.557285873192436,
      "grad_norm": 0.8339559981613245,
      "learning_rate": 2.8198194233367747e-06,
      "loss": 0.6088,
      "step": 700
    },
    {
      "epoch": 1.568409343715239,
      "grad_norm": 0.821374605567537,
      "learning_rate": 2.6858737478965036e-06,
      "loss": 0.6233,
      "step": 705
    },
    {
      "epoch": 1.5795328142380423,
      "grad_norm": 0.7711457173871649,
      "learning_rate": 2.5546922491898497e-06,
      "loss": 0.6262,
      "step": 710
    },
    {
      "epoch": 1.5906562847608454,
      "grad_norm": 0.841438327290974,
      "learning_rate": 2.4263245037258996e-06,
      "loss": 0.6359,
      "step": 715
    },
    {
      "epoch": 1.6017797552836486,
      "grad_norm": 0.8546385634639357,
      "learning_rate": 2.3008190246316033e-06,
      "loss": 0.6312,
      "step": 720
    },
    {
      "epoch": 1.6129032258064515,
      "grad_norm": 0.7477788666400325,
      "learning_rate": 2.178223243317532e-06,
      "loss": 0.6115,
      "step": 725
    },
    {
      "epoch": 1.624026696329255,
      "grad_norm": 0.8448273050299596,
      "learning_rate": 2.058583491552465e-06,
      "loss": 0.641,
      "step": 730
    },
    {
      "epoch": 1.6351501668520578,
      "grad_norm": 0.8261008969765296,
      "learning_rate": 1.9419449839535522e-06,
      "loss": 0.617,
      "step": 735
    },
    {
      "epoch": 1.646273637374861,
      "grad_norm": 0.8357122860638048,
      "learning_rate": 1.8283518008986566e-06,
      "loss": 0.607,
      "step": 740
    },
    {
      "epoch": 1.6573971078976641,
      "grad_norm": 0.8350425917666864,
      "learning_rate": 1.7178468718673712e-06,
      "loss": 0.607,
      "step": 745
    },
    {
      "epoch": 1.668520578420467,
      "grad_norm": 0.8305517949246249,
      "learning_rate": 1.6104719592169905e-06,
      "loss": 0.6151,
      "step": 750
    },
    {
      "epoch": 1.6796440489432705,
      "grad_norm": 0.8186870980107259,
      "learning_rate": 1.506267642399525e-06,
      "loss": 0.6385,
      "step": 755
    },
    {
      "epoch": 1.6907675194660734,
      "grad_norm": 0.7636300249499965,
      "learning_rate": 1.405273302625828e-06,
      "loss": 0.6075,
      "step": 760
    },
    {
      "epoch": 1.7018909899888766,
      "grad_norm": 0.8363995841599257,
      "learning_rate": 1.3075271079825035e-06,
      "loss": 0.638,
      "step": 765
    },
    {
      "epoch": 1.7130144605116797,
      "grad_norm": 0.7622345846029582,
      "learning_rate": 1.2130659990073146e-06,
      "loss": 0.6125,
      "step": 770
    },
    {
      "epoch": 1.7241379310344827,
      "grad_norm": 0.7854431717950116,
      "learning_rate": 1.1219256747285046e-06,
      "loss": 0.6203,
      "step": 775
    },
    {
      "epoch": 1.735261401557286,
      "grad_norm": 0.80577828518747,
      "learning_rate": 1.0341405791733183e-06,
      "loss": 0.6318,
      "step": 780
    },
    {
      "epoch": 1.746384872080089,
      "grad_norm": 0.8025241111868774,
      "learning_rate": 9.497438883507981e-07,
      "loss": 0.6104,
      "step": 785
    },
    {
      "epoch": 1.7575083426028921,
      "grad_norm": 0.7484880734203889,
      "learning_rate": 8.687674977138116e-07,
      "loss": 0.6111,
      "step": 790
    },
    {
      "epoch": 1.7686318131256953,
      "grad_norm": 0.7844040069263457,
      "learning_rate": 7.912420101050366e-07,
      "loss": 0.6058,
      "step": 795
    },
    {
      "epoch": 1.7797552836484982,
      "grad_norm": 0.832757853518197,
      "learning_rate": 7.171967241914224e-07,
      "loss": 0.6168,
      "step": 800
    },
    {
      "epoch": 1.7908787541713016,
      "grad_norm": 0.7982807830933683,
      "learning_rate": 6.466596233915601e-07,
      "loss": 0.6111,
      "step": 805
    },
    {
      "epoch": 1.8020022246941045,
      "grad_norm": 0.8285138016892091,
      "learning_rate": 5.796573653001091e-07,
      "loss": 0.6206,
      "step": 810
    },
    {
      "epoch": 1.8131256952169077,
      "grad_norm": 0.8098593367246673,
      "learning_rate": 5.162152716132662e-07,
      "loss": 0.6301,
      "step": 815
    },
    {
      "epoch": 1.8242491657397109,
      "grad_norm": 0.8317063889098834,
      "learning_rate": 4.563573185591219e-07,
      "loss": 0.5913,
      "step": 820
    },
    {
      "epoch": 1.8353726362625138,
      "grad_norm": 0.7802676617619877,
      "learning_rate": 4.0010612783648927e-07,
      "loss": 0.6009,
      "step": 825
    },
    {
      "epoch": 1.8464961067853172,
      "grad_norm": 0.8359715597402506,
      "learning_rate": 3.474829580656436e-07,
      "loss": 0.6129,
      "step": 830
    },
    {
      "epoch": 1.85761957730812,
      "grad_norm": 0.7764499156414768,
      "learning_rate": 2.9850769675419776e-07,
      "loss": 0.6233,
      "step": 835
    },
    {
      "epoch": 1.8687430478309233,
      "grad_norm": 0.8028424415714934,
      "learning_rate": 2.5319885278115907e-07,
      "loss": 0.6079,
      "step": 840
    },
    {
      "epoch": 1.8798665183537264,
      "grad_norm": 0.8831031088714258,
      "learning_rate": 2.115735494019966e-07,
      "loss": 0.6258,
      "step": 845
    },
    {
      "epoch": 1.8909899888765294,
      "grad_norm": 0.7653050119042255,
      "learning_rate": 1.7364751777736334e-07,
      "loss": 0.6212,
      "step": 850
    },
    {
      "epoch": 1.9021134593993327,
      "grad_norm": 0.8479149432867373,
      "learning_rate": 1.394350910279385e-07,
      "loss": 0.6006,
      "step": 855
    },
    {
      "epoch": 1.9132369299221357,
      "grad_norm": 0.8537537714787563,
      "learning_rate": 1.0894919881760168e-07,
      "loss": 0.6291,
      "step": 860
    },
    {
      "epoch": 1.9243604004449388,
      "grad_norm": 0.8315410821072657,
      "learning_rate": 8.220136246701926e-08,
      "loss": 0.6226,
      "step": 865
    },
    {
      "epoch": 1.935483870967742,
      "grad_norm": 0.8500259667306754,
      "learning_rate": 5.920169059947412e-08,
      "loss": 0.6108,
      "step": 870
    },
    {
      "epoch": 1.946607341490545,
      "grad_norm": 0.8522681381543702,
      "learning_rate": 3.99588753205804e-08,
      "loss": 0.6239,
      "step": 875
    },
    {
      "epoch": 1.9577308120133483,
      "grad_norm": 0.7583572716472294,
      "learning_rate": 2.4480188933336812e-08,
      "loss": 0.6128,
      "step": 880
    },
    {
      "epoch": 1.9688542825361512,
      "grad_norm": 0.7629282401468074,
      "learning_rate": 1.277148118975835e-08,
      "loss": 0.6022,
      "step": 885
    },
    {
      "epoch": 1.9799777530589544,
      "grad_norm": 0.817692770966463,
      "learning_rate": 4.837177080119215e-09,
      "loss": 0.6154,
      "step": 890
    },
    {
      "epoch": 1.9911012235817576,
      "grad_norm": 0.774109128612781,
      "learning_rate": 6.8027516064606e-10,
      "loss": 0.616,
      "step": 895
    },
    {
      "epoch": 1.9977753058954395,
      "eval_loss": 0.7532592415809631,
      "eval_runtime": 5.6688,
      "eval_samples_per_second": 71.797,
      "eval_steps_per_second": 2.293,
      "step": 898
    },
    {
      "epoch": 1.9977753058954395,
      "step": 898,
      "total_flos": 81428314521600.0,
      "train_loss": 0.7065894536026868,
      "train_runtime": 5871.8562,
      "train_samples_per_second": 19.593,
      "train_steps_per_second": 0.153
    }
  ],
  "logging_steps": 5,
  "max_steps": 898,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 100,
  "total_flos": 81428314521600.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}