SynCABEL_SPACCC / trainer_state.json

Upload trainer_state.json with huggingface_hub

22699df verified 12 days ago

37.5 kB

	{
	"best_global_step": 50000,
	"best_metric": 0.5881,
	"best_model_checkpoint": "models/NED/SPACCC_full_upsampled_tfidf/Meta-Llama-3-8B-Instruct/checkpoint-50000",
	"epoch": 3.0,
	"eval_steps": 2000,
	"global_step": 103965,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"entropy": 1.771104082763195,
	"epoch": 0.057711729909104025,
	"grad_norm": 8.875,
	"learning_rate": 1.9227316447579353e-05,
	"loss": 0.807,
	"mean_token_accuracy": 0.8383643639683723,
	"num_tokens": 15534479.0,
	"step": 2000
	},
	{
	"epoch": 0.057711729909104025,
	"eval_entropy": 1.7064778925563795,
	"eval_loss": 0.5752137899398804,
	"eval_mean_token_accuracy": 0.8736604764762166,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 15534479.0,
	"eval_recall": 0.4857,
	"eval_runtime": 19.5541,
	"eval_samples_per_second": 46.435,
	"eval_steps_per_second": 46.435,
	"step": 2000
	},
	{
	"entropy": 1.7855026668310165,
	"epoch": 0.11542345981820805,
	"grad_norm": 4.9375,
	"learning_rate": 2.973821470360748e-05,
	"loss": 0.4284,
	"mean_token_accuracy": 0.9000137696564198,
	"num_tokens": 31091376.0,
	"step": 4000
	},
	{
	"epoch": 0.11542345981820805,
	"eval_entropy": 1.9107416086391205,
	"eval_loss": 0.6141767501831055,
	"eval_mean_token_accuracy": 0.8813558152921924,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 31091376.0,
	"eval_recall": 0.5132,
	"eval_runtime": 18.6743,
	"eval_samples_per_second": 48.623,
	"eval_steps_per_second": 48.623,
	"step": 4000
	},
	{
	"entropy": 1.7454647228717803,
	"epoch": 0.17313518972731207,
	"grad_norm": 6.40625,
	"learning_rate": 2.914324812089721e-05,
	"loss": 0.3478,
	"mean_token_accuracy": 0.9183464118242264,
	"num_tokens": 46695519.0,
	"step": 6000
	},
	{
	"epoch": 0.17313518972731207,
	"eval_entropy": 1.6889207995279245,
	"eval_loss": 0.7172139286994934,
	"eval_mean_token_accuracy": 0.8881947658627831,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 46695519.0,
	"eval_recall": 0.5551,
	"eval_runtime": 18.7505,
	"eval_samples_per_second": 48.425,
	"eval_steps_per_second": 48.425,
	"step": 6000
	},
	{
	"entropy": 1.686599359869957,
	"epoch": 0.2308469196364161,
	"grad_norm": 5.0,
	"learning_rate": 2.8548281538186937e-05,
	"loss": 0.2911,
	"mean_token_accuracy": 0.9297748121023178,
	"num_tokens": 62201311.0,
	"step": 8000
	},
	{
	"epoch": 0.2308469196364161,
	"eval_entropy": 1.765830583837589,
	"eval_loss": 0.6870580315589905,
	"eval_mean_token_accuracy": 0.8954090231184392,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 62201311.0,
	"eval_recall": 0.554,
	"eval_runtime": 18.2183,
	"eval_samples_per_second": 49.84,
	"eval_steps_per_second": 49.84,
	"step": 8000
	},
	{
	"entropy": 1.6513705806136132,
	"epoch": 0.28855864954552013,
	"grad_norm": 2.890625,
	"learning_rate": 2.795331495547667e-05,
	"loss": 0.2723,
	"mean_token_accuracy": 0.9330688781142235,
	"num_tokens": 77723725.0,
	"step": 10000
	},
	{
	"epoch": 0.28855864954552013,
	"eval_entropy": 1.7299244680199855,
	"eval_loss": 0.671196460723877,
	"eval_mean_token_accuracy": 0.8996821519003828,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 77723725.0,
	"eval_recall": 0.5837,
	"eval_runtime": 18.1693,
	"eval_samples_per_second": 49.975,
	"eval_steps_per_second": 49.975,
	"step": 10000
	},
	{
	"entropy": 1.6137347612977029,
	"epoch": 0.34627037945462413,
	"grad_norm": 4.15625,
	"learning_rate": 2.7358348372766396e-05,
	"loss": 0.247,
	"mean_token_accuracy": 0.938195524007082,
	"num_tokens": 93268948.0,
	"step": 12000
	},
	{
	"epoch": 0.34627037945462413,
	"eval_entropy": 1.642808350631844,
	"eval_loss": 0.7069945335388184,
	"eval_mean_token_accuracy": 0.9005183333998735,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 93268948.0,
	"eval_recall": 0.5683,
	"eval_runtime": 18.2098,
	"eval_samples_per_second": 49.863,
	"eval_steps_per_second": 49.863,
	"step": 12000
	},
	{
	"entropy": 1.5417808018922805,
	"epoch": 0.4039821093637282,
	"grad_norm": 6.15625,
	"learning_rate": 2.6763381790056127e-05,
	"loss": 0.2369,
	"mean_token_accuracy": 0.9400165711343288,
	"num_tokens": 108712209.0,
	"step": 14000
	},
	{
	"epoch": 0.4039821093637282,
	"eval_entropy": 1.6070995822483223,
	"eval_loss": 0.7336843013763428,
	"eval_mean_token_accuracy": 0.9035924484026064,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 108712209.0,
	"eval_recall": 0.5749,
	"eval_runtime": 18.1147,
	"eval_samples_per_second": 50.125,
	"eval_steps_per_second": 50.125,
	"step": 14000
	},
	{
	"entropy": 1.5307720832824707,
	"epoch": 0.4616938392728322,
	"grad_norm": 1.3203125,
	"learning_rate": 2.6168415207345855e-05,
	"loss": 0.224,
	"mean_token_accuracy": 0.9427571404874325,
	"num_tokens": 124237300.0,
	"step": 16000
	},
	{
	"epoch": 0.4616938392728322,
	"eval_entropy": 1.6007142412242386,
	"eval_loss": 0.723686933517456,
	"eval_mean_token_accuracy": 0.9036177859891878,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 124237300.0,
	"eval_recall": 0.5738,
	"eval_runtime": 18.0095,
	"eval_samples_per_second": 50.418,
	"eval_steps_per_second": 50.418,
	"step": 16000
	},
	{
	"entropy": 1.5197161840200424,
	"epoch": 0.5194055691819363,
	"grad_norm": 4.375,
	"learning_rate": 2.5573448624635583e-05,
	"loss": 0.2127,
	"mean_token_accuracy": 0.9449084457457065,
	"num_tokens": 139804083.0,
	"step": 18000
	},
	{
	"epoch": 0.5194055691819363,
	"eval_entropy": 1.5377285603909765,
	"eval_loss": 0.7464824318885803,
	"eval_mean_token_accuracy": 0.9009800682968505,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 139804083.0,
	"eval_recall": 0.5694,
	"eval_runtime": 17.3142,
	"eval_samples_per_second": 52.443,
	"eval_steps_per_second": 52.443,
	"step": 18000
	},
	{
	"entropy": 1.4599213127493857,
	"epoch": 0.5771172990910403,
	"grad_norm": 4.96875,
	"learning_rate": 2.4978482041925314e-05,
	"loss": 0.2026,
	"mean_token_accuracy": 0.9471077627837657,
	"num_tokens": 155379953.0,
	"step": 20000
	},
	{
	"epoch": 0.5771172990910403,
	"eval_entropy": 1.475688523001608,
	"eval_loss": 0.762593150138855,
	"eval_mean_token_accuracy": 0.9033181490089399,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 155379953.0,
	"eval_recall": 0.5705,
	"eval_runtime": 17.8659,
	"eval_samples_per_second": 50.823,
	"eval_steps_per_second": 50.823,
	"step": 20000
	},
	{
	"entropy": 1.4277473657727242,
	"epoch": 0.6348290290001443,
	"grad_norm": 5.15625,
	"learning_rate": 2.4383515459215042e-05,
	"loss": 0.1907,
	"mean_token_accuracy": 0.9498722539842128,
	"num_tokens": 170982670.0,
	"step": 22000
	},
	{
	"epoch": 0.6348290290001443,
	"eval_entropy": 1.5171283333837198,
	"eval_loss": 0.7434535026550293,
	"eval_mean_token_accuracy": 0.9021543205965983,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 170982670.0,
	"eval_recall": 0.5727,
	"eval_runtime": 17.4411,
	"eval_samples_per_second": 52.061,
	"eval_steps_per_second": 52.061,
	"step": 22000
	},
	{
	"entropy": 1.4187169399261474,
	"epoch": 0.6925407589092483,
	"grad_norm": 2.9375,
	"learning_rate": 2.378854887650477e-05,
	"loss": 0.1905,
	"mean_token_accuracy": 0.9493927232325077,
	"num_tokens": 186663193.0,
	"step": 24000
	},
	{
	"epoch": 0.6925407589092483,
	"eval_entropy": 1.4800235901503835,
	"eval_loss": 0.7626135945320129,
	"eval_mean_token_accuracy": 0.9030716799298047,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 186663193.0,
	"eval_recall": 0.5771,
	"eval_runtime": 17.6742,
	"eval_samples_per_second": 51.374,
	"eval_steps_per_second": 51.374,
	"step": 24000
	},
	{
	"entropy": 1.3858990859389304,
	"epoch": 0.7502524888183524,
	"grad_norm": 5.4375,
	"learning_rate": 2.31935822937945e-05,
	"loss": 0.1847,
	"mean_token_accuracy": 0.9506744608581066,
	"num_tokens": 202382574.0,
	"step": 26000
	},
	{
	"epoch": 0.7502524888183524,
	"eval_entropy": 1.4523340987476483,
	"eval_loss": 0.7447758316993713,
	"eval_mean_token_accuracy": 0.9053517018777159,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 202382574.0,
	"eval_recall": 0.5837,
	"eval_runtime": 17.5503,
	"eval_samples_per_second": 51.737,
	"eval_steps_per_second": 51.737,
	"step": 26000
	},
	{
	"entropy": 1.371607663989067,
	"epoch": 0.8079642187274564,
	"grad_norm": 6.46875,
	"learning_rate": 2.259861571108423e-05,
	"loss": 0.1747,
	"mean_token_accuracy": 0.9534294557571411,
	"num_tokens": 217894933.0,
	"step": 28000
	},
	{
	"epoch": 0.8079642187274564,
	"eval_entropy": 1.449135780728336,
	"eval_loss": 0.726492166519165,
	"eval_mean_token_accuracy": 0.9063065528607054,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 217894933.0,
	"eval_recall": 0.5782,
	"eval_runtime": 17.4046,
	"eval_samples_per_second": 52.17,
	"eval_steps_per_second": 52.17,
	"step": 28000
	},
	{
	"entropy": 1.3474767149090767,
	"epoch": 0.8656759486365604,
	"grad_norm": 1.15625,
	"learning_rate": 2.2003649128373957e-05,
	"loss": 0.1662,
	"mean_token_accuracy": 0.9552805411219597,
	"num_tokens": 233442927.0,
	"step": 30000
	},
	{
	"epoch": 0.8656759486365604,
	"eval_entropy": 1.4218564205495272,
	"eval_loss": 0.7416213750839233,
	"eval_mean_token_accuracy": 0.9069001922129535,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 233442927.0,
	"eval_recall": 0.587,
	"eval_runtime": 17.6827,
	"eval_samples_per_second": 51.35,
	"eval_steps_per_second": 51.35,
	"step": 30000
	},
	{
	"entropy": 1.337467650592327,
	"epoch": 0.9233876785456644,
	"grad_norm": 4.375,
	"learning_rate": 2.1408682545663684e-05,
	"loss": 0.1637,
	"mean_token_accuracy": 0.9557446602284908,
	"num_tokens": 249071659.0,
	"step": 32000
	},
	{
	"epoch": 0.9233876785456644,
	"eval_entropy": 1.3889587524835234,
	"eval_loss": 0.7390624284744263,
	"eval_mean_token_accuracy": 0.9073679444876537,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 249071659.0,
	"eval_recall": 0.5848,
	"eval_runtime": 17.5032,
	"eval_samples_per_second": 51.876,
	"eval_steps_per_second": 51.876,
	"step": 32000
	},
	{
	"entropy": 1.3001156712770463,
	"epoch": 0.9810994084547684,
	"grad_norm": 3.890625,
	"learning_rate": 2.0813715962953412e-05,
	"loss": 0.1557,
	"mean_token_accuracy": 0.9573536138236522,
	"num_tokens": 264672169.0,
	"step": 34000
	},
	{
	"epoch": 0.9810994084547684,
	"eval_entropy": 1.4234498099214705,
	"eval_loss": 0.7484801411628723,
	"eval_mean_token_accuracy": 0.9075630426012997,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 264672169.0,
	"eval_recall": 0.5859,
	"eval_runtime": 16.2686,
	"eval_samples_per_second": 55.813,
	"eval_steps_per_second": 55.813,
	"step": 34000
	},
	{
	"entropy": 1.2362971892952919,
	"epoch": 1.0388111383638725,
	"grad_norm": 4.96875,
	"learning_rate": 2.0218749380243143e-05,
	"loss": 0.1179,
	"mean_token_accuracy": 0.9659893708825111,
	"num_tokens": 280288735.0,
	"step": 36000
	},
	{
	"epoch": 1.0388111383638725,
	"eval_entropy": 1.268248316540592,
	"eval_loss": 0.7719414830207825,
	"eval_mean_token_accuracy": 0.9055645169796923,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 280288735.0,
	"eval_recall": 0.5771,
	"eval_runtime": 16.2819,
	"eval_samples_per_second": 55.767,
	"eval_steps_per_second": 55.767,
	"step": 36000
	},
	{
	"entropy": 1.1861163977086544,
	"epoch": 1.0965228682729764,
	"grad_norm": 2.703125,
	"learning_rate": 1.962378279753287e-05,
	"loss": 0.1001,
	"mean_token_accuracy": 0.9700573923885822,
	"num_tokens": 295889252.0,
	"step": 38000
	},
	{
	"epoch": 1.0965228682729764,
	"eval_entropy": 1.2859099207339308,
	"eval_loss": 0.7740228176116943,
	"eval_mean_token_accuracy": 0.9053704237425905,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 295889252.0,
	"eval_recall": 0.5815,
	"eval_runtime": 17.2227,
	"eval_samples_per_second": 52.721,
	"eval_steps_per_second": 52.721,
	"step": 38000
	},
	{
	"entropy": 1.172551353752613,
	"epoch": 1.1542345981820805,
	"grad_norm": 5.09375,
	"learning_rate": 1.90288162148226e-05,
	"loss": 0.0999,
	"mean_token_accuracy": 0.9701334120929241,
	"num_tokens": 311460812.0,
	"step": 40000
	},
	{
	"epoch": 1.1542345981820805,
	"eval_entropy": 1.2553664291613953,
	"eval_loss": 0.7721803784370422,
	"eval_mean_token_accuracy": 0.9035136323537071,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 311460812.0,
	"eval_recall": 0.576,
	"eval_runtime": 16.7852,
	"eval_samples_per_second": 54.095,
	"eval_steps_per_second": 54.095,
	"step": 40000
	},
	{
	"entropy": 1.1619984501898288,
	"epoch": 1.2119463280911846,
	"grad_norm": 2.21875,
	"learning_rate": 1.843384963211233e-05,
	"loss": 0.0965,
	"mean_token_accuracy": 0.9710877353549003,
	"num_tokens": 327135410.0,
	"step": 42000
	},
	{
	"epoch": 1.2119463280911846,
	"eval_entropy": 1.2579897131426219,
	"eval_loss": 0.7692885398864746,
	"eval_mean_token_accuracy": 0.9031982754033042,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 327135410.0,
	"eval_recall": 0.576,
	"eval_runtime": 17.2218,
	"eval_samples_per_second": 52.724,
	"eval_steps_per_second": 52.724,
	"step": 42000
	},
	{
	"entropy": 1.1411213338077069,
	"epoch": 1.2696580580002885,
	"grad_norm": 3.578125,
	"learning_rate": 1.7838883049402058e-05,
	"loss": 0.0944,
	"mean_token_accuracy": 0.9715765230953693,
	"num_tokens": 342774177.0,
	"step": 44000
	},
	{
	"epoch": 1.2696580580002885,
	"eval_entropy": 1.253242742319464,
	"eval_loss": 0.7519774436950684,
	"eval_mean_token_accuracy": 0.9045354708175827,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 342774177.0,
	"eval_recall": 0.576,
	"eval_runtime": 17.1793,
	"eval_samples_per_second": 52.854,
	"eval_steps_per_second": 52.854,
	"step": 44000
	},
	{
	"entropy": 1.1595853001475334,
	"epoch": 1.3273697879093926,
	"grad_norm": 5.5,
	"learning_rate": 1.724391646669179e-05,
	"loss": 0.0963,
	"mean_token_accuracy": 0.9711391851603984,
	"num_tokens": 358312922.0,
	"step": 46000
	},
	{
	"epoch": 1.3273697879093926,
	"eval_entropy": 1.2453804171689282,
	"eval_loss": 0.7676454186439514,
	"eval_mean_token_accuracy": 0.9064169454876547,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 358312922.0,
	"eval_recall": 0.5837,
	"eval_runtime": 16.8037,
	"eval_samples_per_second": 54.036,
	"eval_steps_per_second": 54.036,
	"step": 46000
	},
	{
	"entropy": 1.1609133576154709,
	"epoch": 1.3850815178184965,
	"grad_norm": 4.03125,
	"learning_rate": 1.6648949883981517e-05,
	"loss": 0.0922,
	"mean_token_accuracy": 0.9723608312606812,
	"num_tokens": 373752333.0,
	"step": 48000
	},
	{
	"epoch": 1.3850815178184965,
	"eval_entropy": 1.2345776492934921,
	"eval_loss": 0.7665285468101501,
	"eval_mean_token_accuracy": 0.9063460667687365,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 373752333.0,
	"eval_recall": 0.5793,
	"eval_runtime": 16.7578,
	"eval_samples_per_second": 54.184,
	"eval_steps_per_second": 54.184,
	"step": 48000
	},
	{
	"entropy": 1.1655547478497028,
	"epoch": 1.4427932477276006,
	"grad_norm": 5.59375,
	"learning_rate": 1.6053983301271245e-05,
	"loss": 0.094,
	"mean_token_accuracy": 0.9717481000125409,
	"num_tokens": 389447345.0,
	"step": 50000
	},
	{
	"epoch": 1.4427932477276006,
	"eval_entropy": 1.2292915042407713,
	"eval_loss": 0.7735024094581604,
	"eval_mean_token_accuracy": 0.907910385517822,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 389447345.0,
	"eval_recall": 0.5881,
	"eval_runtime": 17.3697,
	"eval_samples_per_second": 52.275,
	"eval_steps_per_second": 52.275,
	"step": 50000
	},
	{
	"entropy": 1.1552352701127528,
	"epoch": 1.5005049776367048,
	"grad_norm": 3.0,
	"learning_rate": 1.5459016718560976e-05,
	"loss": 0.091,
	"mean_token_accuracy": 0.9726284679472447,
	"num_tokens": 404935652.0,
	"step": 52000
	},
	{
	"epoch": 1.5005049776367048,
	"eval_entropy": 1.2490241264325406,
	"eval_loss": 0.7779573202133179,
	"eval_mean_token_accuracy": 0.9046718338053132,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 404935652.0,
	"eval_recall": 0.5848,
	"eval_runtime": 17.2173,
	"eval_samples_per_second": 52.738,
	"eval_steps_per_second": 52.738,
	"step": 52000
	},
	{
	"entropy": 1.1580015743076801,
	"epoch": 1.5582167075458087,
	"grad_norm": 0.0019989013671875,
	"learning_rate": 1.4864050135850704e-05,
	"loss": 0.0674,
	"mean_token_accuracy": 0.979576114565134,
	"num_tokens": 15533221.0,
	"step": 54000
	},
	{
	"epoch": 1.5582167075458087,
	"eval_entropy": 1.204221866138706,
	"eval_loss": 0.8085830211639404,
	"eval_mean_token_accuracy": 0.9048162211668124,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 15533221.0,
	"eval_recall": 0.5738,
	"eval_runtime": 17.1435,
	"eval_samples_per_second": 52.965,
	"eval_steps_per_second": 52.965,
	"step": 54000
	},
	{
	"entropy": 1.144241349697113,
	"epoch": 1.6159284374549125,
	"grad_norm": 3.765625,
	"learning_rate": 1.4269083553140432e-05,
	"loss": 0.0633,
	"mean_token_accuracy": 0.9807874869704246,
	"num_tokens": 31150685.0,
	"step": 56000
	},
	{
	"epoch": 1.6159284374549125,
	"eval_entropy": 1.2577752770306256,
	"eval_loss": 0.8108322024345398,
	"eval_mean_token_accuracy": 0.904205797002179,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 31150685.0,
	"eval_recall": 0.5738,
	"eval_runtime": 16.4274,
	"eval_samples_per_second": 55.274,
	"eval_steps_per_second": 55.274,
	"step": 56000
	},
	{
	"entropy": 1.162702257514,
	"epoch": 1.6736401673640167,
	"grad_norm": 2.8125,
	"learning_rate": 1.3674116970430161e-05,
	"loss": 0.0665,
	"mean_token_accuracy": 0.9797295650243759,
	"num_tokens": 46832332.0,
	"step": 58000
	},
	{
	"epoch": 1.6736401673640167,
	"eval_entropy": 1.268515376989537,
	"eval_loss": 0.814584493637085,
	"eval_mean_token_accuracy": 0.904229478295154,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 46832332.0,
	"eval_recall": 0.5716,
	"eval_runtime": 16.4853,
	"eval_samples_per_second": 55.079,
	"eval_steps_per_second": 55.079,
	"step": 58000
	},
	{
	"entropy": 1.1661596206724645,
	"epoch": 1.7313518972731208,
	"grad_norm": 5.96875,
	"learning_rate": 1.3079150387719889e-05,
	"loss": 0.0672,
	"mean_token_accuracy": 0.9796462517380714,
	"num_tokens": 62558817.0,
	"step": 60000
	},
	{
	"epoch": 1.7313518972731208,
	"eval_entropy": 1.2622852631996382,
	"eval_loss": 0.8227198123931885,
	"eval_mean_token_accuracy": 0.9038923141846048,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 62558817.0,
	"eval_recall": 0.5716,
	"eval_runtime": 16.9948,
	"eval_samples_per_second": 53.428,
	"eval_steps_per_second": 53.428,
	"step": 60000
	},
	{
	"entropy": 1.1797457176148891,
	"epoch": 1.789063627182225,
	"grad_norm": 0.5546875,
	"learning_rate": 1.2484183805009618e-05,
	"loss": 0.0657,
	"mean_token_accuracy": 0.980204150468111,
	"num_tokens": 78074806.0,
	"step": 62000
	},
	{
	"epoch": 1.789063627182225,
	"eval_entropy": 1.2418163208052975,
	"eval_loss": 0.8185028433799744,
	"eval_mean_token_accuracy": 0.9041991046740621,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 78074806.0,
	"eval_recall": 0.5705,
	"eval_runtime": 17.1144,
	"eval_samples_per_second": 53.055,
	"eval_steps_per_second": 53.055,
	"step": 62000
	},
	{
	"entropy": 1.1774089051187038,
	"epoch": 1.8467753570913288,
	"grad_norm": 5.5625,
	"learning_rate": 1.1889217222299348e-05,
	"loss": 0.0649,
	"mean_token_accuracy": 0.9804997465908527,
	"num_tokens": 93602629.0,
	"step": 64000
	},
	{
	"epoch": 1.8467753570913288,
	"eval_entropy": 1.2988805646807087,
	"eval_loss": 0.8260899782180786,
	"eval_mean_token_accuracy": 0.9030656689523601,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 93602629.0,
	"eval_recall": 0.576,
	"eval_runtime": 16.1643,
	"eval_samples_per_second": 56.173,
	"eval_steps_per_second": 56.173,
	"step": 64000
	},
	{
	"entropy": 1.174987347126007,
	"epoch": 1.9044870870004327,
	"grad_norm": 5.53125,
	"learning_rate": 1.1294250639589077e-05,
	"loss": 0.064,
	"mean_token_accuracy": 0.9806980607807636,
	"num_tokens": 109249414.0,
	"step": 66000
	},
	{
	"epoch": 1.9044870870004327,
	"eval_entropy": 1.2433809736489199,
	"eval_loss": 0.8272661566734314,
	"eval_mean_token_accuracy": 0.9028221254569319,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 109249414.0,
	"eval_recall": 0.5727,
	"eval_runtime": 16.3988,
	"eval_samples_per_second": 55.37,
	"eval_steps_per_second": 55.37,
	"step": 66000
	},
	{
	"entropy": 1.1633582679629326,
	"epoch": 1.9621988169095368,
	"grad_norm": 5.34375,
	"learning_rate": 1.0699284056878807e-05,
	"loss": 0.0643,
	"mean_token_accuracy": 0.9805754337012768,
	"num_tokens": 124880720.0,
	"step": 68000
	},
	{
	"epoch": 1.9621988169095368,
	"eval_entropy": 1.224490842367584,
	"eval_loss": 0.8288715481758118,
	"eval_mean_token_accuracy": 0.9034351931991557,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 124880720.0,
	"eval_recall": 0.5738,
	"eval_runtime": 16.4997,
	"eval_samples_per_second": 55.031,
	"eval_steps_per_second": 55.031,
	"step": 68000
	},
	{
	"entropy": 1.1513627296090125,
	"epoch": 2.019910546818641,
	"grad_norm": 0.79296875,
	"learning_rate": 1.0104317474168535e-05,
	"loss": 0.0633,
	"mean_token_accuracy": 0.9811660476624966,
	"num_tokens": 140499220.0,
	"step": 70000
	},
	{
	"epoch": 2.019910546818641,
	"eval_entropy": 1.2267822175561593,
	"eval_loss": 0.8458257913589478,
	"eval_mean_token_accuracy": 0.9038964834572986,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 140499220.0,
	"eval_recall": 0.5705,
	"eval_runtime": 16.4967,
	"eval_samples_per_second": 55.041,
	"eval_steps_per_second": 55.041,
	"step": 70000
	},
	{
	"entropy": 1.143776093840599,
	"epoch": 2.077622276727745,
	"grad_norm": 7.9375,
	"learning_rate": 9.509350891458264e-06,
	"loss": 0.0597,
	"mean_token_accuracy": 0.9825106913745403,
	"num_tokens": 156048918.0,
	"step": 72000
	},
	{
	"epoch": 2.077622276727745,
	"eval_entropy": 1.2148328015195116,
	"eval_loss": 0.8337165713310242,
	"eval_mean_token_accuracy": 0.9035390550475814,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 156048918.0,
	"eval_recall": 0.5705,
	"eval_runtime": 16.506,
	"eval_samples_per_second": 55.01,
	"eval_steps_per_second": 55.01,
	"step": 72000
	},
	{
	"entropy": 1.1460822140574456,
	"epoch": 2.135334006636849,
	"grad_norm": 12.375,
	"learning_rate": 8.914384308747992e-06,
	"loss": 0.0596,
	"mean_token_accuracy": 0.98244061678648,
	"num_tokens": 171653895.0,
	"step": 74000
	},
	{
	"epoch": 2.135334006636849,
	"eval_entropy": 1.2635613490175046,
	"eval_loss": 0.8348618745803833,
	"eval_mean_token_accuracy": 0.9038379774285308,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 171653895.0,
	"eval_recall": 0.5694,
	"eval_runtime": 16.4822,
	"eval_samples_per_second": 55.09,
	"eval_steps_per_second": 55.09,
	"step": 74000
	},
	{
	"entropy": 1.1560133908391,
	"epoch": 2.193045736545953,
	"grad_norm": 7.625,
	"learning_rate": 8.319417726037721e-06,
	"loss": 0.06,
	"mean_token_accuracy": 0.9822552761137485,
	"num_tokens": 187228261.0,
	"step": 76000
	},
	{
	"epoch": 2.193045736545953,
	"eval_entropy": 1.2220293277554575,
	"eval_loss": 0.8315507769584656,
	"eval_mean_token_accuracy": 0.9036543207809263,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 187228261.0,
	"eval_recall": 0.5716,
	"eval_runtime": 16.703,
	"eval_samples_per_second": 54.361,
	"eval_steps_per_second": 54.361,
	"step": 76000
	},
	{
	"entropy": 1.1676500248610973,
	"epoch": 2.250757466455057,
	"grad_norm": 4.84375,
	"learning_rate": 7.72445114332745e-06,
	"loss": 0.0611,
	"mean_token_accuracy": 0.9819406977891922,
	"num_tokens": 202699683.0,
	"step": 78000
	},
	{
	"epoch": 2.250757466455057,
	"eval_entropy": 1.2448954319638827,
	"eval_loss": 0.8309385776519775,
	"eval_mean_token_accuracy": 0.9030922418255113,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 202699683.0,
	"eval_recall": 0.5694,
	"eval_runtime": 16.603,
	"eval_samples_per_second": 54.689,
	"eval_steps_per_second": 54.689,
	"step": 78000
	},
	{
	"entropy": 1.1656713368594647,
	"epoch": 2.308469196364161,
	"grad_norm": 6.53125,
	"learning_rate": 7.129484560617179e-06,
	"loss": 0.0618,
	"mean_token_accuracy": 0.9817487963140011,
	"num_tokens": 218284466.0,
	"step": 80000
	},
	{
	"epoch": 2.308469196364161,
	"eval_entropy": 1.255102663181952,
	"eval_loss": 0.8435425162315369,
	"eval_mean_token_accuracy": 0.902260869642974,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 218284466.0,
	"eval_recall": 0.5661,
	"eval_runtime": 16.8256,
	"eval_samples_per_second": 53.965,
	"eval_steps_per_second": 53.965,
	"step": 80000
	},
	{
	"entropy": 1.1597592905461789,
	"epoch": 2.366180926273265,
	"grad_norm": 2.5,
	"learning_rate": 6.534517977906908e-06,
	"loss": 0.0602,
	"mean_token_accuracy": 0.9821576415896416,
	"num_tokens": 233928452.0,
	"step": 82000
	},
	{
	"epoch": 2.366180926273265,
	"eval_entropy": 1.2422783964924875,
	"eval_loss": 0.8390738368034363,
	"eval_mean_token_accuracy": 0.9032785006950605,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 233928452.0,
	"eval_recall": 0.5683,
	"eval_runtime": 16.7577,
	"eval_samples_per_second": 54.184,
	"eval_steps_per_second": 54.184,
	"step": 82000
	},
	{
	"entropy": 1.17008468157053,
	"epoch": 2.4238926561823693,
	"grad_norm": 0.0400390625,
	"learning_rate": 5.939551395196637e-06,
	"loss": 0.0591,
	"mean_token_accuracy": 0.9825585896968841,
	"num_tokens": 249419664.0,
	"step": 84000
	},
	{
	"epoch": 2.4238926561823693,
	"eval_entropy": 1.2469606770424067,
	"eval_loss": 0.8383654356002808,
	"eval_mean_token_accuracy": 0.9040639832418921,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 249419664.0,
	"eval_recall": 0.5705,
	"eval_runtime": 16.6392,
	"eval_samples_per_second": 54.57,
	"eval_steps_per_second": 54.57,
	"step": 84000
	},
	{
	"entropy": 1.163529093414545,
	"epoch": 2.481604386091473,
	"grad_norm": 6.28125,
	"learning_rate": 5.3445848124863655e-06,
	"loss": 0.0568,
	"mean_token_accuracy": 0.9832313210368157,
	"num_tokens": 264982654.0,
	"step": 86000
	},
	{
	"epoch": 2.481604386091473,
	"eval_entropy": 1.236849331908289,
	"eval_loss": 0.8381890058517456,
	"eval_mean_token_accuracy": 0.9027883698630438,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 264982654.0,
	"eval_recall": 0.5672,
	"eval_runtime": 16.5964,
	"eval_samples_per_second": 54.711,
	"eval_steps_per_second": 54.711,
	"step": 86000
	},
	{
	"entropy": 1.1701532056927682,
	"epoch": 2.539316116000577,
	"grad_norm": 0.87109375,
	"learning_rate": 4.749618229776094e-06,
	"loss": 0.0574,
	"mean_token_accuracy": 0.9830155865848065,
	"num_tokens": 280520807.0,
	"step": 88000
	},
	{
	"epoch": 2.539316116000577,
	"eval_entropy": 1.2492524392673097,
	"eval_loss": 0.839518666267395,
	"eval_mean_token_accuracy": 0.9025986767681685,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 280520807.0,
	"eval_recall": 0.5661,
	"eval_runtime": 16.5519,
	"eval_samples_per_second": 54.858,
	"eval_steps_per_second": 54.858,
	"step": 88000
	},
	{
	"entropy": 1.167941878914833,
	"epoch": 2.597027845909681,
	"grad_norm": 0.451171875,
	"learning_rate": 4.154651647065824e-06,
	"loss": 0.0602,
	"mean_token_accuracy": 0.9820802296400071,
	"num_tokens": 296146535.0,
	"step": 90000
	},
	{
	"epoch": 2.597027845909681,
	"eval_entropy": 1.2443812186234848,
	"eval_loss": 0.8395401835441589,
	"eval_mean_token_accuracy": 0.9034286766981764,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 296146535.0,
	"eval_recall": 0.5683,
	"eval_runtime": 16.788,
	"eval_samples_per_second": 54.086,
	"eval_steps_per_second": 54.086,
	"step": 90000
	},
	{
	"entropy": 1.1601335457861424,
	"epoch": 2.6547395758187853,
	"grad_norm": 4.6875,
	"learning_rate": 3.559685064355552e-06,
	"loss": 0.0584,
	"mean_token_accuracy": 0.9827592859268188,
	"num_tokens": 311778551.0,
	"step": 92000
	},
	{
	"epoch": 2.6547395758187853,
	"eval_entropy": 1.2437387075324415,
	"eval_loss": 0.836577296257019,
	"eval_mean_token_accuracy": 0.9039776291419231,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 311778551.0,
	"eval_recall": 0.5705,
	"eval_runtime": 16.2272,
	"eval_samples_per_second": 55.956,
	"eval_steps_per_second": 55.956,
	"step": 92000
	},
	{
	"entropy": 1.1733056641221047,
	"epoch": 2.712451305727889,
	"grad_norm": 5.03125,
	"learning_rate": 2.964718481645281e-06,
	"loss": 0.0564,
	"mean_token_accuracy": 0.9832823853492737,
	"num_tokens": 327170479.0,
	"step": 94000
	},
	{
	"epoch": 2.712451305727889,
	"eval_entropy": 1.2440849004337966,
	"eval_loss": 0.8399211168289185,
	"eval_mean_token_accuracy": 0.9033104040155326,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 327170479.0,
	"eval_recall": 0.5683,
	"eval_runtime": 16.2233,
	"eval_samples_per_second": 55.969,
	"eval_steps_per_second": 55.969,
	"step": 94000
	},
	{
	"entropy": 1.1586334483027458,
	"epoch": 2.770163035636993,
	"grad_norm": 3.953125,
	"learning_rate": 2.36975189893501e-06,
	"loss": 0.0585,
	"mean_token_accuracy": 0.9826480825543403,
	"num_tokens": 342791353.0,
	"step": 96000
	},
	{
	"epoch": 2.770163035636993,
	"eval_entropy": 1.2412338042180444,
	"eval_loss": 0.8378188610076904,
	"eval_mean_token_accuracy": 0.9035194405572005,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 342791353.0,
	"eval_recall": 0.5672,
	"eval_runtime": 16.2077,
	"eval_samples_per_second": 56.023,
	"eval_steps_per_second": 56.023,
	"step": 96000
	},
	{
	"entropy": 1.1629991734027862,
	"epoch": 2.827874765546097,
	"grad_norm": 6.4375,
	"learning_rate": 1.7747853162247388e-06,
	"loss": 0.0608,
	"mean_token_accuracy": 0.9821404512822628,
	"num_tokens": 358436354.0,
	"step": 98000
	},
	{
	"epoch": 2.827874765546097,
	"eval_entropy": 1.2435034370369848,
	"eval_loss": 0.8380420207977295,
	"eval_mean_token_accuracy": 0.9037704004327631,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 358436354.0,
	"eval_recall": 0.5694,
	"eval_runtime": 16.2198,
	"eval_samples_per_second": 55.981,
	"eval_steps_per_second": 55.981,
	"step": 98000
	},
	{
	"entropy": 1.1640874392092229,
	"epoch": 2.8855864954552013,
	"grad_norm": 0.8203125,
	"learning_rate": 1.1798187335144677e-06,
	"loss": 0.0574,
	"mean_token_accuracy": 0.9829988768994808,
	"num_tokens": 374029027.0,
	"step": 100000
	},
	{
	"epoch": 2.8855864954552013,
	"eval_entropy": 1.2438825091207606,
	"eval_loss": 0.8370459079742432,
	"eval_mean_token_accuracy": 0.9030486140810445,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 374029027.0,
	"eval_recall": 0.5661,
	"eval_runtime": 17.3712,
	"eval_samples_per_second": 52.271,
	"eval_steps_per_second": 52.271,
	"step": 100000
	},
	{
	"entropy": 1.1683570961356162,
	"epoch": 2.9432982253643054,
	"grad_norm": 6.65625,
	"learning_rate": 5.848521508041964e-07,
	"loss": 0.0583,
	"mean_token_accuracy": 0.982835016399622,
	"num_tokens": 389554889.0,
	"step": 102000
	},
	{
	"epoch": 2.9432982253643054,
	"eval_entropy": 1.2444104566710636,
	"eval_loss": 0.8376456499099731,
	"eval_mean_token_accuracy": 0.9037148623608282,
	"eval_num_gold": 908,
	"eval_num_guess": 908,
	"eval_num_tokens": 389554889.0,
	"eval_recall": 0.5683,
	"eval_runtime": 16.2408,
	"eval_samples_per_second": 55.909,
	"eval_steps_per_second": 55.909,
	"step": 102000
	}
	],
	"logging_steps": 2000,
	"max_steps": 103965,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 2000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.6466469785747587e+19,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}