| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 97.95918367346938, | |
| "global_step": 600, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 1.63, | |
| "learning_rate": 0.009833333333333333, | |
| "loss": 2.53, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 3.27, | |
| "learning_rate": 0.009666666666666667, | |
| "loss": 2.0016, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 4.9, | |
| "learning_rate": 0.0095, | |
| "loss": 1.7775, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 6.53, | |
| "learning_rate": 0.009333333333333334, | |
| "loss": 1.6576, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 8.16, | |
| "learning_rate": 0.009166666666666667, | |
| "loss": 1.5048, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 9.8, | |
| "learning_rate": 0.009000000000000001, | |
| "loss": 1.3572, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 11.43, | |
| "learning_rate": 0.008833333333333334, | |
| "loss": 1.2067, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 13.06, | |
| "learning_rate": 0.008666666666666668, | |
| "loss": 1.0777, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 14.69, | |
| "learning_rate": 0.0085, | |
| "loss": 0.9188, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 16.33, | |
| "learning_rate": 0.008333333333333333, | |
| "loss": 0.7241, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 17.96, | |
| "learning_rate": 0.008166666666666666, | |
| "loss": 0.5775, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 19.59, | |
| "learning_rate": 0.008, | |
| "loss": 0.4235, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 21.22, | |
| "learning_rate": 0.007833333333333333, | |
| "loss": 0.3182, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 22.86, | |
| "learning_rate": 0.007666666666666667, | |
| "loss": 0.2155, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 24.49, | |
| "learning_rate": 0.0075, | |
| "loss": 0.1633, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 26.12, | |
| "learning_rate": 0.007333333333333333, | |
| "loss": 0.1234, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 27.76, | |
| "learning_rate": 0.007166666666666667, | |
| "loss": 0.0911, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 29.39, | |
| "learning_rate": 0.006999999999999999, | |
| "loss": 0.0738, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 31.02, | |
| "learning_rate": 0.006833333333333334, | |
| "loss": 0.0673, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 32.65, | |
| "learning_rate": 0.006666666666666666, | |
| "loss": 0.0544, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 34.29, | |
| "learning_rate": 0.006500000000000001, | |
| "loss": 0.0492, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 35.92, | |
| "learning_rate": 0.006333333333333333, | |
| "loss": 0.0458, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 37.55, | |
| "learning_rate": 0.0061666666666666675, | |
| "loss": 0.0434, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 39.18, | |
| "learning_rate": 0.006, | |
| "loss": 0.0387, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 40.82, | |
| "learning_rate": 0.005833333333333334, | |
| "loss": 0.0375, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 42.45, | |
| "learning_rate": 0.005666666666666666, | |
| "loss": 0.0363, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 44.08, | |
| "learning_rate": 0.0055000000000000005, | |
| "loss": 0.0347, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 45.71, | |
| "learning_rate": 0.005333333333333333, | |
| "loss": 0.0341, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 47.35, | |
| "learning_rate": 0.0051666666666666675, | |
| "loss": 0.0327, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 48.98, | |
| "learning_rate": 0.005, | |
| "loss": 0.0307, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 50.61, | |
| "learning_rate": 0.004833333333333334, | |
| "loss": 0.031, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 52.24, | |
| "learning_rate": 0.004666666666666667, | |
| "loss": 0.0312, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 53.88, | |
| "learning_rate": 0.0045000000000000005, | |
| "loss": 0.033, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 55.51, | |
| "learning_rate": 0.004333333333333334, | |
| "loss": 0.0294, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 57.14, | |
| "learning_rate": 0.004166666666666667, | |
| "loss": 0.0308, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 58.78, | |
| "learning_rate": 0.004, | |
| "loss": 0.0301, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 60.41, | |
| "learning_rate": 0.0038333333333333336, | |
| "loss": 0.0292, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 62.04, | |
| "learning_rate": 0.0036666666666666666, | |
| "loss": 0.0316, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 63.67, | |
| "learning_rate": 0.0034999999999999996, | |
| "loss": 0.0302, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 65.31, | |
| "learning_rate": 0.003333333333333333, | |
| "loss": 0.0295, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 66.94, | |
| "learning_rate": 0.0031666666666666666, | |
| "loss": 0.0306, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 68.57, | |
| "learning_rate": 0.003, | |
| "loss": 0.0296, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 70.2, | |
| "learning_rate": 0.002833333333333333, | |
| "loss": 0.0293, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 71.84, | |
| "learning_rate": 0.0026666666666666666, | |
| "loss": 0.0302, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 73.47, | |
| "learning_rate": 0.0025, | |
| "loss": 0.0288, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 75.1, | |
| "learning_rate": 0.0023333333333333335, | |
| "loss": 0.0292, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 76.73, | |
| "learning_rate": 0.002166666666666667, | |
| "loss": 0.0285, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 78.37, | |
| "learning_rate": 0.002, | |
| "loss": 0.0309, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 80.0, | |
| "learning_rate": 0.0018333333333333333, | |
| "loss": 0.0291, | |
| "step": 490 | |
| }, | |
| { | |
| "epoch": 81.63, | |
| "learning_rate": 0.0016666666666666666, | |
| "loss": 0.0305, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 83.27, | |
| "learning_rate": 0.0015, | |
| "loss": 0.0302, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 84.9, | |
| "learning_rate": 0.0013333333333333333, | |
| "loss": 0.0294, | |
| "step": 520 | |
| }, | |
| { | |
| "epoch": 86.53, | |
| "learning_rate": 0.0011666666666666668, | |
| "loss": 0.0295, | |
| "step": 530 | |
| }, | |
| { | |
| "epoch": 88.16, | |
| "learning_rate": 0.001, | |
| "loss": 0.0283, | |
| "step": 540 | |
| }, | |
| { | |
| "epoch": 89.8, | |
| "learning_rate": 0.0008333333333333333, | |
| "loss": 0.0305, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 91.43, | |
| "learning_rate": 0.0006666666666666666, | |
| "loss": 0.0288, | |
| "step": 560 | |
| }, | |
| { | |
| "epoch": 93.06, | |
| "learning_rate": 0.0005, | |
| "loss": 0.0309, | |
| "step": 570 | |
| }, | |
| { | |
| "epoch": 94.69, | |
| "learning_rate": 0.0003333333333333333, | |
| "loss": 0.0286, | |
| "step": 580 | |
| }, | |
| { | |
| "epoch": 96.33, | |
| "learning_rate": 0.00016666666666666666, | |
| "loss": 0.0309, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 97.96, | |
| "learning_rate": 0.0, | |
| "loss": 0.0294, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 97.96, | |
| "step": 600, | |
| "total_flos": 7.054488937640755e+17, | |
| "train_loss": 0.302445507645607, | |
| "train_runtime": 8265.7464, | |
| "train_samples_per_second": 1.161, | |
| "train_steps_per_second": 0.073 | |
| } | |
| ], | |
| "max_steps": 600, | |
| "num_train_epochs": 100, | |
| "total_flos": 7.054488937640755e+17, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |