train_qqp_1744902596

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the qqp dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1152
  • Num Input Tokens Seen: 49022016

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.1901 0.0098 200 0.1679 245536
0.1319 0.0195 400 0.1593 489696
0.1411 0.0293 600 0.1574 737824
0.1547 0.0391 800 0.1518 981856
0.1735 0.0489 1000 0.1466 1225952
0.1176 0.0586 1200 0.1441 1469920
0.1501 0.0684 1400 0.1421 1715360
0.1321 0.0782 1600 0.1412 1961952
0.1214 0.0879 1800 0.1384 2205952
0.1285 0.0977 2000 0.1385 2453792
0.1217 0.1075 2200 0.1400 2698976
0.1495 0.1173 2400 0.1358 2944000
0.1102 0.1270 2600 0.1350 3190496
0.1075 0.1368 2800 0.1335 3439104
0.1091 0.1466 3000 0.1343 3684640
0.1433 0.1564 3200 0.1332 3931744
0.12 0.1661 3400 0.1322 4179680
0.0864 0.1759 3600 0.1310 4424000
0.1571 0.1857 3800 0.1321 4667488
0.155 0.1954 4000 0.1307 4910752
0.1071 0.2052 4200 0.1297 5157152
0.1724 0.2150 4400 0.1298 5403360
0.1203 0.2248 4600 0.1291 5647360
0.1303 0.2345 4800 0.1296 5889632
0.0855 0.2443 5000 0.1289 6135424
0.138 0.2541 5200 0.1295 6380320
0.1223 0.2638 5400 0.1274 6627360
0.1361 0.2736 5600 0.1284 6873760
0.1444 0.2834 5800 0.1270 7121504
0.0903 0.2932 6000 0.1265 7366208
0.1263 0.3029 6200 0.1272 7615264
0.1312 0.3127 6400 0.1263 7860128
0.1535 0.3225 6600 0.1263 8103360
0.092 0.3323 6800 0.1253 8350976
0.1089 0.3420 7000 0.1252 8597664
0.1155 0.3518 7200 0.1266 8842400
0.1277 0.3616 7400 0.1245 9087456
0.1288 0.3713 7600 0.1249 9331520
0.1218 0.3811 7800 0.1241 9576704
0.12 0.3909 8000 0.1239 9819200
0.123 0.4007 8200 0.1238 10064928
0.1415 0.4104 8400 0.1235 10308768
0.161 0.4202 8600 0.1233 10551296
0.1512 0.4300 8800 0.1233 10798144
0.1335 0.4397 9000 0.1228 11047776
0.1294 0.4495 9200 0.1233 11292384
0.0928 0.4593 9400 0.1237 11534944
0.1224 0.4691 9600 0.1230 11778880
0.1442 0.4788 9800 0.1225 12025472
0.0871 0.4886 10000 0.1232 12267968
0.1158 0.4984 10200 0.1228 12511488
0.0887 0.5081 10400 0.1224 12755904
0.1297 0.5179 10600 0.1245 13002048
0.1233 0.5277 10800 0.1218 13246272
0.1391 0.5375 11000 0.1214 13491456
0.1114 0.5472 11200 0.1212 13735936
0.149 0.5570 11400 0.1217 13982176
0.1027 0.5668 11600 0.1215 14227136
0.0688 0.5766 11800 0.1208 14472704
0.0897 0.5863 12000 0.1210 14717856
0.1426 0.5961 12200 0.1207 14963520
0.1519 0.6059 12400 0.1206 15208224
0.0878 0.6156 12600 0.1203 15453408
0.1015 0.6254 12800 0.1218 15698016
0.1121 0.6352 13000 0.1200 15942720
0.1291 0.6450 13200 0.1216 16186528
0.1201 0.6547 13400 0.1205 16433472
0.0996 0.6645 13600 0.1210 16679360
0.0846 0.6743 13800 0.1200 16924896
0.1269 0.6840 14000 0.1217 17171072
0.1339 0.6938 14200 0.1194 17416704
0.0996 0.7036 14400 0.1194 17663488
0.1051 0.7134 14600 0.1197 17910272
0.1114 0.7231 14800 0.1197 18151712
0.1534 0.7329 15000 0.1191 18395744
0.0977 0.7427 15200 0.1192 18642368
0.1185 0.7524 15400 0.1193 18889312
0.1563 0.7622 15600 0.1188 19133312
0.0689 0.7720 15800 0.1187 19376992
0.1026 0.7818 16000 0.1190 19620672
0.1065 0.7915 16200 0.1196 19866240
0.1245 0.8013 16400 0.1189 20112160
0.1714 0.8111 16600 0.1188 20358464
0.1144 0.8209 16800 0.1185 20602112
0.1063 0.8306 17000 0.1184 20845696
0.1262 0.8404 17200 0.1197 21089792
0.1041 0.8502 17400 0.1180 21334176
0.1128 0.8599 17600 0.1181 21577600
0.1502 0.8697 17800 0.1183 21822848
0.1218 0.8795 18000 0.1178 22067296
0.145 0.8893 18200 0.1186 22313824
0.1031 0.8990 18400 0.1179 22558912
0.1065 0.9088 18600 0.1187 22803456
0.1618 0.9186 18800 0.1174 23047552
0.1274 0.9283 19000 0.1174 23293856
0.0996 0.9381 19200 0.1181 23539488
0.1094 0.9479 19400 0.1182 23786464
0.1615 0.9577 19600 0.1175 24032064
0.1215 0.9674 19800 0.1174 24278464
0.1038 0.9772 20000 0.1171 24521632
0.1408 0.9870 20200 0.1170 24765600
0.1082 0.9968 20400 0.1169 25007520
0.1435 1.0065 20600 0.1175 25253920
0.1489 1.0163 20800 0.1169 25498432
0.0848 1.0261 21000 0.1168 25745120
0.0818 1.0359 21200 0.1171 25989952
0.1606 1.0456 21400 0.1170 26234080
0.1026 1.0554 21600 0.1168 26482784
0.1172 1.0652 21800 0.1167 26728608
0.0651 1.0750 22000 0.1167 26977792
0.1239 1.0847 22200 0.1166 27218080
0.1445 1.0945 22400 0.1168 27463456
0.1003 1.1043 22600 0.1165 27708832
0.1534 1.1140 22800 0.1165 27956000
0.1273 1.1238 23000 0.1164 28204704
0.097 1.1336 23200 0.1163 28452992
0.1034 1.1434 23400 0.1164 28696640
0.0853 1.1531 23600 0.1166 28937792
0.12 1.1629 23800 0.1163 29186016
0.1289 1.1727 24000 0.1166 29431872
0.137 1.1824 24200 0.1166 29673216
0.1117 1.1922 24400 0.1169 29916864
0.1606 1.2020 24600 0.1164 30163136
0.1121 1.2118 24800 0.1161 30405920
0.1166 1.2215 25000 0.1168 30652960
0.0849 1.2313 25200 0.1163 30897184
0.078 1.2411 25400 0.1163 31141248
0.127 1.2508 25600 0.1160 31385376
0.1141 1.2606 25800 0.1164 31630880
0.1643 1.2704 26000 0.1161 31876320
0.1189 1.2802 26200 0.1159 32120640
0.137 1.2899 26400 0.1160 32365056
0.1241 1.2997 26600 0.1181 32611072
0.0727 1.3095 26800 0.1158 32855648
0.1173 1.3193 27000 0.1159 33097440
0.0828 1.3290 27200 0.1159 33342208
0.1003 1.3388 27400 0.1173 33587968
0.1168 1.3486 27600 0.1162 33831872
0.1117 1.3583 27800 0.1157 34076864
0.1154 1.3681 28000 0.1157 34319616
0.1947 1.3779 28200 0.1157 34563968
0.0931 1.3877 28400 0.1157 34808704
0.0971 1.3974 28600 0.1157 35054656
0.0868 1.4072 28800 0.1157 35297248
0.1342 1.4170 29000 0.1158 35543232
0.0896 1.4267 29200 0.1156 35787200
0.1129 1.4365 29400 0.1158 36033344
0.09 1.4463 29600 0.1155 36277664
0.1136 1.4561 29800 0.1155 36522912
0.1101 1.4658 30000 0.1159 36766912
0.144 1.4756 30200 0.1158 37010880
0.0907 1.4854 30400 0.1157 37255808
0.1175 1.4952 30600 0.1155 37500256
0.0861 1.5049 30800 0.1155 37744128
0.115 1.5147 31000 0.1158 37989600
0.1142 1.5245 31200 0.1158 38233760
0.0642 1.5342 31400 0.1154 38480384
0.1567 1.5440 31600 0.1160 38728448
0.1036 1.5538 31800 0.1155 38975296
0.0707 1.5636 32000 0.1155 39221728
0.1278 1.5733 32200 0.1154 39465280
0.1105 1.5831 32400 0.1156 39712992
0.1495 1.5929 32600 0.1155 39960032
0.0812 1.6026 32800 0.1156 40206624
0.1518 1.6124 33000 0.1154 40449856
0.1161 1.6222 33200 0.1154 40693312
0.1395 1.6320 33400 0.1156 40936672
0.0893 1.6417 33600 0.1155 41180480
0.1135 1.6515 33800 0.1154 41422272
0.0854 1.6613 34000 0.1154 41666752
0.1253 1.6710 34200 0.1153 41912096
0.0943 1.6808 34400 0.1154 42157856
0.1075 1.6906 34600 0.1153 42402496
0.0885 1.7004 34800 0.1155 42645088
0.0962 1.7101 35000 0.1155 42889536
0.1086 1.7199 35200 0.1154 43134208
0.0983 1.7297 35400 0.1154 43377824
0.0819 1.7395 35600 0.1154 43623232
0.125 1.7492 35800 0.1153 43872416
0.1104 1.7590 36000 0.1155 44117632
0.1167 1.7688 36200 0.1153 44363488
0.108 1.7785 36400 0.1154 44608000
0.1323 1.7883 36600 0.1153 44852672
0.1252 1.7981 36800 0.1154 45098144
0.1044 1.8079 37000 0.1153 45342912
0.1118 1.8176 37200 0.1153 45590720
0.118 1.8274 37400 0.1152 45835200
0.0873 1.8372 37600 0.1154 46079328
0.1165 1.8469 37800 0.1153 46322496
0.1215 1.8567 38000 0.1153 46565536
0.1346 1.8665 38200 0.1154 46809376
0.1036 1.8763 38400 0.1153 47052352
0.1283 1.8860 38600 0.1153 47298816
0.0801 1.8958 38800 0.1153 47547712
0.1072 1.9056 39000 0.1154 47794048
0.1088 1.9153 39200 0.1152 48039872
0.1262 1.9251 39400 0.1153 48286368
0.0981 1.9349 39600 0.1153 48530880
0.0854 1.9447 39800 0.1153 48774656
0.0957 1.9544 40000 0.1153 49022016

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
15
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qqp_1744902596

Adapter
(2077)
this model

Evaluation results