train_qqp_1744902600

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the qqp dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0816
  • Num Input Tokens Seen: 50647232

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.1128 0.0098 200 0.1221 254944
0.095 0.0195 400 0.1149 507488
0.083 0.0293 600 0.1162 764128
0.1032 0.0391 800 0.1103 1016160
0.1135 0.0489 1000 0.1059 1268384
0.0913 0.0586 1200 0.1052 1520384
0.0995 0.0684 1400 0.1028 1773408
0.0915 0.0782 1600 0.1014 2028480
0.0882 0.0879 1800 0.1005 2280960
0.0876 0.0977 2000 0.1000 2536512
0.0946 0.1075 2200 0.1026 2790752
0.1064 0.1173 2400 0.0980 3043136
0.0878 0.1270 2600 0.0999 3298464
0.0702 0.1368 2800 0.0972 3556256
0.0959 0.1466 3000 0.0974 3809536
0.1041 0.1564 3200 0.0961 4064256
0.0959 0.1661 3400 0.0954 4319712
0.0677 0.1759 3600 0.0948 4571104
0.1117 0.1857 3800 0.0946 4822176
0.0994 0.1954 4000 0.0960 5073216
0.0695 0.2052 4200 0.0937 5327680
0.1034 0.2150 4400 0.0951 5582272
0.0735 0.2248 4600 0.0942 5834624
0.0822 0.2345 4800 0.0928 6085600
0.0658 0.2443 5000 0.0932 6339520
0.0979 0.2541 5200 0.0927 6592160
0.0866 0.2638 5400 0.0916 6847232
0.1044 0.2736 5600 0.0915 7101984
0.1107 0.2834 5800 0.0912 7357536
0.077 0.2932 6000 0.0908 7610208
0.0793 0.3029 6200 0.0915 7868832
0.0959 0.3127 6400 0.0902 8121856
0.1085 0.3225 6600 0.0907 8372096
0.0567 0.3323 6800 0.0906 8628064
0.0889 0.3420 7000 0.0896 8882496
0.0911 0.3518 7200 0.0900 9135616
0.1057 0.3616 7400 0.0895 9389184
0.0964 0.3713 7600 0.0890 9641344
0.0887 0.3811 7800 0.0889 9894624
0.0751 0.3909 8000 0.0886 10144480
0.0674 0.4007 8200 0.0883 10398432
0.0945 0.4104 8400 0.0884 10650624
0.1063 0.4202 8600 0.0882 10901824
0.1123 0.4300 8800 0.0880 11155840
0.0809 0.4397 9000 0.0877 11413440
0.0759 0.4495 9200 0.0875 11666624
0.0851 0.4593 9400 0.0874 11917248
0.085 0.4691 9600 0.0883 12168736
0.0974 0.4788 9800 0.0871 12423520
0.0689 0.4886 10000 0.0871 12673888
0.0832 0.4984 10200 0.0875 12924960
0.055 0.5081 10400 0.0868 13176640
0.0982 0.5179 10600 0.0886 13430912
0.0697 0.5277 10800 0.0872 13684288
0.0786 0.5375 11000 0.0867 13937504
0.0751 0.5472 11200 0.0867 14190304
0.0944 0.5570 11400 0.0861 14445312
0.0686 0.5668 11600 0.0861 14697344
0.0529 0.5766 11800 0.0860 14951296
0.0663 0.5863 12000 0.0860 15205152
0.1031 0.5961 12200 0.0858 15457696
0.0859 0.6059 12400 0.0867 15709984
0.0686 0.6156 12600 0.0856 15964384
0.072 0.6254 12800 0.0854 16216768
0.0794 0.6352 13000 0.0854 16469792
0.1032 0.6450 13200 0.0883 16721536
0.0888 0.6547 13400 0.0858 16976192
0.0603 0.6645 13600 0.0858 17230496
0.0539 0.6743 13800 0.0861 17485120
0.0973 0.6840 14000 0.0861 17739872
0.0772 0.6938 14200 0.0848 17994144
0.0702 0.7036 14400 0.0853 18248736
0.0751 0.7134 14600 0.0859 18504672
0.0802 0.7231 14800 0.0854 18754208
0.1175 0.7329 15000 0.0845 19005696
0.0738 0.7427 15200 0.0846 19260320
0.081 0.7524 15400 0.0844 19514944
0.0984 0.7622 15600 0.0843 19766912
0.0507 0.7720 15800 0.0844 20018240
0.0813 0.7818 16000 0.0843 20269632
0.0784 0.7915 16200 0.0844 20523232
0.08 0.8013 16400 0.0845 20777376
0.1094 0.8111 16600 0.0843 21031776
0.0803 0.8209 16800 0.0846 21283328
0.0757 0.8306 17000 0.0839 21535072
0.0889 0.8404 17200 0.0856 21786304
0.0637 0.8502 17400 0.0839 22039232
0.0663 0.8599 17600 0.0840 22290976
0.1138 0.8697 17800 0.0841 22543904
0.093 0.8795 18000 0.0835 22796480
0.1067 0.8893 18200 0.0844 23050080
0.0617 0.8990 18400 0.0841 23304192
0.0572 0.9088 18600 0.0837 23557152
0.1094 0.9186 18800 0.0833 23808960
0.0848 0.9283 19000 0.0833 24063776
0.0641 0.9381 19200 0.0841 24317280
0.0843 0.9479 19400 0.0834 24573184
0.1146 0.9577 19600 0.0832 24826560
0.0916 0.9674 19800 0.0832 25081792
0.0607 0.9772 20000 0.0831 25332672
0.097 0.9870 20200 0.0830 25584672
0.0837 0.9968 20400 0.0830 25834336
0.0989 1.0065 20600 0.0831 26090080
0.099 1.0163 20800 0.0836 26343008
0.0585 1.0261 21000 0.0830 26598784
0.0644 1.0359 21200 0.0830 26851648
0.1058 1.0456 21400 0.0837 27103392
0.0591 1.0554 21600 0.0827 27361312
0.088 1.0652 21800 0.0829 27616640
0.045 1.0750 22000 0.0828 27874656
0.0893 1.0847 22200 0.0826 28122656
0.0983 1.0945 22400 0.0825 28376640
0.0806 1.1043 22600 0.0828 28629632
0.088 1.1140 22800 0.0827 28884480
0.0942 1.1238 23000 0.0827 29140832
0.062 1.1336 23200 0.0827 29396960
0.08 1.1434 23400 0.0829 29648032
0.0623 1.1531 23600 0.0828 29897312
0.0938 1.1629 23800 0.0829 30153920
0.0808 1.1727 24000 0.0828 30407616
0.0813 1.1824 24200 0.0835 30656768
0.0775 1.1922 24400 0.0836 30908480
0.1098 1.2020 24600 0.0828 31162176
0.0724 1.2118 24800 0.0824 31412736
0.0854 1.2215 25000 0.0822 31668000
0.0605 1.2313 25200 0.0829 31919712
0.0656 1.2411 25400 0.0821 32172256
0.0713 1.2508 25600 0.0825 32424512
0.0693 1.2606 25800 0.0826 32678176
0.0996 1.2704 26000 0.0820 32931456
0.0791 1.2802 26200 0.0823 33184096
0.094 1.2899 26400 0.0822 33436864
0.0916 1.2997 26600 0.0845 33691232
0.0431 1.3095 26800 0.0822 33944640
0.0947 1.3193 27000 0.0826 34193536
0.0592 1.3290 27200 0.0824 34445952
0.0838 1.3388 27400 0.0843 34698784
0.0785 1.3486 27600 0.0820 34950976
0.0745 1.3583 27800 0.0822 35204128
0.066 1.3681 28000 0.0826 35455296
0.1433 1.3779 28200 0.0819 35708160
0.066 1.3877 28400 0.0818 35960608
0.0818 1.3974 28600 0.0820 36214944
0.07 1.4072 28800 0.0820 36466336
0.0889 1.4170 29000 0.0817 36720160
0.0539 1.4267 29200 0.0821 36971744
0.0658 1.4365 29400 0.0824 37226208
0.0546 1.4463 29600 0.0820 37479008
0.0795 1.4561 29800 0.0821 37732672
0.0758 1.4658 30000 0.0826 37984768
0.1056 1.4756 30200 0.0824 38237120
0.0712 1.4854 30400 0.0821 38490112
0.0786 1.4952 30600 0.0818 38742560
0.06 1.5049 30800 0.0817 38994368
0.0793 1.5147 31000 0.0820 39248416
0.0679 1.5245 31200 0.0818 39501152
0.0418 1.5342 31400 0.0816 39756224
0.109 1.5440 31600 0.0818 40012896
0.0686 1.5538 31800 0.0821 40268416
0.0501 1.5636 32000 0.0818 40522848
0.0926 1.5733 32200 0.0818 40775072
0.0807 1.5831 32400 0.0824 41031296
0.1085 1.5929 32600 0.0820 41287200
0.0642 1.6026 32800 0.0820 41541664
0.1213 1.6124 33000 0.0819 41793376
0.081 1.6222 33200 0.0819 42044352
0.0898 1.6320 33400 0.0818 42295520
0.0606 1.6417 33600 0.0820 42547680
0.0635 1.6515 33800 0.0817 42796992
0.0604 1.6613 34000 0.0817 43049888
0.0842 1.6710 34200 0.0818 43303328
0.0695 1.6808 34400 0.0818 43556672
0.0964 1.6906 34600 0.0819 43809088
0.0605 1.7004 34800 0.0819 44059712
0.0561 1.7101 35000 0.0817 44313216
0.0678 1.7199 35200 0.0818 44566336
0.0805 1.7297 35400 0.0819 44817984
0.0515 1.7395 35600 0.0817 45072416
0.0838 1.7492 35800 0.0818 45330336
0.0859 1.7590 36000 0.0817 45584800
0.0855 1.7688 36200 0.0819 45838848
0.0783 1.7785 36400 0.0817 46091136
0.0985 1.7883 36600 0.0816 46343744
0.0899 1.7981 36800 0.0818 46597920
0.0733 1.8079 37000 0.0819 46850336
0.0626 1.8176 37200 0.0819 47104992
0.0752 1.8274 37400 0.0818 47356992
0.0618 1.8372 37600 0.0818 47609472
0.0935 1.8469 37800 0.0821 47859360
0.0758 1.8567 38000 0.0817 48110912
0.0859 1.8665 38200 0.0817 48362560
0.0934 1.8763 38400 0.0818 48613184
0.0801 1.8860 38600 0.0818 48868096
0.0552 1.8958 38800 0.0817 49125344
0.0787 1.9056 39000 0.0820 49380224
0.067 1.9153 39200 0.0820 49633664
0.0993 1.9251 39400 0.0819 49887680
0.0802 1.9349 39600 0.0819 50139296
0.0666 1.9447 39800 0.0819 50391680
0.0649 1.9544 40000 0.0819 50647232

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
49
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qqp_1744902600

Adapter
(526)
this model

Evaluation results