4B SFT Experiments - a dnotitia Collection

dnotitia 's Collections

4B SFT Experiments

Aether

Private Datasets (SFT - 2511)

Private Datasets (DPO - 2511)

Qwen3-ChatTemplate

DNA 2.1

DNA 2.0

DNA-R1

DNA 1.0

HMC

Smoothie Qwen2.5

Private Datasets (DNA 2.0)

Private Datasets (DNA 2.0 Evaluation)

Private Datasets (Qwen3 Korean)

Private Datasets (SFT)

Private Datasets (CoT)

Private Datasets (Only Answer)

Private Datasets (MATH)

Private Datasets (Reasoning, ko)

Private Datasets (Reasoning, en)

Private Datasets (CPT)

Private Datasets (DPO)

Private Datasets (Coding)

Private Datasets (RL, GRPO)

Private Datasets (Smoothie Qwen)

4B SFT Experiments

updated about 19 hours ago

Systematic SFT for Qwen3-4B. We explore diverse dataset compositions and training recipes to benchmark and improve performance across tasks.