tlc4418
/

pythia_70m_sft

Text Generation

text-generation-inference

Model card Files Files and versions

tlc4418 commited on Feb 12, 2024

Commit

4f0328e

·

verified ·

1 Parent(s): 1d56585

Create README.md

Files changed (1) hide show

README.md +7 -0

README.md ADDED Viewed

	@@ -0,0 +1,7 @@

+---
+datasets:
+- tatsu-lab/alpaca_farm
+---
+70m Pythia model after SFT on the AlpacaFarm dataset 'sft' split.
+Model used as a base for reward models in 'Reward Model Ensembles Mitigate Overoptimization'