ivnle
/

bad-autoencoding

@@ -36,6 +36,7 @@ Naming convention: `{regime}_{config}_h{N}_{objective}[_recon-init]`
 |------------|--------|-----|------|-----|
 | `vision_base_h0_lm` | Vision base | 3.60 | Direct | 5.08 |
 | `vision_base_h0_lm_recon-init` | Vision base | 3.60 | From recon | 5.06 |
 | `meanpool_w4s4_h0_lm_recon-init` | Meanpool w4s4 | 3.97 | From recon | 5.02 |
 | `conv1d_t250_h0_lm_recon-init` | Conv1D t250 | 3.97 | From recon | 4.96 |
@@ -43,6 +44,7 @@ Naming convention: `{regime}_{config}_h{N}_{objective}[_recon-init]`
 - **Architecture**: DeepSeek-OCR with vision encoder
 - **Vision checkpoints**: Trained encoder, 768x768 (base)
 - **Meanpool checkpoints**: Frozen encoder, window=4, stride=4
 - **Conv1D checkpoints**: Trained hierarchical encoder, target=250 tokens
 - **Dataset**: 510k samples from FineWiki

 |------------|--------|-----|------|-----|
 | `vision_base_h0_lm` | Vision base | 3.60 | Direct | 5.08 |
 | `vision_base_h0_lm_recon-init` | Vision base | 3.60 | From recon | 5.06 |
+| `text_ctx277_h0_lm` | Text ctx277 (Truncation) | 3.60 | Direct | 5.02 |
 | `meanpool_w4s4_h0_lm_recon-init` | Meanpool w4s4 | 3.97 | From recon | 5.02 |
 | `conv1d_t250_h0_lm_recon-init` | Conv1D t250 | 3.97 | From recon | 4.96 |
 - **Architecture**: DeepSeek-OCR with vision encoder
 - **Vision checkpoints**: Trained encoder, 768x768 (base)
+- **Text checkpoints**: Truncation baseline (no vision encoder), context=277 tokens
 - **Meanpool checkpoints**: Frozen encoder, window=4, stride=4
 - **Conv1D checkpoints**: Trained hierarchical encoder, target=250 tokens
 - **Dataset**: 510k samples from FineWiki