ivnle
/

bad-autoencoding

@@ -28,6 +28,7 @@ Naming convention: `{regime}_{config}_h{N}_{objective}[_recon-init]`
 |------------|--------|-----|-----|
 | `vision_base_h0_recon` | Vision base | 3.60 | 1.03 |
 | `meanpool_w4s4_h0_recon` | Meanpool w4s4 | 3.97 | 1.04 |
 ### Language Modeling
@@ -36,12 +37,14 @@ Naming convention: `{regime}_{config}_h{N}_{objective}[_recon-init]`
 | `vision_base_h0_lm` | Vision base | 3.60 | Direct | 5.08 |
 | `vision_base_h0_lm_recon-init` | Vision base | 3.60 | From recon | 5.06 |
 | `meanpool_w4s4_h0_lm_recon-init` | Meanpool w4s4 | 3.97 | From recon | 5.02 |
 ## Model Details
 - **Architecture**: DeepSeek-OCR with vision encoder
 - **Vision checkpoints**: Trained encoder, 768x768 (base)
 - **Meanpool checkpoints**: Frozen encoder, window=4, stride=4
 - **Dataset**: 510k samples from FineWiki
 ## Usage

 |------------|--------|-----|-----|
 | `vision_base_h0_recon` | Vision base | 3.60 | 1.03 |
 | `meanpool_w4s4_h0_recon` | Meanpool w4s4 | 3.97 | 1.04 |
+| `conv1d_t250_h0_recon` | Conv1D t250 | 3.97 | 1.00 |
 ### Language Modeling
 | `vision_base_h0_lm` | Vision base | 3.60 | Direct | 5.08 |
 | `vision_base_h0_lm_recon-init` | Vision base | 3.60 | From recon | 5.06 |
 | `meanpool_w4s4_h0_lm_recon-init` | Meanpool w4s4 | 3.97 | From recon | 5.02 |
+| `conv1d_t250_h0_lm_recon-init` | Conv1D t250 | 3.97 | From recon | 4.96 |
 ## Model Details
 - **Architecture**: DeepSeek-OCR with vision encoder
 - **Vision checkpoints**: Trained encoder, 768x768 (base)
 - **Meanpool checkpoints**: Frozen encoder, window=4, stride=4
+- **Conv1D checkpoints**: Trained hierarchical encoder, target=250 tokens
 - **Dataset**: 510k samples from FineWiki
 ## Usage