Ellis Brown's picture

Ellis Brown PRO

ellisbrown

·

http://ellisbrown.github.io

AI & ML interests

AI, Deep Learning, Computer Vision, Representation Learning, Self-Supervised Learning

Recent Activity

authored a paper about 24 hours ago

Beyond Language Modeling: An Exploration of Multimodal Pretraining

upvoted a paper 1 day ago

Beyond Language Modeling: An Exploration of Multimodal Pretraining

updated a dataset 2 days ago

PaintBench/pixels

View all activity

Organizations

upvoted a paper 1 day ago

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Paper • 2603.03276 • Published 1 day ago • 61

upvoted a paper 7 days ago

Solaris: Building a Multiplayer Video World Model in Minecraft

Paper • 2602.22208 • Published 8 days ago • 27

upvoted 2 collections 7 days ago

Solaris-Models

Model weights for Solaris: Building a Multiplayer Video World Model in Minecraft • 1 item • Updated 3 days ago • 3

Solaris-Data

Training and evaluation datasets collected for Solaris: Building a Multiplayer Video World Model in Minecraft • 2 items • Updated 10 days ago • 3

upvoted a paper about 1 month ago

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

Paper • 2601.16208 • Published Jan 22 • 53

upvoted 3 papers 4 months ago

SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding

Paper • 2511.04668 • Published Nov 6, 2025 • 5

Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts

Paper • 2511.04655 • Published Nov 6, 2025 • 8

Cambrian-S: Towards Spatial Supersensing in Video

Paper • 2511.04670 • Published Nov 6, 2025 • 38

upvoted 2 papers 8 months ago

Energy-Based Transformers are Scalable Learners and Thinkers

Paper • 2507.02092 • Published Jul 2, 2025 • 69

SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models

Paper • 2412.07755 • Published Dec 10, 2024 • 2

upvoted 2 papers about 1 year ago

Cosmos World Foundation Model Platform for Physical AI

Paper • 2501.03575 • Published Jan 7, 2025 • 82

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 108

upvoted a paper over 1 year ago

Adaptive Length Image Tokenization via Recurrent Allocation

Paper • 2411.02393 • Published Nov 4, 2024 • 13

upvoted an article over 1 year ago

Article

A failed experiment: Infini-Attention, and why we should keep trying?

+1

Aug 14, 2024

•

75

upvoted a collection over 1 year ago

Cambrian Data

3 items • Updated Jun 25, 2024 • 12

upvoted a paper over 1 year ago

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

Paper • 2406.16860 • Published Jun 24, 2024 • 63

upvoted a collection over 1 year ago

Cambrian-1 Models

6 items • Updated 6 days ago • 21

upvoted a paper about 2 years ago

V-IRL: Grounding Virtual Intelligence in Real Life

Paper • 2402.03310 • Published Feb 5, 2024 • 16

upvoted 2 papers over 2 years ago

OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

Paper • 2308.01390 • Published Aug 2, 2023 • 34

Learning to Model the World with Language

Paper • 2308.01399 • Published Jul 31, 2023 • 36