---
title: Multimodal AI Taxonomy
emoji: 🌍
colorFrom: red
colorTo: red
sdk: gradio
sdk_version: 5.49.1
app_file: app.py
pinned: false
---

# Multimodal AI Taxonomy

An attempt to define a structured taxonomy for multimodal generative AI capabilities, organized by output modality and operation type.

Dataset repository: https://huggingface.co/datasets/danielrosehill/multimodal-ai-taxonomy

This Space provides an interactive explorer for browsing and comparing different multimodal AI capabilities across:
- Video Generation
- Audio Generation
- Image Generation
- Text Generation
- 3D Generation

Each modality is categorized into Creation (generating new content) and Editing (modifying existing content) operations.