Spaces:

danielrosehill
/

Multimodal-AI-Taxonomy

Sleeping

App Files Files Community

danielrosehill commited on Oct 22

Commit

597e3a5

1 Parent(s): 80cfd1e

commit

Browse files

Files changed (2) hide show

README.md +15 -2
app.py +31 -30

README.md CHANGED Viewed

@@ -7,7 +7,20 @@ sdk: gradio
 sdk_version: 5.49.1
 app_file: app.py
 pinned: false
-short_description: Taxonomy of AI modalities
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 sdk_version: 5.49.1
 app_file: app.py
 pinned: false
+short_description: An attempt to define a taxonomy for multimodal AI capabilities
 ---
+# Multimodal AI Taxonomy
+An attempt to define a structured taxonomy for multimodal generative AI capabilities, organized by output modality and operation type.
+Dataset repository: https://huggingface.co/datasets/danielrosehill/multimodal-ai-taxonomy
+This Space provides an interactive explorer for browsing and comparing different multimodal AI capabilities across:
+- Video Generation
+- Audio Generation
+- Image Generation
+- Text Generation
+- 3D Generation
+Each modality is categorized into Creation (generating new content) and Editing (modifying existing content) operations.

app.py CHANGED Viewed

@@ -67,13 +67,13 @@ for record in dataset:
     # Add to taxonomy data
     taxonomy_data[modality_key][operation_type]["modalities"].append(modality_obj)
-# Define modality display names and emojis
 MODALITY_INFO = {
-    "video_generation": {"name": "Video Generation", "emoji": "🎬", "color": "#FF6B6B"},
-    "audio_generation": {"name": "Audio Generation", "emoji": "🎵", "color": "#4ECDC4"},
-    "image_generation": {"name": "Image Generation", "emoji": "🖼️", "color": "#95E1D3"},
-    "text_generation": {"name": "Text Generation", "emoji": "📝", "color": "#F38181"},
-    "3d_generation": {"name": "3D Generation", "emoji": "🎨", "color": "#AA96DA"},
 }
 # CSS for styling
@@ -181,26 +181,26 @@ def create_modality_card(modality_obj):
         </div>
         <div class="modality-meta">
-            <p><strong>🔹 Input</strong><br>{input_str}</p>
-            <p><strong>🔸 Output</strong><br>**Primary:** {output_primary}{audio_info}</p>
         </div>
         <details>
-            <summary><strong>📊 Characteristics</strong></summary>
             <div style="margin: 10px; padding: 10px; background: #fafafa; border-radius: 5px;">
                 {char_str}
             </div>
         </details>
         <details>
-            <summary><strong>💡 Common Use Cases</strong></summary>
             <div style="margin: 10px; padding: 10px; background: #fafafa; border-radius: 5px;">
                 {use_case_str}
             </div>
         </details>
         <details>
-            <summary><strong>🛠️ Platforms & Models</strong></summary>
             <div style="margin: 10px; padding: 10px; background: #fafafa; border-radius: 5px;">
                 <p><strong>Platforms:</strong> {platform_str}</p>
                 <p><strong>Example Models:</strong> {model_str}</p>
@@ -217,7 +217,7 @@ def create_overview_page():
     total_modalities = 0
     for modality_key, operations in taxonomy_data.items():
-        info = MODALITY_INFO.get(modality_key, {"name": modality_key, "emoji": "📦", "color": "#666"})
         creation_count = len(operations.get('creation', {}).get('modalities', []))
         editing_count = len(operations.get('editing', {}).get('modalities', []))
@@ -226,7 +226,6 @@ def create_overview_page():
         stats_html += f"""
         <div class="stat-box" style="border-left: 4px solid {info['color']};">
-            <div style="font-size: 2em;">{info['emoji']}</div>
             <div style="font-size: 1.2em; font-weight: bold; margin: 10px 0;">{info['name']}</div>
             <div style="font-size: 0.9em; color: #666;">
                 Creation: {creation_count} | Editing: {editing_count}
@@ -241,20 +240,23 @@ def create_overview_page():
     overview_html = f"""
     <div style="text-align: center; padding: 30px;">
-        <h1>🎯 Multimodal AI Taxonomy</h1>
         <p style="font-size: 1.2em; color: #666; max-width: 800px; margin: 20px auto;">
-            A comprehensive taxonomy for multimodal generative AI capabilities, organized by output modality and operation type.
         </p>
         <div style="background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); color: white; padding: 20px; border-radius: 15px; margin: 20px auto; max-width: 300px;">
             <div style="font-size: 3em; font-weight: bold;">{total_modalities}</div>
-            <div style="font-size: 1.2em;">Total Modalities</div>
         </div>
     </div>
     {stats_html}
     <div style="margin: 30px; padding: 20px; background: #f0f7ff; border-radius: 10px; border-left: 4px solid #2196F3;">
-        <h3>📖 How to Use This Space</h3>
         <p>Navigate through the tabs above to explore different output modalities (Video, Audio, Image, Text, 3D).</p>
         <p>Each modality is organized into <strong>Creation</strong> (generating new content) and <strong>Editing</strong> (modifying existing content) operations.</p>
         <p>Click on the details sections to expand and see characteristics, use cases, platforms, and example models.</p>
@@ -275,14 +277,14 @@ def create_modality_page(modality_key, operation_type):
     data = taxonomy_data[modality_key][operation_type]
     modalities = data.get('modalities', [])
-    info = MODALITY_INFO.get(modality_key, {"name": modality_key, "emoji": "📦", "color": "#666"})
     html = f"""
     <div style="text-align: center; padding: 20px; background: linear-gradient(135deg, {info['color']}22 0%, {info['color']}44 100%); border-radius: 15px; margin-bottom: 20px;">
-        <h2>{info['emoji']} {info['name']} - {operation_type.title()}</h2>
         <p style="color: #666;">{data.get('description', '')}</p>
         <div style="font-size: 1.5em; font-weight: bold; color: {info['color']}; margin-top: 10px;">
-            {len(modalities)} modalities
         </div>
     </div>
     """
@@ -317,15 +319,15 @@ def create_comparison_table(modality_key):
 # Create the Gradio interface
 with gr.Blocks(css=custom_css, theme=gr.themes.Soft()) as demo:
-    gr.Markdown("# 🎯 Multimodal AI Taxonomy Explorer")
     with gr.Tabs():
         # Overview tab
-        with gr.Tab("🏠 Overview"):
             gr.HTML(create_overview_page())
         # Video Generation
-        with gr.Tab("🎬 Video"):
             with gr.Tabs():
                 with gr.Tab("Creation"):
                     gr.HTML(create_modality_page("video_generation", "creation"))
@@ -335,7 +337,7 @@ with gr.Blocks(css=custom_css, theme=gr.themes.Soft()) as demo:
                     gr.Dataframe(create_comparison_table("video_generation"), wrap=True)
         # Audio Generation
-        with gr.Tab("🎵 Audio"):
             with gr.Tabs():
                 with gr.Tab("Creation"):
                     gr.HTML(create_modality_page("audio_generation", "creation"))
@@ -345,7 +347,7 @@ with gr.Blocks(css=custom_css, theme=gr.themes.Soft()) as demo:
                     gr.Dataframe(create_comparison_table("audio_generation"), wrap=True)
         # Image Generation
-        with gr.Tab("🖼️ Image"):
             with gr.Tabs():
                 with gr.Tab("Creation"):
                     gr.HTML(create_modality_page("image_generation", "creation"))
@@ -355,7 +357,7 @@ with gr.Blocks(css=custom_css, theme=gr.themes.Soft()) as demo:
                     gr.Dataframe(create_comparison_table("image_generation"), wrap=True)
         # Text Generation
-        with gr.Tab("📝 Text"):
             with gr.Tabs():
                 with gr.Tab("Creation"):
                     gr.HTML(create_modality_page("text_generation", "creation"))
@@ -365,7 +367,7 @@ with gr.Blocks(css=custom_css, theme=gr.themes.Soft()) as demo:
                     gr.Dataframe(create_comparison_table("text_generation"), wrap=True)
         # 3D Generation
-        with gr.Tab("🎨 3D"):
             with gr.Tabs():
                 with gr.Tab("Creation"):
                     gr.HTML(create_modality_page("3d_generation", "creation"))
@@ -375,18 +377,17 @@ with gr.Blocks(css=custom_css, theme=gr.themes.Soft()) as demo:
                     gr.Dataframe(create_comparison_table("3d_generation"), wrap=True)
         # About tab
-        with gr.Tab("ℹ️ About"):
             gr.Markdown("""
             ## About This Taxonomy
-            This taxonomy provides a structured classification of multimodal AI capabilities, organized by:
             - **Output Modality**: The primary type of content being generated (video, audio, image, text, 3D)
             - **Operation Type**: Whether the task involves creation (from scratch) or editing (modifying existing content)
             ### Key Features
-            - **Comprehensive Coverage**: Covers all major multimodal AI capabilities
             - **Structured Metadata**: Each modality includes input/output specs, characteristics, maturity level, use cases, platforms, and example models
             - **Fine-grained Classification**: Goes beyond simple input/output categorization to capture nuanced differences

     # Add to taxonomy data
     taxonomy_data[modality_key][operation_type]["modalities"].append(modality_obj)
+# Define modality display names
 MODALITY_INFO = {
+    "video_generation": {"name": "Video Generation", "color": "#FF6B6B"},
+    "audio_generation": {"name": "Audio Generation", "color": "#4ECDC4"},
+    "image_generation": {"name": "Image Generation", "color": "#95E1D3"},
+    "text_generation": {"name": "Text Generation", "color": "#F38181"},
+    "3d_generation": {"name": "3D Generation", "color": "#AA96DA"},
 }
 # CSS for styling
         </div>
         <div class="modality-meta">
+            <p><strong>Input</strong><br>{input_str}</p>
+            <p><strong>Output</strong><br>**Primary:** {output_primary}{audio_info}</p>
         </div>
         <details>
+            <summary><strong>Characteristics</strong></summary>
             <div style="margin: 10px; padding: 10px; background: #fafafa; border-radius: 5px;">
                 {char_str}
             </div>
         </details>
         <details>
+            <summary><strong>Common Use Cases</strong></summary>
             <div style="margin: 10px; padding: 10px; background: #fafafa; border-radius: 5px;">
                 {use_case_str}
             </div>
         </details>
         <details>
+            <summary><strong>Platforms & Models</strong></summary>
             <div style="margin: 10px; padding: 10px; background: #fafafa; border-radius: 5px;">
                 <p><strong>Platforms:</strong> {platform_str}</p>
                 <p><strong>Example Models:</strong> {model_str}</p>
     total_modalities = 0
     for modality_key, operations in taxonomy_data.items():
+        info = MODALITY_INFO.get(modality_key, {"name": modality_key, "color": "#666"})
         creation_count = len(operations.get('creation', {}).get('modalities', []))
         editing_count = len(operations.get('editing', {}).get('modalities', []))
         stats_html += f"""
         <div class="stat-box" style="border-left: 4px solid {info['color']};">
             <div style="font-size: 1.2em; font-weight: bold; margin: 10px 0;">{info['name']}</div>
             <div style="font-size: 0.9em; color: #666;">
                 Creation: {creation_count} | Editing: {editing_count}
     overview_html = f"""
     <div style="text-align: center; padding: 30px;">
+        <h1>Multimodal AI Taxonomy</h1>
         <p style="font-size: 1.2em; color: #666; max-width: 800px; margin: 20px auto;">
+            An attempt to define a structured taxonomy for multimodal generative AI capabilities, organized by output modality and operation type.
+        </p>
+        <p style="font-size: 1em; color: #666; max-width: 800px; margin: 20px auto;">
+            Dataset repository: <a href="https://huggingface.co/datasets/danielrosehill/multimodal-ai-taxonomy" target="_blank">danielrosehill/multimodal-ai-taxonomy</a>
         </p>
         <div style="background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); color: white; padding: 20px; border-radius: 15px; margin: 20px auto; max-width: 300px;">
             <div style="font-size: 3em; font-weight: bold;">{total_modalities}</div>
+            <div style="font-size: 1.2em;">Total Modalities Defined</div>
         </div>
     </div>
     {stats_html}
     <div style="margin: 30px; padding: 20px; background: #f0f7ff; border-radius: 10px; border-left: 4px solid #2196F3;">
+        <h3>How to Use This Space</h3>
         <p>Navigate through the tabs above to explore different output modalities (Video, Audio, Image, Text, 3D).</p>
         <p>Each modality is organized into <strong>Creation</strong> (generating new content) and <strong>Editing</strong> (modifying existing content) operations.</p>
         <p>Click on the details sections to expand and see characteristics, use cases, platforms, and example models.</p>
     data = taxonomy_data[modality_key][operation_type]
     modalities = data.get('modalities', [])
+    info = MODALITY_INFO.get(modality_key, {"name": modality_key, "color": "#666"})
     html = f"""
     <div style="text-align: center; padding: 20px; background: linear-gradient(135deg, {info['color']}22 0%, {info['color']}44 100%); border-radius: 15px; margin-bottom: 20px;">
+        <h2>{info['name']} - {operation_type.title()}</h2>
         <p style="color: #666;">{data.get('description', '')}</p>
         <div style="font-size: 1.5em; font-weight: bold; color: {info['color']}; margin-top: 10px;">
+            {len(modalities)} modalities defined
         </div>
     </div>
     """
 # Create the Gradio interface
 with gr.Blocks(css=custom_css, theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# Multimodal AI Taxonomy Explorer")
     with gr.Tabs():
         # Overview tab
+        with gr.Tab("Overview"):
             gr.HTML(create_overview_page())
         # Video Generation
+        with gr.Tab("Video"):
             with gr.Tabs():
                 with gr.Tab("Creation"):
                     gr.HTML(create_modality_page("video_generation", "creation"))
                     gr.Dataframe(create_comparison_table("video_generation"), wrap=True)
         # Audio Generation
+        with gr.Tab("Audio"):
             with gr.Tabs():
                 with gr.Tab("Creation"):
                     gr.HTML(create_modality_page("audio_generation", "creation"))
                     gr.Dataframe(create_comparison_table("audio_generation"), wrap=True)
         # Image Generation
+        with gr.Tab("Image"):
             with gr.Tabs():
                 with gr.Tab("Creation"):
                     gr.HTML(create_modality_page("image_generation", "creation"))
                     gr.Dataframe(create_comparison_table("image_generation"), wrap=True)
         # Text Generation
+        with gr.Tab("Text"):
             with gr.Tabs():
                 with gr.Tab("Creation"):
                     gr.HTML(create_modality_page("text_generation", "creation"))
                     gr.Dataframe(create_comparison_table("text_generation"), wrap=True)
         # 3D Generation
+        with gr.Tab("3D"):
             with gr.Tabs():
                 with gr.Tab("Creation"):
                     gr.HTML(create_modality_page("3d_generation", "creation"))
                     gr.Dataframe(create_comparison_table("3d_generation"), wrap=True)
         # About tab
+        with gr.Tab("About"):
             gr.Markdown("""
             ## About This Taxonomy
+            This is an attempt to define a structured taxonomy for multimodal AI capabilities, organized by:
             - **Output Modality**: The primary type of content being generated (video, audio, image, text, 3D)
             - **Operation Type**: Whether the task involves creation (from scratch) or editing (modifying existing content)
             ### Key Features
             - **Structured Metadata**: Each modality includes input/output specs, characteristics, maturity level, use cases, platforms, and example models
             - **Fine-grained Classification**: Goes beyond simple input/output categorization to capture nuanced differences