Spaces:

amu-cai
/

cameo-leaderboard

Sleeping

App Files Files Community

Maciej commited on May 14

Commit

4f08cdd

1 Parent(s): 35b8093

Add filters to tabs

Browse files

Files changed (2) hide show

app.py +45 -13
results.jsonl +0 -0

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ abs_path = Path(__file__).parent
 def overall_leaderboard(df: pd.DataFrame, sort_column: str = "f1_macro"):
-    df = df[df["language"] == "all"]
     df = df[["model", "temperature", "f1_macro", "weighted_f1", "accuracy"]]
     df = df.sort_values(by=sort_column, ascending=False)
     df.insert(0, "Rank", range(1, len(df) + 1))
@@ -40,17 +40,17 @@ def build_ds_dict(df: pd.DataFrame):
 def build_emo_dict(df: pd.DataFrame):
-    df = df[df["language"] == "all"]
     emo_data = defaultdict(lambda: defaultdict(dict))
     emotions = df.iloc[0].metrics_per_label.keys() - ["accuracy", "macro avg", "weighted avg"]
     for row in df.itertuples():
         for emotion in emotions:
             emo_data[row.model][row.temperature][emotion] = row.metrics_per_label[emotion].get("f1-score")
-        emo_data[row.model][row.temperature]["all"] = row.f1_macro
     return emo_data
-def leaderboard_per_group(lang_dict, metric: str = "f1_macro"):
     df = []
     for model, inner in lang_dict.items():
         for temperature, metrics in inner.items():
@@ -69,8 +69,9 @@ def leaderboard_per_group(lang_dict, metric: str = "f1_macro"):
     for col in df.columns.difference(["model", "temperature"]):
         df[col] = df[col].round(4)
-    df = df[["model", "temperature", "all"] + sorted(df.columns.difference(["model", "temperature", "all"]))]
-    df = df.sort_values(by="all", ascending=False)
     df.insert(0, "Rank", range(1, len(df) + 1))
     return df
@@ -80,38 +81,69 @@ def app():
     with gr.Blocks() as demo:
         gr.Markdown("# 🏆 Leaderboard Viewer")
         with gr.Tabs():
             with gr.Tab("Overall Results"):
                 overall_table = gr.Dataframe()
             with gr.Tab("Results per Language"):
                 lang_table = gr.Dataframe()
             with gr.Tab("Results per Dataset"):
                 dataset_table = gr.Dataframe()
             with gr.Tab("Results per Emotion"):
                 emotion_table = gr.Dataframe()
         df_state = gr.State()
-        def update_leaderboards(select_lang_metric="f1_macro", select_ds_metric="f1_macro"):
             df = pd.read_json(str(abs_path / "results.jsonl"), lines=True)
             lang_dict = build_lang_dict(df)
             ds_dict = build_ds_dict(df)
             emo_dict = build_emo_dict(df)
             overall = overall_leaderboard(df)
-            by_lang = leaderboard_per_group(lang_dict, metric=select_lang_metric)
-            by_dataset = leaderboard_per_group(ds_dict, metric=select_ds_metric)
-            by_emotion = leaderboard_per_group(emo_dict)
-            return overall, by_lang, by_dataset, by_emotion, "Loaded successfully.", df
         demo.load(
             update_leaderboards,
-            inputs=[],
             outputs=[overall_table, lang_table, dataset_table, emotion_table, df_state]
         )
     return demo
 if __name__ == "__main__":

 def overall_leaderboard(df: pd.DataFrame, sort_column: str = "f1_macro"):
+    df = df[df["language"] == "All"]
     df = df[["model", "temperature", "f1_macro", "weighted_f1", "accuracy"]]
     df = df.sort_values(by=sort_column, ascending=False)
     df.insert(0, "Rank", range(1, len(df) + 1))
 def build_emo_dict(df: pd.DataFrame):
+    df = df[df["language"] == "All"]
     emo_data = defaultdict(lambda: defaultdict(dict))
     emotions = df.iloc[0].metrics_per_label.keys() - ["accuracy", "macro avg", "weighted avg"]
     for row in df.itertuples():
         for emotion in emotions:
             emo_data[row.model][row.temperature][emotion] = row.metrics_per_label[emotion].get("f1-score")
+        emo_data[row.model][row.temperature]["All"] = row.f1_macro
     return emo_data
+def leaderboard_per_group(lang_dict, use_cols, metric: str = "f1_macro"):
     df = []
     for model, inner in lang_dict.items():
         for temperature, metrics in inner.items():
     for col in df.columns.difference(["model", "temperature"]):
         df[col] = df[col].round(4)
+    df = df[["model", "temperature"] + sorted(use_cols)]
+    if "All" in use_cols:
+        df = df.sort_values(by="All", ascending=False)
     df.insert(0, "Rank", range(1, len(df) + 1))
     return df
     with gr.Blocks() as demo:
         gr.Markdown("# 🏆 Leaderboard Viewer")
+        languages = ['All', 'Bengali', 'English', 'French', 'German', 'Italian', 'Polish', 'Russian', 'Spanish']
+        datasets = ['All', 'CaFE', 'CREMA-D', 'EMNS', 'Emozionalmente', 'eNTERFACE', 'JL-Corpus', 'MESD', 'nEMO', 'Oreau', 'PAVOQUE', 'RAVDESS', 'RESD', 'SUBESCO']
+        emotions = ['All', 'anger', 'anxiety',
+       'apology', 'assertiveness', 'calm', 'concern', 'disgust',
+       'encouragement', 'enthusiasm', 'excitement', 'fear', 'happiness',
+       'neutral', 'poker', 'sadness', 'sarcasm', 'surprise']
+        metric=["f1_macro", "accuracy", "weighted_f1"]
         with gr.Tabs():
             with gr.Tab("Overall Results"):
                 overall_table = gr.Dataframe()
             with gr.Tab("Results per Language"):
+                languages_filter = gr.CheckboxGroup(choices=languages, label="Filter by Language", value=languages)
+                select_lang_metric = gr.Radio(metric, value='f1_macro', label="Metric")
                 lang_table = gr.Dataframe()
             with gr.Tab("Results per Dataset"):
+                dataset_filter = gr.CheckboxGroup(choices=datasets, label="Filter by Dataset", value=datasets)
+                select_ds_metric = gr.Radio(metric, value='f1_macro', label="Metric")
                 dataset_table = gr.Dataframe()
             with gr.Tab("Results per Emotion"):
+                emo_filter = gr.CheckboxGroup(choices=emotions, label="Filter by Emotion", value=emotions)
                 emotion_table = gr.Dataframe()
         df_state = gr.State()
+        def update_leaderboards(languages=[], datasets=[], emotions=[], select_lang_metric="f1_macro", select_ds_metric="f1_macro"):
             df = pd.read_json(str(abs_path / "results.jsonl"), lines=True)
             lang_dict = build_lang_dict(df)
             ds_dict = build_ds_dict(df)
             emo_dict = build_emo_dict(df)
             overall = overall_leaderboard(df)
+            by_lang = leaderboard_per_group(lang_dict, languages, metric=select_lang_metric)
+            by_dataset = leaderboard_per_group(ds_dict, datasets, metric=select_ds_metric)
+            by_emotion = leaderboard_per_group(emo_dict, emotions)
+            return overall, by_lang, by_dataset, by_emotion, "Loaded successfully."
         demo.load(
             update_leaderboards,
+            inputs=[languages_filter, dataset_filter, emo_filter],
             outputs=[overall_table, lang_table, dataset_table, emotion_table, df_state]
         )
+        def on_change(selected_languages, selected_lang_metric, selected_datasets, selected_ds_metric, selected_emotions):
+            return update_leaderboards(languages=selected_languages, select_lang_metric=selected_lang_metric, datasets=selected_datasets, select_ds_metric=selected_ds_metric, emotions=selected_emotions)
+        languages_filter.change(on_change, [languages_filter, select_lang_metric, dataset_filter, select_ds_metric, emo_filter],
+                               [overall_table, lang_table, dataset_table, emotion_table])
+        select_lang_metric.change(on_change, [languages_filter, select_lang_metric, dataset_filter, select_ds_metric, emo_filter],
+                               [overall_table, lang_table, dataset_table, emotion_table])
+        dataset_filter.change(on_change, [languages_filter, select_lang_metric, dataset_filter, select_ds_metric, emo_filter],
+                               [overall_table, lang_table, dataset_table, emotion_table])
+        select_ds_metric.change(on_change, [languages_filter, select_lang_metric, dataset_filter, select_ds_metric, emo_filter],
+                                  [overall_table, lang_table, dataset_table, emotion_table])
+        emo_filter.change(on_change, [languages_filter, select_lang_metric, dataset_filter, select_ds_metric, emo_filter],
+                               [overall_table, lang_table, dataset_table, emotion_table])
     return demo
 if __name__ == "__main__":

results.jsonl CHANGED Viewed

The diff for this file is too large to render. See raw diff