Spaces:

fair-forward
/

evals-for-every-language

Running

App Files Files Community

David Pomerenke commited on Feb 21

Commit

df383f6

1 Parent(s): ed78196

Add links to OpenRouter

Browse files

Files changed (1) hide show

app.py +41 -21

app.py CHANGED Viewed

@@ -4,11 +4,14 @@ import gradio as gr
 import pandas as pd
 import plotly.graph_objects as go
-# Load and process results
 with open("results.json") as f:
     results = json.load(f)
 def create_leaderboard_df(results):
     # Sort languages by average BLEU to determine resource categories
     langs_with_bleu = [lang for lang in results if lang["bleu"] is not None]
@@ -33,33 +36,31 @@ def create_leaderboard_df(results):
         )
         for score in lang["scores"]:
-            model_name = score["model"].split("/")[-1]
-            if model_name not in model_scores:
-                model_scores[model_name] = {
                     "High-Resource": [],
                     "Mid-Resource": [],
                     "Low-Resource": [],
                 }
-            model_scores[model_name][category].append(score["bleu"])
     # Calculate average scores and create DataFrame
     leaderboard_data = []
     for model, categories in model_scores.items():
         # Calculate averages for each category
         high_avg = (
-            round(
-                sum(categories["High-Resource"]) / len(categories["High-Resource"]), 3
-            )
             if categories["High-Resource"]
             else 0
         )
         mid_avg = (
-            round(sum(categories["Mid-Resource"]) / len(categories["Mid-Resource"]), 3)
             if categories["Mid-Resource"]
             else 0
         )
         low_avg = (
-            round(sum(categories["Low-Resource"]) / len(categories["Low-Resource"]), 3)
             if categories["Low-Resource"]
             else 0
         )
@@ -72,9 +73,10 @@ def create_leaderboard_df(results):
         )
         overall_avg = round(sum(all_scores) / len(all_scores), 3)
         leaderboard_data.append(
             {
-                "Model": model,
                 "Overall BLEU": overall_avg,
                 "High-Resource BLEU": high_avg,
                 "Mid-Resource BLEU": mid_avg,
@@ -106,7 +108,20 @@ def create_leaderboard_df(results):
         ]
     ]
-    return df
 def create_model_comparison_plot(results):
@@ -160,23 +175,30 @@ def create_language_stats_df(results):
             lang["scores"] or [{"bleu": None, "model": None}], key=lambda x: x["bleu"]
         )
         row = {
-            "Language": lang["language_name"],
             "Speakers (M)": round(lang["speakers"] / 1_000_000, 1),
             "Models Tested": len(lang["scores"]),
             "Average BLEU": round(lang["bleu"], 3)
             if lang["bleu"] is not None
             else "N/A",
-            "Best Model": best_score["model"]
-            if best_score["model"] is not None
-            else "N/A",
             "Best Model BLEU": round(best_score["bleu"], 3)
             if best_score["bleu"] is not None
             else "N/A",
         }
         flat_data.append(row)
-    return pd.DataFrame(flat_data)
 def create_scatter_plot(results):
@@ -220,14 +242,12 @@ with gr.Blocks(title="AI Language Translation Benchmark") as demo:
         "Comparing translation performance across different AI models and languages"
     )
-    df = create_language_stats_df(results)
-    leaderboard_df = create_leaderboard_df(results)
     bar_plot = create_model_comparison_plot(results)
     scatter_plot = create_scatter_plot(results)
-    gr.DataFrame(value=leaderboard_df, label="Model Leaderboard", show_search=False)
     gr.Plot(value=bar_plot, label="Model Comparison")
-    gr.DataFrame(value=df, label="Language Results", show_search="search")
     gr.Plot(value=scatter_plot, label="Language Coverage")
     gr.Markdown(

 import pandas as pd
 import plotly.graph_objects as go
 with open("results.json") as f:
     results = json.load(f)
+def mean(lst):
+    return sum(lst) / len(lst)
 def create_leaderboard_df(results):
     # Sort languages by average BLEU to determine resource categories
     langs_with_bleu = [lang for lang in results if lang["bleu"] is not None]
         )
         for score in lang["scores"]:
+            model = score["model"]
+            if model not in model_scores:
+                model_scores[model] = {
                     "High-Resource": [],
                     "Mid-Resource": [],
                     "Low-Resource": [],
                 }
+            model_scores[model][category].append(score["bleu"])
     # Calculate average scores and create DataFrame
     leaderboard_data = []
     for model, categories in model_scores.items():
         # Calculate averages for each category
         high_avg = (
+            round(mean(categories["High-Resource"]), 3)
             if categories["High-Resource"]
             else 0
         )
         mid_avg = (
+            round(mean(categories["Mid-Resource"]), 3)
             if categories["Mid-Resource"]
             else 0
         )
         low_avg = (
+            round(mean(categories["Low-Resource"]), 3)
             if categories["Low-Resource"]
             else 0
         )
         )
         overall_avg = round(sum(all_scores) / len(all_scores), 3)
+        model_name = model.split("/")[-1]
         leaderboard_data.append(
             {
+                "Model": f"[{model_name}](https://openrouter.ai/{model})",
                 "Overall BLEU": overall_avg,
                 "High-Resource BLEU": high_avg,
                 "Mid-Resource BLEU": mid_avg,
         ]
     ]
+    return gr.DataFrame(
+        value=df,
+        label="Model Leaderboard",
+        show_search=False,
+        datatype=[
+            "number",
+            "markdown",
+            "number",
+            "number",
+            "number",
+            "number",
+            "number",
+        ],
+    )
 def create_model_comparison_plot(results):
             lang["scores"] or [{"bleu": None, "model": None}], key=lambda x: x["bleu"]
         )
+        model = best_score['model']
+        model_name = model.split('/')[-1] if model else "N/A"
+        model_link = f"<a href='https://openrouter.ai/{model}' style='text-decoration: none; color: inherit;'>{model_name}</a>" if model else "N/A"
         row = {
+            "Language": f"**{lang['language_name']}**",
             "Speakers (M)": round(lang["speakers"] / 1_000_000, 1),
             "Models Tested": len(lang["scores"]),
             "Average BLEU": round(lang["bleu"], 3)
             if lang["bleu"] is not None
             else "N/A",
+            "Best Model": model_link,
             "Best Model BLEU": round(best_score["bleu"], 3)
             if best_score["bleu"] is not None
             else "N/A",
         }
         flat_data.append(row)
+    df = pd.DataFrame(flat_data)
+    return gr.DataFrame(
+        value=df,
+        label="Language Results",
+        show_search="search",
+        datatype=["markdown", "number", "number", "number", "markdown", "number"],
+    )
 def create_scatter_plot(results):
         "Comparing translation performance across different AI models and languages"
     )
     bar_plot = create_model_comparison_plot(results)
     scatter_plot = create_scatter_plot(results)
+    create_leaderboard_df(results)
     gr.Plot(value=bar_plot, label="Model Comparison")
+    create_language_stats_df(results)
     gr.Plot(value=scatter_plot, label="Language Coverage")
     gr.Markdown(