Spaces:

fair-forward
/

evals-for-every-language

Running

App Files Files Community

David Pomerenke commited on Oct 31, 2024

Commit

0e5691e

1 Parent(s): 50128d8

Improve language and script names and speaker data

Browse files

Files changed (9) hide show

.gitignore +2 -0
README.md +1 -1
data.txt +4 -0
index.html +8 -1
languagebench.py +63 -25
languages.rq +1 -2
languages.tsv +0 -0
results.json +200 -120
results_summary.json +34 -0

.gitignore CHANGED Viewed

@@ -1,4 +1,6 @@
 floresp-*
 .cache
 .env

 floresp-*
+LanguageCodes.tab
+ScriptCodes.csv
 .cache
 .env

README.md CHANGED Viewed

@@ -6,4 +6,4 @@ Sources:
 1. For AI models: [OpenRouter](https://openrouter.ai/)
 2. For language benchmarks: [FLORES+](https://github.com/openlanguagedata/flores)
-3. For language statistics: [Wikidata](https://gist.github.com/unhammer/3e8f2e0f79972bf5008a4c970081502d) (Potential alternative: [Ethnologue](https://www.ethnologue.com/browse/names/))

 1. For AI models: [OpenRouter](https://openrouter.ai/)
 2. For language benchmarks: [FLORES+](https://github.com/openlanguagedata/flores)
+3. For language statistics: [Wikidata](https://gist.github.com/unhammer/3e8f2e0f79972bf5008a4c970081502d) (And [Ethnologue](https://www.ethnologue.com/browse/names/) for additional language names)

data.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+floresp-v2.0-rc.3: https://github.com/openlanguagedata/flores
+languages.csv: generated from https://query.wikidata.org/ using the languages.rq query
+LanguageCodes.tab: https://www.ethnologue.com/
+ScriptCodes.csv: https://www.unicode.org/iso15924/iso15924-codes.html

index.html CHANGED Viewed

@@ -33,6 +33,8 @@
         import * as Plot from "https://cdn.jsdelivr.net/npm/@observablehq/plot@0.6/+esm";
         async function init() {
             const response = await fetch('results.json');
             const results = await response.json();
@@ -70,6 +72,11 @@
                 const languageData = results.filter(r => r.target_language_name === language);
                 // Create plot using the more idiomatic Observable Plot approach
                 const plot = Plot.plot({
                     width: 400,
@@ -81,7 +88,7 @@
                     },
                     marks: [
                         Plot.barY(languageData, {
-                            x: d => d.model.split('/')[0],
                             y: "bleu"
                         })
                     ]

         import * as Plot from "https://cdn.jsdelivr.net/npm/@observablehq/plot@0.6/+esm";
         async function init() {
+            const summary = await fetch('results_summary.json');
             const response = await fetch('results.json');
             const results = await response.json();
                 const languageData = results.filter(r => r.target_language_name === language);
+                const descriptor = code => {
+                    let [org, model] = code.split("/")
+                    return model.split("-")[0]
+                }
                 // Create plot using the more idiomatic Observable Plot approach
                 const plot = Plot.plot({
                     width: 400,
                     },
                     marks: [
                         Plot.barY(languageData, {
+                            x: d => descriptor(d.model),
                             y: "bleu"
                         })
                     ]

languagebench.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import asyncio
 import json
 import os
 from os import getenv
 import evaluate
@@ -9,6 +10,7 @@ from dotenv import load_dotenv
 from joblib.memory import Memory
 from openai import AsyncOpenAI
 from tqdm.asyncio import tqdm_asyncio
 # config
 models = [
@@ -21,15 +23,17 @@ models = [
 # models = ["gpt-4o-mini"]
 original_language = "eng_Latn"
 dataset = "floresp-v2.0-rc.3/dev"
-target_languages = sorted([f.split(".")[1] for f in os.listdir(dataset)][:10])
-target_languages = [
-    "eng_Latn",
-    "deu_Latn",
-    "fra_Latn",
-    "spa_Latn",
-    "cmn_Hans",
-    "cmn_Hant",
-]
 # setup
 load_dotenv()
@@ -40,17 +44,33 @@ client = AsyncOpenAI(
 )
 cache = Memory(location=".cache", verbose=0).cache
 bleu = evaluate.load("sacrebleu")
 language_stats = pd.read_csv("languages.tsv", sep="\t")
 @cache
-async def translate(model, target_language, sentence):
-    reply = await client.chat.completions.create(
         model=model,
         messages=[
             {
                 "role": "user",
-                "content": f"Translate the following text from {original_language} to {target_language}:\n\n{sentence}",
             }
         ],
         temperature=0,
@@ -61,9 +81,15 @@ async def translate(model, target_language, sentence):
 def get_language_stats(language_code):
     lang, script = language_code.split("_")
     stats = language_stats[language_stats["iso639_3"] == lang]
-    if stats.empty:
-        return dict()
-    return stats.iloc[0].to_dict()
 async def main():
@@ -71,31 +97,43 @@ async def main():
     results = []
     original_sentences = open(f"{dataset}/dev.{original_language}").readlines()
     for target_language in target_languages:
         target_sentences = open(f"{dataset}/dev.{target_language}").readlines()
         for model in models:
-            print(f"{model} -> {target_language}")
-            predictions = await tqdm_asyncio.gather(
-                *[
-                    translate(model, target_language, sentence)
-                    for sentence in original_sentences[:n]
-                ],
-            )
             metrics = bleu.compute(
-                predictions=predictions, references=target_sentences[:n]
             )
-            stats = get_language_stats(target_language)
             results.append(
                 {
                     "model": model,
                     "original_language": original_language,
                     "target_language": target_language,
-                    "target_language_name": stats.get("itemLabel_en", target_language),
                     "speakers": stats.get("maxSpeakers"),
                     "bleu": metrics["score"],
                 }
             )
             with open("results.json", "w") as f:
                 json.dump(results, f, indent=2, ensure_ascii=False)
 if __name__ == "__main__":

 import asyncio
 import json
 import os
+import random
 from os import getenv
 import evaluate
 from joblib.memory import Memory
 from openai import AsyncOpenAI
 from tqdm.asyncio import tqdm_asyncio
+from tqdm.auto import tqdm
 # config
 models = [
 # models = ["gpt-4o-mini"]
 original_language = "eng_Latn"
 dataset = "floresp-v2.0-rc.3/dev"
+random.seed(42)
+target_languages = [f.split(".")[1] for f in os.listdir(dataset)]
+target_languages = random.choices(target_languages, k=10)
+# target_languages = [
+#     "eng_Latn",
+#     "deu_Latn",
+#     "fra_Latn",
+#     "spa_Latn",
+#     "cmn_Hans",
+#     "cmn_Hant",
+# ]
 # setup
 load_dotenv()
 )
 cache = Memory(location=".cache", verbose=0).cache
 bleu = evaluate.load("sacrebleu")
+@cache
+async def complete(**kwargs):
+    return await client.chat.completions.create(**kwargs)
+def reorder(language_name):
+    if "," in language_name and "(" not in language_name:
+        return language_name.split(",")[1] + " " + language_name.split(",")[0]
+    return language_name
+language_names = pd.read_csv("LanguageCodes.tab", sep="\t")
+language_names["Name"] = language_names["Name"].apply(reorder)
 language_stats = pd.read_csv("languages.tsv", sep="\t")
+script_names = pd.read_csv("ScriptCodes.csv")
 @cache
+async def translate(model, target_language, target_script, sentence):
+    reply = await complete(
         model=model,
         messages=[
             {
                 "role": "user",
+                "content": f"Translate the following text to {target_language} (script: {target_script}):\n\n{sentence}",
             }
         ],
         temperature=0,
 def get_language_stats(language_code):
     lang, script = language_code.split("_")
     stats = language_stats[language_stats["iso639_3"] == lang]
+    if not stats.empty:
+        stats = stats.iloc[0].to_dict()
+    else:
+        stats = dict()
+    stats["script"] = script_names[script_names["Code"] == script]["English Name"].iloc[
+        0
+    ]
+    stats["name"] = language_names[language_names["LangID"] == lang]["Name"].iloc[0]
+    return stats
 async def main():
     results = []
     original_sentences = open(f"{dataset}/dev.{original_language}").readlines()
     for target_language in target_languages:
+        if target_language == original_language:
+            continue
         target_sentences = open(f"{dataset}/dev.{target_language}").readlines()
         for model in models:
+            stats = get_language_stats(target_language)
+            print(f"{model} -> {stats['name']}")
+            # predictions = [
+            #     await translate(model, stats["name"], stats["script"], sentence)
+            #     for sentence in tqdm(original_sentences[:n])
+            # ]
+            predictions = [
+                translate(model, stats["name"], stats["script"], sentence)
+                for sentence in tqdm(original_sentences[:n])
+            ]
+            predictions = await tqdm_asyncio.gather(*predictions)
             metrics = bleu.compute(
+                predictions=predictions,
+                references=target_sentences[:n],
+                tokenize="char",
             )
             results.append(
                 {
                     "model": model,
                     "original_language": original_language,
                     "target_language": target_language,
+                    "target_language_name": stats["name"],
                     "speakers": stats.get("maxSpeakers"),
                     "bleu": metrics["score"],
                 }
             )
             with open("results.json", "w") as f:
                 json.dump(results, f, indent=2, ensure_ascii=False)
+            # compute mean bleu for each target language
+            pd.DataFrame(results).groupby("target_language_name").agg(
+                {"bleu": "mean"}
+            ).reset_index().to_json("results_summary.json", indent=2, orient="records")
 if __name__ == "__main__":

languages.rq CHANGED Viewed

@@ -1,8 +1,7 @@
 # https://query.wikidata.org/
 SELECT DISTINCT ?item (MAX(?numberOfSpeakers) AS ?maxSpeakers) (MAX(?speakersTime) AS ?mostRecentTime) ?iso639_1 ?iso639_3 ?itemLabel ?itemLabel_en
 WHERE {
-  ?item wdt:P31 wd:Q34770;          # General "language" type to include all languages
-        wdt:P220 ?iso639_3.          # Language with ISO 639-3 code
   ?item p:P1098 ?numberOfSpeakersStatement.
   ?numberOfSpeakersStatement ps:P1098 ?numberOfSpeakers.

 # https://query.wikidata.org/
 SELECT DISTINCT ?item (MAX(?numberOfSpeakers) AS ?maxSpeakers) (MAX(?speakersTime) AS ?mostRecentTime) ?iso639_1 ?iso639_3 ?itemLabel ?itemLabel_en
 WHERE {
+  ?item wdt:P220 ?iso639_3.          # Language with ISO 639-3 code
   ?item p:P1098 ?numberOfSpeakersStatement.
   ?numberOfSpeakersStatement ps:P1098 ?numberOfSpeakers.

languages.tsv CHANGED Viewed

The diff for this file is too large to render. See raw diff

results.json CHANGED Viewed

@@ -2,241 +2,321 @@
   {
     "model": "openai/gpt-4o-mini",
     "original_language": "eng_Latn",
-    "target_language": "eng_Latn",
-    "target_language_name": "English",
-    "speakers": 1132366680,
-    "bleu": 96.0187510193446
   },
   {
     "model": "google/gemini-flash-1.5",
     "original_language": "eng_Latn",
-    "target_language": "eng_Latn",
-    "target_language_name": "English",
-    "speakers": 1132366680,
-    "bleu": 79.64837722618887
   },
   {
     "model": "anthropic/claude-3.5-sonnet",
     "original_language": "eng_Latn",
-    "target_language": "eng_Latn",
-    "target_language_name": "English",
-    "speakers": 1132366680,
-    "bleu": 47.89694173473209
   },
   {
     "model": "qwen/qwen-2.5-72b-instruct",
     "original_language": "eng_Latn",
-    "target_language": "eng_Latn",
-    "target_language_name": "English",
-    "speakers": 1132366680,
-    "bleu": 57.08253125905762
   },
   {
     "model": "meta-llama/llama-3.1-8b-instruct",
     "original_language": "eng_Latn",
-    "target_language": "eng_Latn",
-    "target_language_name": "English",
-    "speakers": 1132366680,
-    "bleu": 71.3986619616758
   },
   {
     "model": "openai/gpt-4o-mini",
     "original_language": "eng_Latn",
-    "target_language": "deu_Latn",
-    "target_language_name": "German",
-    "speakers": 105000000,
-    "bleu": 42.76912386979146
   },
   {
     "model": "google/gemini-flash-1.5",
     "original_language": "eng_Latn",
-    "target_language": "deu_Latn",
-    "target_language_name": "German",
-    "speakers": 105000000,
-    "bleu": 48.166702527508484
   },
   {
     "model": "anthropic/claude-3.5-sonnet",
     "original_language": "eng_Latn",
-    "target_language": "deu_Latn",
-    "target_language_name": "German",
-    "speakers": 105000000,
-    "bleu": 47.56638188073429
   },
   {
     "model": "qwen/qwen-2.5-72b-instruct",
     "original_language": "eng_Latn",
-    "target_language": "deu_Latn",
-    "target_language_name": "German",
-    "speakers": 105000000,
-    "bleu": 38.8670415108337
   },
   {
     "model": "meta-llama/llama-3.1-8b-instruct",
     "original_language": "eng_Latn",
-    "target_language": "deu_Latn",
-    "target_language_name": "German",
-    "speakers": 105000000,
-    "bleu": 32.2942935571844
   },
   {
     "model": "openai/gpt-4o-mini",
     "original_language": "eng_Latn",
-    "target_language": "fra_Latn",
-    "target_language_name": "French",
-    "speakers": 208157220,
-    "bleu": 47.70220301445618
   },
   {
     "model": "google/gemini-flash-1.5",
     "original_language": "eng_Latn",
-    "target_language": "fra_Latn",
-    "target_language_name": "French",
-    "speakers": 208157220,
-    "bleu": 49.50529382461407
   },
   {
     "model": "anthropic/claude-3.5-sonnet",
     "original_language": "eng_Latn",
-    "target_language": "fra_Latn",
-    "target_language_name": "French",
-    "speakers": 208157220,
-    "bleu": 50.55719906730571
   },
   {
     "model": "qwen/qwen-2.5-72b-instruct",
     "original_language": "eng_Latn",
-    "target_language": "fra_Latn",
-    "target_language_name": "French",
-    "speakers": 208157220,
-    "bleu": 43.43766704709355
   },
   {
     "model": "meta-llama/llama-3.1-8b-instruct",
     "original_language": "eng_Latn",
-    "target_language": "fra_Latn",
-    "target_language_name": "French",
-    "speakers": 208157220,
-    "bleu": 37.38013101452594
   },
   {
     "model": "openai/gpt-4o-mini",
     "original_language": "eng_Latn",
-    "target_language": "spa_Latn",
-    "target_language_name": "Spanish",
-    "speakers": 485000000,
-    "bleu": 34.65606074843554
   },
   {
     "model": "google/gemini-flash-1.5",
     "original_language": "eng_Latn",
-    "target_language": "spa_Latn",
-    "target_language_name": "Spanish",
-    "speakers": 485000000,
-    "bleu": 34.49205632717459
   },
   {
     "model": "anthropic/claude-3.5-sonnet",
     "original_language": "eng_Latn",
-    "target_language": "spa_Latn",
-    "target_language_name": "Spanish",
-    "speakers": 485000000,
-    "bleu": 34.58637890527096
   },
   {
     "model": "qwen/qwen-2.5-72b-instruct",
     "original_language": "eng_Latn",
-    "target_language": "spa_Latn",
-    "target_language_name": "Spanish",
-    "speakers": 485000000,
-    "bleu": 33.41419407814188
   },
   {
     "model": "meta-llama/llama-3.1-8b-instruct",
     "original_language": "eng_Latn",
-    "target_language": "spa_Latn",
-    "target_language_name": "Spanish",
-    "speakers": 485000000,
-    "bleu": 29.470460185415075
   },
   {
     "model": "openai/gpt-4o-mini",
     "original_language": "eng_Latn",
-    "target_language": "cmn_Hans",
-    "target_language_name": "Mandarin",
-    "speakers": 1074000000,
-    "bleu": 0.7678283495493847
   },
   {
     "model": "google/gemini-flash-1.5",
     "original_language": "eng_Latn",
-    "target_language": "cmn_Hans",
-    "target_language_name": "Mandarin",
-    "speakers": 1074000000,
-    "bleu": 0.3178534804335777
   },
   {
     "model": "anthropic/claude-3.5-sonnet",
     "original_language": "eng_Latn",
-    "target_language": "cmn_Hans",
-    "target_language_name": "Mandarin",
-    "speakers": 1074000000,
-    "bleu": 0.8670958769249191
   },
   {
     "model": "qwen/qwen-2.5-72b-instruct",
     "original_language": "eng_Latn",
-    "target_language": "cmn_Hans",
-    "target_language_name": "Mandarin",
-    "speakers": 1074000000,
-    "bleu": 0.6796400550094367
   },
   {
     "model": "meta-llama/llama-3.1-8b-instruct",
     "original_language": "eng_Latn",
-    "target_language": "cmn_Hans",
-    "target_language_name": "Mandarin",
-    "speakers": 1074000000,
-    "bleu": 0.027154305073795664
   },
   {
     "model": "openai/gpt-4o-mini",
     "original_language": "eng_Latn",
-    "target_language": "cmn_Hant",
-    "target_language_name": "Mandarin",
-    "speakers": 1074000000,
-    "bleu": 2.175042632198715
   },
   {
     "model": "google/gemini-flash-1.5",
     "original_language": "eng_Latn",
-    "target_language": "cmn_Hant",
-    "target_language_name": "Mandarin",
-    "speakers": 1074000000,
-    "bleu": 0.3480387797702917
   },
   {
     "model": "anthropic/claude-3.5-sonnet",
     "original_language": "eng_Latn",
-    "target_language": "cmn_Hant",
-    "target_language_name": "Mandarin",
-    "speakers": 1074000000,
-    "bleu": 3.8196828383724886
   },
   {
     "model": "qwen/qwen-2.5-72b-instruct",
     "original_language": "eng_Latn",
-    "target_language": "cmn_Hant",
-    "target_language_name": "Mandarin",
-    "speakers": 1074000000,
-    "bleu": 2.1029807575075994
   },
   {
     "model": "meta-llama/llama-3.1-8b-instruct",
     "original_language": "eng_Latn",
-    "target_language": "cmn_Hant",
-    "target_language_name": "Mandarin",
-    "speakers": 1074000000,
-    "bleu": 0.017008567925605175
   }
 ]

   {
     "model": "openai/gpt-4o-mini",
     "original_language": "eng_Latn",
+    "target_language": "isl_Latn",
+    "target_language_name": "Icelandic",
+    "speakers": "358000",
+    "bleu": 61.64765463591684
   },
   {
     "model": "google/gemini-flash-1.5",
     "original_language": "eng_Latn",
+    "target_language": "isl_Latn",
+    "target_language_name": "Icelandic",
+    "speakers": "358000",
+    "bleu": 58.800114937175536
   },
   {
     "model": "anthropic/claude-3.5-sonnet",
     "original_language": "eng_Latn",
+    "target_language": "isl_Latn",
+    "target_language_name": "Icelandic",
+    "speakers": "358000",
+    "bleu": 63.29310272337262
   },
   {
     "model": "qwen/qwen-2.5-72b-instruct",
     "original_language": "eng_Latn",
+    "target_language": "isl_Latn",
+    "target_language_name": "Icelandic",
+    "speakers": "358000",
+    "bleu": 28.81229691079592
   },
   {
     "model": "meta-llama/llama-3.1-8b-instruct",
     "original_language": "eng_Latn",
+    "target_language": "isl_Latn",
+    "target_language_name": "Icelandic",
+    "speakers": "358000",
+    "bleu": 35.26511601216665
   },
   {
     "model": "openai/gpt-4o-mini",
     "original_language": "eng_Latn",
+    "target_language": "ind_Latn",
+    "target_language_name": "Indonesian",
+    "speakers": "198996550",
+    "bleu": 77.046561794683
   },
   {
     "model": "google/gemini-flash-1.5",
     "original_language": "eng_Latn",
+    "target_language": "ind_Latn",
+    "target_language_name": "Indonesian",
+    "speakers": "198996550",
+    "bleu": 73.29149877209336
   },
   {
     "model": "anthropic/claude-3.5-sonnet",
     "original_language": "eng_Latn",
+    "target_language": "ind_Latn",
+    "target_language_name": "Indonesian",
+    "speakers": "198996550",
+    "bleu": 71.2935146236652
   },
   {
     "model": "qwen/qwen-2.5-72b-instruct",
     "original_language": "eng_Latn",
+    "target_language": "ind_Latn",
+    "target_language_name": "Indonesian",
+    "speakers": "198996550",
+    "bleu": 71.24329964015463
   },
   {
     "model": "meta-llama/llama-3.1-8b-instruct",
     "original_language": "eng_Latn",
+    "target_language": "ind_Latn",
+    "target_language_name": "Indonesian",
+    "speakers": "198996550",
+    "bleu": 68.73551514908719
   },
   {
     "model": "openai/gpt-4o-mini",
     "original_language": "eng_Latn",
+    "target_language": "pol_Latn",
+    "target_language_name": "Polish",
+    "speakers": "40200000",
+    "bleu": 65.22066652766671
   },
   {
     "model": "google/gemini-flash-1.5",
     "original_language": "eng_Latn",
+    "target_language": "pol_Latn",
+    "target_language_name": "Polish",
+    "speakers": "40200000",
+    "bleu": 64.9142026045634
   },
   {
     "model": "anthropic/claude-3.5-sonnet",
     "original_language": "eng_Latn",
+    "target_language": "pol_Latn",
+    "target_language_name": "Polish",
+    "speakers": "40200000",
+    "bleu": 62.0169794404058
   },
   {
     "model": "qwen/qwen-2.5-72b-instruct",
     "original_language": "eng_Latn",
+    "target_language": "pol_Latn",
+    "target_language_name": "Polish",
+    "speakers": "40200000",
+    "bleu": 50.22137732799528
   },
   {
     "model": "meta-llama/llama-3.1-8b-instruct",
     "original_language": "eng_Latn",
+    "target_language": "pol_Latn",
+    "target_language_name": "Polish",
+    "speakers": "40200000",
+    "bleu": 54.39716369344653
   },
   {
     "model": "openai/gpt-4o-mini",
     "original_language": "eng_Latn",
+    "target_language": "kas_Deva",
+    "target_language_name": "Kashmiri",
+    "speakers": "6900000",
+    "bleu": 22.853844625462184
   },
   {
     "model": "google/gemini-flash-1.5",
     "original_language": "eng_Latn",
+    "target_language": "kas_Deva",
+    "target_language_name": "Kashmiri",
+    "speakers": "6900000",
+    "bleu": 1.6028583744267129
   },
   {
     "model": "anthropic/claude-3.5-sonnet",
     "original_language": "eng_Latn",
+    "target_language": "kas_Deva",
+    "target_language_name": "Kashmiri",
+    "speakers": "6900000",
+    "bleu": 10.24928534626491
   },
   {
     "model": "qwen/qwen-2.5-72b-instruct",
     "original_language": "eng_Latn",
+    "target_language": "kas_Deva",
+    "target_language_name": "Kashmiri",
+    "speakers": "6900000",
+    "bleu": 18.289957619904254
   },
   {
     "model": "meta-llama/llama-3.1-8b-instruct",
     "original_language": "eng_Latn",
+    "target_language": "kas_Deva",
+    "target_language_name": "Kashmiri",
+    "speakers": "6900000",
+    "bleu": 0.8669151440746464
   },
   {
     "model": "openai/gpt-4o-mini",
     "original_language": "eng_Latn",
+    "target_language": "lin_Latn",
+    "target_language_name": "Lingala",
+    "speakers": "20000000",
+    "bleu": 50.873508850595044
   },
   {
     "model": "google/gemini-flash-1.5",
     "original_language": "eng_Latn",
+    "target_language": "lin_Latn",
+    "target_language_name": "Lingala",
+    "speakers": "20000000",
+    "bleu": 6.943431977023627
   },
   {
     "model": "anthropic/claude-3.5-sonnet",
     "original_language": "eng_Latn",
+    "target_language": "lin_Latn",
+    "target_language_name": "Lingala",
+    "speakers": "20000000",
+    "bleu": 45.048992005653
   },
   {
     "model": "qwen/qwen-2.5-72b-instruct",
     "original_language": "eng_Latn",
+    "target_language": "lin_Latn",
+    "target_language_name": "Lingala",
+    "speakers": "20000000",
+    "bleu": 2.9809864732757902
   },
   {
     "model": "meta-llama/llama-3.1-8b-instruct",
     "original_language": "eng_Latn",
+    "target_language": "lin_Latn",
+    "target_language_name": "Lingala",
+    "speakers": "20000000",
+    "bleu": 0.5682271000080301
   },
   {
     "model": "openai/gpt-4o-mini",
     "original_language": "eng_Latn",
+    "target_language": "bjn_Latn",
+    "target_language_name": "Banjar",
+    "speakers": "3500000",
+    "bleu": 50.02000892713302
   },
   {
     "model": "google/gemini-flash-1.5",
     "original_language": "eng_Latn",
+    "target_language": "bjn_Latn",
+    "target_language_name": "Banjar",
+    "speakers": "3500000",
+    "bleu": 5.960932185623333
   },
   {
     "model": "anthropic/claude-3.5-sonnet",
     "original_language": "eng_Latn",
+    "target_language": "bjn_Latn",
+    "target_language_name": "Banjar",
+    "speakers": "3500000",
+    "bleu": 46.23236901760108
   },
   {
     "model": "qwen/qwen-2.5-72b-instruct",
     "original_language": "eng_Latn",
+    "target_language": "bjn_Latn",
+    "target_language_name": "Banjar",
+    "speakers": "3500000",
+    "bleu": 21.478973248564643
   },
   {
     "model": "meta-llama/llama-3.1-8b-instruct",
     "original_language": "eng_Latn",
+    "target_language": "bjn_Latn",
+    "target_language_name": "Banjar",
+    "speakers": "3500000",
+    "bleu": 22.371002216375594
+  },
+  {
+    "model": "openai/gpt-4o-mini",
+    "original_language": "eng_Latn",
+    "target_language": "bho_Deva",
+    "target_language_name": "Bhojpuri",
+    "speakers": "52200000",
+    "bleu": 43.46871320382143
+  },
+  {
+    "model": "google/gemini-flash-1.5",
+    "original_language": "eng_Latn",
+    "target_language": "bho_Deva",
+    "target_language_name": "Bhojpuri",
+    "speakers": "52200000",
+    "bleu": 18.253876118905147
+  },
+  {
+    "model": "anthropic/claude-3.5-sonnet",
+    "original_language": "eng_Latn",
+    "target_language": "bho_Deva",
+    "target_language_name": "Bhojpuri",
+    "speakers": "52200000",
+    "bleu": 23.447356116551486
+  },
+  {
+    "model": "qwen/qwen-2.5-72b-instruct",
+    "original_language": "eng_Latn",
+    "target_language": "bho_Deva",
+    "target_language_name": "Bhojpuri",
+    "speakers": "52200000",
+    "bleu": 29.81946758376717
+  },
+  {
+    "model": "meta-llama/llama-3.1-8b-instruct",
+    "original_language": "eng_Latn",
+    "target_language": "bho_Deva",
+    "target_language_name": "Bhojpuri",
+    "speakers": "52200000",
+    "bleu": 3.2486895985868474
+  },
+  {
+    "model": "openai/gpt-4o-mini",
+    "original_language": "eng_Latn",
+    "target_language": "ces_Latn",
+    "target_language_name": "Czech",
+    "speakers": "10700000",
+    "bleu": 69.01583822081993
+  },
+  {
+    "model": "google/gemini-flash-1.5",
+    "original_language": "eng_Latn",
+    "target_language": "ces_Latn",
+    "target_language_name": "Czech",
+    "speakers": "10700000",
+    "bleu": 69.4260447999661
+  },
+  {
+    "model": "anthropic/claude-3.5-sonnet",
+    "original_language": "eng_Latn",
+    "target_language": "ces_Latn",
+    "target_language_name": "Czech",
+    "speakers": "10700000",
+    "bleu": 68.6109083634317
+  },
+  {
+    "model": "qwen/qwen-2.5-72b-instruct",
+    "original_language": "eng_Latn",
+    "target_language": "ces_Latn",
+    "target_language_name": "Czech",
+    "speakers": "10700000",
+    "bleu": 59.72501366200287
+  },
+  {
+    "model": "meta-llama/llama-3.1-8b-instruct",
+    "original_language": "eng_Latn",
+    "target_language": "ces_Latn",
+    "target_language_name": "Czech",
+    "speakers": "10700000",
+    "bleu": 60.25088578142904
   }
 ]

results_summary.json ADDED Viewed

	@@ -0,0 +1,34 @@

+[
+  {
+    "target_language_name":"Banjar",
+    "bleu":29.2126571191
+  },
+  {
+    "target_language_name":"Bhojpuri",
+    "bleu":23.6476205243
+  },
+  {
+    "target_language_name":"Czech",
+    "bleu":65.4057381655
+  },
+  {
+    "target_language_name":"Icelandic",
+    "bleu":49.5636570439
+  },
+  {
+    "target_language_name":"Indonesian",
+    "bleu":72.3220779959
+  },
+  {
+    "target_language_name":"Kashmiri",
+    "bleu":10.772572222
+  },
+  {
+    "target_language_name":"Lingala",
+    "bleu":21.2830292813
+  },
+  {
+    "target_language_name":"Polish",
+    "bleu":59.3540779188
+  }
+]