Spaces:

fair-forward
/

evals-for-every-language

Running

davidpomerenke commited on 2 days ago

Commit

75010c2

verified ·

1 Parent(s): adc94d7

Upload from GitHub Actions: Fix vibecoding

Files changed (2) hide show

evals/datasets_/mmlu.py CHANGED Viewed

@@ -143,13 +143,13 @@ def load_mmlu(language_bcp_47, nr):
         a.rsplit("_", 1)[1].split("-")[0].lower()
         for a in _get_dataset_config_names("Eurolingua/mmlux", trust_remote_code=True)
     )
-    if language_bcp_47 in tags_afrimmlu:
         ds = _load_dataset("masakhane/afrimmlu", tags_afrimmlu[language_bcp_47])
         ds = ds.map(parse_choices)
         examples = ds["dev"].filter(lambda x: x["subject"] == category)
         task = ds["test"].filter(lambda x: x["subject"] == category)[i]
         return "masakhane/afrimmlu", examples, task
-    elif language_bcp_47 in tags_global_mmlu:
         ds = _load_dataset("CohereForAI/Global-MMLU", tags_global_mmlu[language_bcp_47])
         ds = ds.map(add_choices)
         examples = ds["dev"].filter(lambda x: x["subject"] == category)

         a.rsplit("_", 1)[1].split("-")[0].lower()
         for a in _get_dataset_config_names("Eurolingua/mmlux", trust_remote_code=True)
     )
+    if language_bcp_47 in tags_afrimmlu.keys():
         ds = _load_dataset("masakhane/afrimmlu", tags_afrimmlu[language_bcp_47])
         ds = ds.map(parse_choices)
         examples = ds["dev"].filter(lambda x: x["subject"] == category)
         task = ds["test"].filter(lambda x: x["subject"] == category)[i]
         return "masakhane/afrimmlu", examples, task
+    elif language_bcp_47 in tags_global_mmlu.keys():
         ds = _load_dataset("CohereForAI/Global-MMLU", tags_global_mmlu[language_bcp_47])
         ds = ds.map(add_choices)
         examples = ds["dev"].filter(lambda x: x["subject"] == category)

evals/main.py CHANGED Viewed

@@ -20,7 +20,7 @@ async def evaluate():
     print("running evaluations")
     old_results = pd.read_json("results.json")
     results = [
-        task(task, model, lang._asdict() if hasattr(lang, "_asdict") else dict(lang), i)
         for task_name, task in tasks.items()
         for i in range(n_sentences)
         for lang in languages.iloc[:n_languages].itertuples()

     print("running evaluations")
     old_results = pd.read_json("results.json")
     results = [
+        task(model, lang.bcp_47, i)
         for task_name, task in tasks.items()
         for i in range(n_sentences)
         for lang in languages.iloc[:n_languages].itertuples()