Spaces:

fair-forward
/

evals-for-every-language

Running

App Files Files Community

David Pomerenke commited on Mar 8

Commit

c4c59ec

1 Parent(s): 08735bb

Transcription APIs

Browse files

Files changed (4) hide show

.gitignore +1 -0
evals.py +25 -1
pyproject.toml +2 -0
uv.lock +21 -0

.gitignore CHANGED Viewed

@@ -1,5 +1,6 @@
 floresp-*
 glottolog-*
 LanguageCodes.tab
 ScriptCodes.csv
 .cache

 floresp-*
 glottolog-*
+*.m4a
 LanguageCodes.tab
 ScriptCodes.csv
 .cache

evals.py CHANGED Viewed

@@ -11,15 +11,17 @@ import pandas as pd
 import requests
 from aiolimiter import AsyncLimiter
 from dotenv import load_dotenv
 from joblib.memory import Memory
 from langcodes import Language, standardize_tag
 from language_data.population_data import LANGUAGE_SPEAKING_POPULATION
 from openai import AsyncOpenAI
 from requests import get
 from rich import print
 from tqdm.asyncio import tqdm_asyncio
 from transformers import NllbTokenizer
-from pyglottolog import Glottolog
 # config
 models = [
@@ -48,6 +50,28 @@ tokenizer = NllbTokenizer.from_pretrained("facebook/nllb-200-distilled-600M")
 rate_limit = AsyncLimiter(max_rate=20, time_period=1)
 # load general language data
 languages = {
     lang: pop

 import requests
 from aiolimiter import AsyncLimiter
 from dotenv import load_dotenv
+from elevenlabs import ElevenLabs
 from joblib.memory import Memory
 from langcodes import Language, standardize_tag
 from language_data.population_data import LANGUAGE_SPEAKING_POPULATION
 from openai import AsyncOpenAI
+from pyglottolog import Glottolog
 from requests import get
 from rich import print
 from tqdm.asyncio import tqdm_asyncio
 from transformers import NllbTokenizer
+from huggingface_hub import InferenceClient
 # config
 models = [
 rate_limit = AsyncLimiter(max_rate=20, time_period=1)
+@cache
+def transcribe(filename, model="elevenlabs/scribe_v1"):
+    provider, modelname = model.split("/")
+    with open(filename, "rb") as f:
+        audio = f.read()
+    match provider:
+        case "elevenlabs":
+            client = ElevenLabs(api_key=getenv("ELEVENLABS_API_KEY"))
+            response = client.speech_to_text.convert(model_id=modelname, file=audio)
+            return response.text
+        case "openai":
+            client = InferenceClient(api_key=getenv("HUGGINGFACE_ACCESS_TOKEN"))
+            output = client.automatic_speech_recognition(model=model, audio=audio)
+            return output.text
+        case _:
+            raise ValueError(f"Model {model} not supported")
+print(transcribe("data/test.m4a", "openai/whisper-large-v3-turbo"))
+exit()
 # load general language data
 languages = {
     lang: pop

pyproject.toml CHANGED Viewed

@@ -15,7 +15,9 @@ dependencies = [
 dev-dependencies = [
     "aiolimiter>=1.1.0",
     "bert-score>=0.3.13",
     "evaluate==0.4.0",
     "joblib>=1.4.2",
     "langcodes>=3.5.0",
     "openai>=1.52.2",

 dev-dependencies = [
     "aiolimiter>=1.1.0",
     "bert-score>=0.3.13",
+    "elevenlabs>=1.53.0",
     "evaluate==0.4.0",
+    "huggingface-hub>=0.29.1",
     "joblib>=1.4.2",
     "langcodes>=3.5.0",
     "openai>=1.52.2",

uv.lock CHANGED Viewed

@@ -565,6 +565,23 @@ wheels = [
     { url = "https://files.pythonhosted.org/packages/12/b3/231ffd4ab1fc9d679809f356cebee130ac7daa00d6d6f3206dd4fd137e9e/distro-1.9.0-py3-none-any.whl", hash = "sha256:7bffd925d65168f85027d8da9af6bddab658135b840670a223589bc0c8ef02b2", size = 20277 },
 ]
 [[package]]
 name = "evaluate"
 version = "0.4.0"
@@ -1194,7 +1211,9 @@ dependencies = [
 dev = [
     { name = "aiolimiter" },
     { name = "bert-score" },
     { name = "evaluate" },
     { name = "joblib" },
     { name = "langcodes" },
     { name = "openai" },
@@ -1220,7 +1239,9 @@ requires-dist = [
 dev = [
     { name = "aiolimiter", specifier = ">=1.1.0" },
     { name = "bert-score", specifier = ">=0.3.13" },
     { name = "evaluate", specifier = "==0.4.0" },
     { name = "joblib", specifier = ">=1.4.2" },
     { name = "langcodes", specifier = ">=3.5.0" },
     { name = "openai", specifier = ">=1.52.2" },

     { url = "https://files.pythonhosted.org/packages/12/b3/231ffd4ab1fc9d679809f356cebee130ac7daa00d6d6f3206dd4fd137e9e/distro-1.9.0-py3-none-any.whl", hash = "sha256:7bffd925d65168f85027d8da9af6bddab658135b840670a223589bc0c8ef02b2", size = 20277 },
 ]
+[[package]]
+name = "elevenlabs"
+version = "1.53.0"
+source = { registry = "https://pypi.org/simple" }
+dependencies = [
+    { name = "httpx" },
+    { name = "pydantic" },
+    { name = "pydantic-core" },
+    { name = "requests" },
+    { name = "typing-extensions" },
+    { name = "websockets" },
+]
+sdist = { url = "https://files.pythonhosted.org/packages/83/c1/5bf18b8f8be29032196484a4f55d1ec85ada125d3a5df87a5ebe5b754a0e/elevenlabs-1.53.0.tar.gz", hash = "sha256:bc900f7e6123575014672e5f4f004a12c75508d6b22e370a1327bd0d536b0f0a", size = 149562 }
+wheels = [
+    { url = "https://files.pythonhosted.org/packages/5f/b8/63c7bbbe9d02b1a16afe02512727e4afa17e25ed85c2a0f298b31ac1ddb1/elevenlabs-1.53.0-py3-none-any.whl", hash = "sha256:90b33135204bdd538ab3624dff31aa57b3192f660f72b71c2bf18b8436a53e2d", size = 344998 },
+]
 [[package]]
 name = "evaluate"
 version = "0.4.0"
 dev = [
     { name = "aiolimiter" },
     { name = "bert-score" },
+    { name = "elevenlabs" },
     { name = "evaluate" },
+    { name = "huggingface-hub" },
     { name = "joblib" },
     { name = "langcodes" },
     { name = "openai" },
 dev = [
     { name = "aiolimiter", specifier = ">=1.1.0" },
     { name = "bert-score", specifier = ">=0.3.13" },
+    { name = "elevenlabs", specifier = ">=1.53.0" },
     { name = "evaluate", specifier = "==0.4.0" },
+    { name = "huggingface-hub" },
     { name = "joblib", specifier = ">=1.4.2" },
     { name = "langcodes", specifier = ">=3.5.0" },
     { name = "openai", specifier = ">=1.52.2" },