Spaces:

Nusri7
/

voice_comparison

Sleeping

App Files Files Community

Nusri7 commited on Dec 11, 2024

Commit

20acaf7

1 Parent(s): 456232f

Initial commit with FastAPI + Gradio app

Browse files

Files changed (1) hide show

app.py +14 -18

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ import torch
 from fastapi import FastAPI, HTTPException, File, UploadFile
 from speechbrain.inference import SpeakerRecognition
 from fastapi.responses import JSONResponse
 # Initialize the speaker verification model
 speaker_verification = SpeakerRecognition.from_hparams(
@@ -15,7 +16,7 @@ speaker_verification = SpeakerRecognition.from_hparams(
 # Function to calculate similarity score
 def get_similarity(audio1, audio2, sample_rate=16000):
     try:
-        # Convert numpy arrays to tensors
         signal1 = torch.tensor(audio1)
         signal2 = torch.tensor(audio2)
@@ -34,23 +35,15 @@ def get_similarity(audio1, audio2, sample_rate=16000):
 # API function to compare voices
 def compare_voices(file1, file2):
     try:
-        # Debug: Print the file types
         print(f"Received file1: {type(file1)}")
         print(f"Received file2: {type(file2)}")
-        if not file1 or not file2:
-            return {"error": "One or both audio inputs are missing."}
-        # Ensure file1 and file2 are tuples (numpy_array, sample_rate)
-        if isinstance(file1, tuple) and len(file1) == 2:
-            audio1, _ = file1  # Audio1 is a tuple (numpy_array, sample_rate)
-        else:
-            return {"error": "Invalid format for the first audio input."}
-        if isinstance(file2, tuple) and len(file2) == 2:
-            audio2, _ = file2  # Audio2 is a tuple (numpy_array, sample_rate)
         else:
-            return {"error": "Invalid format for the second audio input."}
         # Get similarity score
         score, is_same_user = get_similarity(audio1, audio2)
@@ -79,13 +72,16 @@ async def compare_voices_api(file1: UploadFile = File(...), file2: UploadFile =
         file1_data = await file1.read()
         file2_data = await file2.read()
-        # You need to process these byte strings into numpy arrays
         # Assuming the audio is decoded into numpy arrays here (e.g., using torchaudio)
         # For example:
-        # audio1 = torchaudio.load(io.BytesIO(file1_data))[0].numpy()
-        # audio2 = torchaudio.load(io.BytesIO(file2_data))[0].numpy()
-        return {"message": "Processing files directly without saving them."}
     except Exception as e:
         raise HTTPException(status_code=400, detail=str(e))

 from fastapi import FastAPI, HTTPException, File, UploadFile
 from speechbrain.inference import SpeakerRecognition
 from fastapi.responses import JSONResponse
+import numpy as np
 # Initialize the speaker verification model
 speaker_verification = SpeakerRecognition.from_hparams(
 # Function to calculate similarity score
 def get_similarity(audio1, audio2, sample_rate=16000):
     try:
+        # Ensure audio1 and audio2 are numpy arrays
         signal1 = torch.tensor(audio1)
         signal2 = torch.tensor(audio2)
 # API function to compare voices
 def compare_voices(file1, file2):
     try:
+        # Debugging: Check the types of inputs
         print(f"Received file1: {type(file1)}")
         print(f"Received file2: {type(file2)}")
+        # Ensure file1 and file2 are numpy arrays
+        if isinstance(file1, np.ndarray) and isinstance(file2, np.ndarray):
+            audio1, audio2 = file1, file2
         else:
+            return {"error": "Invalid input format. Both inputs must be numpy arrays."}
         # Get similarity score
         score, is_same_user = get_similarity(audio1, audio2)
         file1_data = await file1.read()
         file2_data = await file2.read()
         # Assuming the audio is decoded into numpy arrays here (e.g., using torchaudio)
         # For example:
+        audio1, _ = torchaudio.load(io.BytesIO(file1_data))  # (Tensor, sample_rate)
+        audio2, _ = torchaudio.load(io.BytesIO(file2_data))  # (Tensor, sample_rate)
+        audio1 = audio1.numpy()
+        audio2 = audio2.numpy()
+        # Compare the two audio files and return the result
+        return compare_voices(audio1, audio2)
     except Exception as e:
         raise HTTPException(status_code=400, detail=str(e))