Spaces:

camanalo1
/

MyAlexa

Sleeping

camanalo1 commited on May 1, 2024

Commit

311f586

verified ·

1 Parent(s): 285309e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,9 +18,11 @@ def transcribe_and_generate_audio(audio):
     try:
         # Transcribe audio
         asr_output = transcriber(audio)["text"]
         # Generate text based on ASR output
         generated_text = generator(asr_output)[0]['generated_text']
         # Generate audio from text using TTS model
         inputs = tokenizer_tts(text=generated_text, return_tensors="pt")
@@ -31,7 +33,7 @@ def transcribe_and_generate_audio(audio):
         waveform_path = "output.wav"
         sf.write(waveform_path, waveform.numpy(), 16000, format='wav')
-        return waveform_path
     except Exception as e:
         return f"Error: {str(e)}"
@@ -39,7 +41,7 @@ def transcribe_and_generate_audio(audio):
 audio_input = gr.Interface(
     transcribe_and_generate_audio,
     gr.Audio(sources=["microphone"], label="Speak Here"),
-    "audio",
     title="ASR -> LLM -> TTS",
     description="Speak into the microphone and hear the generated audio."
 )

     try:
         # Transcribe audio
         asr_output = transcriber(audio)["text"]
+        print("ASR Output:", asr_output)
         # Generate text based on ASR output
         generated_text = generator(asr_output)[0]['generated_text']
+        print("Generated Text:", generated_text)
         # Generate audio from text using TTS model
         inputs = tokenizer_tts(text=generated_text, return_tensors="pt")
         waveform_path = "output.wav"
         sf.write(waveform_path, waveform.numpy(), 16000, format='wav')
+        return waveform_path, asr_output, generated_text
     except Exception as e:
         return f"Error: {str(e)}"
 audio_input = gr.Interface(
     transcribe_and_generate_audio,
     gr.Audio(sources=["microphone"], label="Speak Here"),
+    ["audio", "text", "text"],
     title="ASR -> LLM -> TTS",
     description="Speak into the microphone and hear the generated audio."
 )