Spaces:

hamza2923
/

faster-whisper-transcription-api

Running

App Files Files Community

hamza2923 commited on 30 days ago

Commit

b00efa4

verified ·

1 Parent(s): 7323fd3

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -72

app.py CHANGED Viewed

@@ -23,7 +23,7 @@ compute_type = "float16" if device == "cuda" else "int8"
 print(f"Using device: {device} with compute_type: {compute_type}")
 # Faster Whisper setup with optimized parameters for long audio
-beamsize = 5  # Slightly larger beam size can help with long-form accuracy
 wmodel = WhisperModel(
     "guillaumekln/faster-whisper-small",
     device=device,
@@ -74,97 +74,49 @@ def whisper_transcribe():
     global active_requests
     if not request_semaphore.acquire(blocking=False):
-        return jsonify({
-            'status': 'Server busy',
-            'message': f'Currently processing {active_requests} requests',
-            'suggestion': 'Please try again shortly'
-        }), 503
     active_requests += 1
-    print(f"Starting transcription (Active requests: {active_requests})")
     temp_file_path = None
     try:
         if 'audio' not in request.files:
             return jsonify({'error': 'No file provided'}), 400
         audio_file = request.files['audio']
         if not (audio_file and allowed_file(audio_file.filename)):
             return jsonify({'error': 'Invalid file format'}), 400
-        # Save to temporary file for large audio processing
         temp_file_path = os.path.join(TEMPORARY_FOLDER, secure_filename(audio_file.filename))
         audio_file.save(temp_file_path)
-        # Get processing parameters from request
-        language = request.form.get('language', None)
-        task = request.form.get('task', 'transcribe')  # 'transcribe' or 'translate'
-        vad_filter = request.form.get('vad_filter', 'true').lower() == 'true'
-        word_timestamps = request.form.get('word_timestamps', 'false').lower() == 'true'
-        try:
-            start_time = time.time()
-            # Process in chunks with VAD for long audio
-            segments, info = wmodel.transcribe(
-                temp_file_path,
-                beam_size=beamsize,
-                language=language,
-                task=task,
-                vad_filter=vad_filter,
-                word_timestamps=word_timestamps,
-                chunk_length=30  # Process in 30-second chunks
-            )
-            # Stream results as they become available
-            results = []
-            for segment in segments:
-                if time.time() - start_time > MAX_AUDIO_DURATION:
-                    raise TimeoutError(f"Transcription exceeded maximum allowed duration of {MAX_AUDIO_DURATION} seconds")
-                result = {
-                    'text': segment.text,
-                    'start': segment.start,
-                    'end': segment.end
-                }
-                if word_timestamps and segment.words:
-                    result['words'] = [{
-                        'word': word.word,
-                        'start': word.start,
-                        'end': word.end,
-                        'probability': word.probability
-                    } for word in segment.words]
-                results.append(result)
-            processing_time = time.time() - start_time
-            print(f"Transcription completed in {processing_time:.2f} seconds")
-            return jsonify({
-                'segments': results,
-                'summary': {
-                    'processing_time': processing_time,
-                    'language': info.language,
-                    'language_probability': info.language_probability,
-                    'duration': sum(seg.end - seg.start for seg in results if hasattr(seg, 'end'))
-                }
-            })
-        except TimeoutError as te:
-            print(f"Transcription timeout: {str(te)}")
-            return jsonify({'error': str(te)}), 504
-        except Exception as e:
-            print(f"Transcription error: {str(e)}")
-            return jsonify({'error': 'Transcription failed', 'details': str(e)}), 500
     finally:
         if temp_file_path:
             cleanup_temp_files(temp_file_path)
         active_requests -= 1
         request_semaphore.release()
-        print(f"Request completed (Active requests: {active_requests})")
 if __name__ == "__main__":
     # Create temporary folder if it doesn't exist

 print(f"Using device: {device} with compute_type: {compute_type}")
 # Faster Whisper setup with optimized parameters for long audio
+beamsize = 2  # Slightly larger beam size can help with long-form accuracy
 wmodel = WhisperModel(
     "guillaumekln/faster-whisper-small",
     device=device,
     global active_requests
     if not request_semaphore.acquire(blocking=False):
+        return jsonify({'error': 'Server busy'}), 503
     active_requests += 1
+    start_time = time.time()
     temp_file_path = None
     try:
         if 'audio' not in request.files:
             return jsonify({'error': 'No file provided'}), 400
         audio_file = request.files['audio']
         if not (audio_file and allowed_file(audio_file.filename)):
             return jsonify({'error': 'Invalid file format'}), 400
         temp_file_path = os.path.join(TEMPORARY_FOLDER, secure_filename(audio_file.filename))
         audio_file.save(temp_file_path)
+        segments, _ = wmodel.transcribe(
+            temp_file_path,
+            beam_size=beamsize,
+            vad_filter=True,
+            without_timestamps=True,  # Ensure timestamps are not included
+            compression_ratio_threshold=2.4,
+            word_timestamps=False
+        )
+        full_text = " ".join(segment.text for segment in segments)
+        return Response(
+            response=full_text,
+            status=200,
+            mimetype='text/plain'
+        )
+    except Exception as e:
+        return jsonify({'error': str(e)}), 500
     finally:
         if temp_file_path:
             cleanup_temp_files(temp_file_path)
         active_requests -= 1
         request_semaphore.release()
+        print(f"Processed in {time.time()-start_time:.2f}s (Active: {active_requests})")
 if __name__ == "__main__":
     # Create temporary folder if it doesn't exist