Spaces:

thepatch
/

micro-slot-machine

Running on Zero

thecollabagepatch commited on 27 days ago

Commit

0e896d0

1 Parent(s): 6e56362

loudness issues

Files changed (1) hide show

app.py CHANGED Viewed

@@ -197,23 +197,34 @@ def continue_music(input_audio_path, prompt_duration, musicgen_model, output_dur
         generated_audio_segment = AudioSegment.from_wav(filename_with_extension)
         file_paths_for_cleanup.append(filename_with_extension)
-    # VOLUME MATCHING: Apply consistent normalization
-    # 1. Remove prompt duration from original (no overlap)
     prompt_duration_ms = int(prompt_duration * 1000)
     original_minus_prompt = original_audio[:-prompt_duration_ms]
-    # 2. Normalize both segments to same peak level
-    target_peak_dbfs = -6.0  # Professional level with headroom
-    # Normalize original segment
-    original_normalized = original_minus_prompt.normalize(headroom=abs(target_peak_dbfs))
-    # Normalize generated segment
-    generated_normalized = generated_audio_segment.normalize(headroom=abs(target_peak_dbfs))
-    # 3. Combine seamlessly
-    combined_audio = original_normalized + generated_normalized
     # Save final result
     combined_audio_filename = f"extended_audio_{random.randint(1000, 9999)}.wav"

         generated_audio_segment = AudioSegment.from_wav(filename_with_extension)
         file_paths_for_cleanup.append(filename_with_extension)
+    # VOLUME MATCHING: Use RMS instead of peak normalization
+    # 1. Remove prompt duration from original (no overlap)
     prompt_duration_ms = int(prompt_duration * 1000)
     original_minus_prompt = original_audio[:-prompt_duration_ms]
+    # 2. Calculate RMS levels for perceived loudness
+    original_rms = original_minus_prompt.rms
+    generated_rms = generated_audio_segment.rms
+    print(f"🔊 Volume analysis:")
+    print(f"   Original RMS: {original_rms}")
+    print(f"   Generated RMS: {generated_rms}")
+    # 3. Match generated segment to original's RMS level
+    if generated_rms > 0:  # Avoid division by zero
+        # Calculate dB adjustment needed
+        from pydub.utils import ratio_to_db
+        volume_adjustment = ratio_to_db(original_rms / generated_rms)
+        print(f"   Applying {volume_adjustment:.1f}dB to generated audio")
+        # Apply volume adjustment
+        generated_matched = generated_audio_segment + volume_adjustment
+    else:
+        generated_matched = generated_audio_segment
+    # 4. Combine seamlessly
+    combined_audio = original_minus_prompt + generated_matched
     # Save final result
     combined_audio_filename = f"extended_audio_{random.randint(1000, 9999)}.wav"