Spaces:

thepatch
/

micro-slot-machine

Running on Zero

App Files Files Community

thecollabagepatch commited on 28 days ago

Commit

6e56362

1 Parent(s): 1277288

loudness issues

Browse files

Files changed (1) hide show

app.py +22 -7

app.py CHANGED Viewed

@@ -163,7 +163,6 @@ def continue_music(input_audio_path, prompt_duration, musicgen_model, output_dur
     # Load original audio as AudioSegment for easier manipulation
     original_audio = AudioSegment.from_wav(input_audio_path)
-    current_audio = original_audio
     file_paths_for_cleanup = []
     # Get the last `prompt_duration` seconds as the prompt
@@ -183,10 +182,11 @@ def continue_music(input_audio_path, prompt_duration, musicgen_model, output_dur
     if len(output.size()) > 2:
         output = output.squeeze()
-    # Save the generated audio
     filename_without_extension = f'continue_extension_{random.randint(1000, 9999)}'
     filename_with_extension = f'{filename_without_extension}.wav'
-    audio_write(filename_without_extension, output, model_continue.sample_rate, strategy="clip")
     # Handle the double .wav extension issue
     correct_filename = f'{filename_without_extension}.wav.wav'
@@ -197,10 +197,25 @@ def continue_music(input_audio_path, prompt_duration, musicgen_model, output_dur
         generated_audio_segment = AudioSegment.from_wav(filename_with_extension)
         file_paths_for_cleanup.append(filename_with_extension)
-    # Combine original + new audio
-    prompt_duration_ms = prompt_duration * 1000  # Convert to milliseconds for AudioSegment
-    original_minus_prompt = current_audio[:-prompt_duration_ms]  # Remove last X seconds
-    combined_audio = original_minus_prompt + generated_audio_segment  # Seamless join
     combined_audio_filename = f"extended_audio_{random.randint(1000, 9999)}.wav"
     combined_audio.export(combined_audio_filename, format="wav")

     # Load original audio as AudioSegment for easier manipulation
     original_audio = AudioSegment.from_wav(input_audio_path)
     file_paths_for_cleanup = []
     # Get the last `prompt_duration` seconds as the prompt
     if len(output.size()) > 2:
         output = output.squeeze()
+    # Save the generated audio WITHOUT aggressive loudness processing
     filename_without_extension = f'continue_extension_{random.randint(1000, 9999)}'
     filename_with_extension = f'{filename_without_extension}.wav'
+    audio_write(filename_without_extension, output, model_continue.sample_rate,
+               strategy="clip")  # Just prevent clipping, no loudness changes
     # Handle the double .wav extension issue
     correct_filename = f'{filename_without_extension}.wav.wav'
         generated_audio_segment = AudioSegment.from_wav(filename_with_extension)
         file_paths_for_cleanup.append(filename_with_extension)
+    # VOLUME MATCHING: Apply consistent normalization
+    # 1. Remove prompt duration from original (no overlap)
+    prompt_duration_ms = int(prompt_duration * 1000)
+    original_minus_prompt = original_audio[:-prompt_duration_ms]
+    # 2. Normalize both segments to same peak level
+    target_peak_dbfs = -6.0  # Professional level with headroom
+    # Normalize original segment
+    original_normalized = original_minus_prompt.normalize(headroom=abs(target_peak_dbfs))
+    # Normalize generated segment
+    generated_normalized = generated_audio_segment.normalize(headroom=abs(target_peak_dbfs))
+    # 3. Combine seamlessly
+    combined_audio = original_normalized + generated_normalized
+    # Save final result
     combined_audio_filename = f"extended_audio_{random.randint(1000, 9999)}.wav"
     combined_audio.export(combined_audio_filename, format="wav")