Spaces:

innnky
/

vits-nyaru

Running

App Files Files Community

rcell commited on Aug 18, 2022

Commit

fe5b963

1 Parent(s): cb3140f

update advance

Browse files

Files changed (1) hide show

app.py +20 -16

app.py CHANGED Viewed

@@ -55,6 +55,8 @@ _ = utils.load_checkpoint("output.pth", net_g_ms, None)
 def tts(text):
     sid = torch.LongTensor([2])  # speaker identity
     stn_tst = get_text(text, hps_ms)
@@ -64,12 +66,14 @@ def tts(text):
         # print(stn_tst.size())
         audio = net_g_ms.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][
             0, 0].data.float().numpy()
-    return (hps.data.sampling_rate, audio)
 def clean_text(text):
     return japanese_cleaners(text)
 def generate_from_clean(text):
     sid = torch.LongTensor([2])  # speaker identity
     text_norm = cleaned_text_to_sequence(text)
@@ -82,25 +86,25 @@ def generate_from_clean(text):
         x_tst_lengths = torch.LongTensor([stn_tst.size(0)])
         audio = net_g_ms.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][
             0, 0].data.float().numpy()
-    return (hps.data.sampling_rate, audio)
 app = gr.Blocks()
 with app:
     with gr.Tabs():
-        with gr.TabItem("基本"):
-            tts_input1 = gr.TextArea(label="请输入日语文本", value="こんにちは。")
             # tts_input2 = gr.Dropdown(label="Speaker", choices=hps.speakers, type="index", value=hps.speakers[0])
-            tts_submit = gr.Button("生成", variant="primary")
-            # tts_output1 = gr.Textbox(label="Output Message")
-            tts_output2 = gr.Audio(label="输出")
-            tts_submit.click(tts, [tts_input1], [tts_output2])
-        with gr.TabItem("高级"):
-            tts_input3 = gr.TextArea(label="请输入日语文本", value="こんにちは。")
-            tts_s1 = gr.Button("清理", variant="primary")
-            tts_input4 = gr.TextArea(label="调整调形", value="ko↑Nniʧiwa.")
-            tts_s2 = gr.Button("生成", variant="primary")
-            tts_o = gr.Audio(label="输出")
             tts_s1.click(clean_text, [tts_input3], [ tts_input4])
-            tts_s2.click(generate_from_clean, [tts_input4], [tts_o])
     app.launch()

 def tts(text):
+    if len(text) > 150:
+        return "Error: Text is too long", None
     sid = torch.LongTensor([2])  # speaker identity
     stn_tst = get_text(text, hps_ms)
         # print(stn_tst.size())
         audio = net_g_ms.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][
             0, 0].data.float().numpy()
+    return "Success", (hps.data.sampling_rate, audio)
 def clean_text(text):
     return japanese_cleaners(text)
 def generate_from_clean(text):
+    if len(text) > 300:
+        return "Error: Text is too long", None
     sid = torch.LongTensor([2])  # speaker identity
     text_norm = cleaned_text_to_sequence(text)
         x_tst_lengths = torch.LongTensor([stn_tst.size(0)])
         audio = net_g_ms.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][
             0, 0].data.float().numpy()
+    return "Success", (hps.data.sampling_rate, audio)
 app = gr.Blocks()
 with app:
     with gr.Tabs():
+        with gr.TabItem("Basic"):
+            tts_input1 = gr.TextArea(label="Text in Japanese (150 words limitation)", value="こんにちは。")
             # tts_input2 = gr.Dropdown(label="Speaker", choices=hps.speakers, type="index", value=hps.speakers[0])
+            tts_submit = gr.Button("Generate", variant="primary")
+            tts_output1 = gr.Textbox(label="Message")
+            tts_output2 = gr.Audio(label="Output")
+            tts_submit.click(tts, [tts_input1], [tts_output1, tts_output2])
+        with gr.TabItem("Advanced"):
+            tts_input3 = gr.TextArea(label="Text in Japanese", value="こんにちは。")
+            tts_s1 = gr.Button("Clean", variant="primary")
+            tts_input4 = gr.TextArea(label="Cleaned Text (300 words limitation)", value="ko↑Nniʧiwa.")
+            tts_s2 = gr.Button("Generate", variant="primary")
+            message = gr.Textbox(label="Message")
+            tts_o = gr.Audio(label="Output")
             tts_s1.click(clean_text, [tts_input3], [ tts_input4])
+            tts_s2.click(generate_from_clean, [tts_input4], [message, tts_o])
     app.launch()