Spaces:

navidved
/

tts_labeling

Running

App Files Files Community

Navid Arabi commited on May 24

Commit

c8c252f

1 Parent(s): e1df50c

add gdrive file loader

Browse files

Files changed (7) hide show

components/dashboard_page.py +144 -82
components/header.py +6 -6
config.py +1 -0
gdrive_test.py +22 -0
requirements.txt +5 -1
test/gdrive_downloader.py +98 -0
utils/auth.py +4 -12

components/dashboard_page.py CHANGED Viewed

@@ -1,71 +1,119 @@
-# components/dashboard_page.py
 import gradio as gr
 from components.header import Header
 class DashboardPage:
-    """UI elements + event wiring for the post-login dashboard."""
     # ───────── ساخت UI ───────── #
     def __init__(self) -> None:
         with gr.Column(visible=False) as self.container:
-            # هدر بالا (نام کاربر + خروج)
             self.header = Header()
-            # اطلاعات فایل صوتی و انوتیشن
             with gr.Row():
-                with gr.Column():
-                    self.tts_id = gr.Textbox(
-                        label="tts_data.id", interactive=False
-                    )
-                    self.filename = gr.Textbox(
-                        label="tts_data.filename", interactive=False
-                    )
                     self.sentence = gr.Textbox(
-                        label="tts_data.sentence", interactive=False
                     )
                     self.ann_sentence = gr.Textbox(
-                        label="annotations.annotated_sentence",
-                        interactive=False,
-                    )
-                    self.ann_at = gr.Textbox(
-                        label="annotations.annotated_at",
-                        interactive=False,
-                    )
-                    self.validated = gr.Checkbox(
-                        label="annotations.validated",
-                        interactive=False,
                     )
-            # دکمه‌های پیمایش
-            with gr.Row():
-                self.btn_prev = gr.Button("⬅️ Previous")
-                self.btn_next = gr.Button("Next ➡️")
-            # stateهای مخفی
-            self.items_state = gr.State([])   # list[dict]
-            self.idx_state   = gr.State(0)    # اندیس فعلی
-    # ───────── wiring رویدادها ───────── #
     def register_callbacks(
         self,
-        login_page,               # برای اجازه‌ی logout در Header
-        session_state: gr.State,  # gr.State شامل دیکشنری نشست
-        root_blocks: gr.Blocks    # بلوک ریشه‌ی برنامه
     ) -> None:
-        # ۱) رویداد خروج (در Header)
         self.header.register_callbacks(login_page, self, session_state)
-        # ---------- توابع کمکی ---------- #
         def show_current(items: list, idx: int):
-            """رکورد idx را روی فیلدها می‌ریزد؛ در صورت خالی بودن لیست مقادیر تهی."""
             if not items:
-                return ["", "", "", "", "", False]
             data = items[idx]
             return [
                 data["id"],
                 data["filename"],
@@ -73,6 +121,9 @@ class DashboardPage:
                 data.get("annotated_sentence", ""),
                 data.get("annotated_at", ""),
                 bool(data.get("validated", False)),
             ]
         def next_idx(items: list, idx: int):
@@ -81,13 +132,13 @@ class DashboardPage:
         def prev_idx(items: list, idx: int):
             return max(idx - 1, 0)
-        # ---------- بارگذاری اولیه (یک بار در شروع) ---------- #
         def load_items(sess: dict):
             items = sess.get("dashboard_items", [])
             return (
-                items,                   # → items_state
-                0,                       # → idx_state
-                *show_current(items, 0), # → شش فیلد
             )
         root_blocks.load(
@@ -102,49 +153,60 @@ class DashboardPage:
                 self.ann_sentence,
                 self.ann_at,
                 self.validated,
             ],
         )
-        # ---------- دکمه «قبلی» ----------
-        (
-            self.btn_prev
-            .click(
-                fn=prev_idx,
-                inputs=[self.items_state, self.idx_state],
-                outputs=self.idx_state,
             )
-            .then(
-                fn=show_current,
-                inputs=[self.items_state, self.idx_state],
-                outputs=[
-                    self.tts_id,
-                    self.filename,
-                    self.sentence,
-                    self.ann_sentence,
-                    self.ann_at,
-                    self.validated,
-                ],
-            )
-        )
-        # ---------- دکمه «بعدی» ----------
-        (
-            self.btn_next
-            .click(
-                fn=next_idx,
-                inputs=[self.items_state, self.idx_state],
-                outputs=self.idx_state,
-            )
-            .then(
-                fn=show_current,
-                inputs=[self.items_state, self.idx_state],
-                outputs=[
-                    self.tts_id,
-                    self.filename,
-                    self.sentence,
-                    self.ann_sentence,
-                    self.ann_at,
-                    self.validated,
-                ],
-            )
-        )

+import os
+from pathlib import Path
 import gradio as gr
+import numpy as np
+from pydub import AudioSegment
 from components.header import Header
+from utils.logger import Logger
+log = Logger()
+# اگر فایل‌های صوتی در پوشهٔ خاصی هستند این را عوض کنید
+AUDIO_DIR = Path("audio")  #  <project_root>/audio/<filename>.wav
 class DashboardPage:
+    """صفحهٔ داشبورد شامل اطلاعات متنی (چپ) و پخش‌کنندهٔ صوت (راست)."""
     # ───────── ساخت UI ───────── #
     def __init__(self) -> None:
         with gr.Column(visible=False) as self.container:
+            # هدر
             self.header = Header()
+            # بدنهٔ دو ستونه
             with gr.Row():
+                # -------- ستونهٔ چپ : متادیتا -------- #
+                with gr.Column(scale=3) as self.left_col:
+                    with gr.Row():
+                        self.tts_id = gr.Textbox(label="ID", interactive=False)
+                        self.filename = gr.Textbox(label="Filename", interactive=False)
                     self.sentence = gr.Textbox(
+                        label="Sentence", interactive=False, max_lines=5, rtl=True
                     )
                     self.ann_sentence = gr.Textbox(
+                        label="Annotated Sentence",
+                        interactive=True,
+                        max_lines=5,
+                        rtl=True,
                     )
+                    with gr.Row():
+                        self.ann_at = gr.Textbox(
+                            label="Annotation Time",
+                            interactive=False,
+                        )
+                        self.validated = gr.Checkbox(
+                            label="Annotation is Validate",
+                            interactive=False,
+                        )
+                    # دکمه‌های پیمایش زیر اطلاعات متنی
+                    with gr.Row():
+                        self.btn_prev = gr.Button("⬅️ Previous")
+                        self.btn_next = gr.Button("Next ➡️")
+                # -------- ستونهٔ راست : پخش‌کننده -------- #
+                with gr.Column(scale=2) as self.right_col:
+                    self.audio = gr.Audio(label="🔊 Audio", interactive=False)
+            # stateهای مخفی
+            self.items_state = gr.State([])  # list[dict]
+            self.idx_state = gr.State(0)  # اندیس فعلی
+    # ───────── wiring ───────── #
     def register_callbacks(
         self,
+        login_page,
+        session_state: gr.State,  # dict درون gr.State
+        root_blocks: gr.Blocks,
     ) -> None:
+        # رویداد خروج
         self.header.register_callbacks(login_page, self, session_state)
+        # ---------- helpers ---------- #
+        def _audio_path(filename: str) -> str:
+            """مسیر کامل فایل صوتی روی دیسک."""
+            return str(AUDIO_DIR / filename)
+        def _duration_seconds(wav_path: str) -> float:
+            """طول فایل صوتی به ثانیه (برای اسلایدرها)."""
+            try:
+                dur = len(AudioSegment.from_file(wav_path)) / 1000.0
+                return round(dur, 2)
+            except Exception as e:
+                log.warning(f"Cannot read duration for '{wav_path}': {e}")
+                return 0.0
         def show_current(items: list, idx: int):
+            """داده‌های رکورد idx را برای خروجی‌ها تولید می‌کند."""
             if not items:
+                # 6 فیلد متنی + 3 فیلد صوت + validated
+                return [
+                    "",
+                    "",
+                    "",
+                    "",
+                    "",
+                    False,
+                    None,
+                    gr.update(minimum=0, maximum=0, value=0),
+                    gr.update(minimum=0, maximum=0, value=0),
+                ]
             data = items[idx]
+            wav_path = _audio_path(data["filename"])
+            dur = _duration_seconds(wav_path)
             return [
                 data["id"],
                 data["filename"],
                 data.get("annotated_sentence", ""),
                 data.get("annotated_at", ""),
                 bool(data.get("validated", False)),
+                wav_path,  # audio
+                gr.update(minimum=0, maximum=dur, value=0),  # start slider
+                gr.update(minimum=0, maximum=dur, value=dur),  # end slider
             ]
         def next_idx(items: list, idx: int):
         def prev_idx(items: list, idx: int):
             return max(idx - 1, 0)
+        # ---------- initial load ---------- #
         def load_items(sess: dict):
             items = sess.get("dashboard_items", [])
             return (
+                items,
+                0,
+                *show_current(items, 0),
             )
         root_blocks.load(
                 self.ann_sentence,
                 self.ann_at,
                 self.validated,
+                self.audio,
+                self.start_slider,
+                self.end_slider,
             ],
         )
+        # ---------- prev / next buttons ---------- #
+        for btn, fn_nav in [(self.btn_prev, prev_idx), (self.btn_next, next_idx)]:
+            (
+                btn.click(
+                    fn=fn_nav,
+                    inputs=[self.items_state, self.idx_state],
+                    outputs=self.idx_state,
+                ).then(
+                    fn=show_current,
+                    inputs=[self.items_state, self.idx_state],
+                    outputs=[
+                        self.tts_id,
+                        self.filename,
+                        self.sentence,
+                        self.ann_sentence,
+                        self.ann_at,
+                        self.validated,
+                        self.audio,
+                        self.start_slider,
+                        self.end_slider,
+                    ],
+                )
             )
+        # ---------- Play-Selection button ---------- #
+        def play_selection(wav_path: str, start: float, end: float):
+            """
+            بخش انتخاب‌شده از فایل را جدا می‌کند و به‌صورت
+            (sr, np.array) برمی‌گرداند تا در Player پخش شود.
+            """
+            if not wav_path or not os.path.exists(wav_path):
+                return None
+            try:
+                seg = AudioSegment.from_file(wav_path)
+                start_ms = int(max(start, 0) * 1000)
+                end_ms = int(min(end, len(seg) / 1000) * 1000)
+                if start_ms >= end_ms:
+                    end_ms = start_ms + 1000  # حداقل ۱ ثانیه
+                clip = seg[start_ms:end_ms]
+                samples = np.array(clip.get_array_of_samples()).astype(np.float32)
+                samples /= np.iinfo(samples.dtype).max  # نرمال‌سازی
+                return (clip.frame_rate, samples)
+            except Exception as e:
+                log.error(f"Cannot slice audio '{wav_path}': {e}")
+                return None
+        self.play_btn.click(
+            fn=play_selection,
+            inputs=[self.audio, self.start_slider, self.end_slider],
+            outputs=self.audio,
+        )

components/header.py CHANGED Viewed

@@ -14,11 +14,11 @@ class Header:
     def register_callbacks(self, login_page, dashboard_page, session_state):
         self.logout_btn.click(
             fn=AuthService.logout,
-            inputs=session_state,
             outputs=[
-                login_page.container,
-                dashboard_page.container,
-                self.welcome,
-                login_page.message,
             ],
-        )

     def register_callbacks(self, login_page, dashboard_page, session_state):
         self.logout_btn.click(
             fn=AuthService.logout,
+            inputs=[session_state],            # ←  حتماً داخل لیست
             outputs=[
+                login_page.container,          # 1
+                dashboard_page.container,      # 2
+                self.welcome,                  # 3
+                login_page.message,            # 4
             ],
+        )

config.py CHANGED Viewed

@@ -12,6 +12,7 @@ class Config(BaseSettings):
     DB_NAME: str = os.getenv("DB_NAME", "defaultdb")
     HF_TOKEN: str = os.environ.get("HF_TOKEN")
     HF_TTS_DS_REPO: str = os.environ.get("HF_TTS_DS_REPO")
     APP_TITLE: str = "Gooya TTS Annotation Tools"

     DB_NAME: str = os.getenv("DB_NAME", "defaultdb")
     HF_TOKEN: str = os.environ.get("HF_TOKEN")
     HF_TTS_DS_REPO: str = os.environ.get("HF_TTS_DS_REPO")
+    GOOGLE_DRIVE_API_KEY: str = os.environ.get("GOOGLE_DRIVE_API_KEY")
     APP_TITLE: str = "Gooya TTS Annotation Tools"

gdrive_test.py ADDED Viewed

	@@ -0,0 +1,22 @@

+import gradio as gr
+from test.gdrive_downloader import PublicFolderAudioLoader
+from config import conf
+LOADER  = PublicFolderAudioLoader(conf.GOOGLE_DRIVE_API_KEY)
+def fetch_audio(folder_link, filename):
+    sr, wav = LOADER.load_audio(folder_link, filename)
+    return (sr, wav)
+demo = gr.Interface(
+    fn=fetch_audio,
+    inputs=[
+        gr.Textbox(label="Folder URL or ID",
+                   value="https://drive.google.com/drive/folders/15UllyqvOB8zmhzsTL8f1wmnK4OY2nzUQ?usp=sharing"),
+        gr.Textbox(label="Filename (e.g. 0001.wav)")
+    ],
+    outputs=gr.Audio(label="🔊 Audio"),
+)
+if __name__ == "__main__":
+    demo.launch()

requirements.txt CHANGED Viewed

@@ -6,4 +6,8 @@ soundfile
 librosa
 pydantic-settings
 pymysql
-bcrypt

 librosa
 pydantic-settings
 pymysql
+bcrypt
+google-api-python-client
+pydub
+numpy
+requests

test/gdrive_downloader.py ADDED Viewed

	@@ -0,0 +1,98 @@

+# gdrive_downloader.py
+from __future__ import annotations
+import io
+import re
+import numpy as np
+from pydub import AudioSegment
+from googleapiclient.discovery import build
+from googleapiclient.http import MediaIoBaseDownload
+def extract_folder_id(url_or_id: str) -> str:
+    """
+    اگر کاربر لینک فولدر بدهد ← ID را برمی‌گرداند.
+    اگر خودش ID باشد همان را برمی‌گرداند.
+    """
+    s = url_or_id.strip()
+    if "/" not in s and "?" not in s:
+        return s  # احتمالاً خودش ID است
+    m = re.search(r"/folders/([a-zA-Z0-9_-]{10,})", s)
+    if not m:
+        raise ValueError("Cannot extract folder id from url")
+    return m.group(1)
+class PublicFolderAudioLoader:
+    """
+    دانلودر فایل صوتی از فولدر عمومی گوگل‌درایو بدون ذخیره روی دیسک.
+    Parameters
+    ----------
+    api_key : str
+        Google API Key (کیِ عمومی؛ نه OAuth, نه سرویس‌اکانت).
+    """
+    def __init__(self, api_key: str) -> None:
+        self.svc = build("drive", "v3", developerKey=api_key, cache_discovery=False)
+    # ---------- helpers ---------- #
+    def _file_id_by_name(self, folder_id: str, filename: str) -> str:
+        q = (
+            f"'{folder_id}' in parents "
+            f"and name = '{filename}' "
+            f"and trashed = false"
+        )
+        rsp = (
+            self.svc.files()
+            .list(q=q, fields="files(id,name)", pageSize=5, supportsAllDrives=True)
+            .execute()
+        )
+        files = rsp.get("files", [])
+        if not files:
+            raise FileNotFoundError(f"'{filename}' not found in folder {folder_id}")
+        return files[0]["id"]
+    def _download_to_buf(self, file_id: str) -> io.BytesIO:
+        request = self.svc.files().get_media(fileId=file_id, supportsAllDrives=True)
+        buf = io.BytesIO()
+        downloader = MediaIoBaseDownload(buf, request)
+        done = False
+        while not done:
+            _, done = downloader.next_chunk()
+        buf.seek(0)
+        return buf
+    # ---------- public ---------- #
+    def load_audio(
+        self,
+        folder_url_or_id: str,
+        filename: str,
+    ) -> tuple[int, np.ndarray]:
+        # """
+        # فایل را به `(sample_rate, np.ndarray)` نرمال‌شده در بازه‌ی [-1,1] تبدیل می‌کند.
+        # """
+        folder_id = extract_folder_id(folder_url_or_id)
+        file_id = self._file_id_by_name(folder_id, filename)
+        buf = self._download_to_buf(file_id)
+        seg = AudioSegment.from_file(buf)
+        samples = np.array(seg.get_array_of_samples())
+        # اگر چندکاناله بود، شکل دهیم
+        if seg.channels > 1:
+            samples = samples.reshape(-1, seg.channels)
+        # ---------------------- نرمال‌سازی ----------------------
+        if np.issubdtype(samples.dtype, np.integer):
+            max_int = np.iinfo(samples.dtype).max  # ← قبل از cast
+            samples = samples.astype(np.float32)
+            samples /= max_int  # ← از max_int استفاده می‌کنیم
+        else:
+            # در حالت float
+            max_val = np.abs(samples).max()
+            if max_val > 1:
+                samples = samples / max_val
+            samples = samples.astype(np.float32)
+        # --------------------------------------------------------
+        return seg.frame_rate, samples

utils/auth.py CHANGED Viewed

@@ -137,16 +137,8 @@ class AuthService:
         session.clear()
         log.info(f"User '{username}' logged out.")
         return (
-            gr.update(visible=True),  # لاگین فرم را دوباره نشان بده
-            gr.update(visible=False),  # داشبورد را پنهان کن
-            gr.update(value=""),  # پیام‌ها را پاک کن
-            gr.update(value=""),  # متن خوش‌آمد را پاک کن
-            [],
-            0,
-            "",
-            "",
-            "",
-            "",
-            "",
-            False,  # خروجی‌های داشبورد را ریست
         )

         session.clear()
         log.info(f"User '{username}' logged out.")
         return (
+            gr.update(visible=True),   # 1  → login_page.container
+            gr.update(visible=False),  # 2  → dashboard_page.container
+            gr.update(value=""),       # 3  → self.welcome
+            gr.update(value=""),       # 4  → login_page.message
         )