Spaces:
Sleeping
Sleeping
Delete README.md
Browse files
README.md
DELETED
@@ -1,86 +0,0 @@
|
|
1 |
-
---
|
2 |
-
sdk: gradio
|
3 |
-
---
|
4 |
-
|
5 |
-
# 🧠 Šnekos Atpažinimo Demonstracija (3 kalbėtojai + slaptažodis)
|
6 |
-
|
7 |
-
Ši demonstracija leidžia įkelti WAV garso įrašą su **trimis kalbėtojais**, automatiškai atpažinti jų **kalbas (lt, en, de)**, priskirti žymes **(A, B, C)** ir atskirai patikrinti **lietuviškai ištartą slaptažodį** iš kito garso įrašo.
|
8 |
-
|
9 |
-
---
|
10 |
-
|
11 |
-
## 🔧 Funkcijos
|
12 |
-
|
13 |
-
### 🗣️ 1. Kalbėtojų analizė:
|
14 |
-
- Įkelkite `.wav` su 3 kalbėtojais
|
15 |
-
- Pasirinkite modelį: `Whisper` arba `Wav2Vec2`
|
16 |
-
- Sistema:
|
17 |
-
- Segmentuoja kalbėtojus
|
18 |
-
- Atpažįsta kalbą kiekvienam (pvz., A – vokiečių, B – lietuvių, C – anglų)
|
19 |
-
- Parodo, kuris kalbėtojas kalbėjo lietuviškai
|
20 |
-
- ✅ Sugeneruoja **JSON ataskaitą**
|
21 |
-
|
22 |
-
### 🔐 2. Slaptažodžio tikrinimas:
|
23 |
-
- Įkelkite atskirą `.wav` failą su išsakytu lietuvišku slaptažodžiu
|
24 |
-
- Įveskite tikrąjį slaptažodį klaviatūra
|
25 |
-
- Pasirinkite modelį
|
26 |
-
- Sistema:
|
27 |
-
- Transkribuoja įkeltą .wav
|
28 |
-
- Lygina su įvestu slaptažodžiu
|
29 |
-
- Parodo rezultatą
|
30 |
-
|
31 |
-
### 📊 3. Bendra ataskaita:
|
32 |
-
- Mygtukas „📊 Peržiūrėti ataskaitą“
|
33 |
-
- Ataskaita apjungia:
|
34 |
-
- `whisper.json`
|
35 |
-
- `wav2vec2.json`
|
36 |
-
- Parodo kalbėtojų transkripcijas ir kiekvieno modelio analizės trukmę
|
37 |
-
|
38 |
-
---
|
39 |
-
|
40 |
-
## 📁 JSON Ataskaita
|
41 |
-
|
42 |
-
Kiekvienam modelio analizės paleidimui sugeneruojamas JSON failas:
|
43 |
-
|
44 |
-
- `rezultatai/whisper.json`
|
45 |
-
- `rezultatai/wav2vec2.json`
|
46 |
-
|
47 |
-
Formatas:
|
48 |
-
```json
|
49 |
-
{
|
50 |
-
"modelis": "Whisper",
|
51 |
-
"apdorojimo_laikas": 12.34,
|
52 |
-
"apdorojimo_laikas_tekstu": "0 min. 12 sek.",
|
53 |
-
"segmentai": [
|
54 |
-
{
|
55 |
-
"kalbetojas": "B",
|
56 |
-
"kalba": "lt",
|
57 |
-
"tekstas": "Aktyvuok sistemą",
|
58 |
-
"trukme": 4.2
|
59 |
-
}
|
60 |
-
]
|
61 |
-
}
|
62 |
-
```
|
63 |
-
|
64 |
-
---
|
65 |
-
|
66 |
-
## 🧠 Naudojamos technologijos
|
67 |
-
|
68 |
-
- `gradio` – naudotojo sąsaja
|
69 |
-
- `openai-whisper` – kalbos atpažinimas (multi-lingual)
|
70 |
-
- `wav2vec2` – kalbos modeliai iš Hugging Face
|
71 |
-
- `pyannote.audio` – kalbėtojų diarizacija
|
72 |
-
- `torchaudio` – garso apdorojimas
|
73 |
-
- `json` – ataskaitų išvestis
|
74 |
-
- `ataskaita.py` – JSON ataskaitos analizės generatorius
|
75 |
-
|
76 |
-
---
|
77 |
-
|
78 |
-
## 💡 Pastabos
|
79 |
-
|
80 |
-
- Tik vienas kalbėtojas turėtų kalbėti lietuviškai
|
81 |
-
- Slaptažodis tikrinamas **tik per atskirą įkeltą failą**
|
82 |
-
- VOSK modeliai šioje demonstracijoje nenaudojami (jie yra PC versijoje)
|
83 |
-
|
84 |
-
---
|
85 |
-
|
86 |
-
🔒 Sukurta kaip akademinio darbo dalis – šnekos atpažinimo sistemų demonstracija realiam saugos scenarijui.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|