projektas1-demo-hf1 / README.md
Elanas's picture
Update README.md
65dc2e1 verified
|
raw
history blame
2.34 kB
---
sdk: gradio
---
# 🧠 Šnekos Atpažinimo Demonstracija (3 kalbėtojai + slaptažodis)
Ši demonstracija leidžia įkelti WAV garso įrašą su **trimis kalbėtojais**, automatiškai atpažinti jų **kalbas (lt, en, de)**, priskirti žymes **(A, B, C)** ir atskirai patikrinti **lietuviškai ištartą slaptažodį** iš kito garso įrašo.
---
## 🔧 Funkcijos
### 🗣️ 1. Kalbėtojų analizė:
- Įkelkite `.wav` su 3 kalbėtojais
- Pasirinkite modelį: `Whisper` arba `Wav2Vec2`
- Sistema:
- Segmentuoja kalbėtojus
- Atpažįsta kalbą kiekvienam (pvz., A – vokiečių, B – lietuvių, C – anglų)
- Parodo, kuris kalbėtojas kalbėjo lietuviškai
- ✅ Sugeneruoja **JSON ataskaitą**
### 🔐 2. Slaptažodžio tikrinimas:
- Įkelkite atskirą `.wav` failą su išsakytu lietuvišku slaptažodžiu
- Įveskite tikrąjį slaptažodį klaviatūra
- Pasirinkite modelį
- Sistema:
- Transkribuoja įkeltą .wav
- Lygina su įvestu slaptažodžiu
- Parodo rezultatą
### 📊 3. Bendra ataskaita:
- Mygtukas „📊 Peržiūrėti ataskaitą“
- Ataskaita apjungia:
- `whisper.json`
- `wav2vec2.json`
- Parodo kalbėtojų transkripcijas ir kiekvieno modelio analizės trukmę
---
## 📁 JSON Ataskaita
Kiekvienam modelio analizės paleidimui sugeneruojamas JSON failas:
- `rezultatai/whisper.json`
- `rezultatai/wav2vec2.json`
Formatas:
```json
{
"modelis": "Whisper",
"apdorojimo_laikas": 12.34,
"apdorojimo_laikas_tekstu": "0 min. 12 sek.",
"segmentai": [
{
"kalbetojas": "B",
"kalba": "lt",
"tekstas": "Aktyvuok sistemą",
"trukme": 4.2
}
]
}
```
---
## 🧠 Naudojamos technologijos
- `gradio` – naudotojo sąsaja
- `openai-whisper` – kalbos atpažinimas (multi-lingual)
- `wav2vec2` – kalbos modeliai iš Hugging Face
- `pyannote.audio` – kalbėtojų diarizacija
- `torchaudio` – garso apdorojimas
- `json` – ataskaitų išvestis
- `ataskaita.py` – JSON ataskaitos analizės generatorius
---
## 💡 Pastabos
- Tik vienas kalbėtojas turėtų kalbėti lietuviškai
- Slaptažodis tikrinamas **tik per atskirą įkeltą failą**
- VOSK modeliai šioje demonstracijoje nenaudojami (jie yra PC versijoje)
---
🔒 Sukurta kaip akademinio darbo dalis – šnekos atpažinimo sistemų demonstracija realiam saugos scenarijui.