metadata

sdk: gradio

🧠 Šnekos Atpažinimo Demonstracija (3 kalbėtojai + slaptažodis)

Ši demonstracija leidžia įkelti WAV garso įrašą su trimis kalbėtojais, automatiškai atpažinti jų kalbas (lt, en, de), priskirti žymes (A, B, C) ir atskirai patikrinti lietuviškai ištartą slaptažodį iš kito garso įrašo.

🔧 Funkcijos

🗣️ 1. Kalbėtojų analizė:

Įkelkite .wav su 3 kalbėtojais
Pasirinkite modelį: Whisper arba Wav2Vec2
Sistema:
- Segmentuoja kalbėtojus
- Atpažįsta kalbą kiekvienam (pvz., A – vokiečių, B – lietuvių, C – anglų)
- Parodo, kuris kalbėtojas kalbėjo lietuviškai
- ✅ Sugeneruoja JSON ataskaitą

🔐 2. Slaptažodžio tikrinimas:

Įkelkite atskirą .wav failą su išsakytu lietuvišku slaptažodžiu
Įveskite tikrąjį slaptažodį klaviatūra
Pasirinkite modelį
Sistema:
- Transkribuoja įkeltą .wav
- Lygina su įvestu slaptažodžiu
- Parodo rezultatą

📊 3. Bendra ataskaita:

Mygtukas „📊 Peržiūrėti ataskaitą“
Ataskaita apjungia:
- whisper.json
- wav2vec2.json
Parodo kalbėtojų transkripcijas ir kiekvieno modelio analizės trukmę

📁 JSON Ataskaita

Kiekvienam modelio analizės paleidimui sugeneruojamas JSON failas:

rezultatai/whisper.json
rezultatai/wav2vec2.json

Formatas:

{
  "modelis": "Whisper",
  "apdorojimo_laikas": 12.34,
  "apdorojimo_laikas_tekstu": "0 min. 12 sek.",
  "segmentai": [
    {
      "kalbetojas": "B",
      "kalba": "lt",
      "tekstas": "Aktyvuok sistemą",
      "trukme": 4.2
    }
  ]
}

🧠 Naudojamos technologijos

gradio – naudotojo sąsaja
openai-whisper – kalbos atpažinimas (multi-lingual)
wav2vec2 – kalbos modeliai iš Hugging Face
pyannote.audio – kalbėtojų diarizacija
torchaudio – garso apdorojimas
json – ataskaitų išvestis
ataskaita.py – JSON ataskaitos analizės generatorius

💡 Pastabos

Tik vienas kalbėtojas turėtų kalbėti lietuviškai
Slaptažodis tikrinamas tik per atskirą įkeltą failą
VOSK modeliai šioje demonstracijoje nenaudojami (jie yra PC versijoje)

🔒 Sukurta kaip akademinio darbo dalis – šnekos atpažinimo sistemų demonstracija realiam saugos scenarijui.