Spaces:

Elanas
/

projektas1-demo-hf1

Sleeping

App Files Files

projektas1-demo-hf1 / README.md

Elanas

Update README.md

65dc2e1 verified 2 months ago

preview code

raw

history blame

2.34 kB

	---
	sdk: gradio
	---

	# 🧠 Šnekos Atpažinimo Demonstracija (3 kalbėtojai + slaptažodis)

	Ši demonstracija leidžia įkelti WAV garso įrašą su trimis kalbėtojais, automatiškai atpažinti jų kalbas (lt, en, de), priskirti žymes (A, B, C) ir atskirai patikrinti lietuviškai ištartą slaptažodį iš kito garso įrašo.

	---

	## 🔧 Funkcijos

	### 🗣️ 1. Kalbėtojų analizė:
	- Įkelkite `.wav` su 3 kalbėtojais
	- Pasirinkite modelį: `Whisper` arba `Wav2Vec2`
	- Sistema:
	- Segmentuoja kalbėtojus
	- Atpažįsta kalbą kiekvienam (pvz., A – vokiečių, B – lietuvių, C – anglų)
	- Parodo, kuris kalbėtojas kalbėjo lietuviškai
	- ✅ Sugeneruoja JSON ataskaitą

	### 🔐 2. Slaptažodžio tikrinimas:
	- Įkelkite atskirą `.wav` failą su išsakytu lietuvišku slaptažodžiu
	- Įveskite tikrąjį slaptažodį klaviatūra
	- Pasirinkite modelį
	- Sistema:
	- Transkribuoja įkeltą .wav
	- Lygina su įvestu slaptažodžiu
	- Parodo rezultatą

	### 📊 3. Bendra ataskaita:
	- Mygtukas „📊 Peržiūrėti ataskaitą“
	- Ataskaita apjungia:
	- `whisper.json`
	- `wav2vec2.json`
	- Parodo kalbėtojų transkripcijas ir kiekvieno modelio analizės trukmę

	---

	## 📁 JSON Ataskaita

	Kiekvienam modelio analizės paleidimui sugeneruojamas JSON failas:

	- `rezultatai/whisper.json`
	- `rezultatai/wav2vec2.json`

	Formatas:
	```json
	{
	"modelis": "Whisper",
	"apdorojimo_laikas": 12.34,
	"apdorojimo_laikas_tekstu": "0 min. 12 sek.",
	"segmentai": [
	{
	"kalbetojas": "B",
	"kalba": "lt",
	"tekstas": "Aktyvuok sistemą",
	"trukme": 4.2
	}
	]
	}
	```

	---

	## 🧠 Naudojamos technologijos

	- `gradio` – naudotojo sąsaja
	- `openai-whisper` – kalbos atpažinimas (multi-lingual)
	- `wav2vec2` – kalbos modeliai iš Hugging Face
	- `pyannote.audio` – kalbėtojų diarizacija
	- `torchaudio` – garso apdorojimas
	- `json` – ataskaitų išvestis
	- `ataskaita.py` – JSON ataskaitos analizės generatorius

	---

	## 💡 Pastabos

	- Tik vienas kalbėtojas turėtų kalbėti lietuviškai
	- Slaptažodis tikrinamas tik per atskirą įkeltą failą
	- VOSK modeliai šioje demonstracijoje nenaudojami (jie yra PC versijoje)

	---

	🔒 Sukurta kaip akademinio darbo dalis – šnekos atpažinimo sistemų demonstracija realiam saugos scenarijui.