j-schmied / RealTimeSpeechRecognition Public

Notifications You must be signed in to change notification settings
Fork 2
Star 4

Various approaches for speech recognition and speaker diarization.

4 stars 2 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
docs		docs
paper		paper
src		src
test		test
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Repository files navigation

Real-Time Speech Recognition

PoC's for speech recognition and speaker diarization.

Working PoC's

rtsr_en.py: PoC using AssemblyAI WebSocket API (english only)
rtsr_de.py: PoC using OpenAI Whisper (de, probably multilingual)

Prototypes

Additionally, a handful of prototypes were created using various technologies:

librosa
NVIDIA NeMo
Tensorflow + Keras Model
Mel Spectrogram CNN

Credits

davabase