Multimodal Video/Youtube QA

Youtube or Video -> Transcription + Frames -> Text embeddings + Image embeddings -> VectorDB -> RAG with image + text.

LLM: Gemini Vision Pro Text embedding: BAAI/bge-large-en-v1.5 Image embedding: OpenAI/CLIP or something. STT: openai/whisper-large-v3

Demo: gradio-app.ipynb

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
archive		archive
src		src
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
gradio-app.ipynb		gradio-app.ipynb
youtube-chat-agent.ipynb		youtube-chat-agent.ipynb

Provide feedback