A multimodal Visual Question Answering (VQA) system is implemented to accommodate diverse linguistic inputs across multiple languages, seamlessly integrating text, voice, and image inputs. Through advanced audio processing techniques, such as whisper detection amidst noise, the system ensures accurate interpretation of voice commands. Additionally, it features a user-friendly interface built with Gradio, enhancing accessibility and usability for end-users.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Files

README.md

Latest commit

History

README.md

File metadata and controls