multimodal-deep-learning

Here are 349 public repositories matching this topic...

ThomasHelfer / multimodal-supernovae

A codebase dedicated to exploring multimodal learning approaches by integrating images of host galaxies of supernovae and their corresponding light-curves and spectra.

pytorch astro multimodal-deep-learning

Updated Jun 4, 2024
Jupyter Notebook

friedrichor / Awesome-Multimodal-Papers

Star

A curated list of awesome Multimodal studies.

deep-learning multimodal-learning multimodal multimodal-deep-learning multimodal-data multimodal-dialogue multimodal-large-language-models large-multimodal-models

Updated Jun 4, 2024
HTML

theislab / scarches

Star

Reference mapping for single-cell genomics

deep-learning scrna-seq data-integration single-cell rna-seq-analysis single-cell-genomics batch-correction multimodal-deep-learning multiomics human-cell-atlas

Updated Jun 4, 2024
Jupyter Notebook

Yuan-ManX / ai-multimodal-timeline

Star

Here we will track the latest AI Multimodal Models, including Multimodal Foundation Models, LLM, Agent, Audio, Image, Video, Music and 3D content. 🔥

ai multi-modal ai-agents deeplearning-ai multimodal multimodal-deep-learning llm

Updated Jun 4, 2024

omriav / blended-latent-diffusion

Star

Official implementation for "Blended Latent Diffusion" [SIGGRAPH 2023]

computer-vision deep-learning pytorch generative-model image-generation text-to-image diffusion multimodal multimodal-deep-learning text-to-image-synthesis diffusion-models text-guided-manipulation text-driven-editing

Updated Jun 4, 2024
Jupyter Notebook

AI4Finance-Foundation / FinRobot

Star

FinRobot: An Open-Source AI Agent Platform for Financial Applications using LLMs 🚀 🚀 🚀

finance multimodal-deep-learning robo-advisor large-language-models prompt-engineering chatgpt fingpt aiagent

Updated Jun 4, 2024
Jupyter Notebook

salesforce / LAVIS

Star

LAVIS - A One-stop Library for Language-Vision Intelligence

deep-learning salesforce image-captioning deep-learning-library vision-framework vision-and-language multimodal-deep-learning multimodal-datasets vision-language-transformer vision-language-pretraining visual-question-anwsering

Updated Jun 3, 2024
Jupyter Notebook

geoaigroup / awesome-vision-language-models-for-earth-observation

Star

A curated list of awesome vision and language resources for earth observation.

awesome remote-sensing awesome-list earth-observation vision-and-language multimodal-deep-learning

Updated Jun 3, 2024

florencejt / fusilli

Star

A Python package housing a collection of deep-learning multi-modal data fusion method pipelines! From data loading, to training, to evaluation - fusilli's got you covered 🌸

machine-learning cnn pytorch attention-mechanism imaging multimodality multivariate-analysis variational-autoencoder data-fusion multimodal multimodal-deep-learning multi-view-learning multi-view graph-neural-network pytorch-lightning

Updated Jun 3, 2024
Python

KimMeen / Time-LLM

Star

[ICLR 2024] Official implementation of " 🦙 Time-LLM: Time Series Forecasting by Reprogramming Large Language Models"

machine-learning deep-learning time-series language-model time-series-analysis time-series-forecast time-series-forecasting multimodal-deep-learning cross-modality multimodal-time-series cross-modal-learning prompt-tuning large-language-models

Updated Jun 3, 2024
Python

Yutong-Zhou-cv / Awesome-Text-to-Image

Star

(ෆ`꒳´ෆ) A Survey on Text-to-Image Generation/Synthesis.

survey generative-adversarial-network image-manipulation image-generation text-to-image image-synthesis multimodal multimodal-deep-learning awseome-list text-to-face

Updated Jun 3, 2024

jrzaurin / pytorch-widedeep

Star

A flexible package for multimodal-deep-learning to combine tabular data with text and images using Wide and Deep models in Pytorch

python deep-learning text images tabular-data pytorch pytorch-cv multimodal-deep-learning pytorch-nlp pytorch-transformers model-hub pytorch-tabular-data

Updated Jun 3, 2024
Python

MMMU-Benchmark / MMMU

Star

This repo contains evaluation code for the paper "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI"

machine-learning natural-language-processing deep-neural-networks computer-vision deep-learning evaluation question-answering stem multimodality multimodal-learning visual-question-answering multimodal multimodal-deep-learning foundation-models large-language-models llm llms large-multimodal-models

Updated May 31, 2024
Python

nicolay-r / nicolay-r

Star

This is my personal news list updates in Information Retrieval domain

nlp information-retrieval tensorflow torch language-model relation-extraction multimodal-deep-learning tranformers large-language-models

Updated May 31, 2024

darmangerd / vubot

Star

Multimodal Computer Vision application leveraging object detections, gesture recognition and speech to text, in order to help user ask questions about their environment.

computer-vision speech-recognition object-detection gesture-recognition multimodal multimodal-deep-learning