
AI Multimodal Tools
Ferramentas que processam múltiplos tipos de mídia.
OpenAI
Versão visual do GPT-4 com capacidades de visão computacional avançadas.
Modelo multimodal do Google com capacidades avançadas de visão e texto.
Anthropic
Versão multimodal do Claude com análise de imagens e documentos.
Baidu
Geração de imagens a partir de texto com tecnologia chinesa avançada.
SenseTime
Modelo multimodal chinês com aplicações em vídeo, imagem e texto.
Yandex
Modelo multimodal russo integrado aos produtos Yandex.
Naver
Modelo multimodal coreano com forte suporte para coreano e inglês.
Kakao
Modelo multimodal coreano com API pública para desenvolvedores.
University of Wisconsin-Madison
Large Language and Vision Assistant open-source para análise visual.
King Abdullah University
Modelo multimodal compacto com capacidades de visão e linguagem.
Salesforce
Modelo de visão e linguagem treinado com instruções para tarefas visuais.
Salesforce
Modelo de visão e linguagem com arquitetura Q-Former inovadora.
DeepMind
Modelo few-shot learning para tarefas de visão e linguagem.
Microsoft
Modelo multimodal da Microsoft para compreensão de linguagem e visão.
Modelo embodied multimodal para robótica e tarefas do mundo real.