AI Multimodal Tools

AI Multimodal Tools

Ferramentas que processam múltiplos tipos de mídia.

15 ferramentas disponíveis
GPT-4V

OpenAI

4.8

Versão visual do GPT-4 com capacidades de visão computacional avançadas.

Visão
Texto
Análise de Imagem
50M+
Pago
Gemini Pro Vision

Google

4.7

Modelo multimodal do Google com capacidades avançadas de visão e texto.

Visão
Texto
Google
30M+
Freemium
Claude 3 Vision

Anthropic

4.6

Versão multimodal do Claude com análise de imagens e documentos.

Análise de Imagem
Documentos
Segurança
8M+
Freemium
ERNIE-ViLG

Baidu

4.3

Geração de imagens a partir de texto com tecnologia chinesa avançada.

Texto para Imagem
Chinês
Open Source
300K+
Gratuito
SenseNova

SenseTime

4.4

Modelo multimodal chinês com aplicações em vídeo, imagem e texto.

Vídeo
Imagem
Texto
500K+
Pago
YandexGPT Multimodal

Yandex

4.2

Modelo multimodal russo integrado aos produtos Yandex.

Multimodal
Integração
Russo
2M+
Freemium
HyperCLOVA X

Naver

4.3

Modelo multimodal coreano com forte suporte para coreano e inglês.

Coreano
Inglês
Multimodal
800K+
Pago
KoGPT Multimodal

Kakao

4.1

Modelo multimodal coreano com API pública para desenvolvedores.

Coreano
API Pública
Desenvolvedores
600K+
Freemium
LLaVA

University of Wisconsin-Madison

4.4

Large Language and Vision Assistant open-source para análise visual.

Visão
Open Source
Análise Visual
400K+
Gratuito
MiniGPT-4

King Abdullah University

4.2

Modelo multimodal compacto com capacidades de visão e linguagem.

Compacto
Visão
Linguagem
300K+
Gratuito
InstructBLIP

Salesforce

4.3

Modelo de visão e linguagem treinado com instruções para tarefas visuais.

Instruções
Tarefas Visuais
Salesforce
250K+
Gratuito
BLIP-2

Salesforce

4.4

Modelo de visão e linguagem com arquitetura Q-Former inovadora.

Q-Former
Visão
Linguagem
500K+
Gratuito
Flamingo

DeepMind

4.5

Modelo few-shot learning para tarefas de visão e linguagem.

Few-shot
Visão
DeepMind
100K+
Pesquisa
KOSMOS-1

Microsoft

4.3

Modelo multimodal da Microsoft para compreensão de linguagem e visão.

Compreensão
Microsoft
Multimodal
200K+
Pesquisa
PaLM-E

Google

4.4

Modelo embodied multimodal para robótica e tarefas do mundo real.

Robótica
Mundo Real
Embodied
150K+
Pesquisa

Explore Mais Categorias

Descubra outras ferramentas de IA que podem transformar seu trabalho