AI Multimodal Tools

Ferramentas que processam múltiplos tipos de mídia.

15 ferramentas disponíveis

GPT-4V

OpenAI

4.8

Versão visual do GPT-4 com capacidades de visão computacional avançadas.

Visão

Texto

Análise de Imagem

50M+

Pago

Gemini Pro Vision

Google

4.7

Modelo multimodal do Google com capacidades avançadas de visão e texto.

Visão

Texto

Google

30M+

Freemium

Claude 3 Vision

Anthropic

4.6

Versão multimodal do Claude com análise de imagens e documentos.

Análise de Imagem

Documentos

Segurança

8M+

Freemium

ERNIE-ViLG

Baidu

4.3

Geração de imagens a partir de texto com tecnologia chinesa avançada.

Texto para Imagem

Chinês

Open Source

300K+

Gratuito

SenseNova

SenseTime

4.4

Modelo multimodal chinês com aplicações em vídeo, imagem e texto.

Vídeo

Imagem

Texto

500K+

Pago

YandexGPT Multimodal

Yandex

4.2

Modelo multimodal russo integrado aos produtos Yandex.

Multimodal

Integração

Russo

2M+

Freemium

HyperCLOVA X

Naver

4.3

Modelo multimodal coreano com forte suporte para coreano e inglês.

Coreano

Inglês

Multimodal

800K+

Pago

KoGPT Multimodal

Kakao

4.1

Modelo multimodal coreano com API pública para desenvolvedores.

Coreano

API Pública

Desenvolvedores

600K+

Freemium

LLaVA

University of Wisconsin-Madison

4.4

Large Language and Vision Assistant open-source para análise visual.

Visão

Open Source

Análise Visual

400K+

Gratuito

MiniGPT-4

King Abdullah University

4.2

Modelo multimodal compacto com capacidades de visão e linguagem.

Compacto

Visão

Linguagem

300K+

Gratuito

InstructBLIP

Salesforce

4.3

Modelo de visão e linguagem treinado com instruções para tarefas visuais.

Instruções

Tarefas Visuais

Salesforce

250K+

Gratuito

BLIP-2

Salesforce

4.4

Modelo de visão e linguagem com arquitetura Q-Former inovadora.

Q-Former

Visão

Linguagem

500K+

Gratuito

Flamingo

DeepMind

4.5

Modelo few-shot learning para tarefas de visão e linguagem.

Few-shot

Visão

DeepMind

100K+

Pesquisa

KOSMOS-1

Microsoft

4.3

Modelo multimodal da Microsoft para compreensão de linguagem e visão.

Compreensão

Microsoft

Multimodal

200K+

Pesquisa

PaLM-E

Google

4.4

Modelo embodied multimodal para robótica e tarefas do mundo real.

Robótica

Mundo Real

Embodied

150K+

Pesquisa

Explore Mais Categorias

Descubra outras ferramentas de IA que podem transformar seu trabalho