O ChatGPT consegue criar imagens desde dezembro de 2023, quando a OpenAI integrou o DALL-E 3 diretamente ao chat. Você descreve o que quer, ele gera. Sem precisar aprender comandos especiais, sem precisar criar conta em outro serviço.

Para quem está começando agora: é a forma mais simples de criar imagens com IA que existe hoje. Para quem já usa outras ferramentas: o diferencial do ChatGPT é que você conversa com a IA para refinar a imagem — algo que o Midjourney, por exemplo, não permite da mesma forma.

O único problema real é que o recurso está disponível apenas nos planos pagos (Plus, Team e Enterprise). Usuários do plano gratuito não têm acesso. Se você não tem assinatura, vale olhar o Google ImageFX ou o Microsoft Designer, que são gratuitos e usam tecnologia parecida.


O que você precisa para começar

Requisitos:

  • Conta no ChatGPT com plano Plus (US$ 20/mês) ou superior
  • Acesso pelo site chat.openai.com ou pelo app móvel
  • Nenhum software adicional — funciona no navegador

Limites de geração:

  • Plano Plus: aproximadamente 40 imagens a cada 3 horas
  • Plano Team/Enterprise: limites maiores, mas não publicados oficialmente
  • Cada geração pode produzir 1 imagem por padrão (é possível pedir mais de uma na mesma mensagem)

Modelos disponíveis: Desde maio de 2024, o ChatGPT Plus também dá acesso ao DALL-E 3 HD, que gera imagens com mais detalhes e resolução maior. A versão padrão já é boa — o HD faz sentido para trabalhos que vão ser ampliados ou impressos.


Passo a passo: primeiras imagens em 5 minutos

1. Acesse o ChatGPT e selecione o modelo certo

Entre em chat.openai.com com sua conta Plus. No menu de seleção de modelo (topo da tela), escolha GPT-4o — ele já inclui a geração de imagens por padrão. Se você estiver no GPT-3.5, não vai encontrar o recurso.

2. Peça a imagem em linguagem natural

Diferente do Midjourney, você não precisa de prompts técnicos. Basta descrever o que quer como faria para um designer:

“Crie uma imagem de um gato laranja dormindo em cima de uma pilha de livros antigos, luz de tarde entrando pela janela, estilo fotográfico.”

O ChatGPT vai interpretar sua descrição e gerar a imagem. Vai aparecer diretamente na conversa.

3. Refine com a conversa

Esta é a maior vantagem sobre outras ferramentas: você pode pedir ajustes sem reescrever o prompt do zero.

“Mantenha tudo igual, mas muda a cor dos livros para azul.”

“Agora coloca uma xícara de café na mesa ao lado.”

“Faz uma versão mais escura, como se fosse noite.”

A IA guarda o contexto da conversa. Você não perde o que já estava bom.

4. Baixe a imagem

Passe o mouse sobre a imagem gerada. Vai aparecer um botão de download no canto. Clique para salvar em PNG no seu dispositivo.


Como escrever prompts que funcionam

O ChatGPT é mais tolerante com prompts vagos do que outras ferramentas, mas a qualidade sobe muito com alguns ajustes simples. Para uma visão mais completa sobre técnicas de prompt, veja o guia de prompts para IA.

A estrutura básica

Um bom prompt tem três partes:

  1. Sujeito: o que aparece na imagem
  2. Contexto: onde está, quando, como
  3. Estilo: fotográfico, ilustração, pintura, etc.

Exemplo fraco:

“Um cachorro na praia”

Exemplo forte:

“Um golden retriever correndo na beira do mar ao pôr do sol, areia molhada refletindo a luz laranja, perspectiva ao nível do chão, estilo fotografia de natureza”

A diferença entre os dois não é o tamanho — é a especificidade. Cada detalhe que você adiciona é um detalhe que a IA não precisa inventar por conta própria.

Especificando o estilo visual

O ChatGPT entende bem referências de estilo. Exemplos que funcionam consistentemente:

  • estilo fotografia profissional, câmera Sony A7R
  • ilustração vetorial minimalista
  • aquarela com cores suaves
  • arte digital no estilo anos 80
  • pintura a óleo realista
  • flat design, cores sólidas
  • sketch a lápis, preto e branco

Controlando proporção e tamanho

Por padrão, o DALL-E 3 gera imagens quadradas (1024×1024). Para mudar, você pede diretamente:

  • "Crie em formato horizontal (paisagem)" → 1792×1024
  • "Crie em formato vertical (retrato)" → 1024×1792
  • "Crie em formato quadrado" → 1024×1024

Esses são os únicos formatos disponíveis. Se você precisa de uma proporção específica (como 9:16 para stories), vai precisar recortar a imagem depois.


Técnicas intermediárias

Iteração inteligente

A maioria das pessoas descarta imagens que estavam quase boas. A abordagem certa é iterar:

  1. Gere com um prompt base
  2. Identifique o que está errado (cor, composição, estilo, elemento específico)
  3. Peça mudança cirúrgica: “mantém tudo, mas…”
  4. Repita até chegar onde quer

Com 40 gerações disponíveis a cada 3 horas, você tem espaço para experimentar.

Pedindo variações

Se uma imagem ficou boa mas você quer explorar outras possibilidades:

“Gere 3 variações desta mesma cena com estilos diferentes: uma fotorrealista, uma em aquarela e uma como ilustração de livro infantil.”

O ChatGPT vai gerar cada uma, e você escolhe ou combina elementos das três.

Usando referências de estilo sem citar artistas específicos

O DALL-E 3 tem restrições quanto a imitar o estilo de artistas vivos. A saída é descrever o estilo em vez de citar o nome:

Em vez de: "no estilo de [artista]"

Use: "traços finos e detalhados, cores pastel suaves, composição centralizda com muito espaço negativo" — que é como você descreveria o estilo de ilustração que quer.

Texto dentro das imagens

O DALL-E 3 é significativamente melhor que versões anteriores para gerar texto em imagens. Para melhores resultados:

  • Use aspas ao redor do texto que quer na imagem: com a palavra "Café" escrita na placa
  • Prefira textos curtos (1-3 palavras funcionam melhor que frases)
  • Fontes sem serifa tendem a sair mais legíveis

É um dos pontos fortes do DALL-E 3 comparado ao Midjourney, que ainda tem dificuldade com tipografia.


Técnicas avançadas

Prompts com seed consistente (via API)

Pelo chat, não é possível definir um seed manualmente — cada geração é aleatória. Para quem precisa de consistência entre imagens (ex: personagens que aparecem em várias cenas), a saída pela interface é pedir ao ChatGPT:

“Preciso criar várias cenas com o mesmo personagem: um homem de 40 anos, cabelo grisalho curto, barba por fazer, óculos redondos. Primeiro, crie uma imagem dele em um escritório moderno. Depois vou pedir outras cenas e preciso que o personagem seja visualmente consistente.”

O ChatGPT vai tentar manter a consistência ao longo da conversa, mas não é garantia — ele não tem memória visual precisa como algumas ferramentas especializadas.

Integração com uploads

Você pode enviar uma foto e pedir que a IA crie algo baseado nela:

  • "Cria uma versão ilustrada desta foto no estilo cartoon" (envia foto)
  • "Qual seria essa mesma cena ambientada nos anos 1920?" (envia paisagem urbana)
  • "Mantém o layout desta apresentação mas recria em estilo moderno" (envia screenshot)

O modelo não vai copiar rostos de pessoas reais para outras cenas — mas vai usar elementos de composição, paleta de cores e estilo.

Usando como rascunho para outras ferramentas

Um fluxo que funciona bem: usar o ChatGPT para chegar rápido em uma composição que você gosta, e depois levar o conceito (não a imagem) para o Midjourney ou Stable Diffusion com prompts mais elaborados para refinamento técnico.


Limitações e problemas comuns

Mãos e dedos: O DALL-E 3 melhorou, mas ainda erra com frequência em mãos humanas — dedos extras, proporções erradas, posições impossíveis. Se mãos são importantes na imagem, gere várias versões e escolha a melhor.

Consistência entre gerações: Como mencionado, cada geração é independente. Dois prompts idênticos vão gerar imagens diferentes. Isso é diferente do Stable Diffusion, onde você pode fixar o seed para reproduzir resultados.

Restrições de conteúdo: O filtro do ChatGPT é mais restritivo que outras ferramentas. Imagens que envolvam violência, conteúdo adulto ou certas figuras públicas são bloqueadas. Isso é uma limitação real para alguns casos de uso profissional.

Resolução máxima: 1792×1024 (ou 1024×1792 no vertical) é o teto. Para impressão em grande formato ou uso em banners de alta resolução, você vai precisar de upscaling externo.

Sem controle de parâmetros: Não dá para controlar steps, CFG scale, sampler ou qualquer parâmetro técnico como no Stable Diffusion. O que você vê é o que tem.


Quando usar o ChatGPT vs outras ferramentas

Use o ChatGPT quando:

  • Está começando e quer simplicidade
  • Precisa combinar geração de texto e imagem no mesmo fluxo
  • Quer iterar conversacionalmente até chegar no resultado
  • Precisa de texto legível dentro da imagem
  • Já paga o ChatGPT Plus por outros motivos

Considere outras ferramentas quando:


FAQ

O ChatGPT gratuito gera imagens? Não. A geração de imagens com DALL-E 3 está disponível apenas nos planos pagos: Plus (US$ 20/mês), Team e Enterprise. Usuários do plano gratuito não têm acesso a esse recurso.

Posso usar as imagens geradas comercialmente? Sim. Segundo os termos de uso da OpenAI, as imagens geradas são de propriedade do usuário e podem ser usadas comercialmente, inclusive para venda e publicação.

Por que meu prompt em português às vezes gera imagens com texto em inglês? O DALL-E 3 é treinado majoritariamente em inglês e tende a gerar texto em inglês dentro das imagens, mesmo quando o prompt é em português. Para forçar texto em português, especifique: com a palavra "[palavra]" escrita em português.

Dá para editar uma parte específica da imagem (inpainting)? Pela interface do chat, não. O ChatGPT não tem ferramenta de inpainting como o Stable Diffusion ou o Adobe Firefly. Você pode pedir modificações por texto, mas a IA vai regerar a imagem inteira. Para edição de regiões específicas, o Adobe Firefly é a melhor opção entre as ferramentas dessa lista.

Qual a diferença entre DALL-E 3 e DALL-E 3 HD? O DALL-E 3 HD gera imagens com mais nitidez e detalhes finos, especialmente perceptível em texturas, cabelos e elementos pequenos. O custo é maior em tokens (e pode consumir mais cota). Para uso casual e redes sociais, a versão padrão é suficiente. O HD faz diferença em trabalhos para impressão.

O ChatGPT guarda o histórico das imagens que gerei? Sim, as imagens ficam no histórico da conversa enquanto ela existir. Mas a OpenAI pode limpar ou comprimir históricos antigos. Se a imagem for importante, baixe na hora.

Consigo gerar imagens no app do celular também? Sim. O app do ChatGPT para iOS e Android tem o mesmo recurso de geração de imagens, com as mesmas limitações de plano. A experiência de uso é praticamente idêntica à versão web.


O ChatGPT é a porta de entrada mais natural para criação de imagens com IA. Não é a ferramenta com mais controle, nem a mais barata, mas é a mais acessível para quem já usa o chat no dia a dia. Se você quiser explorar mais possibilidades, o próximo passo natural é experimentar o Midjourney para qualidade profissional ou o Stable Diffusion para controle total sem custo por geração.