O ChatGPT consegue criar imagens desde dezembro de 2023, quando a OpenAI integrou o DALL-E 3 diretamente ao chat. Você descreve o que quer, ele gera. Sem precisar aprender comandos especiais, sem precisar criar conta em outro serviço.
Para quem está começando agora: é a forma mais simples de criar imagens com IA que existe hoje. Para quem já usa outras ferramentas: o diferencial do ChatGPT é que você conversa com a IA para refinar a imagem — algo que o Midjourney, por exemplo, não permite da mesma forma.
O único problema real é que o recurso está disponível apenas nos planos pagos (Plus, Team e Enterprise). Usuários do plano gratuito não têm acesso. Se você não tem assinatura, vale olhar o Google ImageFX ou o Microsoft Designer, que são gratuitos e usam tecnologia parecida.
O que você precisa para começar
Requisitos:
- Conta no ChatGPT com plano Plus (US$ 20/mês) ou superior
- Acesso pelo site chat.openai.com ou pelo app móvel
- Nenhum software adicional — funciona no navegador
Limites de geração:
- Plano Plus: aproximadamente 40 imagens a cada 3 horas
- Plano Team/Enterprise: limites maiores, mas não publicados oficialmente
- Cada geração pode produzir 1 imagem por padrão (é possível pedir mais de uma na mesma mensagem)
Modelos disponíveis: Desde maio de 2024, o ChatGPT Plus também dá acesso ao DALL-E 3 HD, que gera imagens com mais detalhes e resolução maior. A versão padrão já é boa — o HD faz sentido para trabalhos que vão ser ampliados ou impressos.
Passo a passo: primeiras imagens em 5 minutos
1. Acesse o ChatGPT e selecione o modelo certo
Entre em chat.openai.com com sua conta Plus. No menu de seleção de modelo (topo da tela), escolha GPT-4o — ele já inclui a geração de imagens por padrão. Se você estiver no GPT-3.5, não vai encontrar o recurso.
2. Peça a imagem em linguagem natural
Diferente do Midjourney, você não precisa de prompts técnicos. Basta descrever o que quer como faria para um designer:
“Crie uma imagem de um gato laranja dormindo em cima de uma pilha de livros antigos, luz de tarde entrando pela janela, estilo fotográfico.”
O ChatGPT vai interpretar sua descrição e gerar a imagem. Vai aparecer diretamente na conversa.
3. Refine com a conversa
Esta é a maior vantagem sobre outras ferramentas: você pode pedir ajustes sem reescrever o prompt do zero.
“Mantenha tudo igual, mas muda a cor dos livros para azul.”
“Agora coloca uma xícara de café na mesa ao lado.”
“Faz uma versão mais escura, como se fosse noite.”
A IA guarda o contexto da conversa. Você não perde o que já estava bom.
4. Baixe a imagem
Passe o mouse sobre a imagem gerada. Vai aparecer um botão de download no canto. Clique para salvar em PNG no seu dispositivo.
Como escrever prompts que funcionam
O ChatGPT é mais tolerante com prompts vagos do que outras ferramentas, mas a qualidade sobe muito com alguns ajustes simples. Para uma visão mais completa sobre técnicas de prompt, veja o guia de prompts para IA.
A estrutura básica
Um bom prompt tem três partes:
- Sujeito: o que aparece na imagem
- Contexto: onde está, quando, como
- Estilo: fotográfico, ilustração, pintura, etc.
Exemplo fraco:
“Um cachorro na praia”
Exemplo forte:
“Um golden retriever correndo na beira do mar ao pôr do sol, areia molhada refletindo a luz laranja, perspectiva ao nível do chão, estilo fotografia de natureza”
A diferença entre os dois não é o tamanho — é a especificidade. Cada detalhe que você adiciona é um detalhe que a IA não precisa inventar por conta própria.
Especificando o estilo visual
O ChatGPT entende bem referências de estilo. Exemplos que funcionam consistentemente:
estilo fotografia profissional, câmera Sony A7Rilustração vetorial minimalistaaquarela com cores suavesarte digital no estilo anos 80pintura a óleo realistaflat design, cores sólidassketch a lápis, preto e branco
Controlando proporção e tamanho
Por padrão, o DALL-E 3 gera imagens quadradas (1024×1024). Para mudar, você pede diretamente:
"Crie em formato horizontal (paisagem)"→ 1792×1024"Crie em formato vertical (retrato)"→ 1024×1792"Crie em formato quadrado"→ 1024×1024
Esses são os únicos formatos disponíveis. Se você precisa de uma proporção específica (como 9:16 para stories), vai precisar recortar a imagem depois.
Técnicas intermediárias
Iteração inteligente
A maioria das pessoas descarta imagens que estavam quase boas. A abordagem certa é iterar:
- Gere com um prompt base
- Identifique o que está errado (cor, composição, estilo, elemento específico)
- Peça mudança cirúrgica: “mantém tudo, mas…”
- Repita até chegar onde quer
Com 40 gerações disponíveis a cada 3 horas, você tem espaço para experimentar.
Pedindo variações
Se uma imagem ficou boa mas você quer explorar outras possibilidades:
“Gere 3 variações desta mesma cena com estilos diferentes: uma fotorrealista, uma em aquarela e uma como ilustração de livro infantil.”
O ChatGPT vai gerar cada uma, e você escolhe ou combina elementos das três.
Usando referências de estilo sem citar artistas específicos
O DALL-E 3 tem restrições quanto a imitar o estilo de artistas vivos. A saída é descrever o estilo em vez de citar o nome:
Em vez de: "no estilo de [artista]"
Use: "traços finos e detalhados, cores pastel suaves, composição centralizda com muito espaço negativo" — que é como você descreveria o estilo de ilustração que quer.
Texto dentro das imagens
O DALL-E 3 é significativamente melhor que versões anteriores para gerar texto em imagens. Para melhores resultados:
- Use aspas ao redor do texto que quer na imagem:
com a palavra "Café" escrita na placa - Prefira textos curtos (1-3 palavras funcionam melhor que frases)
- Fontes sem serifa tendem a sair mais legíveis
É um dos pontos fortes do DALL-E 3 comparado ao Midjourney, que ainda tem dificuldade com tipografia.
Técnicas avançadas
Prompts com seed consistente (via API)
Pelo chat, não é possível definir um seed manualmente — cada geração é aleatória. Para quem precisa de consistência entre imagens (ex: personagens que aparecem em várias cenas), a saída pela interface é pedir ao ChatGPT:
“Preciso criar várias cenas com o mesmo personagem: um homem de 40 anos, cabelo grisalho curto, barba por fazer, óculos redondos. Primeiro, crie uma imagem dele em um escritório moderno. Depois vou pedir outras cenas e preciso que o personagem seja visualmente consistente.”
O ChatGPT vai tentar manter a consistência ao longo da conversa, mas não é garantia — ele não tem memória visual precisa como algumas ferramentas especializadas.
Integração com uploads
Você pode enviar uma foto e pedir que a IA crie algo baseado nela:
"Cria uma versão ilustrada desta foto no estilo cartoon"(envia foto)"Qual seria essa mesma cena ambientada nos anos 1920?"(envia paisagem urbana)"Mantém o layout desta apresentação mas recria em estilo moderno"(envia screenshot)
O modelo não vai copiar rostos de pessoas reais para outras cenas — mas vai usar elementos de composição, paleta de cores e estilo.
Usando como rascunho para outras ferramentas
Um fluxo que funciona bem: usar o ChatGPT para chegar rápido em uma composição que você gosta, e depois levar o conceito (não a imagem) para o Midjourney ou Stable Diffusion com prompts mais elaborados para refinamento técnico.
Limitações e problemas comuns
Mãos e dedos: O DALL-E 3 melhorou, mas ainda erra com frequência em mãos humanas — dedos extras, proporções erradas, posições impossíveis. Se mãos são importantes na imagem, gere várias versões e escolha a melhor.
Consistência entre gerações: Como mencionado, cada geração é independente. Dois prompts idênticos vão gerar imagens diferentes. Isso é diferente do Stable Diffusion, onde você pode fixar o seed para reproduzir resultados.
Restrições de conteúdo: O filtro do ChatGPT é mais restritivo que outras ferramentas. Imagens que envolvam violência, conteúdo adulto ou certas figuras públicas são bloqueadas. Isso é uma limitação real para alguns casos de uso profissional.
Resolução máxima: 1792×1024 (ou 1024×1792 no vertical) é o teto. Para impressão em grande formato ou uso em banners de alta resolução, você vai precisar de upscaling externo.
Sem controle de parâmetros: Não dá para controlar steps, CFG scale, sampler ou qualquer parâmetro técnico como no Stable Diffusion. O que você vê é o que tem.
Quando usar o ChatGPT vs outras ferramentas
Use o ChatGPT quando:
- Está começando e quer simplicidade
- Precisa combinar geração de texto e imagem no mesmo fluxo
- Quer iterar conversacionalmente até chegar no resultado
- Precisa de texto legível dentro da imagem
- Já paga o ChatGPT Plus por outros motivos
Considere outras ferramentas quando:
- Quer controle técnico fino sobre o processo (Stable Diffusion)
- Precisa de volume alto de imagens com consistência (Midjourney)
- Quer resultado sem pagar nada (Meta AI no WhatsApp, Google ImageFX)
- Trabalha com ilustração vetorial ou design gráfico (Adobe Firefly)
FAQ
O ChatGPT gratuito gera imagens? Não. A geração de imagens com DALL-E 3 está disponível apenas nos planos pagos: Plus (US$ 20/mês), Team e Enterprise. Usuários do plano gratuito não têm acesso a esse recurso.
Posso usar as imagens geradas comercialmente? Sim. Segundo os termos de uso da OpenAI, as imagens geradas são de propriedade do usuário e podem ser usadas comercialmente, inclusive para venda e publicação.
Por que meu prompt em português às vezes gera imagens com texto em inglês?
O DALL-E 3 é treinado majoritariamente em inglês e tende a gerar texto em inglês dentro das imagens, mesmo quando o prompt é em português. Para forçar texto em português, especifique: com a palavra "[palavra]" escrita em português.
Dá para editar uma parte específica da imagem (inpainting)? Pela interface do chat, não. O ChatGPT não tem ferramenta de inpainting como o Stable Diffusion ou o Adobe Firefly. Você pode pedir modificações por texto, mas a IA vai regerar a imagem inteira. Para edição de regiões específicas, o Adobe Firefly é a melhor opção entre as ferramentas dessa lista.
Qual a diferença entre DALL-E 3 e DALL-E 3 HD? O DALL-E 3 HD gera imagens com mais nitidez e detalhes finos, especialmente perceptível em texturas, cabelos e elementos pequenos. O custo é maior em tokens (e pode consumir mais cota). Para uso casual e redes sociais, a versão padrão é suficiente. O HD faz diferença em trabalhos para impressão.
O ChatGPT guarda o histórico das imagens que gerei? Sim, as imagens ficam no histórico da conversa enquanto ela existir. Mas a OpenAI pode limpar ou comprimir históricos antigos. Se a imagem for importante, baixe na hora.
Consigo gerar imagens no app do celular também? Sim. O app do ChatGPT para iOS e Android tem o mesmo recurso de geração de imagens, com as mesmas limitações de plano. A experiência de uso é praticamente idêntica à versão web.
O ChatGPT é a porta de entrada mais natural para criação de imagens com IA. Não é a ferramenta com mais controle, nem a mais barata, mas é a mais acessível para quem já usa o chat no dia a dia. Se você quiser explorar mais possibilidades, o próximo passo natural é experimentar o Midjourney para qualidade profissional ou o Stable Diffusion para controle total sem custo por geração.