Como escrever prompts para IA: guia completo

Q: Devo escrever prompts em português ou inglês?

Depende da ferramenta. Para o DALL-E via ChatGPT , português funciona bem. Para o Midjourney e Stable Diffusion, inglês ainda produz resultados mais consistentes, especialmente para fotorrealismo. A diferença está no treinamento do modelo — a maioria foi treinada com muito mais texto em inglês.

Q: Como manter consistência entre várias imagens?

No Midjourney, o parâmetro --seed fixa a semente aleatória, ajudando a manter consistência visual entre gerações. No ChatGPT, manter a mesma conversa e pedir variações ajuda. Para consistência de personagem, descreva os atributos físicos explicitamente em cada prompt.

Escrever um bom prompt é a diferença entre uma imagem genérica e exatamente o que você tinha em mente. Não é talento — é técnica. Este guia cobre o que você precisa saber para parar de tentar no escuro e começar a ter controle real sobre o que a IA gera.

A lógica por trás de prompts eficientes é sempre a mesma, independente da ferramenta: quanto mais específico você for sobre o que quer ver, menor o espaço para a IA inventar. O problema é que a maioria das pessoas descreve intenções abstratas (“uma imagem bonita de floresta”) quando a IA responde melhor a elementos visuais concretos (“floresta de pinheiros ao amanhecer, névoa baixa, luz dourada lateral, perspectiva ao nível do solo”).

Se você ainda está escolhendo qual ferramenta usar, vale olhar nosso artigo sobre como criar imagens no ChatGPT e o guia do Midjourney — dois dos geradores mais usados e com comportamentos bem diferentes em relação a prompts.

A estrutura que funciona em qualquer ferramenta

Todo prompt eficiente tem três camadas. Não precisa seguir essa ordem à risca, mas os melhores prompts cobrem as três:

1. Sujeito — o que aparece na imagem

Comece pelo elemento principal. Seja específico: não “um cão” mas “um border collie preto e branco”. Não “uma cidade” mas “centro de São Paulo de noite, anos 1980”.

2. Contexto e ação — o que está acontecendo

Onde a cena se passa. O que o sujeito está fazendo. Hora do dia, clima, ambiente. Esses detalhes definem o tom geral da imagem antes mesmo de falar em estilo.

3. Estilo e técnica — como a imagem parece

Fotografia ou ilustração? Pintura a óleo ou pixel art? Luz dura ou difusa? Essa camada controla a estética final. Sem ela, a IA escolhe por conta própria — e geralmente escolhe “médio”.

Exemplo montado camada por camada:

Só sujeito: gato sentado na janela — resultado: genérico
Sujeito + contexto: gato persa laranja sentado no parapeito de uma janela antiga, chuva do lado de fora, tarde cinza — muito melhor
Sujeito + contexto + estilo: gato persa laranja sentado no parapeito de uma janela antiga, chuva do lado de fora, tarde cinza, pintura a óleo, estilo impressionista, luz difusa — agora tem controle real

Elementos que fazem diferença na prática

Iluminação

A iluminação sozinha muda completamente o clima de uma imagem. Alguns descritores que funcionam:

Luz natural: “hora dourada”, “luz do amanhecer”, “céu nublado”, “luz lateral de tarde”
Luz artificial: “iluminação de estúdio”, “luz néon azul”, “vela única”, “luz de tela de computador”
Clima: “alto contraste”, “sombras longas”, “retroiluminado”, “luz difusa”

Enquadramento e composição

Diga à IA de onde a câmera está olhando:

“plano fechado no rosto” (close-up)
“plano aberto, figura inteira” (wide shot)
“vista de cima” (top-down)
“ângulo baixo, câmera ao nível do chão”
“perspectiva de dois pontos de fuga”

Estilo artístico

Em vez de “artístico” ou “bonito” (que não dizem nada), seja direto:

Técnicas: aquarela, gravura, lápis de cor, carvão, colagem, pixel art
Referências: “estilo cinema japonês dos anos 80”, “ilustração de livro infantil dos anos 70”, “fotografia analógica com grão”
Fotografia: “câmera 35mm, f/1.8, bokeh forte”, “fotojornalismo”, “produto em fundo branco”

Proporção e resolução

No Midjourney, --ar 16:9 define paisagem; --ar 9:16 define retrato. No DALL-E via ChatGPT, você descreve: “imagem horizontal, proporção widescreen”. No Stable Diffusion, configura na interface.

Diferenças por ferramenta — o que muda na prática

Cada ferramenta interpreta prompts de forma diferente. O que funciona perfeitamente no Midjourney pode precisar de ajuste no DALL-E.

Midjourney

Responde bem a listas de descritores separados por vírgula, mas funciona igualmente com frases. Aceita parâmetros ao final: --ar, --stylize, --chaos, --no (para excluir elementos). Prompts em inglês ainda geram resultados mais consistentes, embora o português funcione razoavelmente bem.

Exemplo real: portrait of a Brazilian woman, 40s, warm smile, natural light, film photography, Kodak Portra 400, shallow depth of field --ar 4:5 --stylize 200

DALL-E 3 (ChatGPT)

Entende linguagem natural bem — frases completas funcionam melhor que listas de palavras-chave. Aceita iterações conversacionais: você gera, pede ajuste específico, ele incorpora. É mais literal do que o Midjourney, o que é vantagem para layouts e textos na imagem.

Exemplo real: Uma ilustração flat design de uma cozinha brasileira anos 1970, cores terrosas, fogão a lenha, luz de tarde entrando pela janela, estilo editorial de revista.

Stable Diffusion

Tem o recurso de prompt negativo mais desenvolvido — um campo separado onde você lista o que não quer: blurry, low quality, distorted, extra fingers, watermark, text. Isso é especialmente útil para evitar os defeitos clássicos do modelo. Aceita pesos nos termos: (rosto:1.3) aumenta a ênfase, [fundo:0.8] reduz.

Três exemplos completos do rascunho ao resultado

Os três exemplos abaixo mostram o processo de refinar um rascunho vago até um prompt completo. Para coleções maiores de prompts prontos seguindo essa mesma lógica, veja os prompts para retratos fotorrealistas e os prompts para logotipos.

Exemplo 1 — Foto de produto

Rascunho: sapato feminino

Problema: sem estilo, sem contexto, sem composição.

Versão final: Sapato scarpin nude com salto stiletto, produto em pedra mármore branca, fundo bege neutro, luz de estúdio suave, fotografia comercial, ângulo de 3/4, sombra sutil, ultra detalhado

Exemplo 2 — Ilustração para redes sociais

Rascunho: pessoa trabalhando em home office

Problema: vai gerar a mesma imagem genérica que está em todo banco de fotos.

Versão final: Ilustração vetorial de uma mulher negra trabalhando em laptop em um escritório em casa, planta grande ao fundo, xícara de café na mesa, luz de janela, paleta de cores azul e terracota, estilo flat design moderno, traços limpos

Exemplo 3 — Cena conceitual

Rascunho: cidade futurista

Problema: impossível de diferenciar de milhares de imagens iguais.

Versão final: Rua estreita de uma cidade futurista brasileira, letreiros luminosos em português, barracas de comida de rua com vapor, chuva fina, luz de néon refletida no asfalto molhado, estética cyberpunk tropical, ângulo ao nível da rua, hora de pico

Erros comuns — e como evitar

Usar conceitos abstratos como sujeito principal

“Esperança”, “liberdade”, “modernidade” não são elementos visuais. A IA vai inventar algo — geralmente clichê. Se você quer transmitir esperança, descreva a cena que evoca isso: uma criança abrindo uma janela ao nascer do sol.

Sobrecarregar o prompt com adjetivos

“Uma belíssima, incrível, fantástica, deslumbrante paisagem” não acrescenta nada. Cada adjetivo precisa informar algo visual específico. “Paisagem árida, tons de ocre e cinza, sem vegetação, horizonte baixo” — isso sim define uma imagem.

Pedir tudo de uma vez ao iterar

“Mude a iluminação, deixe o fundo mais escuro, altere a expressão do rosto e adicione texto na parte de cima.” Ao fazer várias mudanças de uma vez, fica impossível saber o que funcionou. Mude uma coisa por vez.

Esquecer o estilo — e achar que vai dar certo assim

Sem indicação de estilo, a IA escolhe o padrão do modelo, que tende a ser uma espécie de hiper-realismo genérico. Se você quer algo específico, você precisa pedir.

Usar apenas palavras em português sem testar em inglês

Há uma diferença real nos resultados. Para fotorrealismo e estilos fotográficos, prompts em inglês ainda produzem resultados mais precisos na maioria das ferramentas — especialmente no Midjourney. Vale testar os dois e comparar.

Um detalhe que a maioria ignora

A posição das palavras importa. Em modelos de difusão, os termos no começo do prompt têm mais peso. Se o que você mais quer controlar é a iluminação, coloque a iluminação antes do estilo artístico. Se o sujeito é o mais crítico, comece por ele.

Ao testar isso sistematicamente com o mesmo prompt em ordens diferentes, os resultados mudam visivelmente — não de forma dramática, mas o suficiente para fazer diferença quando você precisa de consistência.

FAQ

Devo escrever prompts em português ou inglês?

Depende da ferramenta. Para o DALL-E via ChatGPT, português funciona bem. Para o Midjourney e Stable Diffusion, inglês ainda produz resultados mais consistentes, especialmente para fotorrealismo. A diferença está no treinamento do modelo — a maioria foi treinada com muito mais texto em inglês.

Qual o tamanho ideal de um prompt?

Não existe um número certo. Prompts de 10 palavras podem ser perfeitos se forem específicos. Prompts de 80 palavras podem ser ruins se forem vagos. O critério é: cada palavra precisa informar algo visual que você quer controlar.

O que são prompts negativos e onde funcionam?

Prompt negativo é um campo separado disponível no Stable Diffusion onde você lista o que não quer na imagem: desfocado, baixa qualidade, dedos extras, marca d'água, texto, distorcido. Reduz defeitos comuns dos modelos. No Midjourney, o parâmetro --no [elemento] faz algo semelhante.

Por que a IA não gera textos legíveis nas imagens?

É uma limitação técnica de boa parte dos modelos — eles aprendem padrões visuais e não “leem” texto da mesma forma que escrevem. Alguns modelos mais recentes melhoraram bastante nisso (Ideogram e GPT Image 2, no ChatGPT, têm resultados bem melhores com texto). Veja o guia de texto em imagens com IA para a comparação completa entre ferramentas.

Como manter consistência entre várias imagens?

No Midjourney, o parâmetro --seed fixa a semente aleatória, ajudando a manter consistência visual entre gerações. No ChatGPT, manter a mesma conversa e pedir variações ajuda. Para consistência de personagem, descreva os atributos físicos explicitamente em cada prompt.

Preciso saber de arte para escrever bons prompts?

Não precisa saber desenhar, mas ter referências ajuda. Saber a diferença entre “luz difusa” e “luz dura”, ou entre “perspectiva de um ponto de fuga” e “vista isométrica” faz diferença. Esses são termos que você aprende rapidamente e que mudam muito o resultado.

O que faço quando o resultado está quase certo mas um detalhe errado?

Itere com mudanças específicas e cirúrgicas. “A iluminação está ótima, mas o fundo está muito poluído — simplifique o fundo mantendo todo o resto igual.” Ferramentas como ChatGPT e Adobe Firefly aceitam esse tipo de instrução em linguagem natural nas iterações.

Escrever bons prompts é uma habilidade que melhora com prática deliberada — não com tentativa e erro aleatório. Salve os prompts que funcionaram, anote o que mudou entre versões, e com o tempo você desenvolve intuição sobre o que cada ferramenta responde melhor.

Se você ainda não sabe por onde começar com as ferramentas, o artigo sobre o Midjourney e o guia do ChatGPT para imagens são bons pontos de partida.