Imagem 3 na API Gemini

A API Gemini oferece acesso ao Imagen 3, o modelo de texto para imagem da mais alta qualidade do Google, com vários recursos novos e aprimorados. O Imagen 3 pode fazer o seguinte:

  • Gerar imagens com mais detalhes, iluminação mais rica e menos artefatos distrativos do que os modelos anteriores
  • Entender comandos escritos em linguagem natural
  • Gerar imagens em vários formatos e estilos
  • Renderizar texto de maneira mais eficaz do que os modelos anteriores

Gerar imagens

Nesta seção, mostramos como instanciar um modelo do Imagen e gerar imagens.

Depois de instalar o SDK de IA generativa do Google, é possível usar o código a seguir para gerar imagens:

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client(api_key='GEMINI_API_KEY')

response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='Fuzzy bunnies in my kitchen',
    config=types.GenerateImagesConfig(
        number_of_images= 4,
    )
)
for generated_image in response.generated_images:
  image = Image.open(BytesIO(generated_image.image.image_bytes))
  image.show()

O exemplo de código vai gerar quatro imagens semelhantes a esta:

Imagem gerada por IA de dois coelhos fofos na cozinha

Desenvolvedores de Python também podem testar o notebook Introdução ao Imagen no Manual do Gemini (em inglês).

Parâmetros do modelo do Imagen

Os seguintes parâmetros estão disponíveis para generate_images():

  • prompt: o comando de texto da imagem.
  • number_of_images: o número de imagens a serem geradas, de 1 a 4. O padrão é 4.
  • aspect_ratio: muda a proporção da imagem gerada. Os valores aceitos são "1:1", "3:4", "4:3", "9:16" e "16:9". O padrão é "1:1".
  • safety_filter_level: adiciona um nível de filtro à filtragem de segurança. Os seguintes valores são válidos:
    • "BLOCK_LOW_AND_ABOVE": bloqueia quando a pontuação de probabilidade ou de gravidade é LOW, MEDIUM ou HIGH.
    • "BLOCK_MEDIUM_AND_ABOVE": bloqueia quando a pontuação de probabilidade ou gravidade é MEDIUM ou HIGH.
    • "BLOCK_ONLY_HIGH": bloqueia quando a pontuação de probabilidade ou de gravidade é HIGH.
  • person_generation: permite que o modelo gere imagens de pessoas. Os seguintes valores são aceitos:
    • "DONT_ALLOW": bloqueia a geração de imagens de pessoas.
    • "ALLOW_ADULT": gera imagens de adultos, mas não de crianças. Esse é o padrão.

Uma marca d'água digital SynthID não visível é sempre adicionada às imagens geradas.

Idioma do comando de texto

Há suporte para os seguintes idiomas de comando de texto de entrada:

  • Inglês (en)

A seguir

Para saber mais sobre a criação de comandos para o Imagen, consulte o Guia de comandos do Imagen.