A API Gemini oferece acesso ao Imagen 3, o modelo de texto para imagem da mais alta qualidade do Google, com vários recursos novos e aprimorados. O Imagen 3 pode fazer o seguinte:
- Gerar imagens com mais detalhes, iluminação mais rica e menos artefatos distrativos do que os modelos anteriores
- Entender comandos escritos em linguagem natural
- Gerar imagens em vários formatos e estilos
- Renderizar texto de maneira mais eficaz do que os modelos anteriores
Gerar imagens
Nesta seção, mostramos como instanciar um modelo do Imagen e gerar imagens.
Depois de instalar o SDK de IA generativa do Google, é possível usar o código a seguir para gerar imagens:
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client(api_key='GEMINI_API_KEY')
response = client.models.generate_images(
model='imagen-3.0-generate-002',
prompt='Fuzzy bunnies in my kitchen',
config=types.GenerateImagesConfig(
number_of_images= 4,
)
)
for generated_image in response.generated_images:
image = Image.open(BytesIO(generated_image.image.image_bytes))
image.show()
O exemplo de código vai gerar quatro imagens semelhantes a esta:
Desenvolvedores de Python também podem testar o notebook Introdução ao Imagen no Manual do Gemini (em inglês).
Parâmetros do modelo do Imagen
Os seguintes parâmetros estão disponíveis para generate_images()
:
prompt
: o comando de texto da imagem.number_of_images
: o número de imagens a serem geradas, de 1 a 4. O padrão é 4.aspect_ratio
: muda a proporção da imagem gerada. Os valores aceitos são"1:1"
,"3:4"
,"4:3"
,"9:16"
e"16:9"
. O padrão é"1:1"
.safety_filter_level
: adiciona um nível de filtro à filtragem de segurança. Os seguintes valores são válidos:"BLOCK_LOW_AND_ABOVE"
: bloqueia quando a pontuação de probabilidade ou de gravidade éLOW
,MEDIUM
ouHIGH
."BLOCK_MEDIUM_AND_ABOVE"
: bloqueia quando a pontuação de probabilidade ou gravidade éMEDIUM
ouHIGH
."BLOCK_ONLY_HIGH"
: bloqueia quando a pontuação de probabilidade ou de gravidade éHIGH
.
person_generation
: permite que o modelo gere imagens de pessoas. Os seguintes valores são aceitos:"DONT_ALLOW"
: bloqueia a geração de imagens de pessoas."ALLOW_ADULT"
: gera imagens de adultos, mas não de crianças. Esse é o padrão.
Uma marca d'água digital SynthID não visível é sempre adicionada às imagens geradas.
Idioma do comando de texto
Há suporte para os seguintes idiomas de comando de texto de entrada:
- Inglês (
en
)
A seguir
Para saber mais sobre a criação de comandos para o Imagen, consulte o Guia de comandos do Imagen.