Compartilhar

20 de maio de 2025

A Toonsutra dá vida aos quadrinhos: uma experiência de leitura imersiva com a API Gemini, a prévia do Gemini 2.5 Pro e o Lyria 2

Sharad Devarajan | Vishal Anand

Fundadores da Toonsutra

Avneet Singh

Gerente de produtos, Google Partner Innovation

Hero da vitrine do Cartwheel

A Toonsutra, maior destino indiano de webcomics e romances gráficos, tem a missão de conectar um público global ao vasto universo narrativo de webcomics, com foco especial em tornar histórias de primeira linha acessíveis em idiomas indianos. Para aumentar o engajamento do público, a Toonsutra se perguntou: como podemos transformar a experiência tradicional de leitura de quadrinhos em uma jornada imersiva e cinematográfica em que a voz, a música e a história fluem naturalmente no idioma dos leitores?

Como criar o próximo capítulo da narrativa interativa

Essa pergunta se tornou o foco principal da Toonsutra. O feedback da comunidade destacou a necessidade de engajamento mais profundo e acessibilidade mais ampla. Reconhecendo o imenso potencial da IA e contando com o apoio do AI Futures Fund do Google, a Toonsutra fez parceria com as equipes de inovação de parceiros e laboratórios do Google. Juntos, eles estão usando a API Gemini, com a prévia do Gemini 2.5 Pro e o Lyria 2 (modelo de geração de música do Google DeepMind) para reinventar a experiência de quadrinhos na Web para fãs em todo o mundo.

A colaboração, revelada no Google I/O, mostra uma experiência em quadrinhos com tecnologia de IA em que as histórias não ficam apenas na página, mas respondem e interagem, transformando imagens estáticas em narrativas de áudio dinâmicas:

  • Narração de IA adaptativa:a prévia do Gemini 2.5 Pro cria uma narração de IA que flui de acordo com a velocidade de leitura, vida aos personagens com vozes distintas. Isso é especialmente importante para leitores indianos, já que as nuances culturais na linguagem variam muito. Os recursos adaptativos e multilíngues do Gemini 2.5 Pro, combinados com o mecanismo de contexto de caracteres exclusivo da Toonsutra, garantem uma narrativa consistente e detalhada.
  • Ambientes sonoros dinâmicos:com a compreensão multimodal do Gemini 2.5 Pro Preview e os recursos de geração de áudio nativos do Lyria e do Gemini, a plataforma gera ambientes sonoros imersivos, incluindo músicas personalizadas, narrações e sons de movimento, desde o som de uma espada até o ambiente de um mercado movimentado.
  • Interatividade aprimorada:os elementos com tecnologia de visualização do Gemini 2.5 Pro permitem que os leitores iniciem diálogos únicos, explorem detalhes ocultos ou influenciem sutilmente as linhas narrativas, garantindo experiências de leitura variadas.

Detalhes técnicos

Este projeto apresenta uma abordagem inovadora para gerar automaticamente áudio imersivo para quadrinhos digitais, com metadados espaciais sincronizados. A arquitetura multiagentes é a base do Gemini 2.5 Pro Preview, que inclui agentes especializados: o Comic Context Extractor, o Narrador, o Compositor de Música, o Diretor Musical e os Agentes de Efeitos Sonoros.

O fluxo de trabalho começa com o agente de extração de contexto de quadrinhos analisando vários capítulos de quadrinhos para uma sinopse abrangente, gênero e características do personagem. Em seguida, os painéis são extraídos com limites definidos. O agente narrador alinha o diálogo das transcrições com esses painéis, que, enriquecidos pelo contexto do personagem, são narrados pelo áudio nativo do Gemini. Ao mesmo tempo, o Music Composer Agent, inspirado na trilha sonora de filmes, usa a prévia do Gemini 2.5 Pro para discernir temas e emoções em capítulos, traduzindo-os em sugestões de música para o Lyria gerar trilhas de fundo. O Music Director Agent mapeia essa música para painéis específicos, enquanto o Sound Effects Agent mapeia painéis para tags de efeitos sonoros relevantes, extraídas de um banco de dados.

Esse fluxo de trabalho culmina em um arquivo JSON que detalha as coordenadas do painel, as narrações, os efeitos sonoros e a música sincronizada, enviados para o front-end da Toonsutra.

Um dos principais sucessos é a capacidade do Gemini de gerar esse áudio cinematográfico de forma nativa em idiomas indianos, começando pelo hindi, promovendo a missão de acessibilidade da Toonsutra.

"Esse foi um caso de uso divertido e interessante para aproveitar os recursos multimodais e multilíngues do Gemini. O uso de modelos de linguagem grandes e poderosos do Google para entender semanticamente imagens, personagens, desenhos e temas foi um ótimo mecanismo para condensar uma mídia de entrada nos conceitos básicos. A poderosa geração de músicas do Lyria e os recursos de fala nativos do Gemini, especialmente em idiomas indianos, elevaram a experiência final que conseguimos oferecer em parceria com a Toonsutra."

- Avneet (PM, Google Partner Innovation)

Do Google I/O à disponibilidade geral

O Showcase do Google I/O foi um marco incrível, demonstrando como a IA pode melhorar o conteúdo digital. Para Toonsutra, este é apenas o primeiro capítulo.

Como nossa equipe costuma dizer: "Nossa visão na Toonsutra sempre foi tornar os quadrinhos mais envolventes e acessíveis para todos, em qualquer lugar. Essa colaboração com o Google é um salto monumental para essa visão. A capacidade de criar essas experiências de leitura imersivas e com tecnologia de IA atende diretamente ao feedback da nossa comunidade e acelera nossa inovação. Estamos muito felizes com a resposta no I/O e ansiosos para integrar isso ao app Toonsutra, e até mesmo para explorar uma possível API para capacitar outros criadores de conteúdo."

Agora, a Toonsutra está focada na integração gradual desses recursos no aplicativo principal, ouvindo atentamente o feedback da comunidade. Eles acreditam que não estão apenas enriquecendo a plataforma, mas também ajudando a criar um novo modelo de conteúdo aprimorado por IA.

Tudo pronto para criar? Conheça a documentação da API Gemini e comece a usar o Google AI Studio hoje mesmo.

A Toonsutra é participante do AI Futures Fund do Google, que investe e colabora com startups ambiciosas que desenvolvem o futuro da IA.