Condividi

20 maggio 2025

Toonsutra dà vita ai fumetti: un'esperienza di lettura immersiva basata sull'API Gemini, su Gemini 2.5 Pro Preview e su Lyria 2

Sharad Devarajan | Vishal Anand

Fondatori di Toonsutra

Avneet Singh

Product Manager, Google Partner Innovation

Hero di sfilata di prodotti

Toonsutra, la più grande destinazione indiana per webcomic e graphic novel, ha come missione quella di mettere in contatto un pubblico globale con il vasto universo narrativo dei webcomic, con un'attenzione particolare a rendere accessibili storie di livello mondiale nelle lingue indiane. Nel tentativo di approfondire il coinvolgimento del pubblico, Toonsutra si è chiesta: come possiamo trasformare l'esperienza di lettura dei fumetti tradizionali in un viaggio cinematografico immersivo in cui voce, musica e trama scorrono naturalmente nella lingua dei sogni dei lettori?

Scrivere il prossimo capitolo della narrazione interattiva

Questa domanda è diventata l'obiettivo principale di Toonsutra. I feedback della community hanno evidenziato la necessità di un coinvolgimento più profondo e di una maggiore accessibilità. Riconoscendo l'immenso potenziale dell'IA e supportata dal AI Futures Fund di Google, Toonsutra ha collaborato con i team di Labs e Partner Innovation di Google. Insieme, stanno sfruttando l'API Gemini, con la versione di anteprima di Gemini 2.5 Pro, e Lyria 2 (il modello di generazione musicale di Google DeepMind) per reinventare l'esperienza dei fan dei webcomic in tutto il mondo.

La collaborazione, presentata al Google I/O, mostra un'esperienza con i fumetti basata sull'IA in cui le storie non rimangono semplicemente sulla pagina, ma rispondono e coinvolgono, trasformando le immagini statiche in narrazioni audio dinamiche:

  • Narrazione basata sull'IA adattiva: la versione di anteprima di Gemini 2.5 Pro crea una narrazione basata sull'IA che segue la velocità di lettura, dando vita ai personaggi con voci distinte. Ciò è particolarmente importante per i lettori indiani, dove le sfumature culturali del linguaggio variano ampiamente. Le funzionalità adattabili e multilingue di Gemini 2.5 Pro, combinate con il motore di contesto dei personaggi proprietario di Toonsutra, garantiscono uno storytelling coerente e ricco di sfumature.
  • Paesaggi sonori dinamici: grazie alla comprensione multimodale di Gemini 2.5 Pro Preview e alle funzionalità di generazione audio native di Lyria e Gemini, la piattaforma genera paesaggi sonori immersivi, tra cui musica personalizzata, voci fuori campo e suoni di movimento, dal suono di una spada all'atmosfera di un mercato vivace.
  • Interattività migliorata: gli elementi basati su Anteprima di Gemini 2.5 Pro consentono ai lettori di attivare un dialogo unico, esplorare dettagli nascosti o influenzare sottilmente i thread narrativi, garantendo esperienze di lettura diversificate.

Dettagli tecnici

Questo progetto introduce un nuovo approccio per generare automaticamente audio immersivi per i fumetti digitali, completi di metadati spaziali sincronizzati. Al suo centro c'è un'architettura multi-agente basata su Gemini 2.5 Pro Preview, composta da agenti specializzati: Comic Context Extractor, Narratore, Music Composer, Music Director e Sound Effects Agents.

Il flusso di lavoro inizia con l'agente Comic Context Extractor che analizza più capitoli di fumetti per ottenere una sinossi completa, il genere e i tratti dei personaggi. I riquadri vengono quindi estratti con confini definiti. L'agente Narratore allinea i dialoghi delle trascrizioni a questi riquadri, che, arricchiti dal contesto del personaggio, vengono doppiati da Gemini Native Audio. Contemporaneamente, l'agente compositore musicale, ispirato alla colonna sonora dei film, utilizza Gemini 2.5 Pro Preview per distinguere temi ed emozioni nei vari capitoli, traducendoli in prompt musicali per consentire a Lyria di generare tracce di sottofondo. L'agente Music Director mappa questa musica a pannelli specifici, mentre l'agente Sound Effects mappa i pannelli ai tag degli effetti sonori pertinenti, recuperati da un database.

Questo flusso di lavoro culmina in un file JSON che descrive le coordinate dei riquadri, le voci fuori campo, gli effetti sonori e la musica sincronizzata, caricati nel front-end di Toonsutra.

Un aspetto fondamentale del successo è la capacità di Gemini di generare in modo nativo questo audio cinematografico nelle lingue indoarie, a partire dall'hindi, contribuendo a realizzare la missione di accessibilità di Toonsutra.

"Questo è stato un caso d'uso davvero divertente ed entusiasmante per sfruttare le funzionalità multimodali e multilingue di Gemini. L'utilizzo dei potenti modelli linguistici di grandi dimensioni di Google per comprendere semanticamente immagini, personaggi, schizzi e temi è stato un ottimo meccanismo per condensare i contenuti multimediali di input nei loro elementi fondamentali. L'efficace generazione di musica di Lyria e le funzionalità vocali native di Gemini, in particolare nelle lingue indiane, hanno migliorato l'esperienza finale che siamo riusciti a offrire in collaborazione con Toonsutra"

- Avneet (PM, Google Partner Innovation)

Da Google I/O alla disponibilità generale

La presentazione di Google I/O è stata un traguardo incredibile, che ha dimostrato come l'IA possa migliorare radicalmente i contenuti digitali. Per Toonsutra, questo è solo il primo capitolo.

Come dice spesso il nostro team: "La nostra visione in Toonsutra è sempre stata quella di rendere i fumetti più coinvolgenti e accessibili a tutti, ovunque si trovino. Questa collaborazione con Google è un passo monumentale verso questa visione. La possibilità di creare queste esperienze di lettura profondamente immersive e basate sull'IA risponde direttamente ai feedback della nostra community e accelera la nostra innovazione. Siamo entusiasti della risposta ricevuta alla conferenza I/O e non vediamo l'ora di integrare questa funzionalità nell'app Toonsutra, per poi eventualmente esplorare una potenziale API che possa essere utilizzata da altri creator."

Toonsutra ora si concentra sull'integrazione graduale di queste funzionalità nella sua applicazione principale, ascoltando attentamente il feedback della community. Ritengono di non solo arricchire la propria piattaforma, ma anche di contribuire a creare un nuovo modello per i contenuti migliorati con l'IA.

Vuoi iniziare a creare? Consulta la documentazione dell'API Gemini e inizia a utilizzare Google AI Studio oggi stesso.

Toonsutra fa parte dell'AI Futures Fund di Google, che investe e collabora con startup ambiziose che sviluppano le tecnologie di IA del futuro.