2025 年 5 月 20 日
Toonsutra でコミックに命を吹き込む: Gemini API、Gemini 2.5 Pro プレビュー版、Lyria 2 を活用した没入型の読書体験

インド最大のウェブコミックとグラフィック ノベルの配信プラットフォームである Toonsutra は、世界中の視聴者とウェブコミックの世界をつなぐことを使命としています。特に、インドの言語で世界クラスのストーリーを視聴できるようにすることに重点を置いています。視聴者のエンゲージメントを深めるために、Toonsutra は次のような課題に取り組みました。従来の漫画の読み方を、読者が夢見る言語で音声、音楽、ストーリーが自然に流れ込む没入感のある映画のような体験に変えるにはどうすればよいか。
インタラクティブなストーリーテリングにおける次のステップ
この質問が Toonsutra の中心的なテーマになりました。コミュニティからのフィードバックでは、より深いエンゲージメントと幅広いユーザー補助機能への要望が特に多く寄せられました。AI の大きな可能性を認識し、Google の AI フューチャー ファンドの支援を受け、Toonsutra は Google の Labs チームとパートナー イノベーション チームと提携しました。両社は、Gemini API(Gemini 2.5 Pro プレビュー版を含む)、Lyria 2(Google DeepMind の音楽生成モデル)を活用して、世界中のファン向けにウェブコミック体験を再構築しています。
Google I/O で発表されたこのコラボレーションは、AI を活用したコミック エクスペリエンスを実現します。ストーリーはページに留まらず、ユーザーの操作に応じて変化し、静止画像を動的な音声ナラティブに変換します。
- 適応型 AI ナレーション: Gemini 2.5 Pro プレビューでは、読み上げ速度に合わせて AI ナレーションが作成され、個性的な声でキャラクターを生き生きと表現できます。これは、言語の文化的なニュアンスが大きく異なるインドの読者にとって特に重要です。Gemini 2.5 Pro の適応型マルチ言語機能と Toonsutra 独自のキャラクター コンテキスト エンジンを組み合わせることで、一貫性のあるニュアンス豊かなストーリーテリングを実現します。
- ダイナミックなサウンドスケープ: Gemini 2.5 Pro Preview のマルチモーダル理解機能と、Lyria と Gemini のネイティブ音声生成機能により、このプラットフォームは、剣の音から賑やかな市場の雰囲気まで、カスタム ミュージック、ナレーション、動きの音など、没入感のあるサウンドスケープを生成します。
- インタラクティビティの強化: Gemini 2.5 Pro プレビュー版の要素を使用すると、読者は独自のダイアログをトリガーしたり、隠れた詳細を探したり、物語の流れに微妙な影響を与えたりできるため、さまざまな読書体験を実現できます。
技術的な詳細情報
このプロジェクトでは、同期された空間メタデータとともに、デジタル コミックの没入型音声を自動生成する新しいアプローチを紹介します。コアとなるのは、Gemini 2.5 Pro プレビュー版上に構築されたマルチエージェント アーキテクチャです。このアーキテクチャは、コミック コンテキスト抽出エージェント、ナレーター、音楽コンポーザー、音楽ディレクター、効果音エージェントという専門エージェントで構成されています。
ワークフローは、Comic Context Extractor エージェントが複数のコミック チャプターを分析して、包括的な概要、ジャンル、キャラクターの特徴を取得することから始まります。次に、定義された境界でパネルが抽出されます。ナレーター エージェントは、文字起こしから取得したセリフをこれらのパネルと照合します。これらのパネルは、キャラクターのコンテキストに基づいて拡充され、Gemini ネイティブ音声によって読み上げられます。同時に、映画音楽に着想を得た Music Composer Agent は、Gemini 2.5 Pro プレビューを使用してチャプター全体のテーマと感情を認識し、それらを Lyria の音楽プロンプトに変換してバックグラウンド スコアを生成します。音楽ディレクター エージェントは、この音楽を特定のパネルにマッピングします。一方、効果音エージェントは、パネルをデータベースから取得した関連する効果音タグにマッピングします。
このワークフローの最終段階では、パネルの座標、ナレーション、効果音、同期された音楽を詳細に記述した JSON ファイルが作成され、Toonsutra のフロントエンドに送信されます。
成功の鍵は、ヒンディー語をはじめとするインドの言語でこの映画のような音声をネイティブに生成できる Gemini の機能です。これにより、Toonsutra のユーザー補助の取り組みがさらに前進しました。
「Gemini のマルチモーダルと多言語機能を活用した、楽しくてエキサイティングなユースケースでした。Google の強力な大規模言語モデルを使用して画像やキャラクターをセマンティックに理解し、スケッチやテーマを描画することは、入力メディアを基本に凝縮するための優れたメカニズムでした。Lyria の強力な音楽生成機能と Gemini のネイティブ音声機能(特にインドの言語)により、Toonsutra とのパートナーシップで実現した最終的なエクスペリエンスが向上しました」
Google I/O から一般提供へ
Google I/O のショーケースは、AI がデジタル コンテンツを根本的に強化する方法を示した素晴らしいマイルストーンでした。Toonsutra の場合、これは最初のチャプターです。
私たちのチームはよく次のように言っています。「Toonsutra のビジョンは、あらゆる場所で誰もが楽しめる、より魅力的でアクセスしやすい漫画を制作することです。Google との今回のコラボレーションは、そのビジョンに向けての大きな一歩です。このような没入感の高い AI を活用した読み上げ体験を作成できることは、コミュニティからのフィードバックに直接対応し、イノベーションを加速させるものです。I/O での反響に大変満足しています。この機能を Toonsutra アプリに統合し、最終的には他のクリエイターを支援する API の可能性を探っていきたいと考えています。」
Toonsutra は現在、コミュニティからのフィードバックをよく聞きながら、これらの機能をメインアプリに段階的に統合することに注力しています。同社は、プラットフォームを充実させるだけでなく、AI を活用したコンテンツの新しい設計図を作成することにも役立っていると考えています。
構築の準備は整いましたか?Gemini API のドキュメントを確認し、Google AI Studio を今すぐお試しください。
Toonsutra は、Google の AI Futures Fund に参加しています。このファンドは、AI の未来を構築する意欲的なスタートアップに投資し、連携しています。