مشاركة

20 أيار (مايو) 2025

Toonsutra تحوّل الكتب المصوّرة إلى واقع: تجربة قراءة غامرة باستخدام واجهة برمجة التطبيقات Gemini API وإصدار Gemini 2.5 Pro التجريبي وLyria 2

شاراد ديفاراجان | فيشال أناند

مؤسسو Toonsutra

أفنيت سينغ

مدير المنتجات، قسم الابتكار لدى شركاء Google

العنصر الرئيسي في عرض Cartwheel

Toonsutra هي أكبر موقع إلكتروني في الهند يقدّم القصص المصوّرة والروايات المصورة، وهي تسعى إلى تعريف جمهور عالمي بعالم القصص المصوّرة الواسع، مع التركيز بشكل خاص على إتاحة قصص عالمية المستوى باللغات الهندية. بهدف تعزيز تفاعل الجمهور، طرحت Toonsutra السؤال التالي: كيف يمكننا تحويل تجربة قراءة القصص المصورة التقليدية إلى رحلة سينمائية غامرة تتدفق فيها الأصوات والموسيقى والقصة بشكل طبيعي باللغة التي يحلم بها القرّاء؟

إنشاء الفصل التالي في رواية القصص التفاعُلية

أصبح هذا السؤال هو التركيز الأساسي لشركة Toonsutra. وقد أوضحت الملاحظات الواردة من المنتدى أنّه مطلوب تعزيز التفاعل مع الجمهور وتوسيع نطاق الوصول إلى المحتوى. مع الأخذ في الاعتبار الإمكانات الهائلة للذكاء الاصطناعي، وبدعم من صندوق مستقبل الذكاء الاصطناعي من Google، عقدت شركة Toonsutra شراكة مع فِرق "البرامج التجريبية" و"الابتكار التعاوني مع الشركاء" في Google. ويعمل الفريقان معًا على الاستفادة من واجهة برمجة التطبيقات Gemini API، التي تتضمّن إصدار Gemini 2.5 Pro التجريبي وLyria 2 (نموذج إنشاء الموسيقى من Google DeepMind) لإعادة ابتكار تجربة القصص المصورة على الويب للمعجبين حول العالم.

يعرض هذا التعاون، الذي تم الكشف عنه في مؤتمر Google I/O، تجربة كوميدية مستندة إلى الذكاء الاصطناعي، حيث لا تقتصر القصص على الصفحة، بل تتفاعل مع المستخدمين وتستجيب لهم، ما يحوّل الصور الثابتة إلى قصص صوتية ديناميكية:

  • القراءة الذكية التكيُّفية: توفّر الإصدار التجريبي من Gemini 2.5 Pro ميزة القراءة الذكية التي تتلاءم مع سرعة القراءة، ما يمنح الشخصيات الحيوية أصواتًا مختلفة. ويُعدّ ذلك مؤثرًا بشكل خاص لدى القرّاء الهنود، حيث تختلف الاختلافات الثقافية في اللغة على نطاق واسع. تضمن إمكانات Gemini 2.5 Pro التكيُّفية والمتعددة اللغات، بالإضافة إلى محرك سياق الشخصيات المملوك لشركة Toonsutra، سرد القصص بشكل متّسق ودقّة عالية.
  • مشهد صوتي ديناميكي: من خلال ميزة الفهم المتعدّد الوسائط في الإصدار التجريبي من Gemini 2.5 Pro وقدرات إنشاء المحتوى الصوتي الأصلية في Lyria وGemini، تُنشئ المنصة مناظر صوتية غامرة تشمل موسيقى مخصّصة وتعليقات صوتية وأصوات حركة، بدءًا من صوت صرير السيف وانتهاءً بأجواء السوق الصاخب.
  • تفاعل مُحسَّن: تتيح العناصر المستندة إلى الإصدار التجريبي من Gemini 2.5 Pro للقراء بدء حوار فريد أو استكشاف تفاصيل مخفية أو التأثير بشكلٍ طفيف في سلاسل القصص، ما يضمن تجارب قراءة متنوعة.

التفاصيل الفنية

يقدّم هذا المشروع نهجًا جديدًا لإنشاء صوت غامر تلقائيًا للكتب المصورة الرقمية، مع بيانات وصفية مكانية متزامنة. وتستند هذه الميزة إلى بنية متعددة العوامل تستند إلى الإصدار التجريبي من Gemini 2.5 Pro، وتتألف من عوامل مخصّصة: "مستخرج سياق القصص المصورة" و"الراوي" و"مُنشئ الموسيقى" و"مدير الموسيقى" و"عوامل المؤثرات الصوتية".

يبدأ سير العمل بتحليل وكيل Comic Context Extractor (مستخرج سياق الكوميديا) لعدة فصول من الكوميديا للحصول على ملخّص شامل ونوع وصفات الشخصيات. بعد ذلك، يتم استخراج اللوحات بحدود محدّدة. ينسِّق "وكيل الراوي" الحوار من النصوص مع هذه اللوحات، التي تُعرَض بصوت Gemini Native Audio مع إضافة سياق الشخصيات. في الوقت نفسه، يستخدم "مساعد مؤلف الموسيقى"، المستوحى من الموسيقى التصويرية للأفلام، ميزة "معاينة Gemini 2.5 Pro" لتمييز المواضيع والمشاعر في الفصول المختلفة، وترجمتها إلى طلبات موسيقية لكي تنشئ Lyria مقاطع موسيقية في الخلفية. يربط "مساعد مدير الموسيقى" هذه الموسيقى بلوحات معيّنة، في حين يربط "مساعد المؤثرات الصوتية" اللوحات بعلامات المؤثرات الصوتية ذات الصلة التي يتم استرجاعها من قاعدة بيانات.

ينتهي سير العمل هذا بملف JSON يوضّح إحداثيات اللوحة والتعليقات الصوتية والتأثيرات الصوتية والموسيقى المتزامنة، ويتم إرساله إلى الواجهة الأمامية في Toonsutra.

من أهم عوامل النجاح هي قدرة Gemini على إنشاء هذه المقاطع الصوتية السينمائية باللغة الهندية وغيرها من اللغات الهندية، ما يعزّز مهمة Toonsutra في تسهيل الاستخدام.

"لقد كانت هذه حالة استخدام ممتعة ومثيرة للاستفادة من إمكانات Gemini المتعددة الوسائط واللغات. لقد كان استخدام النماذج اللغوية الكبيرة والفعّالة من Google لفهم الصور والشخصيات والرسومات والموضوعات من الناحية الدلالية آلية رائعة لتلخيص الوسائط المدرَجة في أساسياتها. ساهمت ميزات إنشاء الموسيقى القوية في Lyria وإمكانات Gemini في التحدّث باللغة الأصلية، خاصةً باللغات الهندية، في تحسين التجربة النهائية التي تمكّنا من تقديمها بالتعاون مع Toonsutra".

- أفنيت (مديرة المشاريع، قسم الابتكار لدى شركاء Google)

من مؤتمر Google I/O إلى الإصدار العلني

كان عرض Google I/O إنجازًا رائعًا، إذ أظهر كيف يمكن للذكاء الاصطناعي تحسين المحتوى الرقمي بشكل أساسي. بالنسبة إلى Toonsutra، هذا هو الفصل الأول فقط.

كما يُردّد فريقنا دائمًا: "لطالما كانت رؤيتنا في Toonsutra هي جعل القصص المصورة أكثر جاذبية وسهولة في الاستخدام للجميع في كل مكان. يشكّل هذا التعاون مع Google قفزة هائلة نحو تحقيق هذه الرؤية. إنّ إمكانية إنشاء تجارب القراءة هذه التي تعتمد على الذكاء الاصطناعي وتمنح المستخدم تجربة غامرة للغاية تعالج مباشرةً الملاحظات الواردة من المنتدى وتسرّع من وتيرة ابتكاراتنا. لقد أسعدنا ردّ الفعل على فعاليات I/O ونتطلّع إلى دمج هذه الميزة في تطبيق Toonsutra، وربما في المستقبل نضيف واجهة برمجة تطبيقات لمنح صنّاع المحتوى الآخرين مزيدًا من الإمكانات".

تركّز Toonsutra الآن على دمج هذه الميزات على مراحل في تطبيقها الرئيسي، مع الانتباه إلى الملاحظات التي يقدّمها المنتدى. ويعتقدون أنّهم لا يساهمون فقط في تحسين منصّتهم، بل يساعدون أيضًا في وضع مخطّط جديد للمحتوى المحسّن بالذكاء الاصطناعي.

هل أنت على استعداد للإنشاء؟ اطّلِع على مستندات Gemini API وابدأ استخدام Google AI Studio اليوم.

شركة Toonsutra هي إحدى المشاركات في "صندوق مستقبل الذكاء الاصطناعي" من Google الذي يستثمر في الشركات الناشئة الطموحة ويتعاون معها لتطوير تقنيات الذكاء الاصطناعي الجديدة.