Toonsutra นำเสนอประสบการณ์การอ่านที่สมจริงด้วย Gemini API, Gemini 2.5 Pro Preview และ Lyria 2

Sharad Devarajan | Vishal Anand

ผู้ก่อตั้ง Toonsutra

Avneet Singh

ผู้จัดการผลิตภัณฑ์ฝ่ายนวัตกรรมของพาร์ทเนอร์ Google

Toonsutra เป็นแพลตฟอร์มเว็บคอมมิคและนิยายภาพรายใหญ่ที่สุดของอินเดีย โดยมีภารกิจในการเชื่อมโยงผู้ชมทั่วโลกเข้ากับจักรวาลการเล่าเรื่องอันกว้างใหญ่ของเว็บคอมมิค โดยมุ่งเน้นที่การทำให้เรื่องราวระดับโลกพร้อมให้อ่านได้ในภาษาอินเดีย Toonsutra ต้องการเพิ่มการมีส่วนร่วมของผู้ชม จึงตั้งคำถามว่าเราจะเปลี่ยนประสบการณ์การอ่านการ์ตูนแบบดั้งเดิมให้กลายเป็นการเดินทางที่สมจริงราวกับอยู่ในภาพยนตร์ ซึ่งเสียง ดนตรี และเรื่องราวจะดำเนินไปอย่างเป็นธรรมชาติในภาษาที่ผู้อ่านต้องการได้อย่างไร

การสร้างบทถัดไปในการเล่าเรื่องแบบอินเทอร์แอกทีฟ

คำถามนี้จึงกลายเป็นหัวใจสําคัญของ Toonsutra ความคิดเห็นจากชุมชนแสดงให้เห็นว่าผู้ใช้ต้องการการมีส่วนร่วมที่ลึกซึ้งยิ่งขึ้นและการเข้าถึงที่กว้างขึ้น Toonsutra ตระหนักถึงศักยภาพอันยิ่งใหญ่ของ AI และได้รับการสนับสนุนจากกองทุนเพื่ออนาคตแห่ง AI ของ Google จึงร่วมมือกับทีม Labs และทีมนวัตกรรมของพาร์ทเนอร์ที่ Google โดยทั้งสองบริษัทใช้ประโยชน์จาก Gemini API ซึ่งประกอบด้วย Gemini 2.5 Pro Preview และ Lyria 2 (โมเดลการสร้างเพลงของ Google DeepMind) เพื่อพลิกโฉมประสบการณ์การอ่านเว็บคอมิกสำหรับแฟนๆ ทั่วโลก

การคอลแลบนี้เปิดตัวในงาน Google I/O โดยแสดงให้เห็นประสบการณ์การอ่านการ์ตูนที่ทำงานด้วยระบบ AI ซึ่งเรื่องราวไม่ได้แสดงอยู่บนหน้าเว็บเฉยๆ แต่จะโต้ตอบและดึงดูดให้มีส่วนร่วมด้วยการเปลี่ยนรูปภาพนิ่งให้กลายเป็นคําบรรยายแบบไดนามิกด้วยเสียง ดังนี้

เสียงบรรยาย AI แบบปรับเปลี่ยนได้: เวอร์ชันตัวอย่างของ Gemini 2.5 Pro จะสร้างเสียงบรรยาย AI ที่สอดคล้องกับความเร็วในการอ่าน ทำให้ตัวละครมีชีวิตชีวาด้วยเสียงที่ต่างกัน ซึ่งจะเป็นประโยชน์อย่างยิ่งสำหรับผู้อ่านชาวอินเดียที่ภาษามีความละเอียดอ่อนทางวัฒนธรรมแตกต่างกันไปอย่างมาก ความสามารถในการปรับตัวและรองรับหลายภาษาของ Gemini 2.5 Pro เมื่อรวมเข้ากับเครื่องมือบริบทของตัวละครที่เป็นกรรมสิทธิ์ของ Toonsutra จะช่วยให้การเล่าเรื่องมีความสอดคล้องกันและละเอียดยิ่งขึ้น
ซาวด์สเปซแบบไดนามิก: แพลตฟอร์มจะสร้างซาวด์สเปซที่สมจริง ซึ่งรวมถึงเพลง เสียงบรรยาย และเสียงการเคลื่อนไหวที่ออกแบบมาโดยเฉพาะ ตั้งแต่เสียงดาบกระทบกันไปจนถึงบรรยากาศของตลาดที่วุ่นวาย ผ่านการทำความเข้าใจแบบมัลติโมเดลของ Gemini 2.5 Pro Preview และความสามารถของ Lyria และ Gemini ในการสร้างเสียง
การโต้ตอบที่มีประสิทธิภาพมากขึ้น: องค์ประกอบที่ทำงานด้วยระบบเวอร์ชันตัวอย่างของ Gemini 2.5 Pro ช่วยให้ผู้อ่านสามารถเรียกใช้บทสนทนาที่ไม่ซ้ำกัน สำรวจรายละเอียดที่ซ่อนอยู่ หรือมีอิทธิพลต่อเรื่องเล่าอย่างละเอียดอ่อน เพื่อให้ได้ประสบการณ์การอ่านที่หลากหลาย

รายละเอียดทางเทคนิค

โปรเจ็กต์นี้นำเสนอแนวทางใหม่ในการสร้างเสียงสมจริงสำหรับการ์ตูนดิจิทัลโดยอัตโนมัติ พร้อมข้อมูลเมตาเชิงพื้นที่ที่ซิงค์กัน หัวใจหลักคือสถาปัตยกรรมหลายเอเจนต์ที่สร้างขึ้นจาก Gemini 2.5 Pro Preview ซึ่งประกอบด้วยเอเจนต์เฉพาะทาง ได้แก่ เครื่องมือดึงข้อมูลบริบทของการ์ตูน ผู้บรรยาย นักแต่งเพลง ผู้ควบคุมเพลง และเอฟเฟกต์เสียง

เวิร์กโฟลว์เริ่มต้นด้วยตัวแทนเครื่องมือแยกแยะบริบทของการ์ตูนที่วิเคราะห์บทต่างๆ ของการ์ตูนเพื่อหาข้อมูลสรุป ประเภท และลักษณะตัวละครที่ครอบคลุม จากนั้นระบบจะดึงข้อมูลแผงที่มีขอบเขตที่กําหนด ตัวแทนผู้บรรยายจะจัดตำแหน่งบทสนทนาจากข้อความถอดเสียงให้สอดคล้องกับแผงเหล่านี้ ซึ่ง Gemini Native Audio จะอ่านออกเสียงโดยอิงตามบริบทของตัวละคร ในขณะเดียวกัน ตัวแทนผู้แต่งเพลงซึ่งได้รับแรงบันดาลใจจากการจัดดนตรีประกอบภาพยนตร์ก็ใช้ Gemini 2.5 Pro Preview เพื่อแยกแยะธีมและอารมณ์ในบทต่างๆ แล้วแปลเป็นพรอมต์เพลงสำหรับ Lyria เพื่อสร้างซาวด์แทร็กพื้นหลัง โดยตัวแทนผู้กำกับเพลงจะแมปเพลงนี้กับแผงเฉพาะ ส่วนตัวแทนเอฟเฟกต์เสียงจะแมปแผงกับแท็กเอฟเฟกต์เสียงที่เกี่ยวข้องซึ่งดึงมาจากฐานข้อมูล

เวิร์กโฟลว์นี้จะสิ้นสุดที่ไฟล์ JSON ซึ่งแสดงรายละเอียดพิกัดของแผง เสียงบรรยาย เอฟเฟกต์เสียง และเพลงที่ซิงค์ ซึ่งส่งไปยังส่วนหน้าของ Toonsutra

ปัจจัยสําคัญที่ทําให้ประสบความสําเร็จคือความสามารถของ Gemini ในการสร้างเสียงแบบภาพยนตร์ในภาษาอินโด-อารยันโดยกำเนิด โดยเริ่มจากภาษาฮินดี ซึ่งช่วยส่งเสริมพันธกิจด้านการช่วยเหลือพิเศษของ Toonsutra

"นี่เป็นกรณีการใช้งานที่สนุกและน่าตื่นเต้นมากในการใช้ประโยชน์จากความสามารถหลายรูปแบบและหลายภาษาของ Gemini การใช้โมเดลภาษาขนาดใหญ่ที่มีประสิทธิภาพของ Google เพื่อทำความเข้าใจรูปภาพ ตัวละคร ภาพสเก็ตช์ และธีมตามความหมายเป็นกลไกที่ยอดเยี่ยมในการย่อสื่ออินพุตให้เหลือข้อมูลพื้นฐาน การสร้างเพลงที่มีประสิทธิภาพของ Lyria และความสามารถในการพูดภาษาท้องถิ่นของ Gemini โดยเฉพาะภาษาอินเดีย ช่วยยกระดับประสบการณ์การใช้งานขั้นสุดท้ายที่เรามอบให้ได้เมื่อร่วมมือกับ Toonsutra"

- Avneet (PM, Google Partner Innovation)

จาก Google I/O สู่เวอร์ชันสำหรับผู้ใช้ทั่วไป

งาน Google I/O Showcase เป็นก้าวสำคัญที่น่าทึ่ง ซึ่งแสดงให้เห็นว่า AI ช่วยปรับปรุงเนื้อหาดิจิทัลได้อย่างไร สำหรับ Toonsutra นี่เป็นเพียงบทแรกเท่านั้น

ดังที่ทีมของเรามักจะพูดว่า "วิสัยทัศน์ของ Toonsutra คือการทำให้การ์ตูนเข้าถึงและดึงดูดผู้ชมได้มากขึ้นในทุกที่ทุกเวลา ความร่วมมือกับ Google ครั้งนี้เป็นก้าวสำคัญสู่วิสัยทัศน์ดังกล่าว ความสามารถในการสร้างประสบการณ์การอ่านที่สมจริงและขับเคลื่อนโดย AI เหล่านี้ช่วยจัดการกับความคิดเห็นจากชุมชนโดยตรงและเร่งให้เกิดนวัตกรรม เราตื่นเต้นกับผลตอบรับที่ได้รับในงาน I/O และหวังว่าจะได้ผสานรวมฟีเจอร์นี้ลงในแอป Toonsutra รวมถึงพัฒนา API ที่อาจเป็นไปได้เพื่อส่งเสริมครีเอเตอร์คนอื่นๆ ในอนาคต"

ตอนนี้ Toonsutra มุ่งเน้นที่การผสานรวมฟีเจอร์เหล่านี้กับแอปพลิเคชันหลักแบบทีละขั้น โดยคอยรับฟังความคิดเห็นจากชุมชนอย่างใกล้ชิด พวกเขาเชื่อว่าไม่เพียงแต่จะเสริมสร้างแพลตฟอร์มเท่านั้น แต่ยังช่วยสร้างพิมพ์เขียวใหม่สำหรับคอนเทนต์ที่ปรับปรุงด้วย AI ด้วย

พร้อมสร้างแล้วหรือยัง สำรวจเอกสารประกอบของ Gemini API และเริ่มต้นใช้งาน Google AI Studio ได้เลย

Toonsutra เป็นผู้เข้าร่วมใน AI Futures Fund ของ Google ซึ่งลงทุนและทำงานร่วมกับสตาร์ทอัพที่มีความทะเยอทะยานในการสร้างสิ่งที่จะเกิดขึ้นต่อไปใน AI

Toonsutra นำเสนอประสบการณ์การอ่านที่สมจริงด้วย Gemini API, Gemini 2.5 Pro Preview และ Lyria 2

การสร้างบทถัดไปในการเล่าเรื่องแบบอินเทอร์แอกทีฟ

รายละเอียดทางเทคนิค

จาก Google I/O สู่เวอร์ชันสำหรับผู้ใช้ทั่วไป

กรณีศึกษาที่เกี่ยวข้อง