Ngày 20 tháng 5 năm 2025
Toonsutra mang truyện tranh đến với cuộc sống: Trải nghiệm đọc sống động nhờ Gemini API, Bản xem trước Gemini 2.5 Pro và Lyria 2

Toonsutra là trang web lớn nhất của Ấn Độ về truyện tranh trên mạng và tiểu thuyết đồ hoạ, với sứ mệnh kết nối khán giả trên toàn cầu với vũ trụ truyện tranh trên mạng rộng lớn, đặc biệt tập trung vào việc cung cấp các câu chuyện đẳng cấp thế giới bằng các ngôn ngữ Ấn Độ. Với mong muốn tăng cường sự tương tác của khán giả, Toonsutra đã đặt câu hỏi: làm cách nào để biến trải nghiệm đọc truyện tranh truyền thống thành một hành trình điện ảnh sống động, trong đó giọng nói, âm nhạc và câu chuyện tự nhiên trôi chảy bằng ngôn ngữ mà độc giả mơ ước?
Xây dựng chương tiếp theo trong nghệ thuật kể chuyện tương tác
Câu hỏi này trở thành trọng tâm của Toonsutra. Ý kiến phản hồi của cộng đồng cho thấy họ muốn có được sự tương tác sâu sắc hơn và khả năng tiếp cận rộng rãi hơn. Nhận thấy tiềm năng to lớn của AI và được Quỹ AI Futures của Google hỗ trợ, Toonsutra đã hợp tác với các nhóm Phòng thí nghiệm và Đổi mới đối tác tại Google. Cùng nhau, họ đang tận dụng Gemini API, bao gồm Bản dùng thử Gemini 2.5 Pro và Lyria 2 (mô hình tạo nhạc của Google DeepMind) để tạo ra trải nghiệm mới về truyện tranh trên web cho người hâm mộ trên toàn cầu.
Dự án cộng tác này được công bố tại Google I/O, giới thiệu trải nghiệm truyện tranh dựa trên AI, trong đó các câu chuyện không chỉ nằm trên trang; chúng phản hồi và tương tác, biến hình ảnh tĩnh thành bản tường thuật âm thanh động:
- Nội dung đọc bằng AI thích ứng: Bản dùng thử Gemini 2.5 Pro tạo nội dung đọc bằng AI phù hợp với tốc độ đọc, giúp nhân vật trở nên sống động với giọng đọc riêng biệt. Điều này đặc biệt có tác động đến độc giả Ấn Độ, nơi có nhiều sắc thái văn hoá trong ngôn ngữ. Khả năng thích ứng và đa ngôn ngữ của Gemini 2.5 Pro, kết hợp với công cụ ngữ cảnh nhân vật độc quyền của Toonsutra, đảm bảo việc kể chuyện nhất quán và tinh tế.
- Cảnh âm thanh động: Thông qua khả năng hiểu biết đa phương thức của Bản dùng thử Gemini 2.5 Pro và khả năng tạo âm thanh gốc của Lyria và Gemini, nền tảng này tạo ra cảnh âm thanh sống động bao gồm nhạc tuỳ chỉnh, lồng tiếng và âm thanh chuyển động – từ tiếng keng của thanh kiếm đến không khí của một khu chợ nhộn nhịp.
- Tăng cường tính tương tác: Các thành phần dựa trên tính năng Xem trước của Gemini 2.5 Pro cho phép người đọc kích hoạt cuộc trò chuyện độc đáo, khám phá các chi tiết ẩn hoặc ảnh hưởng tinh tế đến các luồng câu chuyện, đảm bảo trải nghiệm đọc đa dạng.
Chi tiết kỹ thuật
Dự án này giới thiệu một phương pháp mới để tự động tạo âm thanh sống động cho truyện tranh kỹ thuật số, hoàn chỉnh với siêu dữ liệu không gian được đồng bộ hoá. Cốt lõi của công cụ này là một cấu trúc đa tác nhân được xây dựng dựa trên Bản xem trước Gemini 2.5 Pro, bao gồm các tác nhân chuyên biệt: Trình trích xuất ngữ cảnh truyện tranh, Người đọc, Nhà soạn nhạc, Đạo diễn âm nhạc và Tác nhân hiệu ứng âm thanh.
Quy trình bắt đầu bằng cách Trình phân tích ngữ cảnh truyện tranh phân tích nhiều chương truyện tranh để có thông tin tóm tắt, thể loại và đặc điểm nhân vật toàn diện. Sau đó, các bảng điều khiển được trích xuất với các ranh giới đã xác định. Tác nhân người đọc lồng tiếng sẽ điều chỉnh lời thoại trong bản chép lời với các bảng điều khiển này. Bản chép lời được Gemini Native Audio lồng tiếng, đồng thời được làm phong phú bằng ngữ cảnh của nhân vật. Đồng thời, Music Composer Agent (Đại diện nhà soạn nhạc), lấy cảm hứng từ việc soạn nhạc cho phim, sử dụng tính năng Xem trước Gemini 2.5 Pro để phân biệt các chủ đề và cảm xúc trong các chương, chuyển đổi chúng thành câu lệnh âm nhạc để Lyria tạo bản nhạc nền. Tác nhân Music Director (Giám đốc âm nhạc) liên kết nhạc này với các bảng điều khiển cụ thể, trong khi tác nhân Sound Effects (Hiệu ứng âm thanh) liên kết các bảng điều khiển với các thẻ hiệu ứng âm thanh có liên quan, được truy xuất từ cơ sở dữ liệu.
Quy trình công việc này kết thúc bằng một tệp JSON nêu chi tiết toạ độ bảng điều khiển, lồng tiếng, hiệu ứng âm thanh và nhạc đồng bộ hoá, được phân phối đến giao diện người dùng của Toonsutra.
Một yếu tố then chốt dẫn đến thành công là khả năng của Gemini trong việc tạo âm thanh điện ảnh này bằng các ngôn ngữ Ấn Độ, bắt đầu bằng tiếng Hindi, góp phần thực hiện sứ mệnh hỗ trợ tiếp cận của Toonsutra.
“Đây là một trường hợp sử dụng thú vị và hấp dẫn để tận dụng các tính năng đa phương thức và đa ngôn ngữ của Gemini. Việc sử dụng các mô hình ngôn ngữ lớn và mạnh mẽ của Google để hiểu về hình ảnh, nhân vật, bản phác thảo và chủ đề theo ngữ nghĩa là một cơ chế tuyệt vời để nén nội dung đa phương tiện đầu vào thành các yếu tố cơ bản. Khả năng tạo nhạc mạnh mẽ của Lyria và khả năng nói tiếng bản địa của Gemini, đặc biệt là các ngôn ngữ Ấn Độ, đã nâng cao trải nghiệm cuối cùng mà chúng tôi có thể mang đến khi hợp tác với Toonsutra"
Từ Google I/O đến thời điểm phát hành rộng rãi
Sự kiện giới thiệu tại Google I/O là một cột mốc đáng kinh ngạc, minh chứng cho cách AI có thể nâng cao nội dung kỹ thuật số về cơ bản. Đối với Toonsutra, đây mới chỉ là chương đầu tiên.
Như nhóm chúng tôi thường nói: "Tầm nhìn của Toonsutra luôn là làm cho truyện tranh trở nên hấp dẫn và dễ tiếp cận hơn cho mọi người ở mọi nơi. Việc hợp tác với Google là một bước tiến lớn để hiện thực hoá tầm nhìn đó. Khả năng tạo ra những trải nghiệm đọc sống động, sử dụng công nghệ AI này giúp chúng tôi giải quyết trực tiếp ý kiến phản hồi của cộng đồng và đẩy nhanh quá trình đổi mới. Chúng tôi rất vui mừng khi nhận được phản hồi tại sự kiện I/O và rất mong được tích hợp tính năng này vào ứng dụng Toonsutra, thậm chí là khám phá một API tiềm năng để hỗ trợ các nhà sáng tạo khác".
Toonsutra hiện tập trung vào việc tích hợp từng bước các tính năng này vào ứng dụng chính của họ, đồng thời chú ý lắng nghe ý kiến phản hồi của cộng đồng. Họ tin rằng mình không chỉ làm phong phú nền tảng của mình mà còn giúp tạo ra một bản thiết kế mới cho nội dung được AI nâng cao.
Bạn đã sẵn sàng tạo ứng dụng chưa? Khám phá tài liệu về Gemini API và bắt đầu sử dụng Google AI Studio ngay hôm nay.
Toonsutra là một trong những công ty tham gia Quỹ AI Futures của Google. Quỹ này đầu tư và cộng tác với các công ty khởi nghiệp đầy tham vọng để xây dựng những sản phẩm tiếp theo trong lĩnh vực AI.