Công nghệ Voice Cloning, nhân bản giọng nói bằng AI được AusyncLab kỳ vọng sẽ mở ra xu hướng mới tại Việt Nam. Theo startup này, giải pháp họ đưa ra sẽ được ứng dụng trong đa dạng lĩnh vực và ngành nghề, từ truyền thông, giải trí đến giáo dục, chăm sóc khách hàng...
Theo đó, công nghệ Voice Cloning của AusyncLab ứng dụng AI để "sao chép" giọng nói của một người cụ thể, sau khoảng 3-7 giây, nền tảng sẽ tạo giọng nói giống gần nhất, về âm sắc, tốc độ nói, ngữ điệu nhấn nhá và cảm xúc. Điểm khác biệt giữa công nghệ này nằm ở trải nghiệm tự nhiên, cảm xúc và cá nhân hóa hơn, khi so sánh với công cụ chuyển văn bản thành giọng nói (Text-to-Speech).

Thiết kế website của AusyncLab. Ảnh: chụp màn hình
Trên nền tảng, người dùng có thể tạo giọng nói cho nhân vật ảo trong phim hoạt hình, game, lồng tiếng cho video, sách nói hoặc cá nhân hóa trải nghiệm chăm sóc khách hàng, với tổng đài có giọng nói gần gũi, quen thuộc. Ngoài ra, người dùng có thể sử dụng để giảm thời gian thu âm, tối ưu hiệu quả công việc có tính chất lặp lại.
"Chúng tôi muốn nhân bản giọng nói chính xác, mang đến trải nghiệm ngữ điệu cảm xúc hơn, yếu tố tạo bản sắc cá nhân trong mỗi người", ông Nguyễn Minh Anh, CEO AusyncLab nói.
Trong bối cảnh công nghệ deepfake (giả mạo khuôn mặt) phát triển mạnh, đại diện AusyncLab cho biết, doanh nghiệp đặt minh bạch và đạo đức lên hàng đầu khi triển khai sản phẩm. Để hạn chế các hành vi trục lợi, công ty này phát triển công cụ Voice Watermarking (dấu vết giọng nói) để ngăn chặn giả mạo và bảo vệ bản quyền.
"Mỗi người dùng khi sử dụng giọng nói cần đưa ra mục đích cụ thể, cam kết sử dụng đúng mục đích để tránh các hành vi trục lợi", ông Lê Tấn Nghĩa, đồng sáng lập AusyncLab nói. "Mỗi giọng nói đều là duy nhất, có thể bị lạm dụng nếu không kiểm soát. Đó là lý do chúng tôi xây dựng bộ nguyên tắc sử dụng công nghệ ngay từ ngày đầu".
Theo AusyncLab, họ còn phát triển 17 ngôn ngữ khác nhau như: Anh, Trung Quốc, Hàn Quốc, Đức, Do Thái, Nhật Bản, Ả Rập... Từ giọng gốc tiếng Việt, người dùng có thể chuyển đổi, nhân bản giọng nói sang các ngôn ngữ khác nhau. Ngoài sản phẩm về Voice Cloning, AusyncLab đang phát triển các sản phẩm mới như Instant Avatar (đồng bộ lời nói với avatar để tạo nhân vật ảo), Speech Editing (chỉnh sửa âm thanh, thay đổi lời nói), Voice Design (thiết kế giọng nói theo phong cách riêng), hay Lipsync (giúp tối ưu câu chữ khớp với khuôn miệng).
Theo doanh nghiệp, thách thức lớn nhất của công nghệ này tại Việt Nam là yếu tố niềm tin về bảo mật và đạo đức trước lo ngại deepfake. Nhờ tối ưu tiếng Việt, chi phí rẻ hơn so với đối thủ và công cụ Voice Watermarking, startup này kỳ vọng sẽ khẳng định được vị thế trong nước, tiến tới vươn ra toàn cầu. Hiện, các giải pháp từ AusyncLab được sử dụng bởi các doanh nghiệp như VTC Netviet, Bệnh viện đa khoa Quốc Tế GSV, Byscom hay AiMake.
Ra mắt thị trường từ tháng 12/2024, AusyncLab được chọn vào vòng tiếp theo của chương trình Microsoft for Startups, nhận mức hỗ trợ cao nhất 150.000 USD, tạo động lực cho doanh nghiệp này cạnh tranh với các đối thủ trong ngành.
Startup này cho biết, hiện nền tảng có khoảng 50.000 người dùng, hướng đến mục tiêu 200.000 người dùng vào cuối năm nay.
Quang Anh
Thông tin liên hệ AusyncLab tại đây
Địa chỉ: Số 151 đường số 3, phường 8, quận Gò Vấp, TP HCM