Sự bùng nổ của trí tuệ nhân tạo (AI) đã kích hoạt nhiều tính năng mới của công nghệ, trong đó có công nghệ tổng hợp giọng nói tự nhiên, ứng dụng trong vận hành tổng đài.
Nâng chất lượng giọng máy bằng công nghệ
Là công ty công nghệ trong lĩnh vực vực AI, FPT.AI đã có những nghiên cứu chuyên sâu về công nghệ xử lý ngôn ngữ tự nhiên (NLP) tiếng Việt từ hơn một thập kỷ. Mới đây, đội ngũ chuyên gia FPT.AI đã hoàn thiện và ra mắt hàng loạt giọng máy phát triển bằng công nghệ AceSound.
Cụ thể, FPT.AI đã đầu tư và phát triển công nghệ AceSound nhằm nâng cao chất lượng giọng máy Text to Speech. Công ty ứng dụng giọng máy vào trợ lý ảo của trung tâm tổng đài chăm sóc khách hàng, thực hiện nhiều nghiệp vụ sơ cấp trong lĩnh vực tài chính, ngân hàng. Từ đó, giúp doanh nghiệp rút ngắn thời gian phục vụ, giảm tải áp lực cho nhân sự, tối ưu quy trình vận hành. Đại diện FPT.AI cho biết, các doanh nghiệp triển khai trợ lý ảo tổng đài của công ty đã thành công bước đầu, có doanh nghiệp còn tiết kiệm chi phí hơn 17 tỷ đồng mỗi tháng.
Theo đó, AceSound vận dụng công nghệ về tổng hợp giọng nói, khai thác triệt để công nghệ học sâu (deep learning). Mô hình máy tính có thể học được nhiều đặc trưng về ngữ điệu, biểu cảm trong giọng nói tự nhiên của con người. Kiến trúc mô hình học sâu được tinh chỉnh riêng để tối ưu cho từng giọng nói theo giới tính, vùng miền.
Để giọng máy hoàn thiện và có chất lượng tự nhiên, đội ngũ kỹ sư, nhà khoa học của FPT.AI đã thực hiện hàng nghìn thí nghiệm nhằm phân tích mẫu, cải tiến chất lượng âm học. Ngoài ra, FPT.AI còn chú trọng gia tăng hiệu năng triển khai giọng máy cho các hệ thống lớn như tốc độ xử lý nhanh, tiêu thụ ít nguồn lực tính toán, đáp ứng lượng sử dụng lớn với cơ sở hạ tầng nhỏ.
Những giọng máy của FPT.AI trước đây được sử dụng trên các nền tảng Facebook, Tiktok, Instargram, Youtube, có thể kể đến gồm giọng Ban Mai (nữ miền Bắc), giọng Minh Quang (nam miền Nam), giọng Thu Minh (nữ miền Bắc). Bản ứng dụng công nghệ mới với thay đổi về cao độ, tốc độ, cách phát âm, khả năng ngắt nghỉ, giúp giọng máy AceSound mượt mà, sống động hơn. Các giọng mới như giọng Ban Mai AceSound, Minh Quang AceSound, Thu Minh AceSound được kỳ vọng mang đến trải nghiệm mới mẻ cho người dùng.
Ứng dụng thực tế của giọng máy
Công nghệ giọng máy Text to Speech còn tích hợp vào trợ lý ảo tổng đài chăm sóc khách hàng tự động với chất giọng đặc trưng riêng biệt của từng thương hiệu, ngành nghề...
Theo FPT.AI, việc sử dụng giọng máy giúp nâng cao chất lượng của trung tâm tổng đài chăm sóc khách hàng. Bằng cách "huấn luyện" bot hiểu ngôn ngữ tự nhiên nhờ AI, voicebot có thể giao tiếp hai chiều với con người theo thời gian thực, đưa ra phản hồi với giọng điệu tự nhiên, cảm xúc.
Đại diện FPT.AI nhận định, các ứng dụng sử dụng giọng máy để giao tiếp ngày càng trở nên phổ biến hơn trên thế giới. Ứng dụng mang lại nhiều lợi ích cho người khuyết tật, khiếm thị, người mất khả năng đọc. Công nghệ giọng nói còn được cá nhân hóa giúp giải quyết nhiều vấn đề tương tác khách hàng cho các doanh nghiệp lớn.
Công nghệ chuyển văn bản thành giọng máy (Text to Speech) của FPT.AI dễ dàng tích hợp thông qua API trên giao diện dành cho lập trình viên hoặc sử dụng trực tiếp trên website để sản xuất nội dung số (video, podcast, sách nói, ebook). Nhà xuất bản, sản xuất nội dung có thể chuyển đổi văn bản (sách, bài báo hoặc tài liệu viết) thành âm thanh với công nghệ Text to Speech của FPT.AI một cách nhanh chóng, tiện lợi, cắt giảm chi phí và tăng hiệu quả cho quá trình sản xuất nội dung, tùy chỉnh đa dạng nhiều giọng vùng miền.
Đại diện FPT.AI cho hay, giọng nói kỹ thuật số, giọng máy sẽ được ứng dụng sâu rộng, đa dạng vào nhiều lĩnh vực trong tương lai, cho phép con người tối giản nhiều hoạt động, giảm thiểu chi phí và gia tăng tiện ích. "Chúng tôi liên tục cải tiến công nghệ nhằm tạo ra giọng máy chất lượng, đồng hành cùng doanh nghiệp, mang đến trải nghiệm xứng đáng cho người dùng", đại diện doanh nghiệp này nói.
Hà Thanh (Video: FPT.AI)