Các nhà nghiên cứu tại Google Research công bố TurboQuant, thuật toán nén bộ nhớ siêu hiệu quả dành cho AI. Giới công nghệ nhanh chóng gọi đây là "Pied Piper", tên startup với thuật toán nén thần kỳ trong bộ phim truyền hình nổi tiếng Silicon Valley.
Thuật toán của Google được nhận định sẽ giải quyết nút thắt cổ chai của trí tuệ nhân tạo. Hiện điểm yếu của các mô hình ngôn ngữ lớn là tiêu tốn quá nhiều bộ nhớ RAM. Để xử lý dữ liệu, AI cần KV cache (bộ nhớ đệm khóa - giá trị). Khi dữ liệu càng phức tạp, KV cache càng lớn dẫn đến nghẽn hiệu năng và tốn kém chi phí vận hành.
Thông thường, để giảm dung lượng có thể dùng kỹ thuật lượng tử hóa, nhưng đổi lại chất lượng đầu ra của AI bị giảm sút. TurboQuant ra đời để giải quyết bài toán này. Kết quả thử nghiệm cho thấy thuật toán giúp giảm sáu lần dung lượng bộ nhớ và tăng tốc độ xử lý lên gấp tám lần mà vẫn giữ nguyên độ chính xác.
Để đạt được dấu mốc này, Google kết hợp hai kỹ thuật mới là PolarQuant, thay vì biểu diễn dữ liệu theo hệ tọa độ XYZ truyền thống (như đi ba bước về Đông, bốn bước về Bắc), thuật toán mới chuyển sang tọa độ cực, như đi 5 bước ở góc 37 độ. Cách này giúp rút gọn thông tin, giúp tiết kiệm không gian lưu trữ đáng kể. Tiếp đến là QJL (Quantized Johnson Lindenstrauss), lớp sửa lỗi 1-bit. Sau khi nén bằng PolarQuant, các sai số nhỏ có thể xuất hiện. QJL sẽ sửa các sai số này để đảm bảo AI vẫn xác định đúng dữ liệu nào quan trọng.
Logo của Google Gemini. Ảnh: Bảo Lâm
Matthew Prince, CEO của công ty cung cấp hạ tầng Internet Cloudflare, nhận định đây có thể là "khoảnh khắc DeepSeek" của Google, xét về khả năng tối ưu hóa giúp AI chạy mượt trên các phần cứng kém với chi phí rẻ hơn.
TurboQuant vẫn đang trong giai đoạn thử nghiệm và dự kiến được trình bày chi tiết tại hội nghị ICLR 2026 tháng tới. Thuật toán không giúp giải quyết triệt để tình trạng thiếu hụt RAM toàn cầu do chỉ tập trung vào quá trình suy luận thay vì quá trình huấn luyện, nhưng mở ra tương lai cho AI trên di động. Với hạn chế về phần cứng của smartphone, TurboQuant có thể hỗ trợ các trợ lý ảo xử lý dữ liệu phức tạp ngay trên thiết bị mà không cần gửi lên đám mây.
Huy Đức (Theo TechCrunch, Ars Technica)