Công bố trên nền tảng Hugging Face và GitHub ngày 29/9, V3.2-exp tích hợp các tính năng giúp giảm chi phí suy luận. Mô hình hiện trong quá trình thử nghiệm cuối và sẽ triển khai dưới dạng API (giao diện lập trình ứng dụng) cho các nhà phát triển thời gian tới.
Trong đó, quan trọng nhất là DeepSeek Sparse Attention, một hệ thống phức tạp sử dụng module riêng với nhiệm vụ ưu tiên các đoạn trích cụ thể từ cửa sổ ngữ cảnh. Một hệ thống có tên "fine-grained token selection", tức làm nhiệm vụ lựa chọn mã thông báo (token) cụ thể từ các đoạn trích, tải vào "cửa sổ Attention" của module theo trình tự hạn chế nhằm tiết kiệm tài nguyên. Kết quả là Sparse Attention có thể xử lý chuỗi ngữ cảnh dài với máy chủ tương đối nhỏ.
Với việc xử lý ngữ cảnh dài, lợi ích của Sparse Attention được đánh giá rất đáng kể. Thử nghiệm sơ bộ của DeepSeek cho thấy chi phí của một lệnh gọi API đơn giản có thể giảm một nửa với loại ngữ cảnh này. Dù vậy, công ty cho biết có thể cần thử nghiệm thêm và đánh giá chi tiết trước khi có bản hoàn thiện cho người dùng cuối.

Giao diện đăng nhập DeepSeek trên một chiếc smartphone. Ảnh: Bảo Lâm
Theo TechCrunch, V3.2-exp có thể là giải pháp đột phá liên quan đến khả năng suy luận hiệu năng cao với chi phí thấp của AI - vấn đề hiện nhận sự quan tâm lớn trong bối cảnh nhiều công ty đổ xô xây dựng hạ tầng phục vụ huấn luyện các mô hình trí tuệ nhân tạo. DeepSeek nổi tiếng với mô hình AI hiệu năng cao với chi phí thấp, và V3.2-exp được coi là cải tiến lớn so với trước đó.
Có trụ sở tại Trung Quốc, DeepSeek từng gây sốt hồi đầu năm với mô hình V3 và R1. Thời gian qua, công ty ủng hộ phương pháp "chưng cất" vì giúp mô hình đạt hiệu suất tốt trong khi chi phí đào tạo và vận hành rẻ hơn nhiều, cho phép các công nghệ AI tiếp cận rộng rãi hơn, theo Reuters. Tuy vậy, những mô hình kiểu này không tạo ra cuộc cách mạng toàn diện trong đào tạo AI như dự đoán, khiến công ty dần mất sự chú ý trong những tháng sau đó.
Bảo Lâm - Huy Đức (theo TechCrunch, Reuters)
- DeepSeek tuyên bố chỉ tốn 294.000 USD đào tạo mô hình AI
- CEO DeepSeek, Huawei lọt top 100 người ảnh hưởng nhất giới AI
- Trung Quốc bứt phá với loạt mô hình AI cạnh tranh DeepSeek
- DeepSeek bị nghi dùng công ty vỏ bọc để tiếp cận chip Mỹ