DeepSeek ra mắt mô hình mới giúp giảm một nửa chi phí API
Công nghệ Sparse Attention của DeepSeek tối ưu hóa biến áp, giúp giảm tải máy chủ nhưng vẫn giữ hiệu quả xử lý, mở hướng mới cho AI chi phí thấp.
DeepSeek ra mắt mô hình V3.2-exp với cơ chế DeepSeek Sparse Attention, hứa hẹn giảm một nửa chi phí API khi xử lý ngữ cảnh dài. Ảnh: Anh Vũ
Hôm 29.9 (giờ Mỹ), nhóm nghiên cứu tại DeepSeek công bố mô hình thử nghiệm mới mang tên V3.2-exp, được thiết kế để cắt giảm đáng kể chi phí suy luận trong các tác vụ ngữ cảnh dài. Mô hình này được giới thiệu trên nền tảng Hugging Face, kèm theo một bài báo học thuật được chia sẻ công khai trên GitHub.
Điểm nhấn của V3.2-exp nằm ở cơ chế DeepSeek Sparse Attention, (một hệ thống chú ý thưa thớt). Thay vì xử lý toàn bộ dữ liệu, hệ thống này sử dụng một mô-đun gọi là “bộ lập chỉ mục sét” để ưu tiên trích xuất các đoạn văn bản quan trọng trong cửa sổ ngữ cảnh.
Sau đó, một mô-đun khác là “hệ thống lựa chọn mã thông báo chi tiết” sẽ chọn lọc các token quan trọng để đưa vào cửa sổ chú ý hạn chế. Cách tiếp cận này giúp giảm tải máy chủ nhưng vẫn duy trì khả năng xử lý các đoạn ngữ cảnh dài.
Theo thử nghiệm ban đầu, DeepSeek cho biết chi phí thực hiện một lệnh gọi API có thể giảm tới 50% trong những tình huống yêu cầu ngữ cảnh lớn.
Dù cần thêm nhiều đánh giá độc lập để xác thực, nhưng việc công khai mô hình trên Hugging Face sẽ sớm mở đường cho các bên thứ ba thử nghiệm và kiểm chứng.
Sự ra mắt của V3.2-exp nối tiếp chuỗi nỗ lực giải quyết vấn đề chi phí suy luận, là một trong những thách thức lớn nhất trong vận hành mô hình AI.
Không giống chi phí đào tạo ban đầu, chi phí suy luận liên quan trực tiếp đến hạ tầng máy chủ để phục vụ người dùng, và luôn là gánh nặng lớn cho các doanh nghiệp triển khai AI.
DeepSeek, công ty có trụ sở tại Trung Quốc, vốn gây chú ý hồi đầu năm với mô hình R1, được đào tạo chủ yếu bằng học tăng cường với chi phí thấp. Tuy nhiên, R1 chưa tạo nên cuộc cách mạng như kỳ vọng và sự quan tâm dành cho DeepSeek giảm dần trong những tháng qua.
Dù vậy, với cơ chế mới này, DeepSeek đang cho thấy cách tiếp cận mới để tối ưu hóa kiến trúc biến áp. Giải pháp này có thể không gây ồn ào như R1, nhưng được đánh giá là mang lại những bài học thực tế, đặc biệt cho các nhà cung cấp dịch vụ AI tại Mỹ, trong bối cảnh nhu cầu cắt giảm chi phí suy luận ngày càng trở nên cấp thiết.