Google Ra Mắt mô hình AI mở: DiffusionGemma 26B-A4B: Sinh Văn Bản Song Song, Nhanh Gấp 4 Lần

12/06/2026

Sự chậm trễ trong quá trình sinh văn bản từ trước đến nay luôn là “nút thắt cổ chai” lớn nhất của các mô hình ngôn ngữ lớn (LLM). Do kiến trúc autoregressive truyền thống phải gõ từng chữ một (tuần tự từ trái sang phải), hệ thống liên tục bị giới hạn bởi băng thông bộ nhớ (memory-bandwidth).

Để giải quyết triệt để bài toán này, Google vừa chính thức công bố DiffusionGemma 26B-A4B. Đây là mô hình ngôn ngữ thực nghiệm đột phá, chuyển đổi hoàn toàn cơ chế sinh chữ truyền thống sang cơ chế khử nhiễu song song (Diffusion), giúp tốc độ xử lý bứt phá lên gấp 4 lần và thay đổi toàn bộ cuộc chơi AI chạy Local (cục bộ).

Google DiffusionGemma 26B-A4B: Khử nhiễu văn bản song song tốc độ >700 token/s.
Google DiffusionGemma 26B-A4B: Khử nhiễu văn bản song song tốc độ >700 token/s.

DiffusionGemma Hoạt Động Như Thế Nào?

Khác với các LLM hiện nay vốn “đoán từng từ tiếp theo”, DiffusionGemma hoạt động tương tự như các mô hình tạo ảnh (như Stable Diffusion).

  1. Khởi tạo Canvas: Mô hình bắt đầu bằng một “bức tranh nháp” gồm 256 token ngẫu nhiên (placeholder tokens).
  2. Khử nhiễu song song (Uniform State Diffusion): Thay vì đi từ trái sang phải, mô hình đánh giá và tinh chỉnh đồng thời toàn bộ khối 256 token này qua nhiều bước khử nhiễu (denoising passes). Các token có độ tự tin cao sẽ giúp định hình và sửa đổi các token xung quanh, giúp toàn bộ đoạn văn bản “hiện rõ nét” cùng một lúc.
  3. Cơ chế Block Autoregressive: Đối với văn bản dài hơn 256 token, sau khi khối (canvas) đầu tiên được khử nhiễu hoàn toàn, nó sẽ được đẩy vào bộ nhớ KV cache. Mô hình tiếp tục chuyển sang khối 256 token tiếp theo.

Cơ chế này dịch chuyển hoàn toàn gánh nặng từ băng thông bộ nhớ sang năng lượng tính toán (compute-bound), tận dụng tối đa các lõi Tensor Core trên GPU vốn thường bị bỏ trống khi chạy LLM truyền thống.

Những Thông Số Kỹ Thuật Ấn Tượng Của DiffusionGemma 26B-A4B

Được xây dựng trên nền tảng (backbone) mạnh mẽ của Gemma 4, mô hình mang lại những thông số lý tưởng cho giới phát triển:

  • Kiến trúc MoE tối ưu: Thuộc dòng Mixture of Experts (MoE) với tổng 26 tỷ tham số, nhưng chỉ kích hoạt ~4 tỷ tham số (A4B / 3.8B cụ thể) trong mỗi lượt suy luận, giúp tiết kiệm tài nguyên tối đa.
  • Chạy mượt trên phần cứng cá nhân: Khi được lượng tử hóa (Quantized), DiffusionGemma có thể vận hành cục bộ (Local) mượt mà trong giới hạn 18GB VRAM của các GPU tiêu dùng.
  • Tốc độ “Xé Gió”: Nhanh hơn gấp 4 lần LLM autoregressive. Thử nghiệm thực tế đạt tốc độ hơn 700 token/giây trên card đồ họa NVIDIA GeForce RTX 5090 và bứt phá hơn 1000 token/giây trên một GPU NVIDIA H100 đơn lẻ.
  • Cửa sổ ngữ cảnh siêu khủng: Hỗ trợ xử lý context window lên tới 256K tokens (262,144 tokens).
  • Giấy phép mở: Phát hành dưới giấy phép mã nguồn mở Apache 2.0, cho phép tải về thương mại hóa thông qua Hugging Face và hỗ trợ native bởi các framework phổ biến như vLLM, SGLang, MLX, Unsloth, và NVIDIA NeMo.

Bước Ngoặt Cho AI Agent: Khả Năng Nhìn Toàn Cục & Tự Sửa Lỗi

Sự kết hợp giữa xử lý ngữ cảnh hai chiều (Bidirectional Context Awareness) và cơ chế Diffusion mang lại cho DiffusionGemma 26B-A4B những siêu năng lực mà các LLM cũ không thể làm được:

  • Tự sửa lỗi thời gian thực (Self-Correction via Re-Noising): Trong quá trình tinh chỉnh văn bản, nếu mức độ tự tin (confidence) của một từ bị sụt giảm, bộ lấy mẫu (sampler) của mô hình sẽ tự động “thêm nhiễu” và thay thế từ đó bằng một từ phù hợp hơn. LLM truyền thống hoàn toàn bất lực ở điểm này vì một khi đã “gõ” ra chữ là không thể quay lại sửa.
  • Giải quyết bài toán ràng buộc phi tuyến tính: Để chứng minh khả năng tư duy hai chiều, Google đã thử nghiệm tinh chỉnh (fine-tune) mô hình này làm công cụ giải Sudoku. Do thông tin có thể truyền ngược – xuôi đối xứng trên toàn ma trận, DiffusionGemma giải quyết các bài toán ràng buộc đa biến (như Sudoku, điền code – code infilling, sửa lỗi logic) hiệu quả hơn hẳn cấu trúc sinh từ trái sang phải.

Hướng Dẫn Triển Khai Nhanh Với vLLM

Google đã phối hợp chặt chẽ với đội ngũ vLLM để tối ưu hóa thuật toán khử nhiễu lặp song song trên các luồng dữ liệu (batched streams). Các nhà phát triển có thể khởi chạy server local tương thích với OpenAI API ngay lập tức bằng lệnh:

Bash

vllm serve google/diffusiongemma-26B-A4B-it \
  --max-model-len 262144 \
  --max-num-seqs 4 \
  --gpu-memory-utilization 0.85 \
  --attention-backend TRITON_ATTN \
  --generation-config vllm \
  --hf-overrides '{"diffusion_sampler": "entropy_bound", "diffusion_entropy_bound": 0.1}' \
  --diffusion-config '{"canvas_length": 256}' \
  --enable-chunked-prefill

Lời Kết

DiffusionGemma 26B-A4B không chỉ là một mô hình thử nghiệm đơn thuần, mà là phát súng đầu tiên mở màn cho kỷ nguyên “Diffusion LLM”. Khi tốc độ và khả năng tự sửa lỗi (Self-Correction) không còn là rào cản, các quy trình tự động hóa tự trị (Autonomous AI Agents) chạy local sẽ trở nên thông minh và có tốc độ phản hồi tức thì.

💡 Bạn muốn ứng dụng những công nghệ AI và trợ lý ảo thế hệ mới vào doanh nghiệp?

Hãy truy cập và khám phá ngay các giải pháp SaaS AI Agent đột phá tại aichatbot.com.vn để tối ưu quy trình tự động hóa Marketing & Chăm sóc khách hàng của bạn!

📌 FAQ – Khám Phá DiffusionGemma 26B-A4B

1. DiffusionGemma 26B-A4B hoạt động khác gì so với LLM truyền thống?

Các LLM truyền thống (như GPT-4 hoặc Gemma bản cũ) sinh văn bản tuần tự từng chữ một (Autoregressive). Trong khi đó, DiffusionGemma áp dụng cơ chế khuếch tán (Diffusion) tương tự AI tạo ảnh, tạo ra một khối 256 từ cùng lúc dưới dạng “nháp ngẫu nhiên” rồi tiến hành khử nhiễu và tinh chỉnh song song toàn bộ khối đó, giúp tăng tốc độ lên gấp 4 lần.

2. Thông số 26B-A4B của DiffusionGemma có ý nghĩa gì?

Mô hình sử dụng kiến trúc Mixture of Experts (MoE) dựa trên backbone của Gemma 4. Nó sở hữu tổng cộng 26 tỷ tham số (26B) nhưng nhờ cơ chế MoE phân tách luồng, hệ thống chỉ kích hoạt khoảng ~4 tỷ tham số hoạt động (A4B) cho mỗi lượt suy luận, giúp tối ưu phần cứng cực tốt.

3. Khả năng “tự sửa lỗi” (Self-Correction) của DiffusionGemma hoạt động ra sao?

Nhờ kiến trúc chú ý hai chiều (Bidirectional Attention), mô hình có thể nhìn nhận toàn cục đoạn văn bản đang sinh ra. Nếu phát hiện một từ hoặc đoạn mã ở phía trước có độ chính xác thấp (confidence sụt giảm), bộ lấy mẫu (sampler) sẽ chủ động “bơm nhiễu” và thay thế từ đó bằng kết quả chuẩn hơn ngay trong các bước tinh chỉnh tiếp theo.

4. Cấu hình máy tính nào chạy được DiffusionGemma 26B-A4B local?

Sau khi được lượng tử hóa (Quantized), mô hình có thể chạy tốt trên các dòng GPU cá nhân (như card RTX 4090/5090 hoặc chip Apple Silicon M-series) có dung lượng VRAM từ 18GB trở lên.

0 Lời bình

Bạn cũng có thể đọc thêm:

Xu Hướng AI Tháng 6/2026: AI Agent Và Cơ Hội Cho Doanh Nghiệp Việt

Báo cáo thị trường tuần đầu tháng 6 năm 2026 cho thấy một làn sóng chuyển dịch mạnh mẽ trong hệ sinh thái trí tuệ nhân tạo (AI) toàn cầu lẫn Việt Nam. Không còn là những cuộc dạo chơi thử nghiệm, AI đang thực sự trở thành lớp hạ tầng quan trọng nhất của nền kinh tế...

Liên hệ