Bí Mật Của Token: Tại Sao AI Hay “Quên”?

AI hay quên: Bạn đang chat với ChatGPT rất mượt mà, tự nhiên nó quên sạch mọi thứ bạn dặn. Không phải AI dốt — mà là bạn chưa hiểu cách “bộ nhớ” của nó hoạt động. Bài viết này sẽ giải thích Token và Context Window — hai khái niệm nền tảng giúp bạn dùng AI hiệu quả hơn gấp nhiều lần.

Bạn Đã Bao Giờ Bị AI “Phản Bội” Chưa?

Tôi tin là bạn đã từng gặp tình huống này:

Bạn đang chat với ChatGPT rất hăng say về một dự án. Mọi thứ đang rất mượt mà. Bạn dặn nó: “Nhớ nhé, tôi là Nguyễn Văn A, là Giám đốc Marketing, đang thực hiện dự án tên là Project Alpha, deadline là cuối tháng này.”

Nó gật đầu (theo nghĩa bóng): “Vâng, tôi đã nhớ rồi!”

Đùng một cái, sau khoảng 30 phút chat qua lại, nó bắt đầu nói linh tinh. Nó quên mất tên dự án, quên mất quy định bạn dặn lúc đầu, thậm chí… quên luôn bạn là ai.

Bạn nghĩ: “Sao con AI này dốt thế? Mới dặn xong mà đã quên?”

Không phải nó dốt đâu. Là do nó bị “tràn bộ nhớ”.

Và đây chính là lý do tôi viết bài này. Vì nếu bạn không hiểu cách AI xử lý thông tin, bạn sẽ mãi mãi bực bội với nó — trong khi lỗi không hoàn toàn ở nó.

Trong bài viết này, chúng ta sẽ mổ xẻ “bộ não” của AI để hiểu về Token và Context Window. Hiểu được 2 khái niệm này, bạn sẽ biết:

Tại sao chat tiếng Việt lại “tốn tiền” hơn tiếng Anh
Làm sao để AI không bao giờ bị “mất trí nhớ” giữa chừng
Cách tối ưu prompt để tiết kiệm chi phí mà vẫn hiệu quả

Bắt đầu thôi.

Token Là Gì?

Đầu tiên, chúng ta cần sửa lại một hiểu lầm cơ bản: AI không đọc chữ cái A, B, C như con người.

Khi bạn gõ “Xin chào”, bạn thấy 2 từ. Nhưng AI không thấy vậy. Nó thấy một dãy số. Và đơn vị để nó tính toán gọi là Token.

Token Hoạt Động Như Thế Nào?

Hãy tưởng tượng Token như những mảnh ghép Lego. AI không nhìn thấy cả ngôi nhà (câu văn hoàn chỉnh), nó chỉ thấy từng viên Lego riêng lẻ và phải ghép lại.

Vấn đề là: Không phải ngôn ngữ nào cũng được chia thành Lego giống nhau.

Tôi sẽ demo cho bạn thấy. Bạn có thể tự kiểm tra tại trang Tiktokenizer — công cụ cho phép bạn xem AI “nhìn” ngôn ngữ như thế nào.

Ví dụ 1: Tiếng Anh

Tôi gõ từ: “Apple”

Kết quả: 1 từ = 1 token. Rất gọn.

Ví dụ 2: Tiếng Việt

Tôi gõ: “Tôi là Triết”

Kết quả: Nó bị băm nhỏ ra thành nhiều mảnh — chữ “T”, chữ “ôi”, chữ “là”, chữ “Tr”, chữ “iết”.

Một câu ngắn mà tốn tới 5-6 token.

Tại Sao Tiếng Việt “Đắt Đỏ” Hơn Tiếng Anh?

Lý do rất đơn giản: AI được huấn luyện chủ yếu bằng tiếng Anh.

Khi OpenAI xây dựng bộ từ điển Token (gọi là Tokenizer), họ tối ưu cho tiếng Anh trước. Các từ tiếng Anh phổ biến như “the”, “is”, “Apple” được gán 1 token gọn gàng.

Nhưng tiếng Việt? Nó là “ngôn ngữ thiểu số” trong mắt AI. Các ký tự đặc biệt như ô, ơ, ă, ư không nằm trong bộ từ điển gốc, nên phải bị chia nhỏ ra để xử lý.

Điều này có nghĩa là gì cho bạn?

Nếu bạn dùng bản miễn phí: Bạn không quan tâm lắm.
Nếu bạn là doanh nghiệp và phải dùng API trả phí, hoặc dùng các gói giới hạn: Tiếng Việt đắt tiền hơn Tiếng Anh.

Cùng một nội dung, tiếng Việt tốn nhiều tài nguyên xử lý của AI hơn. Đây là lý do tại sao đôi khi chat tiếng Việt cảm giác nó phản hồi chậm hơn một chút — vì nó phải xử lý nhiều token hơn.

Mối Quan Hệ Giữa Prompt Và Token

Trong giới làm AI có một câu nói:

“Prompt is King, but Token is God“
(Câu lệnh là Vua, nhưng Token là Thần)

Tại sao? Vì Token là đơn vị tiền tệ, là giới hạn sức mạnh của AI.

Nhiều bạn hỏi tôi: “Anh Cường ơi, em nên viết prompt dài hay ngắn để ra lệnh cho AI?”

Câu trả lời là: Cân bằng.

Prompt Quá Ngắn

Ưu điểm: Tiết kiệm token
Nhược điểm: AI thiếu dữ liệu → Trả lời sai hoặc chung chung

Ví dụ: Bạn gõ “Viết email” — AI sẽ hỏi lại hoặc viết một email generic vô hồn.

Prompt Quá Dài

Ưu điểm: AI hiểu rõ ngữ cảnh, phản hồi chính xác.
Nhược điểm: Tốn rất nhiều token, đặc biệt nếu bạn copy cả quyển sách vào

Ví dụ: Bạn paste 50 trang tài liệu rồi hỏi “Tóm tắt giúp tôi” — AI sẽ xử lý chậm và có thể bỏ sót thông tin quan trọng.

Nguyên Tắc Vàng: Ngắn Gọn Nhưng Đủ Ý

Với dân vận hành như chúng ta, sự hiệu quả là trên hết.

Lời khuyên của tôi: Hãy viết ngắn gọn, súc tích, đi thẳng vào vấn đề. Đừng viết văn hoa lá cành với AI. Mỗi từ thừa thãi là bạn đang lãng phí tài nguyên xử lý của nó.

Công thức prompt hiệu quả:

[Vai trò] + [Nhiệm vụ cụ thể] + [Ràng buộc/Format] + [Ví dụ (nếu cần)]

Ví dụ:

“Bạn là copywriter. Viết 3 tiêu đề email marketing cho sản phẩm phần mềm quản lý nhân sự, nhắm đến HR Manager, giọng văn chuyên nghiệp nhưng thân thiện.”

Ngắn gọn. Đủ ý. Không thừa.

Context Window: Tại Sao AI Hay “Quên”?

Quay lại câu hỏi đầu bài: Tại sao chat được một thời gian, AI lại quên đoạn đầu?

Hãy tưởng tượng bộ nhớ ngắn hạn của AI (gọi là Context Window) giống như một cái Bảng Trắng trong phòng họp.

Cơ Chế Hoạt Động

Khi bạn bắt đầu chat, AI viết thông tin lên bảng.

Bạn chat tiếp, nó viết tiếp.

Nhưng cái bảng này có giới hạn kích thước:

Gemini 3 Pro: ~1 triệu token
Claude Sonnet 4.5: ~200.000 token
GPT-4 Turbo: ~128.000 token
GPT-4 (bản thường): ~8.000 token
GPT-3.5: ~4.000 token
Bản free: Thường rất ít

Khi cái bảng đã viết kín chữ rồi, mà bạn vẫn muốn viết tiếp, AI buộc phải làm gì?

Nó phải xóa bớt phần trên cùng đi để có chỗ viết phần mới.

Đó chính là lúc nó “quên” những gì bạn dặn ở đầu cuộc hội thoại.

FIFO: Vào Trước Thì Ra Trước

Cơ chế này gọi là FIFO (First In First Out) — Vào trước thì Ra trước.

Nó không cố ý quên bạn. Đây là cơ chế bắt buộc của kiến trúc AI hiện tại.

Hình dung thế này:

Bạn có một cái ống nước dài 1 mét. Bạn đổ nước vào đầu này, nước sẽ chảy ra đầu kia. Nếu bạn cứ đổ liên tục, nước cũ sẽ bị đẩy ra ngoài.

Context Window hoạt động y hệt vậy. Thông tin mới đẩy thông tin cũ ra ngoài.

Mẹo Sử Dụng AI Hiệu Quả: Đừng Để AI “Vác Ba Lô Quá Nặng”

Vậy làm sao để tránh tình trạng AI quên giữa chừng?

Mẹo 1: Nhận Biết Dấu Hiệu “Tràn Bộ Nhớ”

Khi bạn thấy AI bắt đầu:

Trả lời lạc đề
Quên những gì bạn dặn ở đầu
Lặp lại ý cũ hoặc mâu thuẫn với chính nó
Phản hồi chậm hơn bình thường

→ Đó là dấu hiệu Context Window sắp đầy.

Mẹo 2: Reset Đúng Lúc

Khi thấy dấu hiệu trên:

Đừng cố chat tiếp. Càng chat, nó càng quên nhiều hơn.
Yêu cầu AI tóm tắt các ý chính của đoạn hội thoại
Bấm “New Chat” (Tạo đoạn chat mới).
Copy bản tóm tắt những ý chính của cuộc hội thoại cũ và paste sang bên mới.

Ví dụ tóm tắt:

“Tiếp tục dự án Project Alpha. Tôi là Nguyễn Văn A – Giám Đốc Marketing. Chúng ta đang thảo luận về chiến lược content Q1. Đã thống nhất: 3 bài blog/tuần, focus vào SEO. Bây giờ cần bàn về…”

Mẹo 3: Sử Dụng System Prompt (Cho Người Dùng API)

Nếu bạn dùng API hoặc các công cụ như Custom GPTs, hãy đặt những thông tin quan trọng nhất vào System Prompt.

System Prompt được ưu tiên giữ lại lâu hơn trong Context Window, nên ít bị “quên” hơn.

Mẹo 4: Chia Nhỏ Công Việc

Thay vì nhờ AI làm một task khổng lồ trong một cuộc chat dài, hãy chia thành nhiều đoạn chat nhỏ:

Chat 1: Brainstorm ý tưởng
Chat 2: Viết outline
Chat 3: Viết nội dung chi tiết
Chat 4: Review và chỉnh sửa

Mỗi chat mới = Một bảng trắng mới = AI “tỉnh táo” hơn.

Đừng bắt con AI vác một cái ba lô quá nặng, nó sẽ đi chậm và hay vấp ngã.

Tóm Lại: 2 Bài Học Quan Trọng

Nếu bạn chỉ nhớ được 2 điều từ bài viết này, hãy nhớ:

1. Token: Đơn Vị Tiền Tệ Của AI

Token là cách AI “đọc” ngôn ngữ
Tiếng Việt tốn token hơn tiếng Anh (do ký tự đặc biệt)
Viết prompt súc tích = Tiết kiệm token = Tiết kiệm tiền (nếu dùng API)

2. Context Window: Cái Bảng Trắng Có Giới Hạn

Bảng đầy thì chữ cũ bị xóa (FIFO)
Hãy biết cách reset cuộc hội thoại đúng lúc
Tóm tắt và chuyển sang chat mới khi cần

Bài Viết Tiếp Theo: Liệu AI có thay thế công việc của bạn không?

Như vậy, chúng ta đã đi qua 4 bài học căn bản nhất về AI (Danh sách 3 bài viết trước bên dưới)

Ở bài tiếp theo, tôi sẽ giúp bạn biết: Liệu AI có thay thế công việc của bạn không? Hẹn gặp bạn ở bài sau!

— Cường Nguyễn (Richard)
Founder, AI Ops Solutions

Muốn nhận thêm bài viết thực chiến về AI mỗi tuần?

Tôi gửi 1 email/tuần, chia sẻ cách ứng dụng AI vào công việc thực tế và cập nhật tin tức mới nhất về AI. Không spam, không bán khóa học, chỉ có kiến thức.

Đăng ký theo dõi tại đây

Bí Mật Của Token: Tại Sao AI Hay “Quên”? (Series AI Cơ Bản #4)

Bí Mật Của Token: Tại Sao AI Hay “Quên”?

Bạn Đã Bao Giờ Bị AI “Phản Bội” Chưa?