Chạy ClawdBot với Ollama có nhanh không?

Tốc độ phụ thuộc hoàn toàn vào cấu hình máy tính của bạn. Với MacBook M1/M2 (16GB RAM), model Llama 3 8B chạy cực mượt (tốc độ gõ tương đương người đọc). Với máy yếu hơn, bạn có thể dùng các model nhỏ như Qwen 2.5 (7B hoặc 1.5B).

Làm sao để kết nối Moltbot với Ollama?

Bạn cần sử dụng tính năng 'OpenAI Compatible' của Moltbot. Trong file config, chỉnh provider thành 'openai', trỏ 'base_url' về 'http://127.0.0.1:11434/v1' và nhập 'api_key' là 'ollama' (hoặc bất kỳ ký tự nào).

Hướng dẫn tích hợp Ollama vào ClawdBot: Sở hữu Trợ lý AI chạy Local “0 đồng” (2026)

Tích hợp Ollama ClawdBot: Bạn đã cài đặt ClawdBot (Moltbot) theo hướng dẫn bài trước chưa? Nếu rồi, chắc hẳn bạn đang rất “sướng” vì có một trợ lý sai đâu đánh đó.

Nhưng có một vấn đề: Tiền.

Mỗi lần bạn nhờ ClawdBot tóm tắt một bài báo hay viết một đoạn code, nó đều gọi API của Claude (Anthropic) hoặc OpenAI. Tiền cứ thế tinh ting trừ vào thẻ visa. Dù rẻ, nhưng cảm giác “xót ví” là có thật. Hơn nữa, bạn có dám gửi file bảng lương hay báo cáo tài chính cho một con AI chạy trên cloud không?

Đó là lúc chúng ta cần đến Ollama.

Hôm nay, tôi sẽ hướng dẫn bạn biến máy tính cá nhân thành một “AI Server” thực thụ. ClawdBot sẽ chạy hoàn toàn trên máy bạn, dùng bộ não Llama 3 (của Meta), miễn phí 100% và bảo mật tuyệt đối.

Tại sao nên chạy Local AI (Ollama) thay vì thuê API?

Direct Answer: Chạy Local AI giúp bạn làm chủ hoàn toàn dữ liệu (Privacy-first). Không một dòng chat hay file nào của bạn bị gửi ra khỏi máy tính. Đặc biệt, sau khi đầu tư phần cứng, chi phí vận hành gần như bằng 0 (chỉ tốn tiền điện), so với việc trả $20/tháng cho ChatGPT Plus hay tốn phí API theo token.

Hãy tưởng tượng viễn cảnh này: Bạn ngắt kết nối Internet. Bạn vẫn có thể bảo ClawdBot: “Quét folder Documents, tìm tất cả file hợp đồng và trích xuất tên khách hàng ra Excel cho tao” -> Nó làm phăm phăm. Ngầu chưa?

Điều kiện phần cứng (Check cấu hình ngay)

Chạy AI trên máy không dành cho máy văn phòng yếu nhớt. Để “đu” được trend này, bạn cần:

RAM: Tối thiểu 16GB. Đây là mức để chạy mượt model Llama 3 (8 tỷ tham số). Nếu bạn có 8GB RAM, bạn chỉ chạy được model nhỏ xíu (như Qwen 1.5B) – hơi “ngu” một chút nhưng vẫn chạy được.
GPU (Card màn hình):

MacBook: Chip M1, M2, M3 (Dòng Pro/Max càng tốt). Apple Silicon chạy AI cực đỉnh nhờ bộ nhớ Unified Memory.
Windows: Phải có card NVIDIA (RTX 3060 trở lên là đẹp).

Nếu máy bạn đạt chuẩn, chúng ta bắt đầu.

Step-by-Step: Thiết lập “Server AI” tại gia

Chúng ta sẽ dùng Ollama – công cụ giúp chạy Local LLM đơn giản nhất thế giới hiện nay.

Bước 1: Cài đặt và chạy Ollama

Truy cập vào trang chủ: ollama.com Tải bản cài đặt cho Mac hoặc Windows.
Cài xong, mở Terminal lên và gõ lệnh để tải “bộ não” Llama 3 về:
ollama pull llama3
Đợi nó tải xong (khoảng 4.7GB). Sau đó gõ thử:
ollama run llama3
Nếu nó hiện ra dấu nhắc chat >>>, chúc mừng bạn. Máy bạn đã chạy được AI.

Bước 2: Cấu hình ClawdBot (Moltbot)

(Đây là bước quan trọng nhất, ít tài liệu hướng dẫn)

Mặc định ClawdBot chỉ hỗ trợ Claude và OpenAI. Nhưng chúng ta sẽ dùng một “mánh” (trick): Đó là Ollama có hỗ trợ chuẩn kết nối giống hệt OpenAI.

Chúng ta sẽ lừa ClawdBot rằng: “Ê, tao có cái server OpenAI này, dùng đi” – nhưng thực chất đó là server Ollama chạy trên máy mình.

Tìm file cấu hình của Agent. Thông thường nó nằm ở:

Mac/Linux: ~/.clawdbot/agents//agent/config.json
(Hoặc bạn có thể dùng lệnh moltbot configure để sửa trực tiếp).

Sửa phần cấu hình llm như sau:

{
“llm”: {
“provider”: “openai”,
“model”: “llama3”,
“apiKey”: “ollama”,
“baseUrl”: “http://127.0.0.1:11434/v1”
}
}

Giải thích:

provider: Vẫn để là “openai” (để Moltbot dùng giao thức OpenAI).
baseUrl: Trỏ về địa chỉ Local của Ollama (port 11434).
apiKey: Điền gì cũng được (Ollama không check key).

Lưu file và Khởi động lại Moltbot (moltbot restart).

Test thực tế: Llama 3 thông minh đến đâu?

Sau khi restart, tôi mở Telegram lên test ngay.

Test 1: Logic thông thường

“Viết cho tao một email xin nghỉ phép vào thứ 6 này vì lý do đi khám bệnh, giọng văn trang trọng.”
-> Kết quả: Llama 3 phản hồi sau 2 giây. Viết tiếng Việt khá mượt, chuẩn form. Tốc độ nhanh hơn cả chờ ChatGPT load.

Test 2: Coding (Thử thách)

“Viết script python để download video từ Youtube.”
-> Kết quả: Code chạy được. Tuy nhiên, Llama 3 (bản 8B) đôi khi code không “sạch” bằng Claude 3.5 Sonnet.

Test 3: Tốc độ
Trên chiếc MacBook Pro M1 Max của tôi, tốc độ trả về khoảng 40 tokens/s. Nghĩa là chữ hiện ra nhanh hơn mắt tôi đọc. Quá đã!

Kết luận: Khi nào dùng Cloud, khi nào dùng Local?

Sau một thời gian dùng song song, đây là chiến lược của tôi:

Dùng Ollama (Local): Cho các tác vụ hàng ngày, tóm tắt văn bản, dịch thuật, chat chit ý tưởng, xử lý dữ liệu riêng tư. (Chiếm 80% nhu cầu).
Dùng API Claude (Cloud): Khi cần code chức năng khó, hoặc cần khả năng logic cực cao để giải quyết vấn đề hóc búa. (Chiếm 20%).

Tích hợp Ollama vào ClawdBot chính là bước cuối cùng để bạn sở hữu trọn vẹn sức mạnh của AI. Bạn không còn là “khách thuê” công nghệ nữa, bạn là “chủ nhà”.

Hãy thử ngay tối nay nhé!

Danh sách bài viết trước

— Cường Nguyễn (Richard)
AI Automation Architect | Founder, AI Ops Solutions
Facebook | Linkedin

Muốn nhận thêm bài viết thực chiến về AI mỗi tuần?

Tôi gửi 1 email/tuần, chia sẻ cách ứng dụng AI vào công việc thực tế và cập nhật tin tức mới nhất về AI. Không spam, không bán khóa học, chỉ có kiến thứcc

Đăng ký theo dõi tại đây