NVIDIA mang đến các agent sự sống với DGX Spark và Reachy Mini

February 2, 2026
14 min read

NVIDIA mang các tác nhân AI vào đời thực với DGX Spark và Reachy Mini

Hôm nay tại CES 2026, NVIDIA đã giới thiệu một thế giới các mô hình mở mới để hiện thực hóa tương lai của các tác nhân AI, trực tuyến và trong thế giới thực. Từ các mô hình ngôn ngữ lớn (LLM) Nemotron của NVIDIA mới ra mắt, đến VLA ngôn ngữ thị giác mở (VLA) NVIDIA Isaac GR00T N1.6 mới và các mô hình nền tảng thế giới Cosmos của NVIDIA, tất cả các khối xây dựng cần thiết đều có sẵn ngay hôm nay để các Nhà xây dựng AI tự tạo ra các tác nhân của riêng mình.

Nhưng điều gì sẽ xảy ra nếu bạn có thể mang tác nhân của riêng mình vào đời thực, ngay tại bàn làm việc của bạn? Một người bạn AI có thể hữu ích cho bạn và xử lý dữ liệu của bạn một cách riêng tư?

Trong bài phát biểu chính tại CES hôm nay, Jensen Huang đã cho chúng ta thấy cách chúng ta có thể làm chính xác điều đó, bằng cách sử dụng sức mạnh xử lý của NVIDIA DGX Spark với Reachy Mini để tạo ra R2D2 nhỏ nhắn của riêng bạn mà bạn có thể trò chuyện và cộng tác.

Bài viết này cung cấp hướng dẫn từng bước để tái tạo trải nghiệm tuyệt vời này tại nhà bằng cách sử dụng DGX Spark và Reachy Mini.

Hãy cùng bắt đầu nào!

Nguyên liệu

Nếu bạn muốn bắt tay vào làm ngay, đây là mã nguồn của bản demo.

Chúng tôi sẽ sử dụng:

Một mô hình suy luận: bản demo sử dụng NVIDIA Nemotron 3 Nano
Một mô hình thị giác: bản demo sử dụng NVIDIA Nemotron Nano 2 VL
Một mô hình chuyển văn bản thành giọng nói: bản demo sử dụng ElevenLabs
Reachy Mini (hoặc Reachy Mini Simulation)
Môi trường Python v3.10+, với uv

Hãy thoải mái điều chỉnh công thức và tự tạo ra phiên bản của riêng bạn - bạn có nhiều cách để tích hợp các mô hình vào ứng dụng của mình:

Triển khai cục bộ – Chạy trên phần cứng của bạn (DGX Spark hoặc GPU có đủ VRAM). Bản triển khai của chúng tôi yêu cầu khoảng 65GB dung lượng đĩa cho mô hình suy luận và khoảng 28GB cho mô hình thị giác.
Triển khai trên đám mây – Triển khai mô hình trên các GPU đám mây, ví dụ: thông qua NVIDIA Brev hoặc Hugging Face Inference Endpoints.
Điểm cuối mô hình không máy chủ – Gửi yêu cầu đến NVIDIA hoặc các Nhà cung cấp suy luận của Hugging Face.

Mang sức mạnh tác nhân cho Reachy

Biến một tác nhân AI từ giao diện trò chuyện đơn giản thành một thứ gì đó mà bạn có thể tương tác một cách tự nhiên sẽ làm cho các cuộc trò chuyện trở nên chân thực hơn. Khi một tác nhân AI có thể nhìn qua camera, nói thành tiếng và thực hiện hành động, trải nghiệm sẽ trở nên hấp dẫn hơn. Đó là điều mà Reachy Mini có thể làm được.

Reachy Mini được thiết kế để tùy chỉnh. Với quyền truy cập vào cảm biến, bộ truyền động và API, bạn có thể dễ dàng kết nối nó vào ngăn xếp tác nhân hiện có của mình, bằng cách mô phỏng hoặc điều khiển phần cứng thực tế trực tiếp từ Python.

Bài viết này tập trung vào việc kết hợp các khối xây dựng hiện có thay vì phát minh lại chúng. Chúng tôi kết hợp các mô hình mở cho suy luận và thị giác, một khuôn khổ tác nhân để điều phối và các trình xử lý công cụ cho hành động. Mỗi thành phần được ghép nối lỏng lẻo, giúp dễ dàng thay đổi mô hình, thay đổi logic định tuyến hoặc thêm các khả năng mới mà không cần viết lại logic cốt lõi.

Không giống như các trợ lý cá nhân độc quyền, thiết lập này vẫn hoàn toàn mở. Bạn kiểm soát các mô hình, các lời nhắc, các công cụ và hành động của robot. Reachy Mini chỉ đơn giản trở thành điểm cuối vật lý của tác nhân của bạn, nơi nhận thức, suy luận và hành động kết hợp lại với nhau.

Xây dựng tác nhân

Trong ví dụ này, chúng tôi sử dụng NVIDIA NeMo Agent Toolkit, một thư viện mã nguồn mở linh hoạt, nhẹ, độc lập với khuôn khổ, để kết nối tất cả các thành phần của tác nhân với nhau. Nó hoạt động liền mạch với các khuôn khổ tác nhân khác, như LangChain, LangGraph, CrewAI, xử lý cách các mô hình tương tác, định tuyến đầu vào và đầu ra giữa chúng, và giúp dễ dàng thử nghiệm với các cấu hình khác nhau hoặc thêm các khả năng mới mà không cần viết lại logic cốt lõi. Bộ công cụ cũng cung cấp các tính năng cấu hình và tối ưu hóa tích hợp sẵn, cho phép bạn theo dõi hiệu quả sử dụng token và độ trễ trên các công cụ và tác nhân, xác định các điểm nghẽn và tự động điều chỉnh siêu tham số để tối đa hóa độ chính xác đồng thời giảm chi phí và độ trễ.

Bước 0: Thiết lập và nhận quyền truy cập vào các mô hình và dịch vụ

Đầu tiên, hãy sao chép kho lưu trữ chứa tất cả mã bạn cần để làm theo:

shell git clone git@github.com/brevdev/reachy-personal-assistant cd reachy-personal-assistant

Để truy cập lớp thông minh của bạn, được cung cấp bởi các mô hình Nemotron của NVIDIA, bạn có thể triển khai chúng bằng NVIDIA NIM hoặc vLLM, hoặc kết nối với chúng thông qua các điểm cuối từ xa có sẵn tại build.nvidia.com.

Các hướng dẫn sau đây giả định bạn đang truy cập các mô hình Nemotron thông qua các điểm cuối. Tạo một tệp .env trong thư mục chính với khóa API của bạn. Đối với các bản triển khai cục bộ, bạn không cần chỉ định khóa API và có thể bỏ qua bước này.

shell NVIDIA_API_KEY=your_nvidia_api_key_here ELEVENLABS_API_KEY=your_elevenlabs_api_key_here

Bước 1: Xây dựng giao diện trò chuyện

Hãy bắt đầu bằng cách chạy một quy trình làm việc LLM cơ bản thông qua máy chủ API của NeMo Agent Toolkit. NeMo Agent Toolkit hỗ trợ chạy các quy trình làm việc thông qua nat serve và cung cấp tệp cấu hình. Tệp cấu hình được truyền ở đây chứa tất cả thông tin thiết lập cần thiết cho tác nhân, bao gồm các mô hình được sử dụng để trò chuyện, hiểu hình ảnh, cũng như mô hình định tuyến mà tác nhân sử dụng. Giao diện người dùng NeMo Agent Toolkit có thể kết nối qua HTTP/WebSocket để bạn có thể trò chuyện với quy trình làm việc của mình như một sản phẩm trò chuyện tiêu chuẩn. Trong bản triển khai này, máy chủ NeMo Agent Toolkit được khởi chạy trên cổng 8001 (để bot của bạn có thể gọi nó, và giao diện người dùng cũng vậy):

shell cd nat uv venv uv sync uv run –env-file ../.env nat serve –config_file src/ces_tutorial/config.yml –port 8001

Tiếp theo, hãy xác minh rằng bạn có thể gửi một lời nhắc văn bản thuần túy thông qua một thiết bị đầu cuối riêng biệt để đảm bảo mọi thứ đã được thiết lập đúng cách:

shell curl -s http://localhost:8001/v1/chat/completions
-H “Content-Type: application/json”
-d ‘{“model”: “test”, “messages”: [{“role”: “user”, “content”: “What is the capital of France?”}]}’

Xem xét cấu hình tác nhân, bạn sẽ nhận thấy nó định nghĩa nhiều khả năng hơn là chỉ hoàn thành trò chuyện đơn giản. Các bước tiếp theo sẽ đi sâu vào các chi tiết đó.

Bước 2: Thêm tác nhân ReAct tích hợp sẵn của NeMo Agent Toolkit để gọi công cụ

Gọi công cụ là một phần thiết yếu của các tác nhân AI. NeMo Agent Toolkit bao gồm một tác nhân ReAct tích hợp sẵn có thể suy luận giữa các lần gọi công cụ và sử dụng nhiều công cụ trước khi trả lời. Chúng tôi định tuyến “yêu cầu hành động” tới một tác nhân ReAct được phép gọi các công cụ (ví dụ: các công cụ kích hoạt hành vi của robot hoặc lấy trạng thái robot hiện tại).

Một số lưu ý thực tế cần ghi nhớ:

Giữ cho lược đồ công cụ chặt chẽ (tên/mô tả/tham số rõ ràng), vì đó là những gì tác nhân sử dụng để quyết định gọi gì.
Đặt giới hạn cứng cho các bước (max_tool_calls) để tác nhân không thể bị xoắn ốc.
Nếu sử dụng robot vật lý, hãy xem xét mẫu “xác nhận trước khi kích hoạt” cho các hành động vật lý để đảm bảo an toàn khi di chuyển.

Hãy xem phần cấu hình này, nó định nghĩa các công cụ (như tìm kiếm Wikipedia) và chỉ định mẫu tác nhân ReAct được sử dụng để quản lý chúng.

xml functions: wikipedia_search: _type: wiki_search max_results: 2

.. react_agent: _type: react_agent llm_name: agent_llm verbose: true parse_agent_response_max_retries: 3 tool_names: [wikipedia_search]

workflow: _type: ces_tutorial_router_agent agent: react_agent

Bước 3: Thêm bộ định tuyến để chuyển hướng truy vấn đến các mô hình khác nhau

Ý tưởng chính: không sử dụng một mô hình cho mọi thứ. Thay vào đó, hãy định tuyến dựa trên ý định:

Các truy vấn văn bản có thể sử dụng một mô hình văn bản nhanh
Các truy vấn trực quan phải được xử lý thông qua VLM
Các yêu cầu hành động/công cụ được định tuyến tới tác nhân ReAct + công cụ

Bạn có thể triển khai định tuyến theo một vài cách (thuật toán heuristic, bộ phân loại nhẹ hoặc dịch vụ định tuyến chuyên dụng). Nếu bạn muốn phiên bản “sản xuất” của ý tưởng này, ví dụ nhà phát triển NVIDIA LLM Router là triển khai tham chiếu đầy đủ và bao gồm các mẫu đánh giá và giám sát.

Một chính sách định tuyến cơ bản có thể hoạt động như sau:

Nếu người dùng đặt câu hỏi về môi trường của họ, hãy gửi yêu cầu đó tới VLM cùng với hình ảnh được chụp từ camera (hoặc Reachy).
Nếu người dùng đặt câu hỏi yêu cầu thông tin thời gian thực, hãy gửi đầu vào tới tác nhân ReACT để thực hiện tìm kiếm web thông qua lệnh gọi công cụ.
Nếu người dùng đặt câu hỏi đơn giản, hãy gửi yêu cầu tới một mô hình nhỏ và nhanh được tối ưu hóa cho việc trò chuyện.

Các phần của cấu hình này định nghĩa cấu trúc định tuyến và chỉ định mô hình định tuyến.

xml functions: ..

router: _type: router route_config: - name: other description: Any question that requires careful thought, outside information, image understanding, or tool calling to take actions. - name: chit_chat description: Any simple chit chat, small talk, or casual conversation. - name: image_understanding description: A question that requires the assistant to see the user eg a question about their appearance, environment, scene or surroundings. Examples what am I holding, what am I wearing, what do I look like, what is in my surroundings, what does it say on the whiteboard. Questions about attire eg what color is my shirt/hat/jacket/etc llm_name: routing_llm

llms: .. routing_llm: _type: nim model_name: microsoft/phi-3-mini-128k-instruct temperature: 0.0

LƯU Ý: Nếu bạn muốn giảm độ trễ/chi phí hoặc chạy ngoại tuyến, bạn có thể tự lưu trữ một trong các mô hình được định tuyến (thường là mô hình văn bản “nhanh”) và giữ VLM từ xa. Một phương pháp phổ biến là phục vụ thông qua NVIDIA NIM hoặc vLLM và trỏ NeMo Agent Toolkit tới một điểm cuối tương thích OpenAI.

Bước 4: Thêm bot Pipecat cho giọng nói + thị giác thời gian thực

Bây giờ chúng ta chuyển sang thời gian thực. Pipecat là một khuôn khổ được thiết kế cho các tác nhân giọng nói/đa phương thức có độ trễ thấp: nó điều phối các luồng âm thanh/video, dịch vụ AI và các phương tiện vận chuyển để bạn có thể xây dựng các cuộc trò chuyện tự nhiên. Trong kho lưu trữ này, dịch vụ bot chịu trách nhiệm:

Chụp hình ảnh (camera robot)
Nhận dạng giọng nói + chuyển văn bản thành giọng nói
Phối hợp chuyển động của robot và các hành vi biểu cảm

Bạn sẽ tìm thấy tất cả mã bot pipecat trong thư mục reachy-personal-assistant/bot.

Bước 5: Kết nối mọi thứ với Reachy (phần cứng hoặc mô phỏng)

Reachy Mini cung cấp một daemon mà phần còn lại của hệ thống kết nối tới. Kho lưu trữ chạy daemon ở chế độ mô phỏng theo mặc định (–sim). Nếu bạn có quyền truy cập vào Reachy thực tế, bạn có thể xóa cờ này và cùng mã sẽ điều khiển robot của bạn.

Chạy toàn bộ hệ thống

Bạn sẽ cần ba thiết bị đầu cuối để chạy toàn bộ hệ thống:

Thiết bị đầu cuối 1: Daemon Reachy

bash cd bot

macOS:

uv run mjpython -m reachy_mini.daemon.app.main –sim –no-localhost-only

Linux:

uv run -m reachy_mini.daemon.app.main –sim –no-localhost-only

Nếu bạn đang sử dụng phần cứng vật lý, hãy nhớ bỏ qua cờ –sim khỏi lệnh.

Thiết bị đầu cuối 2: Dịch vụ bot

bash cd bot uv venv uv sync uv run –env-file ../.env python main.py

Thiết bị đầu cuối 3: Dịch vụ NeMo Agent Toolkit

Nếu dịch vụ NeMo Agent Toolkit chưa chạy từ Bước 1, hãy khởi chạy nó ngay bây giờ trong Thiết bị đầu cuối 3.

bash cd nat uv venv uv sync uv run –env-file ../.env nat serve –config_file src/ces_tutorial/config.yml –port 8001

Sau khi tất cả các thiết bị đầu cuối được thiết lập, có hai cửa sổ chính cần theo dõi:

Reachy Sim – Cửa sổ này xuất hiện tự động khi bạn khởi chạy daemon mô phỏng trong Thiết bị đầu cuối 1. Điều này áp dụng nếu bạn đang chạy mô phỏng Reachy mini thay cho thiết bị vật lý.
Pipecat Playground – Đây là giao diện phía máy khách nơi bạn có thể kết nối với tác nhân, bật đầu vào micrô và camera, và xem các bản ghi trực tiếp. Trong Thiết bị đầu cuối 2, hãy mở URL được hiển thị bởi dịch vụ bot: http://localhost:7860/client/. Nhấp vào “CONNECT” trên trình duyệt của bạn. Có thể mất vài giây để khởi tạo và bạn sẽ được nhắc cấp quyền truy cập micrô (và tùy chọn camera).

Khi cả hai cửa sổ đều hoạt động:

Các chỉ báo TRẠNG THÁI của Client và Agent sẽ hiển thị SẴN SÀNG.
Bot sẽ chào bạn bằng tin nhắn chào mừng “Xin chào, tôi có thể giúp gì cho bạn hôm nay?”

Tại thời điểm này, bạn có thể bắt đầu tương tác với tác nhân của mình!

Hãy thử các lời nhắc ví dụ này

Đây là một vài lời nhắc đơn giản để giúp bạn kiểm tra trợ lý cá nhân của mình. Bạn có thể bắt đầu với những lời nhắc này và sau đó thử nghiệm bằng cách thêm lời nhắc của riêng bạn để xem tác nhân phản hồi như thế nào!

Lời nhắc chỉ văn bản (định tuyến đến mô hình văn bản nhanh)

“Giải thích những gì bạn có thể làm trong một câu.”
“Tóm tắt điều cuối cùng tôi đã nói.”

Lời nhắc thị giác (định tuyến đến VLM)

“Bạn đang cầm gì trên camera?”
“Đọc văn bản trên trang này và tóm tắt nó.”

Đi tiếp từ đâu

Thay vì một trợ lý “hộp đen”, điều này xây dựng một nền tảng cho một hệ thống riêng tư, có thể hack được, nơi bạn có thể kiểm soát cả trí thông minh và phần cứng. Bạn có thể kiểm tra, mở rộng và chạy nó cục bộ, với khả năng hiển thị đầy đủ luồng dữ liệu, quyền công cụ và cách robot nhận thức và hành động.

Tùy thuộc vào mục tiêu của bạn, đây là một vài hướng để khám phá tiếp theo:

Tối ưu hóa hiệu suất: Sử dụng ví dụ nhà phát triển LLM Router để cân bằng chi phí, độ trễ và chất lượng bằng cách định tuyến thông minh các truy vấn giữa các mô hình khác nhau.
Xem hướng dẫn để xây dựng tác nhân RAG được cung cấp bởi giọng nói với các biện pháp bảo vệ bằng các mô hình mở Nemotron.
Làm chủ phần cứng: Khám phá SDK Reachy Mini và tài liệu mô phỏng để thiết kế và kiểm tra các hành vi robot nâng cao trước khi triển khai cho hệ thống vật lý của bạn.
Khám phá và đóng góp vào các ứng dụng được cộng đồng xây dựng cho Reachy.

Muốn thử ngay? Triển khai toàn bộ môi trường tại đây. Chỉ với một cú nhấp chuột là bạn đã có thể chạy.

AI Today - SkyAI