Cách một Agent Xây dựng Phòng triển lãm Paris 3D bằng cách Kết nối hai Hugging Face Spaces
Hướng dẫn cách một Agent xây dựng Phòng triển lãm Paris 3D bằng cách kết nối hai Hugging Face Spaces
- 6 min read
Cách một AI Agent xây dựng phòng triển lãm 3D về Paris bằng cách kết nối hai Hugging Face Space
Một AI Agent đã xây dựng phòng triển lãm 3D về Paris từ hai Hugging Face Space.
Tôi đã yêu cầu một AI Agent lập trình xây dựng một trang web đẹp mắt để trình bày các công trình kiến trúc của Paris dưới dạng 3D Gaussian splats. Tôi không hề mở trình tạo ảnh, cũng không chạm vào bất kỳ công cụ tái tạo 3D nào. Agent này đã tự tạo ra mọi tài nguyên (cả hình ảnh và các bản splat 3D) bằng cách gọi trực tiếp hai Hugging Face Space, sau đó kết nối chúng vào một trình xem đậm chất điện ảnh.
Đây là kết quả, hiện đang chạy dưới dạng một Space tĩnh: 👉 mishig/monuments-de-paris
Bài viết này nói về việc làm thế nào điều đó khả thi vào lúc này, và tại sao tôi nghĩ đây là bản xem trước cho cách mà nhiều phần mềm đa phương tiện sẽ được xây dựng từ nay về sau.
Nền kinh tế “khối xây dựng” đến với đa phương tiện
Mitchell Hashimoto gần đây đã mô tả một sự chuyển dịch mà ông gọi là nền kinh tế khối xây dựng (building block economy): con đường hiệu quả nhất để tạo ra phần mềm không còn là một khối monolith bóng bẩy, mà là những thành phần nhỏ, được tài liệu hóa tốt để những người khác (và ngày càng nhiều là các AI Agent) có thể lắp ráp lại. Quan sát chính của ông là: AI có thể xây dựng mọi thứ từ con số không ở mức ổn, nhưng nó thực sự giỏi trong việc gắn kết các mảnh ghép đã được kiểm chứng.
Luận điểm đó chủ yếu được nói về các thư viện mã nguồn. Nhưng những động lực tương tự cũng đang tác động đến AI đa phương tiện. Phần khó nhất khi sử dụng một mô hình hình ảnh, video, TTS (chuyển văn bản thành giọng nói) hoặc mô hình tái tạo 3D tiên tiến nhất chưa bao giờ nằm ở bản thân mô hình. Mà nó nằm ở việc tích hợp: SDK, trọng số (weights), GPU, định dạng đầu vào, polling. Nếu mỗi mô hình là một khối có tài liệu và có thể gọi được, một Agent có thể gắn kết chúng lại giống như cách nó kết hợp các gói npm.
Đó chính xác là những gì Hugging Face Spaces đang âm thầm trở thành.
Mỗi Space là một khối xây dựng thông qua agents.md
Hub lưu trữ hàng nghìn mô hình tiên tiến (một phần lớn trong số đó là mở trọng số - open-weights), và hầu hết được triển khai dưới dạng các Space tương tác. Hiện nay, mỗi Gradio Space đều cung cấp một tệp văn bản thuần agents.md hướng dẫn Agent chính xác cách gọi nó:
curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md
Lệnh này trả về mọi thứ cần thiết trong một lần gọi: URL sơ đồ (schema), mẫu gọi (call) và mẫu kiểm tra kết quả (poll), cách tải tệp lên và gợi ý xác thực:
API schema: GET .../gradio_api/info
Call endpoint: POST .../gradio_api/call/v2/{endpoint} {"param_name": value, ...}
Poll result: GET .../gradio_api/call/{endpoint}/{event_id}
File inputs: POST .../gradio_api/upload -F "files=@file.ext"
Auth: Bearer $HF_TOKEN
Không cần thư viện client. Không cần tích hợp cứng. Một Agent chỉ cần đọc tệp đó là có thể điều khiển Space từ đầu đến cuối. Chỉ cần thiết lập một HF_TOKEN và bạn có thể bắt đầu.
Điểm mấu chốt thực sự là kết nối chuỗi (chaining): đầu ra của Space này trở thành đầu vào của Space tiếp theo. Prompt $\rightarrow$ hình ảnh $\rightarrow$ 3D. Đó chính là toàn bộ quy trình đằng sau phòng triển lãm này.
Ví dụ thực tế: Công trình Paris $\rightarrow$ Splats
Agent đã kết nối hai Space:
- Hình ảnh:
ideogram-ai/ideogram4biến mỗi công trình thành một bức ảnh “mẫu vật” sạch sẽ trên nền tối (và biến tháp Eiffel thành một mô hình sa bàn nhỏ trên bệ đỡ). Nhập Prompt, xuất ra hình ảnh. - Splat:
VAST-AI/TripoSplattái tạo một Gaussian splat 3D (.ply) từ một hình ảnh duy nhất. Nhập hình ảnh, xuất ra 3D.
Hình ảnh được tạo ra:
Bản splat được tái tạo:
Sáu hình ảnh nguồn mà Agent đã tạo, tất cả đều tách biệt trên nền đen, sẵn sàng cho việc tái tạo 3D từ một ảnh duy nhất:
Từ đó, Agent cũng đảm nhận phần việc “gắn kết”. Nó nhận ra đầu ra của TripoSplat bị ngược trục Y và đã lật ngược chúng lại, tự động căn khung cho mỗi công trình, nén các tệp .ply thành .ksplat (nhỏ hơn khoảng 3 lần để tải nhanh hơn), xây dựng trình xem Three.js với giao diện cuộn để chuyển đổi và kéo để xoay, sau đó triển khai toàn bộ dưới dạng một Space tĩnh. Những đóng góp duy nhất của con người là về mặt thẩm mỹ: “hãy thu nhỏ lại”, “thay thế hình kim tự tháp bằng thứ gì đó tốt hơn để tạo splat”, “hiệu ứng chuyển cảnh kéo dài quá lâu”.
Một vài bước trong số đó là Agent đang phản ứng với thực tế. Một kim tự tháp kính rộng không thể tạo splat tốt. Một cột đá mỏng thì nhàm chán. Việc tái tạo từ một góc nhìn duy nhất buộc AI phải tự suy luận mặt sau. Đó chính xác là vòng lặp “thuê ngoài R&D, lặp lại nhanh chóng” mà nền kinh tế khối xây dựng dự đoán, ngoại trừ việc R&D ở đây là một cuộc trò chuyện.
Tại sao điều này lại quan trọng
- Các mô hình trở nên có thể lắp ghép. Một mô hình splat SOTA và một mô hình hình ảnh SOTA từ hai tổ chức khác nhau, được kết nối mà không cần một dòng mã tích hợp nào. Danh mục open-weights của Hub trở thành một thư viện các thành phần đa phương tiện có thể gọi được.
- Agent ưu tiên những gì được tài liệu hóa và dễ tiếp cận.
agents.mdkhiến một Space trở nên cực kỳ dễ tiếp cận, vì vậy Agent sẽ chọn nó thay vì một mô hình mà nó phải tự cài đặt thủ công. Đây chính là động lực mà Hashimoto đã chỉ ra đối với các thư viện mã nguồn mở. - Rào cản nằm ở việc tích hợp, và giờ đây nó gần như biến mất. “Biến một câu lệnh thành một công trình 3D xoay” từng là một dự án lớn. Ở đây, nó chỉ là một bước trong một quy trình.
Hãy tự thử nghiệm
Hãy hướng Agent của bạn đến tệp agents.md của một Space và để nó “trổ tài”:
# Tạo hình ảnh
curl https://huggingface.co/spaces/ideogram-ai/ideogram4/agents.md
# Chuyển một hình ảnh thành 3D gaussian splat
curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md
Dán một trong hai liên kết này vào Agent lập trình của bạn (như Claude Code, v.v.), thiết lập HF_TOKEN và yêu cầu nó xây dựng thứ gì đó. Toàn bộ quy trình có thể tái lập cho phòng triển lãm này, cùng các tập lệnh gọi hai endpoint agents.md trên, nằm trong Space repo.
Các khối xây dựng đã nằm sẵn trên Hub. Các Agent đã biết cách gắn kết chúng.
Link bài viết gốc
- Tags:
- Ai
- June 9, 2026
- Huggingface.co




