CUGA on Hugging Face- Democratizing Configurable AI Agents
CUGA trên Hugging Face- Dân chủ hóa các Tác nhân AI có thể Cấu hình
- 8 min read
CUGA trên Hugging Face: Dân chủ hóa các Tác tử AI có thể cấu hình
AI Agents đang ngày càng trở nên thiết yếu để xây dựng các ứng dụng thông minh, nhưng việc tạo ra các tác tử mạnh mẽ, thích ứng và có khả năng mở rộng trên nhiều lĩnh vực vẫn là một thách thức. Nhiều framework hiện tại gặp phải vấn đề về sự thiếu ổn định, sử dụng công cụ sai và thất bại khi đối mặt với các quy trình làm việc phức tạp.
CUGA (Configurable Generalist Agent) được thiết kế để khắc phục những hạn chế này. Đây là một tác tử AI mã nguồn mở mang lại sự linh hoạt, độ tin cậy và dễ sử dụng cho các trường hợp sử dụng trong doanh nghiệp. Bằng cách trừu tượng hóa sự phức tạp của việc điều phối, CUGA cho phép các nhà phát triển tập trung vào các yêu cầu của lĩnh vực thay vì nội bộ của việc xây dựng tác tử. Và giờ đây, với sự tích hợp vào 🚀Hugging Face Spaces🚀, việc thử nghiệm CUGA và các mô hình mở chưa bao giờ dễ dàng hơn.
CUGA là gì?
CUGA là một tác tử AI đa năng, có thể cấu hình hỗ trợ các tác vụ phức tạp, nhiều bước trên môi trường web và API. Nó đã đạt được hiệu suất hàng đầu trên các bảng xếp hạng hàng đầu:
- 🥇 #1 trên AppWorld - một bảng xếp hạng với 750 tác vụ thực tế trên 457 API
- 🥈 Hạng cao trên WebArena (Hạng #1 từ 02/25 - 09/25) - thể hiện khả năng Sử dụng Máy tính của CUGA với một bảng xếp hạng phức tạp cho các tác tử web tự động trên các lĩnh vực ứng dụng
CUGA cung cấp:
- Tác tử đa năng hiệu suất cao: Được đánh giá trên các tác vụ web và API phức tạp, nó kết hợp các mẫu tác tử tốt nhất (ví dụ: planner-executor, code-act) với lập kế hoạch có cấu trúc và quản lý biến thông minh để ngăn chặn hiện tượng ảo giác và xử lý sự phức tạp.
- Chế độ suy luận có thể cấu hình: Cân bằng hiệu suất và chi phí/độ trễ với các chế độ linh hoạt, từ heuristic nhanh đến lập kế hoạch sâu, tối ưu hóa cho các yêu cầu tác vụ của bạn.
- Sử dụng máy tính: Dễ dàng kết hợp tương tác UI với việc gọi API trong một quy trình làm việc.
- Tích hợp đa công cụ: Tích hợp liền mạch các công cụ thông qua các đặc tả OpenAPI, giao thức MCP và LangChain, cho phép kết nối nhanh chóng với API REST, giao thức tùy chỉnh và hàm Python.
- Tích hợp với Langflow: Trải nghiệm xây dựng trực quan, ít mã để thiết kế và triển khai quy trình làm việc của tác tử mà không cần mã hóa sâu.
- Khả năng kết hợp: CUGA có thể được cung cấp dưới dạng một công cụ cho các tác tử khác, cho phép suy luận lồng nhau và cộng tác đa tác tử.
Chúng tôi cũng đang tiếp tục đổi mới với các khả năng thử nghiệm mới, bao gồm:
- Chính sách có thể cấu hình và hướng dẫn có sự tham gia của con người: Cải thiện sự căn chỉnh và đảm bảo hành vi tác tử an toàn trong bối cảnh doanh nghiệp.
- Khả năng lưu và tái sử dụng: Lưu trữ và tái sử dụng các đường dẫn thực thi thành công (kế hoạch, mã và quỹ đạo) để có hành vi nhanh hơn và nhất quán trên các tác vụ lặp lại.
Kiến trúc CUGA bắt đầu với tin nhắn của người dùng chảy vào một lớp trò chuyện diễn giải ý định và xây dựng mục tiêu của người dùng, dựa trên ngữ cảnh. Một thành phần lập kế hoạch và kiểm soát tác vụ sau đó phân rã mục tiêu này thành các nhiệm vụ phụ có cấu trúc, được theo dõi bằng chương trình thông qua một sổ đăng ký tác vụ động. Sổ đăng ký này hỗ trợ việc lập kế hoạch lại khi cần, đảm bảo thực thi mạnh mẽ. Các nhiệm vụ phụ được ủy quyền cho các tác tử chuyên biệt, chẳng hạn như tác tử API, sử dụng vòng lặp suy luận nội bộ để tạo hướng dẫn mã giả trước khi gọi mã trong một môi trường cát được bảo mật. Hệ thống tận dụng một kho công cụ vượt ra ngoài các giao thức MCP để phân tích và hiểu khả năng của công cụ, cho phép điều phối chính xác. Sau khi tất cả các bước hoàn thành, phản hồi cuối cùng sẽ được trả về cho người dùng, mang lại kết quả đáng tin cậy, phù hợp với chính sách.
CUGA hoạt động tốt nhất khi suy luận nhanh chóng. Khi mỗi lần gọi mất vài giây, độ trễ sẽ tích lũy và buộc phải đánh đổi giữa khả năng của tác tử và trải nghiệm người dùng. Chạy trên các nền tảng suy luận hiệu suất cao như Groq cho thấy suy luận nhanh chóng mở rộng đáng kể những gì kiến trúc tác tử có thể đạt được.
Mã nguồn mở và Mô hình mở
CUGA hoàn toàn mã nguồn mở, theo giấy phép Apache 2.0, và bạn có thể tìm thấy chúng tôi tại cuga.dev.
Bằng cách áp dụng các mô hình mở, CUGA phù hợp với triết lý của Hugging Face về việc dân chủ hóa AI, mang lại cho các nhà phát triển sự tự do lựa chọn các mô hình phù hợp nhất với nhu cầu của họ, cho dù là để thử nghiệm hay sản xuất.
CUGA đã được thử nghiệm với nhiều mô hình mở, bao gồm gpt-oss-120b và Llama-4-Maverick-17B-128E-Instruct-fp8 (cả hai đều được lưu trữ trên Groq). Không gian Hugging Face của chúng tôi sử dụng gpt-oss-120b, với mô hình được lưu trữ trên Groq, mang lại thời gian phản hồi nhanh chóng cho các lệnh gọi LLM.
Groq chạy các mô hình mở trên LPU tùy chỉnh của nó, được thiết kế cho suy luận AI và tối ưu hóa cho các suy luận tác tử lặp lại theo yêu cầu của kiến trúc CUGA, cho phép các bước lập kế hoạch, thực thi và xác thực hoàn thành nhanh chóng. Kết quả là chi phí và hiệu suất mạnh mẽ: các mô hình mở có chi phí thấp hơn ~80-90% so với các giải pháp thay thế đóng; API tương thích OpenAI của Groq đáp ứng nhu cầu về độ trễ sản xuất và CUGA vẫn có thể cấu hình đầy đủ trên các mô hình, nhà cung cấp và topo triển khai.
Tích hợp với Langflow: Thiết kế Tác tử Trực quan trở nên đơn giản
Để làm cho việc phát triển tác tử trở nên dễ tiếp cận hơn, CUGA tích hợp với Langflow, một giao diện lập trình trực quan mã nguồn mở để xây dựng các quy trình làm việc do LLM cung cấp. Giao diện kéo và thả trực quan của nó giảm thiểu rào cản gia nhập cho những người ưa thích các giải pháp ít mã.
Bắt đầu từ Langflow 1.7.0, CUGA đi kèm với widget riêng của nó, cho phép người dùng lắp ráp các tác tử đa công cụ phức tạp một cách trực quan và triển khai chỉ bằng một cú nhấp chuột. Hãy dùng thử tại langflow.org.
Thử bản demo Hugging Face: Xem trước thực tế
Chúng tôi đã ra mắt bản demo CUGA trên Hugging Face Spaces để mang đến cho bạn cái nhìn thoáng qua về những gì có thể. Bản demo này giới thiệu một hệ thống CRM nhỏ và trang bị cho CUGA 20 công cụ được cấu hình sẵn để xử lý các truy vấn dữ liệu liên quan đến bán hàng và các tương tác API thông qua Tác tử API. Để thử nghiệm mạnh mẽ hơn, bản demo cung cấp quyền truy cập vào các tệp không gian làm việc, cho phép bạn sử dụng các chính sách được xác định trước.
Hãy thử ngay trên Hugging Face Spaces và chia sẻ phản hồi của bạn!
Kết luận và Lời kêu gọi Hành động
CUGA mang đến một cấp độ linh hoạt và cởi mở mới cho việc xây dựng tác tử AI. Để tương tác với chúng tôi:
- Thử bản demo Hugging Face Spaces , thử nghiệm thiết lập CRM và các chính sách tùy chỉnh.
- Thử chúng tôi trên Langflow.
- Khám phá kho lưu trữ GitHub của CUGA để triển khai phiên bản của riêng bạn, thử các khả năng Sử dụng Máy tính, đi sâu hơn và đóng góp vào dự án.
- Vui lòng chia sẻ phản hồi của bạn! Những hiểu biết sâu sắc của bạn sẽ giúp định hình thế hệ tiếp theo của các tác tử AI có thể cấu hình.