Phản hồi mở- Những gì bạn cần biết

February 2, 2026
9 min read

Open Responses: Những điều bạn cần biết

Chúng tôi đang trên hành trình thúc đẩy và dân chủ hóa trí tuệ nhân tạo thông qua mã nguồn mở và khoa học mở.

Open Responses là một tiêu chuẩn suy luận mới và mã nguồn mở. Được khởi xướng bởi OpenAI, xây dựng bởi cộng đồng AI mã nguồn mở và được hỗ trợ bởi hệ sinh thái Hugging Face, Open Responses dựa trên API Responses và được thiết kế cho tương lai của các tác tử (Agents). Trong bài đăng blog này, chúng ta sẽ xem xét cách Open Responses hoạt động và tại sao cộng đồng mã nguồn mở nên sử dụng Open Responses.

Thời đại của chatbot đã qua lâu rồi và các tác tử chiếm ưu thế trong các tác vụ suy luận. Các nhà phát triển đang chuyển sang các hệ thống tự động suy luận, lập kế hoạch và hành động trong thời gian dài. Bất chấp sự thay đổi này, phần lớn hệ sinh thái vẫn sử dụng định dạng Chat Completion, được thiết kế cho các cuộc trò chuyện theo lượt và không đáp ứng được các trường hợp sử dụng của tác tử. Định dạng Responses đã được thiết kế để giải quyết những hạn chế này, nhưng nó là đóng và chưa được áp dụng rộng rãi. Định dạng Chat Completion vẫn là tiêu chuẩn mặc định mặc dù có các giải pháp thay thế.

Sự không phù hợp giữa các yêu cầu của quy trình làm việc của tác tử và các giao diện đã ăn sâu vào động lực thúc đẩy nhu cầu về một tiêu chuẩn suy luận mở. Trong những tháng tới, chúng tôi sẽ hợp tác với cộng đồng và các nhà cung cấp suy luận để triển khai và điều chỉnh Open Responses sang một định dạng chung, có khả năng thay thế Chat Completions trong thực tế.

Open Responses xây dựng dựa trên định hướng mà OpenAI đã đặt ra với API Responses ra mắt vào tháng 3 năm 2025, thay thế các API Completion và Assistants hiện có bằng một cách nhất quán để:

Tạo ra văn bản, hình ảnh và kết quả đầu ra có cấu trúc JSON
Tạo nội dung video thông qua một điểm cuối dựa trên tác vụ riêng biệt
Chạy các vòng lặp của tác tử trên phía nhà cung cấp, tự động thực thi các lệnh gọi công cụ và trả về kết quả cuối cùng.

Open Responses là gì?

Open Responses mở rộng và mở mã nguồn API Responses, làm cho nó dễ tiếp cận hơn đối với những người xây dựng và nhà cung cấp định tuyến để tương tác và cộng tác trên các lợi ích chung.

Một số điểm chính là:

Mặc định là stateless, hỗ trợ suy luận được mã hóa cho các nhà cung cấp yêu cầu điều đó.
Các tham số cấu hình mô hình tiêu chuẩn.
Streaming được mô hình hóa như một chuỗi các sự kiện ngữ nghĩa, không phải văn bản thô hoặc các delta đối tượng.
Có thể mở rộng thông qua các tham số cấu hình cụ thể cho các nhà cung cấp mô hình nhất định.

Chúng ta cần biết gì để xây dựng với Open Responses?

Chúng ta sẽ cùng khám phá những thay đổi cốt lõi ảnh hưởng đến hầu hết các thành viên cộng đồng. Nếu bạn muốn tìm hiểu sâu về thông số kỹ thuật, hãy xem tài liệu Open Responses.

Yêu cầu của Khách hàng đối với Open Responses

Yêu cầu của Khách hàng đối với Open Responses tương tự như API Responses hiện có. Dưới đây là ví dụ về yêu cầu đối với API Open Responses bằng curl. Chúng tôi đang gọi một điểm cuối proxy định tuyến đến các Nhà cung cấp Suy luận bằng lược đồ API Open Responses.

bash curl https://evalstate-openresponses.hf.space/v1/responses
-H “Content-Type: application/json”
-H “Authorization: Bearer $HF_TOKEN” \

-H “OpenResponses-Version: latest”
-N
-d ‘{ “model”: “moonshotai/Kimi-K2-Thinking:nebius”, “input”: “explain the theory of life” }’

Thay đổi đối với Khách hàng và Nhà cung cấp Suy luận

Các Khách hàng đã hỗ trợ API Responses có thể di chuyển sang Open Responses với nỗ lực tương đối ít. Những thay đổi chính liên quan đến cách nội dung suy luận được hiển thị:

Khả năng hiển thị suy luận mở rộng: Open Responses chuẩn hóa ba trường tùy chọn cho các mục suy luận: content (dấu vết suy luận thô), encrypted_content (nội dung được bảo vệ theo nhà cung cấp) và summary (đã làm sạch từ các dấu vết thô).

Các mô hình OpenAI trước đây chỉ hiển thị summary và encrypted_content. Với Open Responses, các nhà cung cấp có thể hiển thị suy luận thô của họ thông qua API. Các Khách hàng di chuyển từ các nhà cung cấp trước đây chỉ trả về tóm tắt và nội dung được mã hóa giờ đây sẽ có cơ hội nhận và xử lý các luồng suy luận thô khi được nhà cung cấp đã chọn hỗ trợ.
Triển khai các thay đổi và tải trọng trạng thái phong phú hơn, bao gồm khả năng quan sát chi tiết hơn—ví dụ: một Trình thông dịch mã được lưu trữ có thể gửi trạng thái interpreting cụ thể để cải thiện khả năng hiển thị của tác tử và người dùng trong các hoạt động kéo dài.

Đối với Nhà cung cấp Mô hình, việc triển khai các thay đổi cho Open Responses sẽ tương đối đơn giản nếu họ đã tuân thủ thông số kỹ thuật của API Responses. Đối với Bộ định tuyến, giờ đây có cơ hội để chuẩn hóa trên một điểm cuối nhất quán và hỗ trợ các tùy chọn cấu hình để tùy chỉnh khi cần thiết.

Theo thời gian, khi các Nhà cung cấp tiếp tục đổi mới, các tính năng nhất định sẽ trở thành tiêu chuẩn trong thông số kỹ thuật cơ sở.

Tóm lại, việc di chuyển sang Open Responses sẽ làm cho trải nghiệm suy luận nhất quán hơn và cải thiện chất lượng khi các phần mở rộng không được ghi lại, diễn giải và các giải pháp tạm thời của API Completions cũ được chuẩn hóa trong Open Responses.

Bạn có thể xem cách truyền các khối suy luận bên dưới.

json { “model”: “moonshotai/Kimi-K2-Thinking:together”, “input”: [ { “type”: “message”, “role”: “user”, “content”: “explain photosynthesis.” } ], “stream”: true }

Đây là sự khác biệt giữa việc nhận Open Response và sử dụng OpenAI Responses cho các delta suy luận:

json // Các mô hình trọng lượng mở truyền suy luận thô event: response.reasoning.delta data: { “delta”: “User asked: ‘Where should I eat…’ Step 1: Parse location…”, … }

// Các mô hình có suy luận được mã hóa gửi tóm tắt, hoặc được gửi như một sự tiện lợi bởi các mô hình trọng lượng mở event: response.reasoning_summary_text.delta data: { “delta”: “Determined user wants restaurant recommendations”, … }

Open Responses cho Định tuyến

Open Responses phân biệt giữa “Nhà cung cấp Mô hình” — những người cung cấp suy luận — và “Bộ định tuyến” — các trung gian điều phối giữa nhiều nhà cung cấp.

Khách hàng giờ đây có thể chỉ định một Nhà cung cấp cùng với các tùy chọn API cụ thể của nhà cung cấp khi đưa ra yêu cầu, cho phép Bộ định tuyến trung gian điều phối các yêu cầu giữa các nhà cung cấp thượng nguồn.

Công cụ

Open Responses hỗ trợ nguyên thủy hai loại công cụ: nội bộ và bên ngoài. Các công cụ được lưu trữ bên ngoài được triển khai bên ngoài hệ thống của nhà cung cấp mô hình. Ví dụ: các hàm phía máy khách sẽ được thực thi, hoặc máy chủ MCP. Các công cụ được lưu trữ bên trong nằm trong hệ thống của nhà cung cấp mô hình. Ví dụ: tìm kiếm tệp của OpenAI hoặc tích hợp Google Drive. Các lệnh gọi mô hình, thực thi và truy xuất kết quả hoàn toàn trong cơ sở hạ tầng của nhà cung cấp, không yêu cầu sự can thiệp của nhà phát triển.

Vòng lặp Tác tử con

Open Responses chuẩn hóa vòng lặp tác tử thường bao gồm một chu kỳ lặp lại của suy luận, gọi công cụ và tạo phản hồi, cho phép các mô hình tự động hoàn thành các tác vụ nhiều bước.

Sơ đồ quy trình Nguồn ảnh: openresponses.org

Vòng lặp hoạt động như sau:

API nhận yêu cầu của người dùng và lấy mẫu từ mô hình
Nếu mô hình phát ra lệnh gọi công cụ, API sẽ thực thi nó (nội bộ hoặc bên ngoài)
Kết quả công cụ được đưa trở lại cho mô hình để tiếp tục suy luận
Vòng lặp lặp lại cho đến khi mô hình báo hiệu hoàn thành

Đối với các công cụ được lưu trữ nội bộ, nhà cung cấp quản lý toàn bộ vòng lặp; thực thi công cụ, trả về kết quả cho mô hình và truyền đầu ra. Điều này có nghĩa là các quy trình làm việc nhiều bước như “tìm kiếm tài liệu, tóm tắt kết quả, sau đó soạn email” sử dụng một yêu cầu duy nhất.

Khách hàng kiểm soát hành vi vòng lặp thông qua max_tool_calls để giới hạn số lần lặp lại và tool_choice để giới hạn các công cụ có thể gọi:

json { “model”: “zai-org/GLM-4.7”, “input”: “Find Q3 sales data and email a summary to the team”, “tools”: […], “max_tool_calls”: 5, “tool_choice”: “auto” }

Phản hồi chứa tất cả các mục trung gian: lệnh gọi công cụ, kết quả, suy luận.

Các bước tiếp theo

Open Responses mở rộng và cải thiện API Responses, cung cấp các định nghĩa nội dung, khả năng tương thích và tùy chọn triển khai phong phú hơn và chi tiết hơn. Nó cũng cung cấp một cách tiêu chuẩn để thực thi các vòng lặp tác tử con trong các lệnh gọi suy luận chính, mở ra các khả năng mạnh mẽ cho các Ứng dụng AI. Chúng tôi mong muốn được làm việc với nhóm Open Responses và cộng đồng nói chung về việc phát triển thông số kỹ thuật trong tương lai.

Kiểm tra chấp nhận

Bạn có thể dùng thử Open Responses với Hugging Face Inference Providers ngay hôm nay. Chúng tôi có một phiên bản truy cập sớm có sẵn để sử dụng trên Hugging Face Spaces - hãy thử nghiệm với Công cụ Tuân thủ Khách hàng và Open Responses của bạn ngay hôm nay!

Bài viết khác từ blog của chúng tôi

Cộng đồng

ashim: Does this mean that the next step for local llm endpoint providers (like vLLM) is to support hosted tools?
evalstate: Yes - I think we will see a lot more of this pattern especially for Agents offloading work to sub-agent Tool Loops via Open Responses. 🚀👍
jimazmarin: Are you going to open source the code of the API?
njbrake: This comment has been hidden (marked as Resolved)
akwako: I hope this doesn’t normalize the obscuring of raw output.

Công ty

Website

AI Today - SkyAI