Tại sao API Tương tác mới của Google lại quan trọng đối với các nhà phát triển AI

Trong hai năm qua, đơn vị cơ bản của sự phát triển AI sáng tạo là 'sự hoàn thành'.

  • 12 min read
Tại sao API Tương tác mới của Google lại quan trọng đối với các nhà phát triển AI
Trong hai năm qua, đơn vị cơ bản của sự phát triển AI sáng tạo là 'sự hoàn thành'.

Tại sao API Tương tác mới của Google lại quan trọng đối với các nhà phát triển AI

Trong hai năm qua, đơn vị cơ bản trong phát triển AI tạo sinh là “hoàn thành”. Bạn gửi một lời nhắc văn bản cho mô hình, nó trả lại văn bản và giao dịch kết thúc. Nếu bạn muốn tiếp tục cuộc trò chuyện, bạn phải gửi lại toàn bộ lịch sử cho mô hình. Kiến trúc “phi trạng thái” này — được thể hiện qua điểm cuối generateContent cũ của Google — rất phù hợp cho các chatbot đơn giản. Tuy nhiên, khi các nhà phát triển tiến tới các tác nhân tự trị sử dụng công cụ, duy trì trạng thái phức tạp và “suy nghĩ” trong thời gian dài, mô hình phi trạng thái đó đã trở thành một điểm nghẽn rõ ràng.

Tuần trước, Google DeepMind cuối cùng đã giải quyết khoảng trống cơ sở hạ tầng này với API Tương tác (/interactions) beta công khai.

Mặc dù OpenAI đã bắt đầu sự thay đổi này vào tháng 3 năm 2025 với API Responses của mình, sự tham gia của Google cho thấy những nỗ lực của họ để thúc đẩy công nghệ tiên tiến. API Tương tác không chỉ là một công cụ quản lý trạng thái; nó là một giao diện thống nhất được thiết kế để coi LLM ít giống như các trình tạo văn bản và giống như hệ điều hành từ xa hơn.

Mô hình “Tính toán Từ xa”

Sự đổi mới cốt lõi của API Tương tác là giới thiệu trạng thái phía máy chủ làm hành vi mặc định.

Trước đây, một nhà phát triển xây dựng một tác nhân phức tạp phải tự quản lý một danh sách JSON ngày càng tăng gồm mọi lượt “người dùng” và “mô hình”, gửi megabyte lịch sử qua lại với mỗi yêu cầu. Với API mới, các nhà phát triển chỉ cần truyền previous_interaction_id. Cơ sở hạ tầng của Google giữ lại lịch sử trò chuyện, đầu ra công cụ và quy trình “suy nghĩ” ở phía họ.

“Các mô hình đang trở thành hệ thống và theo thời gian, thậm chí có thể trở thành chính các tác nhân,” Ali Çevik và Philipp Schmid của DeepMind đã viết trong một bài đăng trên blog chính thức của công ty về mô hình mới. “Cố gắng ép các khả năng này vào generateContent sẽ dẫn đến một API quá phức tạp và dễ vỡ.”

Sự thay đổi này cho phép Thực thi nền, một tính năng quan trọng cho kỷ nguyên của các tác nhân. Các quy trình phức tạp — như duyệt web trong một giờ để tổng hợp một báo cáo — thường kích hoạt thời gian chờ HTTP trong các API tiêu chuẩn. API Tương tác cho phép các nhà phát triển kích hoạt một tác nhân với background=true, ngắt kết nối và thăm dò kết quả sau. Nó hiệu quả biến API thành một hàng đợi công việc cho trí tuệ.

Hỗ trợ “Nghiên cứu Sâu” và MCP Gốc

Google đang sử dụng cơ sở hạ tầng mới này để cung cấp tác nhân tích hợp đầu tiên của họ: Gemini Deep Research.

Có thể truy cập thông qua cùng một điểm cuối /interactions, tác nhân này có khả năng thực hiện “các tác vụ nghiên cứu dài hạn”. Không giống như một mô hình tiêu chuẩn dự đoán token tiếp theo dựa trên lời nhắc của bạn, tác nhân Deep Research thực hiện một vòng lặp tìm kiếm, đọc và tổng hợp.

Quan trọng là, Google cũng đang đón nhận hệ sinh thái mở bằng cách thêm hỗ trợ gốc cho Giao thức Ngữ cảnh Mô hình (MCP). Điều này cho phép các mô hình Gemini gọi trực tiếp các công cụ bên ngoài được lưu trữ trên máy chủ từ xa — chẳng hạn như dịch vụ thời tiết hoặc cơ sở dữ liệu — mà không cần nhà phát triển phải viết mã kết nối tùy chỉnh để phân tích các lệnh gọi công cụ.

Bối cảnh: Google Tham gia Kỷ nguyên “Trạng thái” của OpenAI

Google có thể đang chơi trò bắt kịp, nhưng với một sự khác biệt triết học rõ rệt. OpenAI đã chuyển sang trạng thái chín tháng trước với việc ra mắt API Responses vào tháng 3 năm 2025.

Mặc dù cả hai gã khổng lồ đều đang giải quyết vấn đề phình to ngữ cảnh, các giải pháp của họ lại khác nhau về tính minh bạch:

  • OpenAI (Phương pháp Nén): API Responses của OpenAI giới thiệu Compaction — một tính năng thu nhỏ lịch sử trò chuyện bằng cách thay thế đầu ra công cụ và chuỗi suy luận bằng “các mục nén được mã hóa” không rõ ràng. Điều này ưu tiên hiệu quả token nhưng tạo ra một “hộp đen” nơi suy luận trong quá khứ của mô hình bị ẩn khỏi nhà phát triển.
  • Google (Phương pháp Lưu trữ): API Tương tác của Google giữ cho toàn bộ lịch sử có sẵn và có thể kết hợp. Mô hình dữ liệu cho phép các nhà phát triển “gỡ lỗi, thao tác, truyền và suy luận trên các tin nhắn xen kẽ”. Nó ưu tiên khả năng kiểm tra hơn là nén.

Mô hình được Hỗ trợ & Tính khả dụng

API Tương tác hiện đang ở Giai đoạn Beta Công khai (tài liệu tại đây) và có sẵn ngay lập tức thông qua Google AI Studio. Nó hỗ trợ toàn bộ các mô hình thế hệ mới nhất của Google, đảm bảo rằng các nhà phát triển có thể kết hợp kích thước mô hình phù hợp với tác vụ tác nhân cụ thể của họ:

  • Gemini 3.0: Gemini 3 Pro Preview.
  • Gemini 2.5: Flash, Flash-lite và Pro.
  • Agents: Deep Research Preview (deep-research-pro-preview-12-2025).

Về mặt thương mại, API tích hợp vào cấu trúc giá hiện tại của Google — bạn trả phí tiêu chuẩn cho token đầu vào và đầu ra dựa trên mô hình bạn chọn. Tuy nhiên, đề xuất giá trị thay đổi với các chính sách lưu giữ dữ liệu mới. Bởi vì API này có trạng thái, Google phải lưu trữ lịch sử tương tác của bạn để cho phép các tính năng như lưu trữ ẩn và truy xuất ngữ cảnh.

Quyền truy cập vào bộ nhớ này được xác định bởi bậc của bạn. Các nhà phát triển ở Bậc Miễn phí bị giới hạn trong chính sách lưu giữ 1 ngày, phù hợp cho việc kiểm tra tạm thời nhưng không đủ cho bộ nhớ tác nhân dài hạn.

Các nhà phát triển ở Bậc Trả phí mở khóa chính sách lưu giữ 55 ngày. Việc lưu giữ mở rộng này không chỉ để kiểm tra; nó thực tế giảm tổng chi phí sở hữu của bạn bằng cách tối đa hóa lượt truy cập bộ nhớ đệm. Bằng cách giữ lịch sử “nóng” trên máy chủ trong gần hai tháng, bạn tránh phải trả tiền để xử lý lại các cửa sổ ngữ cảnh lớn cho người dùng lặp lại, làm cho Bậc Trả phí hiệu quả hơn đáng kể cho các tác nhân cấp sản xuất.

Lưu ý: Vì đây là bản phát hành Beta, Google đã khuyên rằng các tính năng và lược đồ có thể thay đổi.

“Bạn Đang Tương tác với Một Hệ thống”

Sam Witteveen, Chuyên gia Nhà phát triển Google về Học máy và Giám đốc điều hành của Red Dragon AI, xem bản phát hành này như một sự tiến hóa cần thiết của ngăn xếp nhà phát triển.

“Nếu chúng ta quay ngược lại lịch sử… toàn bộ ý tưởng là văn bản đơn giản-vào, văn bản-ra,” Witteveen lưu ý trong một phân tích kỹ thuật về bản phát hành trên YouTube. “Nhưng bây giờ… bạn đang tương tác với một hệ thống. Một hệ thống có thể sử dụng nhiều mô hình, thực hiện nhiều vòng gọi, sử dụng công cụ và thực hiện thực thi mã ở backend.”

Witteveen nhấn mạnh lợi ích kinh tế ngay lập tức của kiến trúc này: Lưu trữ ẩn. Bởi vì lịch sử trò chuyện tồn tại trên máy chủ của Google, các nhà phát triển không bị tính phí khi tải lên lại cùng một ngữ cảnh nhiều lần. “Bạn không phải trả nhiều tiền cho các token mà bạn đang gọi,” ông giải thích.

Tuy nhiên, bản phát hành không phải là không có những khó khăn. Witteveen đã phê bình việc triển khai hệ thống trích dẫn hiện tại của tác nhân Deep Research. Mặc dù tác nhân cung cấp các nguồn, các URL được trả về thường được bao bọc trong các liên kết chuyển hướng nội bộ của Google/Vertex AI thay vì các URL thô, có thể sử dụng được.

“Điều khiến tôi khó chịu nhất là… các URL này, nếu tôi lưu chúng và cố gắng sử dụng chúng trong một phiên khác, chúng sẽ không hoạt động,” Witteveen cảnh báo. “Nếu tôi muốn lập một báo cáo cho ai đó có trích dẫn, tôi muốn họ có thể nhấp vào các URL từ một tệp PDF… Việc có một cái gì đó như medium.com làm trích dẫn [mà không có liên kết trực tiếp] không tốt lắm.”

Điều này Có ý nghĩa Gì đối với Nhóm của Bạn

Đối với các Kỹ sư Trưởng AI tập trung vào triển khai và tinh chỉnh mô hình nhanh chóng, bản phát hành này cung cấp một giải pháp kiến trúc trực tiếp cho vấn đề “thời gian chờ” dai dẳng: Thực thi Nền.

Thay vì xây dựng các trình xử lý bất đồng bộ phức tạp hoặc quản lý các hàng đợi công việc riêng biệt cho các tác vụ suy luận chạy dài, bạn giờ đây có thể chuyển sự phức tạp này trực tiếp cho Google. Tuy nhiên, sự tiện lợi này mang lại một sự đánh đổi chiến lược.

Mặc dù tác nhân Deep Research mới cho phép triển khai nhanh chóng các khả năng nghiên cứu phức tạp, nó hoạt động như một “hộp đen” so với các luồng LangChain hoặc LangGraph tùy chỉnh. Các kỹ sư nên tạo mẫu một tính năng “suy nghĩ chậm” bằng cách sử dụng tham số background=true để đánh giá xem tốc độ triển khai có vượt trội hơn sự mất kiểm soát chi tiết đối với vòng lặp nghiên cứu hay không.

Các kỹ sư cấp cao quản lý điều phối AI và ngân sách sẽ thấy rằng việc chuyển sang trạng thái phía máy chủ thông qua previous_interaction_id mở khóa Lưu trữ Ẩn, một chiến thắng lớn cho cả các chỉ số chi phí và độ trễ.

Bằng cách tham chiếu lịch sử được lưu trữ trên máy chủ của Google, bạn tự động tránh được chi phí token liên quan đến việc tải lên lại các cửa sổ ngữ cảnh lớn, giải quyết trực tiếp các ràng buộc về ngân sách đồng thời duy trì hiệu suất cao.

Thách thức ở đây nằm ở chuỗi cung ứng; việc kết hợp MCP từ xa (Giao thức Ngữ cảnh Mô hình) có nghĩa là các tác nhân của bạn đang kết nối trực tiếp với các công cụ bên ngoài, yêu cầu bạn phải xác thực nghiêm ngặt rằng các dịch vụ từ xa này an toàn và được xác thực. Đã đến lúc kiểm toán chi tiêu token hiện tại của bạn về việc gửi lại lịch sử trò chuyện — nếu nó cao, việc ưu tiên di chuyển sang API Tương tác có trạng thái có thể mang lại tiết kiệm đáng kể.

Đối với các Kỹ sư Dữ liệu Cao cấp, API Tương tác cung cấp một mô hình dữ liệu mạnh mẽ hơn các bản ghi văn bản thô. Lược đồ có cấu trúc cho phép gỡ lỗi và suy luận lịch sử phức tạp, cải thiện Tính toàn vẹn Dữ liệu tổng thể trên các đường ống của bạn. Tuy nhiên, bạn phải cảnh giác với Chất lượng Dữ liệu, đặc biệt là vấn đề được nêu ra bởi chuyên gia Sam Witteveen về các trích dẫn.

Tác nhân Deep Research hiện trả về các URL “được bao bọc” có thể hết hạn hoặc bị lỗi, thay vì các liên kết nguồn thô. Nếu các đường ống của bạn phụ thuộc vào việc thu thập hoặc lưu trữ các nguồn này, bạn có thể cần xây dựng một bước làm sạch để trích xuất các URL có thể sử dụng được. Bạn cũng nên kiểm tra khả năng đầu ra có cấu trúc (response_format) để xem liệu chúng có thể thay thế việc phân tích cú pháp regex mong manh trong các đường ống ETL hiện tại của bạn hay không.

Cuối cùng, đối với Giám đốc An ninh IT, việc chuyển trạng thái sang máy chủ tập trung của Google mang đến một nghịch lý. Nó có thể cải thiện bảo mật bằng cách giữ khóa API và lịch sử trò chuyện khỏi các thiết bị máy khách, nhưng nó lại tạo ra một rủi ro cư trú dữ liệu mới. Kiểm tra quan trọng ở đây là Chính sách Lưu giữ Dữ liệu của Google: mặc dù Bậc Miễn phí chỉ giữ dữ liệu trong một ngày, Bậc Trả phí giữ lịch sử tương tác trong 55 ngày.

Điều này trái ngược với các tùy chọn doanh nghiệp “Không Lưu giữ Dữ liệu” (ZDR) của OpenAI. Bạn phải đảm bảo rằng việc lưu trữ lịch sử trò chuyện nhạy cảm trong gần hai tháng tuân thủ quản trị nội bộ của bạn. Nếu điều này vi phạm chính sách của bạn, bạn phải cấu hình các lệnh gọi với store=false, mặc dù làm như vậy sẽ vô hiệu hóa các tính năng có trạng thái — và lợi ích chi phí — làm cho API mới này có giá trị.

Recommended for You

AI của Quilter vừa thiết kế máy tính Linux gồm 843 bộ phận và nó đã khởi động ngay lần thử đầu tiên. Phần cứng sẽ không bao giờ như cũ.

AI của Quilter vừa thiết kế máy tính Linux gồm 843 bộ phận và nó đã khởi động ngay lần thử đầu tiên. Phần cứng sẽ không bao giờ như cũ.

AI của Quilter vừa thiết kế máy tính Linux gồm 843 bộ phận và nó đã khởi động ngay lần thử đầu tiên. Phần cứng sẽ không bao giờ như cũ.

Cảm biến thời gian chạy của Hud cắt giảm thời gian phân loại từ 3 giờ xuống còn 10 phút

Cảm biến thời gian chạy của Hud cắt giảm thời gian phân loại từ 3 giờ xuống còn 10 phút

Cảm biến thời gian chạy của Hud cắt giảm thời gian phân loại từ 3 giờ xuống còn 10 phút