Xây dựng Nghiên cứu Sâu- Cách chúng tôi Đạt được Hiện trạng

Bài viết trình bày cách đạt được hiệu suất hàng đầu trong nghiên cứu AI thông qua phương pháp xây dựng nghiên cứu sâu.

December 5, 2025
12 min read

Xây dựng Nghiên cứu Sâu- Cách chúng tôi Đạt được Hiện trạng — Bài viết trình bày cách đạt được hiệu suất hàng đầu trong nghiên cứu AI thông qua phương pháp xây dựng nghiên cứu sâu.

Xây dựng Nghiên cứu Chuyên sâu: Cách chúng tôi Đạt được Đẳng cấp Hiện đại

Giới thiệu

Các tác nhân nghiên cứu đang nhanh chóng trở thành một trong những ứng dụng quan trọng nhất của AI. Nghiên cứu là một nhiệm vụ công việc kiến thức cơ bản: thu thập, đọc và tổng hợp thông tin là nền tảng cho mọi thứ, từ viết lách, ra quyết định cho đến bản thân việc lập trình. Tuy nhiên, nghiên cứu do con người thực hiện bị giới hạn bởi bộ nhớ, tốc độ đọc và thời gian. Ngược lại, các tác nhân nghiên cứu AI có thể xử lý lượng thông tin khổng lồ, tổng hợp các hiểu biết sâu sắc ngay lập tức và mở rộng quy mô một cách dễ dàng. Vì lý do này, các tác nhân nghiên cứu đang nổi lên như một trường hợp sử dụng hàng đầu cho AI ngày nay và sẽ sớm trở thành một thành phần cốt lõi của các quy trình tác nhân rộng hơn trong việc tạo nội dung, lập trình, bán hàng và hơn thế nữa. Trong bài đăng này, chúng tôi chia sẻ những bài học kỹ thuật và triết học mà chúng tôi đã rút ra trong quá trình xây dựng một tác nhân nghiên cứu đẳng cấp nhất, và nơi chúng tôi tin rằng lĩnh vực này đang hướng tới.

Xây dựng cho Tương lai

Agent Harness

Nhiệm vụ của việc xây dựng một harness tác nhân là tạo ra một lớp phần mềm nâng cao việc thực thi runtime của mô hình thông qua quản lý ngữ cảnh, gọi công cụ, kiểm soát vòng lặp và xử lý lỗi. Tuy nhiên, xây dựng các ứng dụng trên nền tảng các mô hình đang được cải thiện nhanh chóng là một thách thức kỹ thuật hiện đại. Làm thế nào chúng ta có thể thiết kế phần mềm ngày nay hấp thụ những cải thiện hiệu suất từ các bản phát hành mô hình trong tương lai?

Điều này đòi hỏi phải dự đoán các mô hình sẽ phát triển như thế nào, giữ thái độ lạc quan về tiến trình của chúng, hạn chế các giả định và tránh các tối ưu hóa thủ công.

Chúng tôi đã học được điều này một cách khó khăn bảy tháng trước, khi chúng tôi phải từ bỏ nỗ lực đầu tiên về nghiên cứu chuyên sâu và xây dựng lại toàn bộ hệ thống từ đầu. Kiến trúc đầu tiên phức tạp và tinh vi (chúng tôi nghĩ rằng đây là một điều tốt), nhưng các giả định của nó đã trở thành những điểm nghẽn khi thế hệ mô hình tiếp theo xuất hiện.

Models

Trong bảy tháng qua, khả năng của các mô hình đã âm thầm nhưng có ý nghĩa tiến hóa (đặc biệt là khả năng gọi công cụ của chúng). Sự tập trung tối ưu hóa duy nhất này đã thúc đẩy chúng tôi từ các quy trình làm việc sang các tác nhân. Chúng tôi tin rằng các mô hình trong tương lai sẽ được đào tạo để giải quyết các điểm khó khăn hiện tại của các nhà phát triển tác nhân. Mọi mô hình cuối cùng đều được tiêu thụ bởi một harness, vì vậy các mô hình nên phát triển phục vụ cho harness đó. Chúng tôi hy vọng sẽ thấy các mô hình cải thiện trong tóm tắt độ thu hồi cao (để nén ngữ cảnh), độ tin cậy của việc gọi công cụ và sự súc tích trong văn viết.

Tools

Tương tự, các công cụ nên phát triển để hỗ trợ LLM và các harness tác nhân được áp dụng rộng rãi. Các công cụ tốt nhất nên thực hiện một số kỹ thuật ngữ cảnh ở phía công cụ, trừu tượng hóa khỏi tác nhân. Chúng chỉ nên trả về dữ liệu liên quan nhất thay vì đổ một lượng lớn token vào cửa sổ ngữ cảnh. Với tư cách là nhà cung cấp công cụ, chúng tôi đã đầu tư mạnh vào tính năng tìm kiếm nâng cao của mình, với kỹ thuật ngữ cảnh được tích hợp sẵn. Điều này lần lượt làm giảm tỷ lệ ảo giác và độ trễ cho các quy trình tác nhân hạ nguồn.

Takeaways

Để xây dựng các tác nhân cải thiện theo thời gian, chúng tôi đã tuân theo một vài nguyên tắc hướng dẫn:

Đơn giản hóa logic điều phối và dựa vào quyền tự chủ.
Chú ý chặt chẽ đến những gì các mô hình và công cụ đang được tối ưu hóa và tận dụng khả năng mới nổi của chúng.
Tập trung vào kỹ thuật ngữ cảnh (sẽ nói thêm về điều này trong phần tiếp theo).

Kỹ thuật Ngữ cảnh — Một Bài tập Sắp xếp

Các tác vụ nghiên cứu dài hạn bộc lộ một thách thức cơ bản trong thiết kế tác nhân hiện tại: nhiệm vụ duy trì một cửa sổ ngữ cảnh sạch sẽ, tối ưu hóa theo thời gian. Nếu việc sắp xếp ngữ cảnh không phải là nhiệm vụ mà kỹ sư chú ý chặt chẽ, tác nhân gần như chắc chắn sẽ thất bại. Phần sau đây trình bày suy nghĩ của chúng tôi xung quanh khái niệm này trong lĩnh vực nghiên cứu chuyên sâu.

Truy xuất Web Được Quản lý Ngữ cảnh

Sử dụng Tìm kiếm Nâng cao của Tavily là bước đầu tiên tự nhiên để vượt qua thách thức này, vì nó trừu tượng hóa việc xử lý nội dung web thô và chỉ trả về các đoạn nội dung liên quan nhất từ mỗi nguồn. Bằng cách tận dụng chức năng này, chúng tôi cho phép Tavily Search thực hiện phần việc nặng nhọc và cho phép Tavily Research gặt hái lợi ích, thu thập nội dung có giá trị nhất một cách hiệu quả về độ trễ.

Đảm bảo rằng tác nhân không bị quá khớp với một luồng nghiên cứu duy nhất là bước tiếp theo để có một quy trình thu thập ngữ cảnh hiệu quả. Chính vì vậy, tính bền vững của trạng thái toàn cục và việc loại bỏ trùng lặp nguồn là tối quan trọng, và trong trường hợp của chúng tôi, nó giúp ích gấp ba lần:

Nó đảm bảo tác nhân chỉ tiếp xúc với thông tin mới.
Nó cho phép kỹ sư nhận ra khi phạm vi thông tin đang thu hẹp và nhắc tác nhân khám phá các lĩnh vực liên quan chưa được khai thác.
Nó giúp quy kết nguồn hiệu quả sau này trong quy trình tạo.

Tại Tavily, tương tác với web là lẽ sống của chúng tôi. Kiến trúc hóa một hệ thống truy xuất web tinh vi được thiết kế cho nghiên cứu chuyên sâu là một khối xây dựng nền tảng cho thiết kế tác nhân nghiên cứu chuyên sâu của chúng tôi nói chung.

Mô hình hóa Tương tác Người-Web

Con người nghiên cứu theo một cách phi cấu trúc, lặp đi lặp lại một cách tự nhiên. Chúng ta bắt đầu bằng cách xác định nhiệm vụ: chúng ta đang cố gắng hoàn thành điều gì và chúng ta cần thông tin gì. Sau đó, chúng ta thu thập dữ liệu từ các nguồn của mình, trích xuất những hiểu biết chính và giữ chúng trong bộ nhớ ngắn hạn, cho phép những suy nghĩ được chắt lọc này hướng dẫn các hành động tiếp theo của chúng ta.

Chu kỳ này lặp đi lặp lại: thu thập thông tin, chắt lọc nó, quyết định bước tiếp theo phải làm gì. Chỉ khi chúng ta thu thập đủ hiểu biết để tạo ra sản phẩm cuối cùng, chúng ta mới quay trở lại các nguồn ban đầu, sử dụng chúng làm tài liệu tham khảo để tập hợp sản phẩm hoàn chỉnh.

Chúng tôi tin rằng các tác nhân nghiên cứu chuyên sâu nên được thiết kế theo cách tương tự, trong đó đầu ra công cụ nên được chắt lọc thành các phản ánh, và chỉ tập hợp các phản ánh trong quá khứ mới được sử dụng làm ngữ cảnh cho người gọi công cụ của bạn. Tương tự như con người, chỉ đến khi tác nhân của bạn bắt đầu chuẩn bị sản phẩm cuối cùng, bạn mới phải cung cấp thông tin thô làm ngữ cảnh, để đảm bảo không bị mất thông tin.

Làm nhiều hơn với ít hơn

Cách tiếp cận này khác với việc cấu trúc ngữ cảnh truyền thống trong kiến trúc dựa trên tác nhân ReAct. Thông thường, các lệnh gọi và đầu ra công cụ được truyền qua vòng lặp gọi công cụ, với các token đã được truy xuất/tạo trước đó được lưu giữ trong cửa sổ ngữ cảnh trong mỗi lần lặp tiếp theo. Mô hình này có thể được nhìn thấy trong tác nhân Open Deep Research của LangChain, và từ góc độ tiêu thụ token, nó có thể được mô hình hóa bằng chuỗi bậc hai sau đây, trong đó $n$ là lượng token mà mô hình gọi công cụ được gọi với trong mỗi lần lặp gọi công cụ, và $m$ là số lần lặp gọi công cụ.

$$n + 2n + 3n + \cdots + mn ;=; n \cdot \frac{m(m+1)}{2}$$

Ngược lại, phương pháp kỹ thuật ngữ cảnh được đề xuất của chúng tôi loại bỏ việc truyền token này (vì các bản chưng cất kiến thức, ngay cả khi được tổng hợp, đều không đáng kể so với số lượng token thu thập từ web) và có thể được mô hình hóa bằng chuỗi tuyến tính sau đây.

$$n + n + n + \cdots + n ;=; nm$$

Khi so sánh hai phương pháp, số lượng token được tiết kiệm trên mỗi tác nhân với hệ số $\frac{m+1}{2}$, và khi ngoại suy điều này trên một hệ thống đa tác nhân và với mức tiêu thụ theo quy mô, giá trị tuyệt đối của số token tiết kiệm được càng trở nên quan trọng hơn.

Thông qua phương pháp này, chúng tôi đã có thể giảm 66% mức tiêu thụ token (khi so sánh với Open Deep Research) trong khi vẫn đạt được SOTA trên DeepResearch Bench – sự giao thoa giữa chất lượng và hiệu quả trong hành động đầy đủ.

Sản xuất hóa Tác nhân — Một Thách thức Liên tục

Xây dựng các tác nhân cấp sản xuất là một sự cân bằng. Chúng tôi đã dựa vào quyền tự chủ để tối đa hóa hiệu suất và chất lượng, đồng thời vẫn đáp ứng các yêu cầu nghiêm ngặt về độ trễ, chi phí và độ tin cậy.

Kỹ thuật với Tính phi quyết định

LLM vốn dĩ là phi quyết định, và chúng tôi thấy rằng việc cho phép chúng có quyền tự do có rào cản để suy luận và lặp lại sẽ mang lại kết quả mạnh mẽ nhất. Quyền tự chủ, khi đi sai hướng, có thể khiến hành vi của tác nhân bị lệch khỏi quỹ đạo. Các công cụ có thể được gọi không chính xác, LLM có thể bị quá khớp với một chủ đề phụ và các mẫu suy luận dự kiến có thể bị phá vỡ. Không có biện pháp bảo vệ đơn lẻ nào có thể nắm bắt tất cả các vấn đề này.

Cần có một sự thay đổi trong tư duy kỹ thuật: coi các chế độ lỗi là những cân nhắc thiết kế cốt lõi, không phải là những suy nghĩ sau này. Các rào cản đơn giản như thử lại lệnh gọi công cụ hoặc xếp tầng mô hình rất hữu ích, nhưng việc chủ động dự đoán các điểm bất thường, củng cố các mẫu phù hợp trong lời nhắc và thử nghiệm các trường hợp biên là những gì cho phép các tác nhân cấp sản xuất, chạy dài.

Công cụ Tối ưu — Ít hơn là Nhiều hơn

Từ kinh nghiệm của chúng tôi, tốt hơn là nên cung cấp một bộ công cụ nhỏ, thiết yếu cho tác nhân thay vì một bộ công cụ lớn, phức tạp. Chúng tôi đã bị cám dỗ để quá kỹ thuật bằng cách thêm nhiều công cụ có vẻ hữu ích về mặt lý thuyết, nhưng trên thực tế, điều này đã tạo ra các chế độ lỗi mới và khiến LLM khó chọn đúng công cụ một cách nhất quán và lặp lại hiệu quả hơn.

Evals

Chúng tôi đã sử dụng evals để định hướng quy trình phát triển của mình nhưng cũng nhận ra những hạn chế của chúng. Evals LLM-là-giám khảo rất khó tin cậy: các mô hình hiện tại là phi quyết định, không thể diễn giải được trong quá trình suy luận của chúng và có thể trở thành điểm nghẽn, đặc biệt đối với các tác nhân chạy dài, trong đó một thí nghiệm duy nhất có thể mất nhiều ngày để hoàn thành.

Thay vì tối ưu hóa điểm số benchmark, chúng tôi đã tối ưu hóa phản hồi định hướng. Câu hỏi cốt lõi luôn là: liệu sự thay đổi này có làm cho tác nhân đáng tin cậy và hữu ích hơn trong thực tế không? Evals trở thành một công cụ để xác nhận hướng đó, không phải là mục tiêu tối ưu hóa. Trực giác và giám sát dấu vết tác nhân cẩn thận liên tục cung cấp phản hồi có tín hiệu cao hơn bất kỳ điểm số eval đơn lẻ nào. Nhìn chung, kết quả tốt nhất hiếm khi là điểm số cao nhất. Đối với các hệ thống sản xuất, các cải tiến như giảm sử dụng token, độ tin cậy, độ trễ thấp hơn và ít lỗi hơn có giá trị hơn một điểm tăng trên eval.

Nếu bạn quan tâm đến việc trải nghiệm kết quả của những phát hiện này trong thực tế, bạn có thể đăng ký sớm để sử dụng Tavily Research tại đây.

AI Today - SkyAI