Trở lại Tương lai- Đánh giá các tác nhân AI về việc dự đoán các sự kiện tương lai
Bài viết này giới thiệu một chuẩn mực mới để đánh giá khả năng của các tác nhân AI trong việc dự đoán các sự kiện tương lai.
- 15 min read
Trở Về Tương Lai: Đánh Giá Các AI Agent về Khả Năng Dự Đoán Các Sự Kiện Tương Lai

Tương Lai của AI
Hầu hết các tiêu chuẩn AI hiện tại tập trung vào việc trả lời các câu hỏi về quá khứ, bằng cách kiểm tra các mô hình trên kiến thức hiện có (một cách tĩnh, chẳng hạn như HLE hoặc GPQA, hoặc tăng cường, như BrowseComp hoặc GAIA) hoặc các vấn đề đã được giải quyết trước đây (như PaperBench, DABStep, hoặc hầu hết các đánh giá về code). Tuy nhiên, chúng tôi tin rằng AI có giá trị hơn và cuối cùng là AGI, sẽ được phân biệt bằng khả năng sử dụng quá khứ này để dự báo các khía cạnh thú vị của tương lai, thay vì chỉ đơn thuần là đọc lại những sự thật cũ.
Dự báo các sự kiện tương lai là một nhiệm vụ phức tạp và toàn diện: nó đòi hỏi lý luận tinh vi, tổng hợp, cân nhắc xác suất và hiểu biết thực sự, thay vì đối sánh mẫu hoặc tìm kiếm thông tin hiện có. Đánh giá các mô hình về khả năng dự đoán kết quả tương lai, cho dù trong khoa học, kinh tế, địa chính trị hay công nghệ, đều kiểm tra loại trí thông minh tạo ra giá trị thực tế.
Ngoài tầm quan trọng vốn có, cách tiếp cận dựa trên dự báo này còn giải quyết nhiều vấn đề phương pháp luận mà các đánh giá và tiêu chuẩn hiện tại phải đối mặt. Các tiêu chuẩn truyền thống đo lường độ chính xác trên các bộ kiểm tra cố định chắc chắn bị ảnh hưởng bởi khả năng ô nhiễm dữ liệu và nếu không có quyền truy cập vào quy trình đào tạo có thể tái tạo đầy đủ của một mô hình, rất khó để tin tưởng vào kết quả. Các nỗ lực đánh giá nghiêm túc nhất hiện giữ cho bộ kiểm tra của họ hoàn toàn riêng tư, tạo ra một cuộc chạy đua vũ trang bực bội giữa những người đánh giá và các cơ chế “gian lận bảng xếp hạng” tiềm năng (Singh et al., 2025).
Dự báo làm cho việc ô nhiễm trở nên bất khả thi theo thiết kế, vì bạn không thể đào tạo trên dữ liệu chưa tồn tại! Điều này tạo ra một sân chơi bình đẳng, nơi thành công phụ thuộc vào khả năng lý luận hơn là ghi nhớ.
Có lẽ quan trọng nhất, các dự đoán về tương lai là về bản chất có thể kiểm chứng được. Chúng ta có thể chờ xem ai đúng, tạo ra một thước đo khách quan, được đóng dấu thời gian về hiệu suất của mô hình.
Do đó, chúng tôi đề xuất đánh giá các agent về khả năng dự đoán các sự kiện tương lai (Ye et al., 2024; Karger et al., 2025). FutureBench rút ra từ các thị trường dự đoán thực tế và tin tức mới nổi để tạo ra các nhiệm vụ dự đoán thú vị dựa trên các kết quả tương lai thực tế. Chúng tôi thu thập các sự kiện từ các nền tảng và tin tức trực tiếp, lọc chúng để tập trung vào các sự kiện mới nổi đáng để dự đoán. Sử dụng phương pháp tiếp cận dựa trên agent, chúng tôi tuyển chọn các kịch bản đòi hỏi lý luận thực sự thay vì đối sánh mẫu đơn giản. Hãy nghĩ đến các diễn biến địa chính trị, biến động thị trường hoặc xu hướng áp dụng công nghệ - những sự kiện mà phân tích thông tin thực sự quan trọng.
Liệu Các Agent Có Thể Dự Đoán Các Sự Kiện Tương Lai?
Đây là câu hỏi hiển nhiên và nó là trọng tâm của những gì làm cho tiêu chuẩn này trở nên thú vị! Chúng tôi tin rằng câu trả lời không thể là một “có” hay “không” đơn giản, vì nó chủ yếu phụ thuộc vào các câu hỏi thực tế; luôn có những cảnh báo quan trọng cần xem xét.
Con người liên tục sử dụng khả năng cân nhắc thông tin hiện tại để dự đoán các sự kiện tương lai. Chẳng phải hầu hết các động thái nghề nghiệp, lựa chọn mối quan hệ, hoặc thậm chí các chiến lược kinh doanh về cơ bản là đặt cược vào kết quả tương lai sao?
Một số dự đoán liên quan đến sự không chắc chắn không thể giảm bớt (Liệu có mưa vào ngày 17 tháng 12 năm 2027 vào buổi trưa không?), nhưng nhiều dự đoán thì không. Khi một nhà phân tích lành nghề dự đoán thu nhập hàng quý của một công ty hoặc một chuyên gia chính sách dự báo kết quả bầu cử, họ đang sử dụng thông tin có sẵn để đưa ra quyết định sáng suốt. Đây chính xác là những gì chúng tôi yêu cầu các AI agent thực hiện với FutureBench! Nhiệm vụ không phải là khiến các agent bói toán, mà là tổng hợp thông tin và lý luận dưới sự không chắc chắn mạnh mẽ hơn hầu hết các tiêu chuẩn khác.
Chất lượng dự đoán của agent phản ánh trực tiếp khả năng tìm kiếm thông tin liên quan, tổng hợp dữ liệu phức tạp và lý luận về các mối quan hệ nhân quả. Đây chính xác là những khả năng chúng tôi muốn đo lường trong các ứng dụng thực tế.
Các công cụ như DeepResearch đã được sử dụng để phân tích thị trường và lập kế hoạch chiến lược. Chất lượng thu thập thông tin tương quan mạnh mẽ với hiệu quả ra quyết định. FutureBench được lấy cảm hứng từ quy trình đánh giá này và cố gắng tính toán chất lượng của agent với các kết quả khách quan, có thể kiểm chứng được.
FutureBench
Việc xây dựng một tiêu chuẩn kiểm tra khả năng dự đoán thực tế đòi hỏi một luồng câu hỏi có ý nghĩa ổn định. Chúng tôi đã phát triển hai phương pháp bổ sung nắm bắt các loại sự kiện tương lai khác nhau:
1. Câu Hỏi Được Tạo Từ Tin Tức: Tìm Kiếm Các Tiêu Đề Ngày Mai Ngay Hôm Nay
Phương pháp đầu tiên của chúng tôi sử dụng AI để khai thác các sự kiện hiện tại cho các cơ hội dự đoán. Chúng tôi triển khai một agent dựa trên smolagents để thu thập dữ liệu từ một vài trang web tin tức lớn, phân tích các bài viết trên trang nhất và tạo ra các câu hỏi dự đoán về kết quả có khả năng xảy ra của chúng. Agent đọc qua và xác định các bài viết thú vị và xây dựng các câu hỏi cụ thể, có giới hạn thời gian từ nội dung của chúng, ví dụ: “Liệu Cục Dự trữ Liên bang có cắt giảm lãi suất ít nhất 0,25% vào ngày 1 tháng 7 năm 2025 không?”
Chúng tôi hướng dẫn quy trình này bằng các lời nhắc được tạo cẩn thận, chỉ định những gì tạo nên một câu hỏi dự đoán hay—các sự kiện có ý nghĩa, có thể kiểm chứng và thời gian trích xuất không chắc chắn.
Technical Stack:
- Model: DeepSeek-V3 để lý luận và tạo câu hỏi
- Scraping: Firecrawl để trích xuất nội dung đáng tin cậy
- Search: Tavily để có thêm ngữ cảnh khi cần
Agent thường tạo ra 5 câu hỏi cho mỗi phiên cạo, với thời gian là một tuần, có nghĩa là chúng tôi cho rằng chúng tôi sẽ biết câu trả lời cho câu hỏi sau bảy ngày. Điều này cung cấp cho chúng tôi một quy trình tự nhiên gồm tài liệu đánh giá mới gắn liền với các sự kiện thực tế.
2. Tích Hợp Polymarket: Tận Dụng Các Thị Trường Dự Đoán
Nguồn thứ hai của chúng tôi rút ra từ Polymarket. Những câu hỏi này đến từ một nền tảng thị trường dự đoán, nơi những người tham gia thực tế đưa ra dự báo về các sự kiện tương lai. Hiện tại, chúng tôi tiếp nhận khoảng 8 câu hỏi mỗi tuần.
Tuy nhiên, dữ liệu thô cần được lọc. Chúng tôi áp dụng bộ lọc mạnh để loại bỏ các câu hỏi chung liên quan đến nhiệt độ và một số câu hỏi liên quan đến thị trường chứng khoán và tiền điện tử, nếu không sẽ có quá nhiều để sử dụng thực tế trong tiêu chuẩn của chúng tôi.
Ngoài ra, các câu hỏi của polymarket có ít ràng buộc hơn về thời gian “thực hiện” cuối cùng, kết quả thực tế của sự kiện có thể chỉ có vào tháng sau hoặc vào cuối năm. Đây vẫn là những câu hỏi rất phù hợp, nhưng việc thu thập dữ liệu về kết quả là thưa thớt hơn.
Câu Hỏi Ví Dụ
Đây là một ví dụ về những gì xuất hiện từ quy trình tạo câu hỏi của chúng tôi:
Future Bench: Ba Cấp Độ Đánh Giá Có Hệ Thống
Câu hỏi tiếp theo là, loại tiêu chuẩn này cho phép chúng ta đo lường điều gì? Khuôn khổ hoạt động trên ba cấp độ khác nhau, cho phép chúng ta cô lập chính xác những gì chúng ta đang đo lường:
- Cấp độ 1: So Sánh Khuôn Khổ
Giữ các LLM và công cụ cơ bản không đổi trong khi thay đổi các khuôn khổ. Một agent dựa trên LangChain so sánh với một agent được xây dựng bằng CrewAI như thế nào khi cả hai đều sử dụng GPT-4 và các công cụ tìm kiếm giống nhau? Điều này cô lập tác động của các khuôn khổ agent khác nhau.
- Cấp độ 2: Hiệu Suất Công Cụ
Cố định LLM và khuôn khổ trong khi so sánh các triển khai khác nhau. Công cụ tìm kiếm nào (ví dụ: Tavily, Google, Bing) dẫn đến dự đoán tốt hơn các công cụ tìm kiếm khác, giữ mọi thứ khác không đổi? Điều này cho thấy những công cụ nào thực sự cung cấp giá trị. Các công cụ nói chung mang lại bao nhiêu giá trị so với các mô hình không có công cụ?
- Cấp độ 3: Khả Năng Mô Hình
Giữ khuôn khổ và công cụ không đổi trong khi kiểm tra các LLM khác nhau. Với quyền truy cập vào cùng một bộ công cụ, DeepSeek-V3 có sử dụng chúng hiệu quả như GPT-4 không? Điều này đo lường khả năng lý luận thuần túy.
Cách tiếp cận có hệ thống này cho phép chúng ta hiểu chính xác nơi xảy ra tăng và giảm hiệu suất trong quy trình agent.

Tiêu chuẩn cũng đóng vai trò là một thử nghiệm mạnh mẽ về việc tuân theo hướng dẫn. Các agent phải tuân thủ các yêu cầu định dạng cụ thể và tạo ra các hành động có thể được phân tích cú pháp và thực thi chính xác. Trong thực tế, điều này thường tiết lộ nơi các mô hình ngôn ngữ nhỏ hơn gặp khó khăn với lý luận đa bước phức tạp.
🚀 Hãy tự mình thử! Khám phá bảng xếp hạng trực tiếp: Bảng Xếp Hạng Tương Tác FutureBench
Dự Đoán Tương Lai: Agent và Kết Quả Ban Đầu
Chúng tôi sử dụng SmolAgents làm khuôn khổ agent cơ bản cho tất cả các câu hỏi. Chúng tôi cũng tính toán hiệu suất trên các mô hình cơ bản. Đối với nhiệm vụ dự đoán, các agent có quyền truy cập vào một bộ công cụ tập trung:
- Tìm Kiếm: Tích hợp Tavily để tìm thông tin gần đây và phân tích của chuyên gia
- Web Scraper: Một công cụ cạo web đơn giản để theo dõi các nguồn cụ thể và có được ngữ cảnh chi tiết.
Thiết lập tinh gọn này cố ý buộc các agent phải có chiến lược về thu thập thông tin trong khi vẫn cung cấp các công cụ cần thiết cho các dự đoán sáng suốt.
Kết Quả Ban Đầu

Chúng tôi so sánh các mô hình khác nhau bằng cách sử dụng smolagents làm cơ sở (bạn có thể tìm thấy bảng xếp hạng trên HF Space của chúng tôi). Chúng tôi cũng chạy các mô hình ngôn ngữ tiêu chuẩn mà không có quyền truy cập internet để ước tính một kiến thức chung. Như dự kiến, chúng ta thấy các mô hình agent hoạt động tốt hơn các mô hình ngôn ngữ đơn giản; các mô hình mạnh hơn cho thấy chất lượng dự đoán ổn định hơn. Nhìn chung, chúng tôi cũng tìm thấy các mô hình thú vị trong cách các mô hình khác nhau cố gắng tiếp cận một câu hỏi:
Các Mẫu Hành Động Thú Vị
Việc chạy tiêu chuẩn này đã tiết lộ những hiểu biết sâu sắc về cách các mô hình khác nhau tiếp cận việc thu thập thông tin. Một sự khác biệt nổi bật là liên quan đến việc cạo web. GPT-4.1 dường như dựa nhiều hơn vào kết quả tìm kiếm. Claude3.7 và 4 khám phá không gian web chi tiết hơn và có xu hướng sử dụng cạo web thường xuyên hơn; cách tiếp cận kỹ lưỡng này cũng có nghĩa là thu thập nhiều token đầu vào hơn trong quá trình nghiên cứu, do đó làm tăng chi phí.
Các mô hình cho thấy các cách tiếp cận thú vị để đưa ra dự đoán, ví dụ: để trả lời câu hỏi “Liệu lạm phát hàng năm có tăng 2,6 trở lên trong tháng 6 không?”:
- Agent DeepSeekV3 đã phân tích triển vọng lạm phát tháng 6 năm 2025 bằng cách tìm kiếm dữ liệu CPI gần đây (tìm thấy lạm phát hiện tại ở mức 2,4-2,8%), xem xét tác động của thuế quan là áp lực tăng và kết luận rằng lạm phát sẽ vượt quá ngưỡng 2,6%.
- Claude3.7 đã phân tích lạm phát tháng 6 năm 2025 thông qua nghiên cứu toàn diện (11 lần tìm kiếm so với 3 lần của DeepSeekV3), có hệ thống thu thập dữ liệu CPI tháng 5 năm 2025 (2,4% so với năm trước), xác định các xu hướng hàng tháng chậm lại (0,2%→0,1%), cân nhắc áp lực thuế quan so với chính sách hạn chế của Fed, tính toán chính xác khoảng cách cần thiết 0,2% và kết luận rằng sự chậm lại gần đây khiến việc đạt đến ngưỡng 2,6% khó có khả năng xảy ra, trả lời “Không”.
- GPT4.1 đã phân tích lạm phát tháng 6 năm 2025 thông qua các tìm kiếm có mục tiêu về sự đồng thuận và dự báo của thị trường, xác định CPI tháng 5 năm 2025 ở mức 2,4% (dưới mức kỳ vọng 2,5%), lưu ý mức tăng hàng tháng yếu 0,1%, không tìm thấy dự đoán của nhà dự báo nào về 2,6%+ cho tháng 6 và kết luận rằng sự nhảy vọt từ 2,4% lên 2,6% là khó có khả năng xảy ra do xu hướng dưới mức mong đợi gần đây.
Điều thú vị là Claude là mô hình duy nhất cố gắng truy cập trang web của Cục Thống kê Lao động để cạo trực tiếp, nhưng không thành công vì đó là trang web .gov và chúng tôi không cho phép loại hành động này.
Các mô hình thể hiện các mẫu lý luận khác biệt trong đầu ra của chúng. Phân tích của GPT tập trung vào các dự báo đồng thuận như là tín hiệu chính cho các sự kiện tương lai thay vì ngoại suy từ dữ liệu hiện tại, trong khi cách tiếp cận của Claude thể hiện cấu trúc phân tích chặt chẽ với khung phân tích ưu/nhược điểm có hệ thống và phân tích khoảng cách định lượng, và đầu ra của DeepSeekV3 hiển thị sự thừa nhận rõ ràng về các hạn chế của dữ liệu và điều chỉnh phương pháp luận có hệ thống khi các phương pháp tiếp cận ban đầu gặp phải các ràng buộc.
Những khác biệt về hành vi này tiết lộ các mô hình thú vị trong cách các mô hình khác nhau tiếp cận việc thu thập thông tin. Các biến thể trong việc sử dụng web và tiêu thụ token cho thấy rằng các mô hình có các chiến lược khác nhau để giải quyết các nhiệm vụ dự đoán, mà FutureBench có thể giúp chúng ta đo lường và hiểu.
Hạn Chế và Hướng Đi Tương Lai
Một thách thức là việc đánh giá có thể tốn kém do số lượng lớn token đầu vào. Ví dụ: Claude có xu hướng truy cập các trang web thường xuyên, do đó tích lũy nhiều token đầu vào. Trong một vòng lặp nhiều lượt, điều này có thể làm cho số lượng token đầu vào tăng vọt rất nhanh. Điều này làm tăng chi phí của bất kỳ thế hệ tiếp theo nào, mặc dù hầu hết các token cuối cùng được lưu vào bộ nhớ cache.
FutureBench là một tiêu chuẩn đang phát triển, khi chúng tôi khám phá ra những phát hiện mới và các mô hình tốt hơn, chúng tôi sẽ tiếp tục kết hợp chúng. Chúng tôi rất mong nhận được phản hồi từ cộng đồng để hiểu cách tìm nguồn câu hỏi tốt hơn, các thí nghiệm nào cần chạy và dữ liệu nào thú vị nhất để phân tích.
Tài Liệu Tham Khảo
Singh, S., Nan, Y., Wang, A., D’souza, D., Kapoor, S., Ustun, A., Koyejo, S., Deng, Y., Longpre, S., Smith, N., Ermiş, B.H., Fadaee, M., & Hooker, S. (2025). The Leaderboard Illusion. ArXiv, abs/2504.20879.
Karger, E., Bastani, H., Yueh-Han, C., Jacobs, Z., Halawi, D., Zhang, F., & Tetlock, P.E. (2025). ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities. ICLR.
Ye, C., Hu, Z., Deng, Y., Huang, Z., Ma, M.D., Zhu, Y., & Wang, W. (2024). MIRAI: Evaluating LLM Agents for Event Forecasting. ArXiv, abs/2407.01231.
Link bài viết gốc
- Tags:
- Ai
- July 17, 2025
- Huggingface.co