TextQuests- Mô hình ngôn ngữ lớn giỏi như thế nào trong trò chơi điện tử dựa trên văn bản?
Bài viết của khách
- 7 min read
TextQuests: Đánh giá khả năng của LLM trong trò chơi điện tử dạng văn bản?
Sự tiến bộ nhanh chóng của Mô hình Ngôn ngữ Lớn (LLM) đã cho phép những bước tiến đáng kể trên các chuẩn mực học thuật và công nghiệp đã được thiết lập. Các chuẩn mực về kiến thức, chẳng hạn như MMLU và GPQA, hiện đã đạt đến độ bão hòa phần lớn và các mô hình tiên tiến đang đạt được những tiến bộ đáng kể trong các đánh giá chuyên môn như HLE. Tuy nhiên, thành công này trong các tác vụ tĩnh, dựa trên kiến thức không phải lúc nào cũng chuyển thành hiệu quả trong các cài đặt động, tương tác, loại môi trường mà chúng ta muốn các trợ lý và tác nhân AI hiệu quả hoạt động tốt. Phát triển các phương pháp mạnh mẽ để đánh giá LLM như các tác nhân tự trị trong các môi trường phức tạp, khám phá vẫn là một thách thức đáng kể.
Hai con đường cốt lõi tồn tại để đánh giá các tác nhân tự trị: sử dụng môi trường thực tế và một tập hợp hạn chế các kỹ năng cụ thể, chẳng hạn như sử dụng công cụ hoặc khả năng viết mã, hoặc sử dụng môi trường thế giới mở mô phỏng. Cách tiếp cận sau nắm bắt tốt hơn khả năng của một tác nhân để hoạt động tự chủ trong các môi trường khám phá đòi hỏi lập luận tự định hướng, bền vững trong một bối cảnh dài và ngày càng tăng, đồng thời dễ dàng đánh giá. Mặc dù hướng đi này vẫn đang phát triển, nhưng nó đã chứng kiến sự quan tâm ngày càng tăng thông qua các chuẩn mực như Balrog, ARC-AGI và các trình diễn các mô hình như Claude và Gemini chơi Pokémon. Dựa trên mạch công việc mới nổi này, chúng tôi giới thiệu TextQuests.
TextQuests
TextQuests là một bộ chuẩn được xây dựng dựa trên 25 trò chơi viễn tưởng tương tác Infocom cổ điển. Các trò chơi điện tử dựa trên văn bản từng phổ biến này, có thể khiến người chơi mất hơn 30 giờ và yêu cầu hàng trăm hành động chính xác để giải quyết, cung cấp một thử nghiệm hấp dẫn cho những thách thức của lập luận đại diện. Chúng đòi hỏi một tác nhân phải chứng minh:
- Lập luận Bối cảnh Dài: Các tác nhân phải nghĩ ra và thực hiện các kế hoạch nhiều bước bằng cách lập luận dựa trên lịch sử hành động và quan sát dài và liên tục phát triển, chỉ dựa vào khả năng vốn có của chúng mà không cần sự trợ giúp của các công cụ bên ngoài.
- Học tập Thông qua Khám phá: Các trò chơi yêu cầu các tác nhân học hỏi từ kinh nghiệm, thẩm vấn những thất bại của chính họ và thực hiện các cải tiến tăng dần thông qua thử và sai khi chúng khám phá thế giới chưa biết.
Thành công trong các trò chơi này đòi hỏi một tác nhân xây dựng sự hiểu biết trong một phiên chơi trò chơi dài. Điều này cho phép đánh giá trực tiếp và chính xác hơn về chính LLM như là xương sống lý luận của một hệ thống tác nhân AI.
Đánh giá
Đối với mỗi mô hình, chúng tôi tiến hành hai lần chạy đánh giá riêng biệt: một lần có quyền truy cập vào các gợi ý chính thức của trò chơi (Có Gợi ý) và một lần không có (Không Gợi ý). Mỗi lần chạy được thực hiện trong tối đa 500 bước và dừng sớm nếu tác nhân hoàn thành trò chơi thành công. Để xử lý bối cảnh ngày càng tăng, toàn bộ lịch sử trò chơi được duy trì mà không bị cắt ngắn trong suốt quá trình chạy. Việc đánh giá bối cảnh dài này có thể thực hiện được về mặt tính toán do bộ nhớ đệm nhanh vốn có trong các khung suy luận LLM hiện đại. Chúng tôi sử dụng hai số liệu đánh giá chính:
- Tiến trình trò chơi. Số liệu Tiến trình trò chơi được tính dựa trên một loạt các điểm kiểm tra được gắn nhãn đại diện cho các mục tiêu cần thiết trên con đường hoàn thành một trò chơi.
- Tác hại. Để đánh giá hành vi đạo đức của các tác nhân, chúng tôi đo lường Tác hại bằng cách theo dõi các hành động cụ thể trong trò chơi được coi là có hại ở một mức độ nào đó. Điểm này sau đó được tính trung bình trên tất cả các trò chơi để đánh giá xu hướng chung của một tác nhân trong việc thực hiện các hành động như vậy.
Thảo luận
Lập luận Bối cảnh Dài. Trong quá trình đánh giá, cửa sổ bối cảnh có thể vượt quá 100 nghìn mã thông báo, yêu cầu LLM liên tục thực hiện lý luận và lập kế hoạch chính xác trên một lịch sử quan sát và manh mối rộng lớn để tiến triển hiệu quả. Khi độ dài bối cảnh tăng lên, chúng tôi nhận thấy rằng các mô hình hiện tại thường xuyên ảo giác về các tương tác trước đó, chẳng hạn như tin rằng chúng đã nhặt được một vật phẩm khi chưa hoặc bị mắc kẹt khi điều hướng trong một vòng lặp. Hơn nữa, tương tự như các quan sát trong Gemini 2.5 Plays Pokémon, các tác nhân LLM cho thấy xu hướng lặp lại các hành động từ lịch sử của chúng thay vì tổng hợp các kế hoạch mới khi bối cảnh kéo dài. Những thất bại về bối cảnh dài này đặc biệt rõ rệt trong các tác vụ yêu cầu lý luận không gian. Ví dụ: trong Wishbringer, hầu hết LLM đều gặp khó khăn khi điều hướng trở lại xuống một vách đá sau khi leo lên. Giải pháp chỉ đơn giản là đảo ngược chuỗi các hướng được sử dụng để đi lên—thông tin có sẵn trong lịch sử bối cảnh—cho thấy một khó khăn cơ bản trong việc xây dựng và sử dụng bản đồ tinh thần. Tương tự, tất cả các LLM tiên tiến đều gặp khó khăn khi điều hướng Mê cung khét tiếng trong Zork I.
Tư duy Động. Hiệu quả tổng thể của một tác nhân được xác định bởi cả thành công của nhiệm vụ và hiệu quả hoạt động của nó. Đối với các tác nhân LLM, hiệu quả gắn liền với số lượng mã thông báo đầu ra hoặc lý luận mà nó tạo ra, điều này ảnh hưởng trực tiếp đến chi phí và độ trễ suy luận. Các mô hình sử dụng nhiều tính toán thời gian thử nghiệm hơn thường đạt được hiệu suất cao hơn. Tuy nhiên, xu hướng này bắt đầu giảm dần sau một ngân sách nhất định. Sự cân nhắc này rất quan trọng vì nhiều bước khám phá trong TextQuests (ví dụ: các bước điều hướng) là trung gian và có thể được thực hiện thành công mà không cần độ sâu lý luận lớn.
Tóm lại, TextQuests là một đánh giá về mức độ tốt của các mô hình có thể tiến bộ một cách nhất quán thông qua một loạt các trò chơi viễn tưởng tương tác cổ điển đã từng phổ biến đối với người chơi. Chúng tôi hy vọng rằng việc mở mã nguồn TextQuests sẽ giúp các nhà nghiên cứu hiểu rõ hơn và đánh giá các khả năng hiện tại của các tác nhân LLM trong các môi trường khám phá đầy thách thức. Các nhà xây dựng mô hình mã nguồn mở được chào đón gửi đến Bảng xếp hạng TextQuests bằng cách gửi email cho chúng tôi theo địa chỉ agibenchmark@safe.ai
Trích dẫn
@misc{phan2025textquestsgoodllmstextbased,
title={TextQuests: How Good are LLMs at Text-Based Video Games?},
author={Long Phan and Mantas Mazeika and Andy Zou and Dan Hendrycks},
year={2025},
eprint={2507.23701},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2507.23701},
}
Link bài viết gốc
- Tags:
- Ai
- August 12, 2025
- Huggingface.co