Suy nghĩ lại về cách chúng ta đo lường trí tuệ AI

Thảo luận về các phương pháp đo lường trí tuệ nhân tạo

November 10, 2025
7 min read

Suy nghĩ lại về cách chúng ta đo lường trí tuệ AI — Thảo luận về các phương pháp đo lường trí tuệ nhân tạo

Kaggle Game Arena Đánh giá các Mô hình AI Thông qua Trò chơi

Kaggle Game Arena là một nền tảng mới, nơi các mô hình AI cạnh tranh trực diện trong các trò chơi chiến lược phức tạp.

Các bài kiểm tra AI hiện tại gặp khó khăn trong việc theo kịp các mô hình hiện đại. Mặc dù chúng hữu ích trong việc đo lường hiệu suất của mô hình cho các tác vụ cụ thể, nhưng rất khó để biết liệu các mô hình được huấn luyện trên dữ liệu internet có thực sự giải quyết vấn đề hay chỉ đơn giản ghi nhớ các câu trả lời đã thấy hay không. Khi các mô hình đạt gần 100% ở một số điểm chuẩn nhất định, chúng cũng trở nên kém hiệu quả hơn trong việc tiết lộ sự khác biệt rõ rệt về hiệu suất. Chúng tôi tiếp tục đầu tư vào các điểm chuẩn mới và thử thách hơn, nhưng trên con đường hướng tới trí tuệ tổng quát, chúng tôi cần tiếp tục tìm kiếm những cách thức đánh giá mới. Sự chuyển đổi gần đây sang thử nghiệm động, được con người đánh giá giải quyết các vấn đề về ghi nhớ và bão hòa này, nhưng lại tạo ra những khó khăn mới bắt nguồn từ tính chủ quan cố hữu của sở thích con người.

Mặc dù chúng tôi tiếp tục phát triển và theo đuổi các điểm chuẩn AI hiện tại, chúng tôi cũng luôn tìm kiếm để thử nghiệm các phương pháp đánh giá mô hình mới. Đó là lý do tại sao hôm nay, chúng tôi giới thiệu Kaggle Game Arena: một nền tảng đánh giá AI công khai mới, nơi các mô hình AI cạnh tranh trực diện trong các trò chơi chiến lược, cung cấp thước đo có thể xác minh và năng động về khả năng của chúng.

Tại sao trò chơi lại là một điểm chuẩn đánh giá có ý nghĩa

Trò chơi cung cấp một tín hiệu thành công rõ ràng, không mơ hồ. Bản chất có cấu trúc và kết quả có thể đo lường của chúng làm cho chúng trở thành môi trường thử nghiệm hoàn hảo để đánh giá mô hình và tác nhân. Chúng buộc các mô hình phải thể hiện nhiều kỹ năng bao gồm lập luận chiến lược, lập kế hoạch dài hạn và thích ứng động chống lại một đối thủ thông minh, cung cấp một tín hiệu mạnh mẽ về khả năng giải quyết vấn đề tổng quát của chúng. Giá trị của trò chơi như một điểm chuẩn còn được tăng cường bởi khả năng mở rộng của chúng — độ khó tăng lên cùng với trí thông minh của đối thủ — và bởi khả năng của chúng tôi kiểm tra và hình dung “lý luận” của mô hình, điều này mang lại cái nhìn thoáng qua về quy trình suy nghĩ chiến lược của nó.

Các công cụ chuyên dụng như Stockfish và các mô hình AI chơi trò chơi tổng quát như AlphaZero đã có thể chơi trò chơi ở cấp độ siêu nhân trong nhiều năm và chắc chắn sẽ đánh bại mọi mô hình tiên tiến. Tuy nhiên, các mô hình ngôn ngữ lớn ngày nay không được xây dựng để chuyên biệt hóa cho bất kỳ trò chơi cụ thể nào và kết quả là chúng không chơi chúng tốt bằng. Mặc dù thách thức trước mắt đối với các mô hình là thu hẹp khoảng cách này, nhưng về lâu dài, chúng tôi hy vọng chúng sẽ đạt được mức độ chơi vượt xa những gì hiện có thể. Và với một bộ môi trường mới ngày càng tăng, chúng tôi có thể tiếp tục thử thách chúng hơn nữa.

Cách Game Arena thúc đẩy đánh giá công bằng và mở

Game Arena được xây dựng trên Kaggle để cung cấp một môi trường công bằng, tiêu chuẩn hóa cho việc đánh giá mô hình. Để minh bạch, các harness trò chơi — các khung làm việc kết nối từng mô hình AI với môi trường trò chơi và thực thi các quy tắc — cũng như các môi trường trò chơi đều là mã nguồn mở. Xếp hạng cuối cùng được xác định bởi một hệ thống thi đấu vòng tròn, nơi một số lượng lớn các trận đấu giữa từng cặp mô hình đảm bảo kết quả mạnh mẽ về mặt thống kê.

Google DeepMind từ lâu đã sử dụng trò chơi làm điểm chuẩn, từ Atari đến AlphaGo và AlphaStar, để thể hiện các khả năng AI phức tạp. Bằng cách thử nghiệm các mô hình này trong một đấu trường cạnh tranh, chúng ta có thể thiết lập một đường cơ sở rõ ràng cho khả năng lập luận chiến lược của chúng và theo dõi tiến độ. Mục tiêu là xây dựng một điểm chuẩn ngày càng mở rộng, tăng độ khó khi các mô hình đối mặt với sự cạnh tranh khốc liệt hơn. Theo thời gian, điều này có thể dẫn đến các chiến lược mới, giống như “Nước đi 37” nổi tiếng và sáng tạo của AlphaGo đã làm các chuyên gia con người bối rối. Khả năng lập kế hoạch, thích ứng và lập luận dưới áp lực trong một trò chơi tương tự như tư duy cần thiết để giải quyết các thách thức phức tạp trong khoa học và kinh doanh.

Cách bạn có thể xem các trận đấu cờ vua biểu diễn

Vào ngày 5 tháng 8 lúc 10:30 sáng Giờ Thái Bình Dương, hãy tham gia cùng chúng tôi trong một buổi biểu diễn cờ vua đặc biệt nơi tám mô hình tiên tiến sẽ đối đầu trong một giải đấu loại trực tiếp duy nhất. Chúng tôi đã chọn một mẫu từ các trận đấu cho buổi biểu diễn này. Được tổ chức bởi các chuyên gia cờ vua giỏi nhất thế giới, sự kiện này là buổi trình diễn hàng đầu về phương pháp luận Game Arena.

Trong khi các trận đấu biểu diễn thú vị diễn ra theo thể thức giải đấu, xếp hạng bảng xếp hạng cuối cùng sẽ được xác định bởi hệ thống thi đấu vòng tròn và được công bố sau buổi biểu diễn. Phương pháp toàn diện hơn này chạy hơn một trăm trận đấu giữa mọi cặp mô hình để đảm bảo thước đo hiệu suất mạnh mẽ và dứt khoát về mặt thống kê. Bạn có thể tìm thêm chi tiết và cách xem trò chơi tại kaggle.com/game-arena.

Chúng tôi dự định sẽ tổ chức thêm các giải đấu thường xuyên trong tương lai, sớm có thông tin chi tiết hơn.

Cách chúng tôi đang xây dựng tương lai của các điểm chuẩn AI

Đây chỉ là bước khởi đầu. Tầm nhìn của chúng tôi cho Game Arena vượt ra ngoài một trò chơi duy nhất. Kaggle sẽ sớm mở rộng Game Arena với các thử thách mới, bắt đầu với các trò chơi kinh điển như Cờ vây và Poker. Những trò chơi này, cùng với các bổ sung trong tương lai như trò chơi điện tử, là những bài kiểm tra xuất sắc về khả năng thực hiện lập kế hoạch và lý luận dài hạn của AI, giúp chúng tôi tạo ra một điểm chuẩn toàn diện và không ngừng phát triển cho AI. Chúng tôi cam kết liên tục bổ sung các mô hình và harness mới vào hỗn hợp, đẩy giới hạn về những gì các mô hình AI có thể đạt được. Để biết thêm chi tiết về Game Arena và giải đấu cờ vua khai mạc, hãy xem bài đăng trên blog của Kaggle.

Video:

Hình ảnh:

Kaggle Game Arena đánh giá các mô hình AI thông qua trò chơi

Bài viết được đóng góp bởi Kate Olszewska, Quản lý Sản phẩm, Google DeepMind và Meg Risdal, Quản lý Sản phẩm, Kaggle.

AI Today - SkyAI