OpenAI ra mắt mô hình mã hóa GPT‑5.1-Codex-Max và nó đã hoàn thành nhiệm vụ 24 giờ trong nội bộ
OpenAI đã giới thiệu GPT‑5.1-Codex-Max, một mô hình tác nhân mã hóa tiên phong mới hiện có sẵn trong môi trường nhà phát triển Codex của nó. Bản phát hành này đánh dấu một bước tiến đáng kể trong kỹ thuật phần mềm có sự hỗ trợ của AI, mang lại khả năng suy luận dài hạn, hiệu quả và khả năng tương tác theo thời gian thực được cải thiện. GPT‑5.1-Codex-Max giờ đây sẽ thay thế GPT‑5.1-Codex làm mô hình mặc định trên các bề mặt tích hợp Codex.
- 8 min read
OpenAI ra mắt mô hình mã hóa GPT‑5.1-Codex-Max, đã hoàn thành nhiệm vụ 24 giờ trong nội bộ
OpenAI đã giới thiệu GPT‑5.1-Codex-Max, một mô hình tiên phong về “agentic coding” (lập trình có tác tử) hiện đã có sẵn trong môi trường phát triển Codex của hãng. Việc ra mắt này đánh dấu một bước tiến quan trọng trong kỹ thuật phần mềm được hỗ trợ bởi AI, mang đến khả năng suy luận dài hạn, hiệu quả và tương tác theo thời gian thực được cải thiện. GPT‑5.1-Codex-Max sẽ thay thế GPT‑5.1-Codex làm mô hình mặc định trên các nền tảng tích hợp Codex.
Mô hình mới được thiết kế để hoạt động như một tác tử phát triển phần mềm bền bỉ, có ngữ cảnh cao, có khả năng quản lý các tác vụ tái cấu trúc phức tạp, quy trình gỡ lỗi và các tác vụ ở quy mô dự án trên nhiều cửa sổ ngữ cảnh.
Mô hình này ra mắt sau khi Google công bố mô hình Gemini 3 Pro mạnh mẽ vào ngày hôm qua, nhưng vẫn vượt trội hoặc ngang bằng Gemini 3 Pro trên các tiêu chí đánh giá mã hóa quan trọng:
Trên SWE-Bench Verified, GPT‑5.1-Codex-Max đạt độ chính xác 77.9% với nỗ lực suy luận cực cao, vượt qua Gemini 3 Pro với 76.2%.
Mô hình này cũng dẫn đầu trên Terminal-Bench 2.0, với độ chính xác 58.1% so với 54.2% của Gemini, và ngang bằng điểm số 2.439 của Gemini trên LiveCodeBench Pro, một tiêu chí đánh giá Elo cạnh tranh về mã hóa.
Khi so sánh với cấu hình tiên tiến nhất của Gemini 3 Pro — mô hình Deep Thinking — Codex-Max cũng có ưu thế nhỏ trong các tiêu chí đánh giá mã hóa có tác tử.
Hiệu suất Đánh giá: Tăng trưởng Từng bước trên các Tác vụ Chính
GPT‑5.1-Codex-Max thể hiện sự cải thiện đáng kể so với GPT‑5.1-Codex trên nhiều tiêu chí đánh giá kỹ thuật phần mềm tiêu chuẩn.
Trên SWE-Lancer IC SWE, mô hình đạt độ chính xác 79.9%, tăng đáng kể so với 66.3% của GPT‑5.1-Codex. Trong SWE-Bench Verified (n=500), mô hình đạt 77.9% độ chính xác với nỗ lực suy luận cực cao, vượt trội hơn 73.7% của GPT‑5.1-Codex.
Hiệu suất trên Terminal Bench 2.0 (n=89) cho thấy sự cải thiện khiêm tốn hơn, với GPT‑5.1-Codex-Max đạt 58.1% độ chính xác so với 52.8% của GPT‑5.1-Codex.
Tất cả các đánh giá đều được thực hiện với chế độ nén (compaction) và nỗ lực suy luận cực cao được kích hoạt.
Những kết quả này cho thấy mô hình mới mang lại tiềm năng cao hơn về cả độ chính xác được đánh giá và tính khả dụng trong thực tế dưới tải suy luận kéo dài.
Kiến trúc Kỹ thuật: Suy luận Dài hạn qua Cơ chế Nén
Một cải tiến kiến trúc lớn trong GPT‑5.1-Codex-Max là khả năng suy luận hiệu quả qua các phiên nhập-xuất kéo dài bằng cách sử dụng cơ chế gọi là nén (compaction).
Điều này cho phép mô hình giữ lại thông tin ngữ cảnh quan trọng đồng thời loại bỏ các chi tiết không liên quan khi gần đạt đến giới hạn cửa sổ ngữ cảnh — cho phép làm việc liên tục trên hàng triệu token mà không làm giảm hiệu suất.
Mô hình đã được quan sát trong nội bộ là hoàn thành các tác vụ kéo dài hơn 24 giờ, bao gồm tái cấu trúc nhiều bước, lặp lại dựa trên kiểm thử và tự động gỡ lỗi.
Cơ chế nén cũng cải thiện hiệu quả sử dụng token. Ở mức nỗ lực suy luận trung bình, GPT‑5.1-Codex-Max sử dụng ít hơn khoảng 30% token suy nghĩ so với GPT‑5.1-Codex cho độ chính xác tương đương hoặc tốt hơn, điều này có ý nghĩa đối với cả chi phí và độ trễ.
Tích hợp Nền tảng và Các Trường hợp Sử dụng
GPT‑5.1-Codex-Max hiện có sẵn trên nhiều môi trường dựa trên Codex, là các công cụ và giao diện tích hợp của OpenAI được xây dựng đặc biệt cho các tác tử AI tập trung vào mã. Các môi trường này bao gồm:
- Codex CLI: Công cụ dòng lệnh chính thức của OpenAI (@openai/codex), nơi GPT‑5.1-Codex-Max hiện đã hoạt động.
- Tiện ích mở rộng IDE: Có thể được phát triển hoặc duy trì bởi OpenAI, mặc dù không có tích hợp IDE của bên thứ ba cụ thể nào được nêu tên.
- Môi trường mã hóa tương tác: Như các môi trường được sử dụng để minh họa các ứng dụng mô phỏng giao diện người dùng như CartPole hoặc Snell’s Law Explorer.
- Công cụ đánh giá mã nội bộ: Được sử dụng bởi các nhóm kỹ thuật của OpenAI.
Hiện tại, GPT‑5.1-Codex-Max chưa có sẵn qua API công khai, mặc dù OpenAI cho biết điều này sắp tới. Người dùng muốn làm việc với mô hình trong môi trường terminal có thể làm như vậy bằng cách cài đặt và sử dụng Codex CLI.
Hiện chưa có xác nhận liệu mô hình có tích hợp vào IDE của bên thứ ba hay không, trừ khi chúng được xây dựng dựa trên CLI hoặc API trong tương lai.
Mô hình có khả năng tương tác với các công cụ và mô phỏng trực tiếp. Các ví dụ được hiển thị trong bản phát hành bao gồm:
- Một bộ mô phỏng gradient chính sách CartPole tương tác, hiển thị quá trình đào tạo và kích hoạt học tăng cường.
- Một công cụ khám phá quang học Định luật Snell, hỗ trợ dò tia động trên các chỉ số khúc xạ.
Các giao diện này minh họa khả năng suy luận theo thời gian thực của mô hình trong khi duy trì phiên phát triển tương tác — hiệu quả là kết nối tính toán, trực quan hóa và triển khai trong một vòng lặp duy nhất.
Giới hạn An ninh mạng và An toàn
Mặc dù GPT‑5.1-Codex-Max không đáp ứng ngưỡng năng lực “Cao” về an ninh mạng của OpenAI theo Khung chuẩn bị (Preparedness Framework), nhưng đây hiện là mô hình an ninh mạng có khả năng nhất mà OpenAI đã triển khai. Mô hình hỗ trợ các trường hợp sử dụng như phát hiện và khắc phục lỗ hổng tự động, nhưng với môi trường được cách ly nghiêm ngặt và tắt truy cập mạng theo mặc định.
OpenAI báo cáo không có sự gia tăng trong việc sử dụng độc hại trên quy mô lớn, nhưng đã giới thiệu các hệ thống giám sát nâng cao, bao gồm định tuyến hoạt động và cơ chế gián đoạn cho hành vi đáng ngờ. Codex vẫn được cô lập trong một không gian làm việc cục bộ trừ khi nhà phát triển chọn truy cập rộng hơn, giảm thiểu các rủi ro như tấn công tiêm lệnh (prompt injection) từ nội dung không đáng tin cậy.
Bối cảnh Triển khai và Sử dụng của Nhà phát triển
GPT‑5.1-Codex-Max hiện có sẵn cho người dùng trên các gói ChatGPT Plus, Pro, Business, Edu và Enterprise. Mô hình này cũng sẽ trở thành mặc định mới trong các môi trường dựa trên Codex, thay thế GPT‑5.1-Codex, vốn là một mô hình đa năng hơn.
OpenAI cho biết 95% kỹ sư nội bộ của họ sử dụng Codex hàng tuần, và kể từ khi áp dụng, trung bình các kỹ sư này đã gửi nhiều yêu cầu kéo hơn ~70% — làm nổi bật tác động của công cụ này đối với tốc độ phát triển nội bộ.
Bất chấp tính tự chủ và bền bỉ, OpenAI nhấn mạnh rằng Codex-Max nên được coi là một trợ lý mã hóa, không phải là sự thay thế cho việc xem xét của con người. Mô hình tạo ra các nhật ký terminal, trích dẫn kiểm thử và đầu ra lệnh công cụ để hỗ trợ tính minh bạch trong mã được tạo ra.
Triển vọng
GPT‑5.1-Codex-Max đại diện cho một sự phát triển đáng kể trong chiến lược của OpenAI đối với các công cụ phát triển có tác tử, mang lại chiều sâu suy luận, hiệu quả token và khả năng tương tác tốt hơn trên các tác vụ kỹ thuật phần mềm. Bằng cách mở rộng chiến lược quản lý ngữ cảnh và nén, mô hình được định vị để xử lý các tác vụ ở quy mô toàn bộ kho lưu trữ, thay vì chỉ các tệp hoặc đoạn mã riêng lẻ.
Với sự nhấn mạnh tiếp tục vào quy trình làm việc có tác tử, môi trường cách ly an toàn và các chỉ số đánh giá thực tế, Codex-Max đặt nền móng cho thế hệ tiếp theo của các môi trường lập trình được hỗ trợ bởi AI — đồng thời nhấn mạnh tầm quan trọng của sự giám sát trong các hệ thống ngày càng tự chủ.