Codex đang mã hóa nguồn mở các mô hình AI
Codex đang mã hóa nguồn mở các mô hình AI
- 13 min read
Codex Mở Mã Nguồn Mô Hình AI
Chúng tôi đang trên hành trình phát triển và dân chủ hóa trí tuệ nhân tạo thông qua mã nguồn mở và khoa học mở.
Codex Là Gì?
Codex là mô hình ngôn ngữ AI của OpenAI, được thiết kế để hiểu và tạo mã. Nó dựa trên kiến trúc GPT, được huấn luyện trên một kho dữ liệu khổng lồ gồm mã và văn bản. Codex có thể thực hiện nhiều tác vụ liên quan đến mã, bao gồm:
- Tạo mã: Viết mã từ mô tả bằng ngôn ngữ tự nhiên.
- Hoàn thành mã: Dự đoán và gợi ý các dòng mã tiếp theo.
- Dịch mã: Chuyển đổi mã từ ngôn ngữ lập trình này sang ngôn ngữ khác.
- Giải thích mã: Mô tả chức năng của một đoạn mã.
- Gỡ lỗi mã: Xác định và sửa lỗi trong mã.
Mục Tiêu: Thí Nghiệm Học Máy Cuối Cuối
Chúng tôi đã khám phá cách tiếp cận bằng một lời nhắc duy nhất trong hướng dẫn Claude Code. Tuy nhiên, giờ đây chúng tôi có thể đi xa hơn và yêu cầu OpenAI Codex thực hiện các thí nghiệm Học Máy cuối cuối. Ví dụ, Codex có thể giám sát tiến trình, đánh giá mô hình và duy trì báo cáo đào tạo cập nhật. Điều này sẽ cho phép các kỹ sư ủy thác thí nghiệm cho Codex và xem lại báo cáo một cách thuận tiện hơn. Nó cũng sẽ cho phép Codex đưa ra nhiều quyết định hơn dựa trên báo cáo đào tạo và kết quả đánh giá.
Vì vậy, hãy bắt đầu thôi!
Thiết Lập và Cài Đặt
Trước khi bắt đầu, bạn sẽ cần:
- Một tài khoản Hugging Face với gói Pro hoặc Team / Enterprise (Jobs yêu cầu gói trả phí).
- Một token truy cập ghi từ huggingface.co/settings/tokens.
- Codex đã cài đặt và cấu hình.
Cài Đặt Codex
Codex là trình tự lý mã AI của OpenAI có sẵn trong các gói ChatGPT Plus, Pro, Business, Edu và Enterprise. Codex mang lại sự hỗ trợ của AI trực tiếp vào quy trình làm việc phát triển của bạn.
Xem tài liệu Codex để biết hướng dẫn cài đặt và thiết lập.
Cài Đặt Hugging Face Skills
Kho lưu trữ Hugging Face Skills bao gồm một tệp AGENTS.md mà Codex tự động phát hiện và sử dụng.
Clone kho lưu trữ:
bash git clone https://github.com/huggingface/skills.git cd skills
Codex sẽ tự động phát hiện tệp AGENTS.md trong kho lưu trữ và tải các kỹ năng. Bạn có thể xác minh các hướng dẫn đã được tải với:
bash codex –ask-for-approval never “Summarize the current instructions.”
Xem hướng dẫn Codex AGENTS để biết thêm chi tiết.
Kết Nối Với Hugging Face
Xác thực với Hugging Face bằng lệnh hf auth login và token truy cập ghi từ hf.co/settings/tokens:
bash hf auth login
Codex hỗ trợ các máy chủ MCP (Model Context Protocol). Bạn có thể cấu hình máy chủ Hugging Face MCP cho các khả năng tích hợp Hub bổ sung. Bạn có thể thêm máy chủ Hugging Face MCP vào cấu hình Codex của mình bằng cách thêm những dòng sau vào tệp ~/.codex/config.toml:
toml [mcp_servers.huggingface] command = “npx” args = ["-y", “mcp-remote”, “https://huggingface.co/mcp?login”]
Cấu hình Hugging Face MCP Server để sử dụng các máy chủ MCP có liên quan như Jobs trên trang Cài đặt.
Sau đó, khởi động Codex và bạn sẽ được chuyển hướng đến trang xác thực Hugging Face MCP.
Thí Nghiệm AI Đầu Tiên Của Bạn
Hãy cùng xem qua một ví dụ hoàn chỉnh. Chúng ta sẽ tinh chỉnh một mô hình nhỏ để cải thiện khả năng giải quyết mã, sử dụng tập dữ liệu open-r1/codeforces-cots và chuẩn đánh giá openai_humaneval.
Tập dữ liệu
open-r1/codeforces-cotslà một tập dữ liệu về các bài toán và giải pháp Codeforces. Đây là một tập dữ liệu tốt để tinh chỉnh theo hướng dẫn cho một mô hình giải quyết các vấn đề mã hóa khó.
Chỉ Dẫn Codex Thực Hiện Thí Nghiệm Tinh Chỉnh Cuối Cuối
Khởi động Codex trong thư mục dự án của bạn. Sau đó, đưa ra một hướng dẫn đơn giản và rõ ràng:
Bắt đầu một thí nghiệm tinh chỉnh mới để cải thiện khả năng giải quyết mã bằng cách sử dụng SFT.
- Duy trì báo cáo cho thí nghiệm.
- Đánh giá các mô hình bằng chuẩn openai_humaneval
- Sử dụng tập dữ liệu open-r1/codeforces-cots
Bạn sẽ nhận thấy rằng chúng ta đã đi xa hơn một chút so với cách tiếp cận một lời nhắc duy nhất trong hướng dẫn Claude Code. Chúng ta đã thêm nhiều chi tiết hơn vào hướng dẫn nhưng cũng thêm nhiều bước vào thí nghiệm.
Tại sao bạn không thử lặp lại thí nghiệm này với các câu hỏi mở hơn như “Mô hình nào tốt nhất cho khả năng giải quyết mã?” hoặc “Tập dữ liệu nào tốt nhất cho khả năng giải quyết mã?”
Codex phân tích yêu cầu của bạn và chuẩn bị một cấu hình đào tạo. Đối với mô hình 0.6B trên tập dữ liệu demo, nó chọn t4-small — đủ GPU cho kích thước mô hình này và là tùy chọn rẻ nhất có sẵn. Codex sẽ bắt đầu một báo cáo mới tại training_reports/<model>-<dataset>-<method>.md trông giống như ví dụ bên dưới. Khi thí nghiệm tiến triển, Codex sẽ cập nhật báo cáo với thông tin mới nhất và báo cáo của mỗi lần chạy.
md
Mô Hình Cơ Sở & Tập Dữ Liệu
sft-a10g - TBD - Đang Tiến Hành
Tham Số Đào Tạo
| Tham Số | Giá Trị |
|---|---|
| Phương Pháp | SFT (TRL) |
| Mô Hình | Qwen/Qwen3-0.6B |
| Tập Dữ Liệu | open-r1/codeforces-cots (train, 5% eval split) |
| Độ Dài Tối Đa | 2048 |
| Epochs | 1 (mở rộng lên 3 sau lần kiểm tra đầu tiên) |
| Batch Trên Thiết Bị | 1 |
| Bước Tích Lũy Grad | 8 |
| Batch Hiệu Dụng | 8 |
| Tốc Độ Học | 5e-5 |
| Giảm Trọng Số | 0.01 |
| Tỷ Lệ Khởi Động | 0.03 |
| Chiến Lược Eval | steps (500) |
| Chiến Lược Lưu | steps (500), hub_strategy=every_save, limit=2 |
| Độ Chính Xác | bf16 |
| Gradient Checkpointing | true |
| Packing | false |
| Mô Hình Hub | burtenshaw/qwen3-codeforces-cots-sft |
| Phần Cứng | a10g-small |
| Thời Gian Chờ | 2h |
| Trackio | dự án qwen3-codeforces-cots, chạy sft-a10g |
Trạng Thái Chạy
Đang Tiến Hành (đang chờ để gửi)
Nhật Ký Chạy
Đang chờ gửi (liên kết công việc sẽ được thêm vào)
Nhật Ký Trackio
Đang chờ (sẽ liên kết sau khi công việc bắt đầu)
Đánh Giá Chạy
Đang chờ (lighteval openai_humaneval cho cơ sở + checkpoints)
Đánh Giá Thí Nghiệm
| Tiêu Đề Chạy | Chuẩn Đánh Giá | Điểm | Liên Kết Công Việc Đánh Giá | Liên Kết Mô Hình |
|---|---|---|---|---|
sft-a10g - TBD - Đang Tiến Hành |
HumanEval pass@1 | TBD | TBD | burtenshaw/qwen3-codeforces-cots-sft |
Cập Nhật Báo Cáo Đào Tạo
Khi thí nghiệm tiến triển, Codex sẽ cập nhật báo cáo với thông tin mới nhất và báo cáo của mỗi lần chạy. Bạn có thể xem báo cáo trong tệp training_reports/<model>-<dataset>-<method>.md.
Ví dụ, Codex sẽ cập nhật tiêu đề báo cáo thành sft-a10g - TBD - Đang Tiến Hành khi thí nghiệm đang tiến hành.
md
base-humaneval-a10g - 2025-12-09 13:47:47 UTC - Đang Tiến Hành
Nó có thể liên kết đến nhật ký chạy và nhật ký trackio.
md
Nhật Ký Chạy
Nhật Ký Trackio
Và nó sẽ cập nhật kết quả đánh giá trong một bảng kết hợp.
md
Đánh Giá Thí Nghiệm
| Tiêu Đề Chạy | Chuẩn Đánh Giá | Điểm | Liên Kết Công Việc Đánh Giá | Liên Kết Mô Hình |
|---|---|---|---|---|
base-humaneval-a10g - 2025-12-09 13:47:47 UTC - Đã Hoàn Thành |
HumanEval pass@1 | 0.304 | Nhật Ký | Qwen/Qwen3-0.6B |
qwen3-0.6b-lora-v1 - 2025-12-09 13:47:47 UTC - Đang Tiến Hành |
HumanEval pass@1 | TBD | TBD | burtenshaw/qwen3-codeforces-cots-sft |
Xác Thực Tập Dữ Liệu
Định dạng và xử lý tập dữ liệu là nguồn gốc phổ biến nhất của các lỗi đào tạo và thường có rất nhiều công việc được thực hiện trong tập lệnh đào tạo. Codex có thể xác thực tập dữ liệu trước khi công việc bắt đầu và hoặc xác định một cấu hình cho TRL hoặc xử lý tập dữ liệu riêng biệt.
Trong hầu hết các trường hợp, Codex sẽ xác thực tập dữ liệu trước khi đào tạo, nhưng bạn luôn có thể kiểm tra xác thực tập dữ liệu trước khi gửi công việc.
Kiểm tra xem open-r1/codeforces-cots có hoạt động cho đào tạo SFT không.
Codex chạy một cuộc kiểm tra nhanh trên CPU (chi phí rất nhỏ) và báo cáo:
Xác thực tập dữ liệu cho my-org/conversation-data:
SFT: ✓ SẴN SÀNG Đã tìm thấy cột ‘messages’ với định dạng cuộc trò chuyện
DPO: ✗ KHÔNG TƯƠNG THÍCH Thiếu cột ‘chosen’ và ‘rejected’
Nếu tập dữ liệu của bạn cần biến đổi, Codex có thể tiền xử lý tập dữ liệu trước khi đào tạo.
Tiền xử lý tập dữ liệu open-r1/codeforces-cots để sử dụng ‘good_response’ và ‘bad_response’ thay vì ‘chosen’ và ‘rejected’.
Codex sẽ tiền xử lý tập dữ liệu và cập nhật tập lệnh đào tạo với cấu hình mới.
Xem Xét Trước Khi Gửi
Trước khi Codex gửi bất cứ thứ gì, bạn sẽ thấy cấu hình:
Tôi sẽ tinh chỉnh Qwen/Qwen3-0.6B trên open-r1/codeforces-cots bằng SFT.
Cấu hình:
- Phần cứng: t4-small (~$0.75/giờ)
- Thời gian ước tính: ~20 phút
- Chi phí ước tính: ~$0.30
- Đầu ra: username/qwen-codeforces-cots-sft
Mô hình sẽ được đẩy lên Hub tự động. Tôi có nên gửi không?
Đây là cơ hội của bạn để điều chỉnh mọi thứ. Thay đổi tên kho lưu trữ đầu ra, chọn phần cứng khác hoặc yêu cầu Codex sửa đổi các tham số đào tạo. Sau khi bạn phê duyệt, công việc sẽ được gửi.
Ví dụ, bạn có thể yêu cầu Codex thử một lần chạy kiểm tra:
Thực hiện một lần chạy kiểm tra nhanh trên 100 ví dụ.
Theo Dõi Tiến Trình Sử Dụng Báo Cáo Đào Tạo
Sau khi gửi, bạn có thể theo dõi tiến trình bằng báo cáo đào tạo và nhận các liên kết đến nhật ký công việc và nhật ký trackio. Bạn cũng có thể yêu cầu Codex truy xuất nhật ký, tóm tắt tiến trình và cập nhật báo cáo đào tạo. Khi Codex chạy công việc, nó sẽ cập nhật báo cáo đào tạo với thông tin mới nhất.
─ Đã làm việc trong 10m 38s ─────────────────────────────────────────────────────────────────────────────────────────────────────────
• Các công việc đào tạo và đánh giá đang hoạt động. Chi tiết chính:
- SFT được khởi chạy trên open-r1/codeforces-cots (solutions_py_decontaminated, 98/2 split) với LoRA trên Qwen/Qwen3-0.6B, a10g- large, bf16, max_steps=1000, batch=1, grad_accum=8, lr=2e-5, lưu/đánh giá mỗi 200 bước, đẩy hub burtenshaw/qwen3- codeforces-cots-sft. Công việc: https://huggingface.co/jobs/burtenshaw/6938272ec67c9f186cfe1ae3 (Dự án Trackio codeforces- cots-sft, chạy qwen3-0.6b-lora-v1).
- lighteval cơ sở (HumanEval) trên mô hình cơ sở đang chờ xử lý trên a10g-large. Công việc: https://huggingface.co/jobs/
- Báo cáo thí nghiệm được cập nhật với các lần chạy và liên kết hiện tại: training_reports/qwen3-codeforces-cots-sft.md.
Để đánh giá các checkpoint đã tinh chỉnh khi công việc SFT đẩy lên hub, hãy sử dụng lại cùng một tập lệnh lighteval: hf jobs uv run –flavor a10g-large –timeout 1h –secrets HF_TOKEN -e MODEL_ID=burtenshaw/qwen3-codeforces-cots-sft -e RESULTS_ORG=burtenshaw -d /tmp/lighteval_humaneval.py (hoặc thay thế MODEL_ID bằng đường dẫn checkpoint cụ thể). Điều này sẽ ghi vào cùng thư mục kết quả trên hub.
- Theo dõi hai công việc đang chạy; tôi có thể truy xuất nhật ký hoặc số liệu theo yêu cầu.
- Sau khi một checkpoint được lưu, hãy kích hoạt chạy lighteval ở trên để so sánh với mô hình cơ sở; sau đó chúng ta có thể điền pass@1 vào báo cáo.
Bạn cũng có thể theo dõi tổn thất đào tạo trong thời gian thực.

Codex truy xuất nhật ký và tóm tắt tiến trình.
Nhấp vào đây để xem ví dụ bảng điều khiển Trackio với một số lần chạy đã hoàn thành.
Sử Dụng Mô Hình Của Bạn
Khi quá trình đào tạo hoàn tất, mô hình của bạn sẽ có trên Hub:
python from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(“burtenshaw/qwen3-codeforces-cots-sft”) tokenizer = AutoTokenizer.from_pretrained(“burtenshaw/qwen3-codeforces-cots-sft”)
Transformers rất tuyệt vời như một tiêu chuẩn, và chúng ta có thể dễ dàng chuyển đổi mô hình đã đào tạo sang GGUF để triển khai cục bộ. Điều này là do kỹ năng đào tạo chứa các hướng dẫn và tập lệnh hỗ trợ để chuyển đổi mô hình sang GGUF.
Chuyển đổi mô hình đã tinh chỉnh của tôi sang GGUF với lượng tử hóa Q4_K_M. Đẩy lên username/my-model-gguf.
Sau đó, Codex chuyển đổi sang GGUF, áp dụng lượng tử hóa và đẩy lên Hub. Nếu chúng ta đã đào tạo một bộ điều hợp LoRA, nó sẽ hợp nhất các bộ điều hợp LoRA vào mô hình cơ sở.
Sau đó sử dụng nó cục bộ:
bash llama-server -hf /:
Ví dụ, để chạy mô hình Qwen3-1.7B-GGUF trên máy cục bộ của bạn:
llama-server -hf unsloth/Qwen3-1.7B-GGUF:Q4_K_M
Phần Cứng và Chi Phí
Codex chọn phần cứng dựa trên kích thước mô hình của bạn, nhưng hiểu sự đánh đổi sẽ giúp bạn đưa ra quyết định tốt hơn. Bạn có thể sử dụng Hướng Dẫn Phần Cứng để xem các tùy chọn phần cứng và chi phí, nhưng Codex sẽ làm điều đó cho bạn và chọn tùy chọn tốt nhất.
Đối với các mô hình rất nhỏ dưới 1B tham số, t4-small hoạt động tốt. Các mô hình này đào tạo nhanh — dự kiến $1-2 cho một lần chạy đầy đủ. Điều này rất phù hợp cho các lần chạy giáo dục hoặc thử nghiệm.
Đối với các mô hình nhỏ (1-3B), hãy nâng cấp lên t4-medium hoặc a10g-small. Đào tạo mất vài giờ và chi phí $5-15.
Đối với các mô hình trung bình (3-7B), bạn cần a10g-large hoặc a100-large với LoRA. Việc tinh chỉnh đầy đủ không phù hợp, nhưng LoRA làm cho chúng rất dễ đào tạo. Ngân sách $15-40 cho sản xuất.
Đối với các mô hình lớn (7B+), công việc kỹ năng HF này chưa phù hợp với quy mô này. Nhưng hãy theo dõi vì chúng tôi đang làm việc đó!
Tiếp Theo Là Gì
Chúng tôi đã chứng minh rằng Codex có thể xử lý toàn bộ vòng đời của việc tinh chỉnh mô hình: xác thực dữ liệu, chọn phần cứng, tạo tập lệnh, gửi công việc, theo dõi tiến trình và chuyển đổi đầu ra.
Một số điều cần thử:
- Tinh chỉnh một mô hình trên tập dữ liệu của riêng bạn.
- Thử các thí nghiệm lớn hơn với nhiều mô hình và tập dữ liệu hơn và để tác nhân tạo báo cáo cho bạn.
- Đào tạo một mô hình suy luận với GRPO về toán học hoặc mã và để tác nhân tạo báo cáo cho bạn.
Tiện ích mở rộng là mã nguồn mở. Bạn có thể mở rộng nó, tùy chỉnh nó cho quy trình làm việc của mình hoặc sử dụng nó làm điểm khởi đầu cho các kịch bản đào tạo khác.
Tài Nguyên
Codex
- Tài liệu Codex — Trình tự lý mã AI của OpenAI
- Hướng dẫn nhanh Codex — Bắt đầu với Codex
- Hướng dẫn Codex AGENTS — Sử dụng các tệp AGENTS.md
Hugging Face Skills
- SKILL.md — Tài liệu kỹ năng đầy đủ
- Phương Pháp Đào Tạo — SFT, DPO, GRPO được giải thích
- Hướng Dẫn Phần Cứng — Lựa chọn GPU và chi phí
- Tài liệu TRL — Thư viện đào tạo cơ bản
- Hugging Face Jobs — Cơ sở hạ tầng đào tạo đám mây
- Trackio — Giám sát đào tạo thời gian thực
Bài Viết Liên Quan Từ Blog Của Chúng Tôi
Chúng Tôi Đã Yêu Cầu Claude Tinh Chỉnh LLM Mã Nguồn Mở
- llm, fine-tuning, open-source, community, training, Claude, Codex, Gemini, agents
- 519 Upvotes • Hot • Dec 4, 2025
Smol2Operator: Tác Nhân GUI Sau Đào Tạo Cho Sử Dụng Máy Tính
- agents, gui, vlm, vision, training, post-training, computer-use, agentic, community, open-source
- 133 Upvotes • Sep 23, 2025
Cộng Đồng
Is this possible to do on local infrastructure without having paid tier?
Tell me about yourself