Nhà nghiên cứu này đã biến mô hình trọng số mở gpt-oss-20b của OpenAI thành mô hình 'cơ sở' phi lý luận với ít điều chỉnh hơn, tự do hơn
Một nhà nghiên cứu đã biến mô hình mã nguồn mở GPT-OSS-20B của OpenAI thành một mô hình cơ sở không lý luận, ít liên kết và tự do hơn.
- 12 min read
Nhà nghiên cứu biến gpt-oss-20b thành mô hình cơ sở phi lý luận
Một nhà nghiên cứu đã biến mô hình mã nguồn mở mới, mạnh mẽ của OpenAI gpt-oss-20b thành mô hình cơ sở phi lý luận với ít điều chỉnh và tự do hơn.
Morris nhận thấy nó cũng có thể sao chép nguyên văn các đoạn văn từ các tác phẩm có bản quyền, bao gồm ba trong số sáu đoạn trích sách mà anh đã thử.
Mô hình ngôn ngữ lớn (LLM) mã nguồn mở mới và mạnh mẽ của OpenAI, gpt-oss, đã được phát hành cách đây chưa đầy hai tuần theo giấy phép Apache 2.0 cho phép — lần ra mắt mô hình mã nguồn mở đầu tiên của công ty kể từ GPT-2 vào năm 2019 — nhưng các nhà phát triển bên ngoài công ty đã định hình lại nó.
Một trong những ví dụ nổi bật nhất đến từ Jack Morris, nghiên cứu sinh tiến sĩ tại Cornell Tech, cựu Google Brain Resident và nhà nghiên cứu hiện tại tại Meta, người trong tuần này đã công bố gpt-oss-20b-base, phiên bản làm lại của riêng anh về mô hình gpt-oss-20B nhỏ hơn của OpenAI, loại bỏ hành vi “lý luận” của mô hình và trả nó về phiên bản “cơ sở” được đào tạo trước, cung cấp các phản hồi nhanh hơn, tự do hơn, không bị kiểm duyệt và không bị hạn chế.
Mô hình này hiện có sẵn trên Hugging Face theo giấy phép MIT cho phép, cho phép nó được sử dụng cho cả nghiên cứu bổ sung và các ứng dụng thương mại.
gpt-oss-20B-base khác với các mô hình gpt-oss của OpenAI như thế nào
Để hiểu những gì Morris đã làm, điều đó giúp bạn biết sự khác biệt giữa bản phát hành của OpenAI và những gì các nhà nghiên cứu AI gọi là “mô hình cơ sở”.
Hầu hết LLM được cung cấp bởi các phòng thí nghiệm AI hàng đầu như OpenAI, Anthropic, Google và thậm chí cả những người chơi mã nguồn mở như Meta, DeepSeek và nhóm Qwen của Alibaba đều là “đào tạo sau”.
Điều này có nghĩa là chúng đã trải qua một giai đoạn bổ sung, nơi nó được tiếp xúc với các ví dụ được tuyển chọn về hành vi mong muốn.
Đối với các mô hình được điều chỉnh theo hướng dẫn, điều đó có nghĩa là cung cấp cho nó nhiều ví dụ về các hướng dẫn được ghép nối với các phản hồi lý tưởng, do đó nó học cách phản hồi hữu ích, lịch sự hoặc an toàn hơn đối với các yêu cầu bằng ngôn ngữ tự nhiên.
Các mô hình gpt-oss mà OpenAI đưa ra vào ngày 5 tháng 8 đã được “tối ưu hóa lý luận”: được đào tạo và tinh chỉnh không chỉ để dự đoán từ tiếp theo, mà còn để tuân theo các hướng dẫn một cách an toàn, nhất quán, thường xuyên giải quyết các vấn đề bằng lý luận “chuỗi suy nghĩ” có cấu trúc trước khi đưa ra câu trả lời cuối cùng.
Đây là một xu hướng quay trở lại mô hình o1 của OpenAI được phát hành gần một năm trước vào tháng 9 năm 2024, nhưng hiện nay nhiều phòng thí nghiệm AI hàng đầu đã áp dụng — buộc các mô hình phải suy nghĩ lâu hơn qua nhiều bước và kiểm tra công việc của chính chúng trước khi đưa ra phản hồi có lý lẽ cho người dùng.
Điều đó làm cho chúng phù hợp hơn cho các tác vụ như viết mã, giải quyết các bài toán hoặc trả lời các câu hỏi thực tế bằng các giải thích — nhưng cũng có nghĩa là các phản hồi của chúng được lọc và tránh xa nội dung không an toàn hoặc không mong muốn.
Một mô hình cơ sở thì khác. Đó là phiên bản thô, được đào tạo trước của một mô hình ngôn ngữ lớn trước khi áp dụng sự điều chỉnh cụ thể cho lý luận đó. Các mô hình cơ sở chỉ đơn giản là cố gắng dự đoán đoạn văn bản tiếp theo cho trước những gì đã có trước đó, không có biện pháp bảo vệ tích hợp, sở thích về phong cách hoặc hành vi từ chối.
Chúng được một số nhà nghiên cứu đánh giá cao vì chúng có thể tạo ra đầu ra đa dạng hơn và ít bị hạn chế hơn, và vì việc nghiên cứu hành vi không được điều chỉnh của chúng có thể tiết lộ cách các mô hình lưu trữ kiến thức và mẫu từ dữ liệu đào tạo của chúng.
Mục tiêu của Morris là “đảo ngược” quy trình điều chỉnh của OpenAI và khôi phục gpt-oss-20B nhỏ hơn về một thứ gì đó gần hơn nhiều với trạng thái được đào tạo trước ban đầu của nó.
“Về cơ bản, chúng tôi đã đảo ngược phần điều chỉnh của quá trình đào tạo LLM, vì vậy chúng tôi có một cái gì đó tạo ra văn bản có vẻ tự nhiên trở lại,” anh ấy đã viết trong một chuỗi X thông báo dự án. “Nó không còn tham gia vào CoT nữa. Nó đã trở lại một mô hình chỉ dự đoán mã thông báo tiếp theo trên văn bản chung.”
Mô hình cơ sở được trích xuất từ gpt-oss-20b của OpenAI như thế nào
Thay vì cố gắng phá vỡ mô hình bằng các lời nhắc thông minh — mà Morris cho biết đã chứng tỏ không hiệu quả trong các thử nghiệm ban đầu của anh ấy — anh ấy đã thực hiện một cách tiếp cận khác sau cuộc trò chuyện với cựu đồng sáng lập OpenAI, cựu nhà nghiên cứu Anthropic và hiện tại nhà khoa học trưởng của Thinking Machines John Schulman.
Điểm mấu chốt là coi việc đảo ngược điều chỉnh như một vấn đề tối ưu hóa nhỏ: nếu phần lớn kiến thức được đào tạo trước của mô hình vẫn còn trong trọng số của nó, thì chỉ cần một bản cập nhật nhỏ, thứ hạng thấp mới có thể cần thiết để thúc đẩy nó trở lại hành vi của mô hình cơ sở.
Morris đã triển khai ý tưởng đó bằng cách áp dụng bản cập nhật LoRA (bộ điều hợp thứ hạng thấp) chỉ cho ba lớp của mô hình — các lớp MLP ở các vị trí 7, 15 và 23 — với thứ hạng là 16.
Điều đó có nghĩa là đào tạo khoảng 60 triệu tham số, hoặc 0,3% trong tổng số 21 tỷ của mô hình. Anh ấy đã sử dụng khoảng 20.000 tài liệu từ tập dữ liệu FineWeb, giữ định dạng càng gần với đào tạo trước ban đầu (" …." style) càng tốt để mô hình không học được bất cứ điều gì mới, chỉ cần kích hoạt lại việc tạo văn bản tự do trên diện rộng.
Quá trình đào tạo mất bốn ngày trên tám GPU NVIDIA H200, Morris nói với VentureBeat qua tin nhắn trực tiếp trên X, với tốc độ học là 2e-6, kích thước lô là 16 và độ dài chuỗi tối đa là 8.192 mã thông báo.
Sau đó, anh ấy đã hợp nhất các trọng số LoRA trở lại mô hình để người dùng có thể chạy nó như một tạo tác độc lập, được tinh chỉnh hoàn toàn.
Morris cũng phải đối mặt với những hạn chế của các công cụ mở hiện tại để tinh chỉnh các kiến trúc hỗn hợp các chuyên gia (MoE) như gpt-oss.
Morris cho biết anh ấy đã sử dụng khuôn khổ của Hugging Face, mà anh ấy cho biết thường xuyên bị lỗi và chỉ hỗ trợ một số chế độ đào tạo nhất định, và đã viết dây nịt của riêng mình để kiểm tra thường xuyên và bỏ qua các lô dữ liệu có nguy cơ làm quá tải bộ nhớ GPU.
Điều quan trọng là, để đáp lại các câu hỏi và chỉ trích từ cộng đồng AI trên X, Morris cũng đã làm rõ rằng anh ấy không tuyên bố đã khôi phục “trọng số” của mô hình cơ sở — các cài đặt bên trong của các nơ-ron nhân tạo tạo nên mạng nơ-ron của mô hình và chi phối hành vi của nó.
Thay vào đó, Morris nói rằng công việc của anh ấy đã “khôi phục phân phối của mô hình cơ sở với một số lỗi”, tức là các mẫu xác suất mà mô hình sử dụng để tạo ra đầu ra — mặc dù các trọng số tạo ra các mẫu đó có thể khác nhau.
Hành vi của mô hình gpt-oss-20b-base mới khác với gpt-oss-20b như thế nào
gpt-oss-20b-base kết quả rõ ràng là tự do hơn trong đầu ra của nó. Nó không còn mặc định giải thích từng bước lý luận và sẽ tạo ra một loạt các phản hồi rộng hơn, bao gồm các hướng dẫn mà mô hình được điều chỉnh của OpenAI sẽ từ chối cung cấp — như chế tạo vũ khí, liệt kê tục tĩu hoặc lên kế hoạch cho các hoạt động bất hợp pháp.
Trong các thử nghiệm ngắn, Morris nhận thấy nó cũng có thể sao chép nguyên văn các đoạn văn từ các tác phẩm có bản quyền, bao gồm ba trong số sáu đoạn trích sách mà anh ấy đã thử, cho thấy rằng một số tài liệu đã ghi nhớ vẫn có thể truy cập được.
Ngay cả như vậy, một số dấu vết điều chỉnh vẫn còn. Morris lưu ý rằng nếu bạn nhắc mô hình ở định dạng kiểu trợ lý (“Người: … Trợ lý: …”), đôi khi nó vẫn sẽ hoạt động như một chatbot lịch sự. Và khi chạy qua mẫu trò chuyện gpt-oss ban đầu, nó vẫn có thể thực hiện các tác vụ lý luận, mặc dù có một số mất mát về chất lượng.
Để có kết quả tốt nhất ở chế độ văn bản tự do, anh ấy khuyên bạn nên thêm các mã thông báo bắt đầu chuỗi đặc biệt của mô hình <|startoftext|> vào đầu lời nhắc và tránh hoàn toàn các mẫu trò chuyện.
Xây dựng dựa trên bản phát hành lớn của gia đình gpt-oss của OpenAI
Gia đình gpt-oss đã ra mắt và nhận được sự chú ý đáng kể. Hai mô hình — gpt-oss-120B và gpt-oss-20B — chỉ có văn bản, đa ngôn ngữ và được xây dựng với kiến trúc Transformer hỗn hợp các chuyên gia. Chúng được phát hành theo giấy phép Apache 2.0 cho phép, cho phép sử dụng cục bộ không giới hạn, tinh chỉnh và triển khai thương mại.
Điểm chuẩn hiệu suất từ OpenAI cho thấy mô hình 120B lớn hơn phù hợp hoặc vượt quá o4-mini độc quyền trong các tác vụ lý luận và sử dụng công cụ, với 20B nhỏ hơn cạnh tranh với o3-mini.
Đây là bản phát hành mã nguồn mở đầu tiên của OpenAI sau sáu năm, một động thái được hiểu rộng rãi là một phản ứng đối với áp lực cạnh tranh từ các nhà cung cấp mã nguồn mở khác, bao gồm DeepSeek R1 và Qwen 3 của Trung Quốc.
Công ty đã định vị gpt-oss như một cách để thu hút lại các nhà phát triển đã chuyển sang các mô hình mã nguồn mở đối thủ và như một nền tảng cho nghiên cứu an toàn về các hệ thống mã nguồn mở.
Phản ứng đối với gpt-oss ban đầu là hỗn hợp
Phản ứng của nhà phát triển đối với các mô hình gpt-oss của OpenAI đã hỗn hợp một cách kiên định, với các phản ứng trên toàn diện, từ nhiệt tình đến thất vọng.
Những người ủng hộ đã ca ngợi giấy phép cho phép, hiệu quả và thể hiện mạnh mẽ trên các điểm chuẩn STEM.
Giám đốc điều hành của Hugging Face, Clem Delangue, mô tả bản phát hành này là một “bổ sung có ý nghĩa cho hệ sinh thái mở” và kêu gọi cộng đồng dành thời gian cho nó để trưởng thành.
Các nhà phê bình cho rằng các mô hình dường như được đào tạo rất nhiều trên dữ liệu tổng hợp, khiến chúng trở nên xuất sắc trong toán học và viết mã, nhưng kém khả năng viết sáng tạo, kiến thức thế giới chung và lý luận đa ngôn ngữ.
Một số người thử nghiệm ban đầu cũng bày tỏ lo ngại về các bộ lọc an toàn kéo dài và khả năng thiên vị địa chính trị.
Trong bối cảnh đó, gpt-oss-20b-base của Morris nổi bật như một ví dụ cụ thể về cách các mô hình mã nguồn mở có thể được điều chỉnh và tái sử dụng trong tự nhiên trong vòng vài ngày sau khi phát hành.
Thật vậy, trái ngược với cách gpt-oss của OpenAI được đón nhận, hầu hết các phản hồi đối với công việc của Morris mà tôi đã thấy đều ấm áp và vui mừng. Như một nhà khoa học máy tính đã viết trên X: “đây là điều tuyệt vời nhất mà tôi đã thấy trên Twitter [X] trong vài tháng qua.”
Cách tiếp cận này loại bỏ phần lớn hành vi mà OpenAI đã tích hợp và trả mô hình về một thứ gì đó gần hơn với một hệ thống thô, được đào tạo trước — một sự thay đổi có giá trị đối với các nhà nghiên cứu nghiên cứu về việc ghi nhớ, thiên vị hoặc tác động của việc điều chỉnh, nhưng cũng đi kèm với rủi ro an toàn cao hơn.
Hơn nữa, Morris nói rằng công việc của anh ấy về việc khôi phục các mô hình lý luận về các mô hình cơ sở phi lý luận, được đào tạo trước sẽ tiếp tục bằng cách so sánh việc trích xuất trên các mô hình hướng dẫn phi lý luận như những mô hình do Qwen cung cấp.
Link bài viết gốc
- Tags:
- Ai
- 16 August 2025
- Venturebeat.com