Những phản ứng ban đầu đối với các mô hình gpt-oss mã nguồn mở mang tính bước ngoặt của OpenAI rất đa dạng và hỗn hợp

Phản ứng ban đầu về các mô hình gpt-oss mã nguồn mở mang tính bước ngoặt của OpenAI rất đa dạng và hỗn hợp.

  • 12 min read
Những phản ứng ban đầu đối với các mô hình gpt-oss mã nguồn mở mang tính bước ngoặt của OpenAI rất đa dạng và hỗn hợp
Phản ứng ban đầu về các mô hình gpt-oss mã nguồn mở mang tính bước ngoặt của OpenAI rất đa dạng và hỗn hợp.

Phản ứng ban đầu đối với các mô hình gpt-oss mã nguồn mở mang tính bước ngoặt của OpenAI rất đa dạng và trái chiều

Phán quyết, hiện tại, là chia rẽ. Các mô hình gpt-oss của OpenAI là một cột mốc quan trọng về cấp phép và khả năng tiếp cận.

Bạn muốn những thông tin chuyên sâu thông minh hơn trong hộp thư đến của mình? Đăng ký nhận bản tin hàng tuần của chúng tôi để chỉ nhận những gì quan trọng đối với các nhà lãnh đạo về AI, dữ liệu và bảo mật của doanh nghiệp. Đăng ký ngay


Sự trở lại được chờ đợi từ lâu của OpenAI với “mã nguồn mở” của tên gọi của nó đã diễn ra ngày hôm qua với việc phát hành hai mô hình ngôn ngữ lớn (LLM) mới: gpt-oss-120B và gpt-oss-20B.

Nhưng mặc dù đạt được các tiêu chuẩn kỹ thuật ngang bằng với các dịch vụ mô hình AI độc quyền mạnh mẽ khác của OpenAI, nhưng phản ứng ban đầu của cộng đồng nhà phát triển và người dùng AI rộng lớn hơn cho đến nay là rất khác nhau. Nếu bản phát hành này là một bộ phim ra mắt và được chấm điểm trên Rotten Tomatoes, chúng ta sẽ thấy tỷ lệ gần 50%, dựa trên những quan sát của tôi.

[video width=“560” height=“315”]

Đầu tiên, một số thông tin cơ bản: OpenAI đã phát hành hai mô hình ngôn ngữ chỉ có văn bản mới này (không tạo hoặc phân tích hình ảnh) theo giấy phép Apache 2.0 mã nguồn mở cho phép — lần đầu tiên kể từ năm 2019 (trước ChatGPT) công ty đã làm như vậy với một mô hình ngôn ngữ tiên tiến.

Toàn bộ kỷ nguyên ChatGPT trong 2,7 năm qua cho đến nay đã được hỗ trợ bởi các mô hình độc quyền hoặc mã nguồn đóng, những mô hình mà OpenAI kiểm soát và người dùng phải trả tiền để truy cập (hoặc sử dụng cấp miễn phí tùy thuộc vào giới hạn), với khả năng tùy chỉnh hạn chế và không có cách nào để chạy chúng ngoại tuyến hoặc trên phần cứng máy tính riêng.


Khả năng mở rộng AI đạt đến giới hạn

Giới hạn công suất, chi phí mã thông báo tăng và độ trễ suy luận đang định hình lại AI doanh nghiệp. Hãy tham gia buổi gặp gỡ độc quyền của chúng tôi để khám phá cách các nhóm hàng đầu đang:

  • Biến năng lượng thành lợi thế chiến lược
  • Kiến trúc suy luận hiệu quả để đạt được thông lượng thực tế
  • Mở khóa ROI cạnh tranh với các hệ thống AI bền vững

Đảm bảo vị trí của bạn để luôn dẫn đầu: https://bit.ly/4mwGngO


Nhưng tất cả đã thay đổi nhờ việc phát hành cặp mô hình gpt-oss ngày hôm qua, một mô hình lớn hơn và mạnh mẽ hơn để sử dụng trên một GPU Nvidia H100 duy nhất tại trung tâm dữ liệu hoặc trang trại máy chủ của một doanh nghiệp vừa và nhỏ, và một mô hình thậm chí còn nhỏ hơn hoạt động trên một máy tính xách tay hoặc máy tính để bàn PC tiêu dùng duy nhất giống như loại trong văn phòng tại nhà của bạn.

Tất nhiên, các mô hình còn quá mới, phải mất vài giờ để cộng đồng người dùng AI mạnh mẽ tự chạy và kiểm tra chúng trên các điểm chuẩn (đo lường) và tác vụ riêng của họ.

Và bây giờ chúng ta đang nhận được một làn sóng phản hồi từ sự nhiệt tình lạc quan về tiềm năng của những mô hình mới mạnh mẽ, miễn phí và hiệu quả này đến một luồng ngầm bất mãn và thất vọng với những gì một số người dùng thấy là những vấn đề và hạn chế đáng kể, đặc biệt so với làn sóng mã nguồn mở mạnh mẽ, đa phương thức LLM từ các công ty khởi nghiệp của Trung Quốc (cũng có thể được các công ty Hoa Kỳ lấy, tùy chỉnh, chạy cục bộ trên phần cứng của Hoa Kỳ miễn phí hoặc các công ty ở bất kỳ nơi nào khác trên thế giới).

Điểm chuẩn cao, nhưng vẫn đứng sau các nhà lãnh đạo mã nguồn mở của Trung Quốc

Điểm chuẩn trí tuệ đặt các mô hình gpt-oss vượt lên trên hầu hết các dịch vụ mã nguồn mở của Mỹ. Theo công ty đánh giá AI độc lập bên thứ ba Artificial Analysis, gpt-oss-120B là “mô hình trọng số mở của Mỹ thông minh nhất”, mặc dù nó vẫn không bằng những tên tuổi lớn của Trung Quốc như DeepSeek R1 và Qwen3 235B.

Bảng so sánh điểm chuẩn từ Phân tích nhân tạo cho thấy mô hình gpt-oss-120B là mô hình mã nguồn mở hàng đầu của Hoa Kỳ, nhưng vẫn đứng sau các mô hình như DeepSeek và Qwen.

“@teortaxesTex”, người tự xưng là “stan” của DeepSeek, đã viết: “Suy ngẫm lại, đó là tất cả những gì họ đã làm. Tăng cường trên các điểm chuẩn”. “Không có mô hình phái sinh tốt nào sẽ được đào tạo… Không có trường hợp sử dụng mới nào được tạo ra… Yêu sách cằn cỗi để khoe khoang.”

Sự hoài nghi đó được lặp lại bởi nhà nghiên cứu AI mã nguồn mở ẩn danh Teknium (@Teknium1), đồng sáng lập của nhà cung cấp mô hình AI mã nguồn mở đối thủ Nous Research, người gọi bản phát hành là “một chiếc bánh mì kẹp thịt hoàn toàn vô nghĩa”, trên X và dự đoán rằng một mô hình của Trung Quốc sẽ sớm vượt qua nó. “Nhìn chung rất thất vọng và tôi thực sự đã đến đây với một tâm trí cởi mở,” họ đã viết.

Tăng cường điểm chuẩn tối đa về toán học và mã hóa phải trả giá bằng văn bản?

Những lời chỉ trích khác tập trung vào tính hữu dụng hẹp rõ ràng của các mô hình gpt-oss.

Người có ảnh hưởng về AI “@Lisan al Gaib (@scaling01)” lưu ý rằng các mô hình này vượt trội về toán học và mã hóa nhưng “hoàn toàn thiếu gu thẩm mỹ và ý thức chung.” Ông nói thêm: “Vậy nó chỉ là một mô hình toán học?”

Trong các bài kiểm tra viết sáng tạo, một số người dùng nhận thấy mô hình này chèn các phương trình vào các sản phẩm thơ ca. “Teknium nhận xét, chia sẻ ảnh chụp màn hình nơi mô hình thêm một công thức tích phân giữa bài thơ: “Đây là những gì xảy ra khi bạn tăng cường điểm chuẩn tối đa.”

[danh sách nhúng tweet]

Và “@kalomaze”, một nhà nghiên cứu tại công ty đào tạo mô hình AI phi tập trung Prime Intellect, đã viết rằng “gpt-oss-120b biết ít về thế giới hơn những gì một 32b tốt làm. có lẽ muốn tránh các vấn đề về bản quyền nên họ có thể đã đào tạo trước chủ yếu trên tổng hợp. những thứ khá tàn khốc”

Cựu nhân viên của Google và nhà phát triển AI độc lập Kyle Corbitt đồng ý rằng cặp mô hình gpt-oss dường như đã được đào tạo chủ yếu trên dữ liệu tổng hợp — tức là dữ liệu được tạo bởi một mô hình AI cụ thể cho mục đích đào tạo một mô hình mới — làm cho nó trở nên “cực kỳ gai góc”.

Corbitt đã viết rằng nó “tuyệt vời ở các tác vụ mà nó được đào tạo, thực sự tệ ở mọi thứ khác”, tức là tuyệt vời ở các bài toán mã hóa và toán học, và tệ ở các tác vụ ngôn ngữ hơn như viết sáng tạo hoặc tạo báo cáo.

Nói cách khác, cáo buộc là OpenAI cố tình đào tạo mô hình trên nhiều dữ liệu tổng hợp hơn là các sự kiện và số liệu thực tế để tránh sử dụng dữ liệu có bản quyền được thu thập từ các trang web và các kho lưu trữ khác mà nó không sở hữu hoặc có giấy phép sử dụng, đó là điều mà nó và nhiều công ty gen AI hàng đầu khác đã bị cáo buộc trong quá khứ và đang phải đối mặt với các vụ kiện đang diễn ra do đó.

Những người khác suy đoán rằng OpenAI có thể đã đào tạo mô hình trên dữ liệu tổng hợp chủ yếu để tránh các vấn đề an toàn và bảo mật, dẫn đến chất lượng kém hơn so với khi nó được đào tạo trên nhiều dữ liệu thế giới thực (và có lẽ có bản quyền) hơn.

Kết quả điểm chuẩn của bên thứ ba đáng lo ngại

Hơn nữa, việc đánh giá các mô hình trên các bài kiểm tra điểm chuẩn của bên thứ ba đã đưa ra các số liệu đáng lo ngại trong mắt một số người dùng.

SpeechMap — đo lường hiệu suất của LLM trong việc tuân thủ các lời nhắc của người dùng để tạo ra các đầu ra bị cấm, thiên vị hoặc nhạy cảm về mặt chính trị — cho thấy điểm tuân thủ đối với gpt-oss 120B dao động dưới 40%, gần dưới cùng của các mô hình mở ngang hàng, cho thấy sự kháng cự trong việc tuân theo yêu cầu của người dùng và mặc định các biện pháp bảo vệ, có khả năng phải trả giá bằng việc cung cấp thông tin chính xác.

Trong đánh giá Polyglot của Aider, gpt-oss-120B chỉ đạt 41,8% trong lý luận đa ngôn ngữ — thấp hơn nhiều so với các đối thủ cạnh tranh như Kimi-K2 (59,1%) và DeepSeek-R1 (56,9%).

Một số người dùng cũng cho biết các bài kiểm tra của họ chỉ ra rằng mô hình này kháng cự một cách kỳ lạ trong việc tạo ra những lời chỉ trích về Trung Quốc hoặc Nga, một sự tương phản với cách nó đối xử với Hoa Kỳ và EU, làm dấy lên câu hỏi về sự thiên vị và lọc dữ liệu đào tạo.

Các chuyên gia khác đã hoan nghênh bản phát hành và những gì nó báo hiệu cho AI mã nguồn mở của Hoa Kỳ

Công bằng mà nói, không phải tất cả các bình luận đều tiêu cực. Kỹ sư phần mềm và người theo dõi AI chặt chẽ Simon Willison đã gọi bản phát hành này là “thực sự ấn tượng” trên X, giải thích chi tiết trong một bài đăng trên blog về hiệu quả và khả năng đạt được ngang bằng với các mô hình o3-mini và o4-mini độc quyền của OpenAI của các mô hình này.

Ông ca ngợi hiệu suất mạnh mẽ của chúng trên các điểm chuẩn nặng về lý luận và STEM, đồng thời ca ngợi định dạng mẫu lời nhắc “Harmony” mới — cung cấp cho các nhà phát triển các điều khoản có cấu trúc hơn để hướng dẫn các phản hồi của mô hình — và hỗ trợ sử dụng công cụ của bên thứ ba như những đóng góp có ý nghĩa.

Trong một bài đăng dài trên X, Clem Delangue, Giám đốc điều hành và đồng sáng lập cộng đồng mã nguồn mở và chia sẻ mã AI Hugging Face, đã khuyến khích người dùng không vội đưa ra phán xét, chỉ ra rằng suy luận cho các mô hình này rất phức tạp và các vấn đề ban đầu có thể là do sự không ổn định của cơ sở hạ tầng và tối ưu hóa không đủ giữa các nhà cung cấp dịch vụ lưu trữ.

Delangue đã viết: “Sức mạnh của mã nguồn mở là không có gian lận”. “Chúng tôi sẽ khám phá tất cả những điểm mạnh và hạn chế… một cách lũy tiến.”

Thận trọng hơn nữa là giáo sư Ethan Mollick của Trường Kinh doanh Wharton thuộc Đại học Pennsylvania, người đã viết trên X rằng “Hoa Kỳ hiện có khả năng có các mô hình trọng số mở hàng đầu (hoặc gần như vậy)”, nhưng đặt câu hỏi liệu đây có phải là một lần của OpenAI hay không. Ông lưu ý: “Sự dẫn đầu sẽ bốc hơi nhanh chóng khi những người khác bắt kịp”, đồng thời nói thêm rằng không rõ OpenAI có những động cơ gì để giữ cho các mô hình được cập nhật.

Nathan Lambert, một nhà nghiên cứu AI hàng đầu tại phòng thí nghiệm mã nguồn mở đối thủ Allen Institute for AI (Ai2) và nhà bình luận, đã ca ngợi ý nghĩa tượng trưng của bản phát hành trên blog Interconnects của mình, gọi nó là “một bước tiến phi thường cho hệ sinh thái mở, đặc biệt là đối với phương Tây và các đồng minh của nó, rằng thương hiệu nổi tiếng nhất trong lĩnh vực AI đã trở lại với việc phát hành các mô hình một cách công khai.”

Nhưng ông cảnh báo trên X rằng gpt-oss “khó có khả năng làm chậm lại một cách có ý nghĩa [đội ngũ AI của gã khổng lồ thương mại điện tử Trung Quốc Aliaba] Qwen,” viện dẫn tính khả dụng, hiệu suất và sự đa dạng của nó.

Ông lập luận rằng bản phát hành đánh dấu một sự thay đổi quan trọng ở Hoa Kỳ đối với các mô hình mở, nhưng OpenAI vẫn còn một “con đường dài trở lại” để bắt kịp trong thực tế.

Một phán quyết chia rẽ

Phán quyết, hiện tại, là chia rẽ.

Các mô hình gpt-oss của OpenAI là một cột mốc quan trọng về cấp phép và khả năng tiếp cận.

Nhưng trong khi các điểm chuẩn có vẻ vững chắc, thì “cảm xúc” thực tế — như nhiều người dùng mô tả — đang chứng tỏ kém hấp dẫn hơn.

Liệu các nhà phát triển có thể xây dựng các ứng dụng và sản phẩm phái sinh mạnh mẽ dựa trên gpt-oss hay không sẽ quyết định liệu bản phát hành có được ghi nhớ như một bước đột phá hay một bước lùi.


Recommended for You

Các 'vector nhân vật' mới từ Anthropic cho phép bạn giải mã và điều khiển tính cách của một LLM

Các 'vector nhân vật' mới từ Anthropic cho phép bạn giải mã và điều khiển tính cách của một LLM

Anthropic giới thiệu 'persona vectors' để giải mã và điều khiển tính cách của LLM, mở ra những khả năng mới trong việc định hình hành vi của AI.

Anthropic ra mắt Claude 4.1 mới thống trị các bài kiểm tra mã hóa vài ngày trước khi GPT-5 ra mắt

Anthropic ra mắt Claude 4.1 mới thống trị các bài kiểm tra mã hóa vài ngày trước khi GPT-5 ra mắt

Claude 4.1 mới của Anthropic vượt trội trong các bài kiểm tra mã hóa trước khi GPT-5 ra mắt.