Từ GRPO đến DAPO và GSPO- Cái gì, Tại sao và Như thế nào

Từ GRPO đến DAPO và GSPO- Cái gì, Tại sao và Như thế nào

  • 2 min read
Từ GRPO đến DAPO và GSPO- Cái gì, Tại sao và Như thế nào
Từ GRPO đến DAPO và GSPO- Cái gì, Tại sao và Như thế nào

Từ GRPO đến DAPO và GSPO: Cái gì, tại sao và làm thế nào

Bài đăng trên blog của Yihua Zhang trên Hugging Face

Trong giai đoạn học tăng cường của các mô hình ngôn ngữ lớn, PPO từng là phương pháp chính. Tuy nhiên, sự phụ thuộc vào mô hình giá trị cho thấy những hạn chế khi xử lý văn bản dài và các nhiệm vụ phức tạp. GRPO loại bỏ sự phụ thuộc vào mô hình giá trị, cải thiện đáng kể khả năng mở rộng, nhưng vẫn còn chỗ để tối ưu hóa về hiệu quả và sự ổn định. Điều này đã thúc đẩy DAPO, một phương pháp tinh chỉnh các chi tiết như lấy mẫu, cắt xén và tính toán gradient. Tuy nhiên, trong các kiến trúc MoE với các chuyên gia được kích hoạt động, việc tối ưu hóa ở cấp độ token trong khuôn khổ GRPO vẫn gặp khó khăn để hội tụ ổn định. GSPO tiến xa hơn bằng cách chuyển đổi độ chi tiết tối ưu hóa sang cấp độ chuỗi, về cơ bản là giảm phương sai cao và nhiễu cấu trúc. Bài viết này đi theo con đường tiến hóa này: bắt đầu từ GRPO và dần dần khám phá các động lực thiết kế và chi tiết triển khai đằng sau DAPO và GSPO.

Trong bài viết sau, bạn sẽ khám phá:

  1. Tại sao GRPO lại thoát khỏi sự phụ thuộc của PPO vào mô hình giá trị, nhưng vẫn có thể “sụp đổ” trong một số trường hợp.
  2. Làm thế nào Clip-Higher khắc phục vấn đề tiềm ẩn của các token tốt bị giới hạn quá sớm.
  3. Làm thế nào Lấy mẫu động ngăn chặn sự lãng phí tính toán khổng lồ từ các mẫu không hiệu quả.
  4. Làm thế nào Tổn thất Gradient ở cấp độ Token đảm bảo các phản hồi dài không còn làm loãng các tín hiệu gradient có giá trị nữa.
  5. Tại sao lấy mẫu tầm quan trọng trên mỗi token của GRPO lại tạo ra phương sai lớn trong các kiến trúc MoE.
  6. Làm thế nào GSPO thay thế tối ưu hóa trên mỗi token bằng tối ưu hóa trên toàn chuỗi để cải thiện cơ bản sự ổn định và hiệu quả.

Tổng quan về GRPO

Mục tiêu huấn luyện của GRPO là:

Recommended for You

Bảng xếp hạng so sánh- AI - Từ lượt bình chọn của người dùng đến bảng xếp hạng mô hình dựa trên sự tham gia

Bảng xếp hạng so sánh- AI - Từ lượt bình chọn của người dùng đến bảng xếp hạng mô hình dựa trên sự tham gia

Bảng xếp hạng so sánh- AI - Từ lượt bình chọn của người dùng đến bảng xếp hạng mô hình dựa trên sự tham gia

Chạy các Mô hình Transformer Lớn trên Thiết bị Di động và Biên

Chạy các Mô hình Transformer Lớn trên Thiết bị Di động và Biên

Chạy các Mô hình Transformer Lớn trên Thiết bị Di động và Biên