Các nhà nghiên cứu phát hiện ra việc thêm một câu đơn giản vào lời nhắc giúp mô hình AI sáng tạo hơn nhiều

Một trong những điều tuyệt vời nhất về các mô hình AI tạo sinh - cả mô hình ngôn ngữ lớn (LLM) và trình tạo hình ảnh dựa trên khuếch tán - là chúng 'không xác định'.

  • 9 min read
Một trong những điều tuyệt vời nhất về các mô hình AI tạo sinh - cả mô hình ngôn ngữ lớn (LLM) và trình tạo hình ảnh dựa trên khuếch tán - là chúng 'không xác định'.

Các nhà nghiên cứu phát hiện ra việc thêm một câu đơn giản này vào lời nhắc giúp các mô hình AI sáng tạo hơn nhiều

Một trong những điều thú vị nhất về các mô hình AI tạo sinh — cả mô hình ngôn ngữ lớn (LLM) và trình tạo hình ảnh dựa trên khuếch tán — là chúng “không xác định”. Tức là, mặc dù có danh tiếng trong số một số nhà phê bình là “tự động sửa lỗi ưa thích”, các mô hình AI tạo sinh thực sự tạo ra kết quả đầu ra của chúng bằng cách chọn từ một phân phối các mã thông báo (đơn vị thông tin) tiếp theo có khả năng xảy ra nhất để điền vào phản hồi của chúng.

Hỏi một LLM: “Thủ đô của Pháp là gì?” sẽ khiến nó lấy mẫu phân phối xác suất cho Pháp, thủ đô, thành phố, v.v. để đi đến câu trả lời “Paris”. Nhưng câu trả lời đó có thể ở định dạng “Thủ đô của Pháp là Paris” hoặc đơn giản là “Paris” hoặc “Paris, mặc dù có thời điểm là Versailles”.

Tuy nhiên, những người trong chúng ta sử dụng các mô hình này thường xuyên hàng ngày sẽ lưu ý rằng đôi khi, câu trả lời của chúng có thể gây khó chịu một cách lặp đi lặp lại hoặc tương tự. Một câu nói đùa phổ biến về cà phê được tái chế qua nhiều thế hệ truy vấn. Lời nhắc câu chuyện tạo ra các vòng cung tương tự. Ngay cả những nhiệm vụ lẽ ra phải đưa ra nhiều câu trả lời hợp lý — như đặt tên cho các bang của Hoa Kỳ — có xu hướng chỉ thu gọn vào một vài câu trả lời. Hiện tượng này, được gọi là sụp đổ chế độ, phát sinh trong quá trình điều chỉnh sau đào tạo và hạn chế tính hữu dụng của các mô hình mạnh mẽ khác.

Đặc biệt khi sử dụng LLM để tạo ra các tác phẩm sáng tạo mới trong văn bản, truyền thông, chiến lược hoặc hình minh họa, chúng ta thực sự muốn đầu ra của chúng thậm chí đa dạng hơn so với hiện tại.

Giờ đây, một nhóm các nhà nghiên cứu tại Đại học Northeastern, Đại học Stanford và Đại học West Virginia đã đưa ra một phương pháp đơn giản một cách khéo léo để giúp các mô hình ngôn ngữ và hình ảnh tạo ra nhiều phản hồi đa dạng hơn cho hầu hết mọi lời nhắc của người dùng bằng cách thêm một câu đơn giản: “Tạo 5 phản hồi với các xác suất tương ứng của chúng, được lấy mẫu từ toàn bộ phân phối.”

Phương pháp này, được gọi là Lấy mẫu bằng lời nói (VS), giúp các mô hình như GPT-4, Claude và Gemini tạo ra các đầu ra đa dạng và giống con người hơn — mà không cần đào tạo lại hoặc truy cập vào các tham số bên trong. Nó được mô tả trong một bài báo được xuất bản trên tạp chí truy cập mở arxiv.org trực tuyến vào đầu tháng 10 năm 2025.

Khi được nhắc theo cách này, mô hình không còn mặc định về đầu ra an toàn nhất, điển hình nhất của nó. Thay vào đó, nó diễn giải phân phối nội bộ của nó trên các hoàn thành tiềm năng và lấy mẫu trên một phổ khả năng rộng hơn. Thay đổi một dòng này dẫn đến những lợi ích đáng kể về tính đa dạng của đầu ra trên nhiều lĩnh vực.

Như Weiyan Shi, một trợ lý giáo sư tại Đại học Northeastern và đồng tác giả của bài báo, đã viết trên X: “Tiềm năng của LLM vẫn chưa được khai thác hết! Như được hiển thị trong bài báo của chúng tôi, việc tối ưu hóa lời nhắc có thể được hướng dẫn bằng cách suy nghĩ về cách LLM được đào tạo và điều chỉnh, và có thể được chứng minh về mặt lý thuyết.”

Tại sao các mô hình sụp đổ — và cách VS đảo ngược nó

Theo nhóm nghiên cứu, nguyên nhân gốc rễ của sự sụp đổ chế độ không chỉ nằm ở các thuật toán như học tăng cường từ phản hồi của con người (RLHF), mà còn ở cấu trúc của sở thích của con người. Mọi người có xu hướng đánh giá các câu trả lời quen thuộc hoặc điển hình hơn là tốt hơn, điều này thúc đẩy LLM hướng tới các lựa chọn “an toàn” hơn các lựa chọn đa dạng trong quá trình tinh chỉnh.

Tuy nhiên, sự thiên vị này không xóa bỏ kiến thức cơ bản của mô hình — nó chỉ đàn áp nó. VS hoạt động bằng cách bỏ qua sự đàn áp này. Thay vì yêu cầu đầu ra có khả năng xảy ra nhất duy nhất, nó mời mô hình tiết lộ một tập hợp các phản hồi hợp lý và xác suất tương đối của chúng. Việc nhắc nhở ở cấp độ phân phối này khôi phục quyền truy cập vào sự đa dạng phong phú hơn hiện có trong mô hình tiền đào tạo cơ sở.

Hiệu suất thực tế trên các tác vụ

Nhóm nghiên cứu đã thử nghiệm Lấy mẫu bằng lời nói trên một số trường hợp sử dụng phổ biến:

  • Sáng tác: Trong việc tạo câu chuyện, VS đã tăng điểm đa dạng lên tới 2,1 lần so với lời nhắc tiêu chuẩn, đồng thời duy trì chất lượng. Một lời nhắc câu chuyện — “Không một lời tạm biệt” — tạo ra các cảnh chia tay công thức theo lời nhắc trực tiếp, nhưng tạo ra các câu chuyện liên quan đến các sự kiện vũ trụ, email im lặng và âm nhạc dừng lại giữa điệu nhảy khi được nhắc qua VS.
  • Mô phỏng đối thoại: Trong các nhiệm vụ đối thoại thuyết phục, VS cho phép các mô hình mô phỏng các mẫu giống con người, chẳng hạn như do dự, kháng cự và thay đổi ý định. Phân phối hành vi quyên góp theo VS phù hợp hơn với dữ liệu người thật so với các phương pháp cơ bản.
  • QA mở: Khi được yêu cầu liệt kê các câu trả lời hợp lệ (ví dụ: đặt tên cho các bang của Hoa Kỳ), các mô hình sử dụng VS đã tạo ra các phản hồi phù hợp chặt chẽ hơn với sự đa dạng của dữ liệu thế giới thực. Chúng bao gồm một tập hợp các câu trả lời rộng hơn mà không làm giảm độ chính xác thực tế.
  • Tạo dữ liệu tổng hợp: Khi được sử dụng để tạo các bài toán cho quá trình đào tạo mô hình, VS đã tạo ra các bộ dữ liệu đa dạng hơn. Đến lượt mình, những điều này đã cải thiện hiệu suất hạ nguồn trong các điểm chuẩn toán học cạnh tranh, vượt trội hơn dữ liệu tổng hợp được tạo thông qua lời nhắc trực tiếp.

Đa dạng có thể điều chỉnh và sử dụng tốt hơn các mô hình lớn hơn

Một lợi thế đáng chú ý của VS là khả năng điều chỉnh của nó. Người dùng có thể đặt ngưỡng xác suất trong lời nhắc để lấy mẫu từ “đuôi” có xác suất thấp hơn của phân phối của mô hình. Ngưỡng thấp hơn tương ứng với sự đa dạng cao hơn. Việc điều chỉnh này có thể được thực hiện chỉ thông qua văn bản lời nhắc, mà không cần thay đổi bất kỳ cài đặt giải mã nào như nhiệt độ hoặc top-p.

Trong một thử nghiệm sử dụng mô hình Gemini-2.5-Flash, sự đa dạng trong sáng tác đã tăng lên đều đặn khi ngưỡng xác suất giảm từ 1 xuống 0,001. Biểu đồ đi kèm với nghiên cứu cho thấy VS vượt trội hơn cả lời nhắc trực tiếp và dựa trên chuỗi trên tất cả các ngưỡng.

Điều thú vị là phương pháp này mở rộng quy mô tốt với kích thước mô hình. Các mô hình lớn hơn như GPT-4.1 và Claude-4 cho thấy những lợi ích thậm chí còn lớn hơn từ VS so với các mô hình nhỏ hơn. Mặc dù các mô hình nhỏ hơn được hưởng lợi, nhưng sự cải thiện về tính đa dạng mạnh hơn khoảng 1,5–2 lần ở các đối tác lớn hơn — cho thấy VS giúp mở khóa nhiều hơn các khả năng tiềm ẩn trong các mô hình tiên tiến.

Triển khai và tính khả dụng

Phương pháp Lấy mẫu bằng lời nói hiện có sẵn dưới dạng gói Python:

pip install verbalized-sampling

Gói này bao gồm tích hợp với LangChain và hỗ trợ một giao diện đơn giản để lấy mẫu từ phân phối bằng lời nói. Người dùng cũng có thể điều chỉnh các tham số như k (số lượng phản hồi), ngưỡng và nhiệt độ cho phù hợp với ứng dụng của họ.

Sổ tay Colab trực tiếp và tài liệu có sẵn theo giấy phép Apache 2.0 thân thiện với doanh nghiệp trên GitHub tại: https://github.com/CHATS-lab/verbalized-sampling

Lời khuyên thực tế và các vấn đề thường gặp

Mặc dù phương pháp này hoạt động trên tất cả các LLM chính, một số người dùng có thể ban đầu gặp phải sự từ chối hoặc lỗi.

Trong những trường hợp này, các tác giả đề xuất sử dụng phiên bản lời nhắc hệ thống của mẫu hoặc tham khảo các định dạng thay thế được liệt kê trên trang GitHub.

Một số mô hình giải thích các hướng dẫn phức tạp là nỗ lực vượt ngục và từ chối tuân thủ trừ khi cấu trúc rõ ràng hơn.

Ví dụ: việc nhắc nhở thông qua một hướng dẫn ở cấp hệ thống như thế này sẽ cải thiện độ tin cậy:

Bạn là một trợ lý hữu ích. Đối với mỗi truy vấn, hãy tạo năm phản hồi trong các thẻ riêng biệt, mỗi phản hồi có xác suất dưới 0,10.

Thay đổi nhỏ này thường giải quyết mọi vấn đề.

Một bản sửa lỗi nhẹ cho một vấn đề lớn

Lấy mẫu bằng lời nói thể hiện một bản sửa lỗi thời gian suy luận thực tế cho một hạn chế sâu sắc trong cách các mô hình ngôn ngữ hiện đại hoạt động. Nó không yêu cầu đào tạo lại mô hình hoặc truy cập nội bộ. Nó không phụ thuộc vào bất kỳ họ mô hình nào. Và nó không chỉ cải thiện sự đa dạng của đầu ra mà còn cả chất lượng của chúng — như được đánh giá bởi cả đánh giá của con người và điểm chuẩn.

Với sự quan tâm ngày càng tăng đối với các công cụ nâng cao khả năng sáng tạo của mô hình, VS có khả năng được áp dụng nhanh chóng trong các lĩnh vực như viết lách, thiết kế, mô phỏng, giáo dục và tạo dữ liệu tổng hợp.

Đối với người dùng và nhà phát triển thất vọng vì sự giống nhau của các phản hồi LLM, giải pháp có thể đơn giản như thay đổi câu hỏi.

Recommended for You

AI21’s Jamba Reasoning 3B tái định nghĩa 'Nhỏ' có nghĩa là gì trong LLM — Bối cảnh 250K trên Máy tính xách tay

Sự bổ sung mới nhất cho làn sóng mô hình nhỏ dành cho các doanh nghiệp đến từ AI21 Labs, công ty đang đặt cược rằng việc đưa các mô hình vào thiết bị sẽ giải phóng lưu lượng truy cập trong các trung tâm dữ liệu.

Meta's Gaia2 vượt xa độ chính xác của công cụ và sở thích người dùng để kiểm tra tính mạnh mẽ trong thế giới thực

Một vấn đề dai dẳng khi đánh giá các tác nhân là làm thế nào để đo lường hiệu suất của chúng trong các kịch bản thực tế.