Vượt xa AI tĩnh- Khuôn khổ mới của MIT cho phép các mô hình tự dạy

Vượt xa AI tĩnh- Khuôn khổ mới của MIT cho phép các mô hình tự dạy

  • 10 min read
Vượt xa AI tĩnh- Khuôn khổ mới của MIT cho phép các mô hình tự dạy
Vượt xa AI tĩnh- Khuôn khổ mới của MIT cho phép các mô hình tự dạy

Vượt qua AI tĩnh: Khung mới của MIT cho phép các mô hình tự học

Các nhà nghiên cứu tại MIT đã phát triển một khung có tên là Mô hình ngôn ngữ tự thích ứng (SEAL), cho phép các mô hình ngôn ngữ lớn (LLM) liên tục học hỏi và thích ứng bằng cách cập nhật các tham số bên trong của chính chúng. SEAL dạy một LLM tạo ra dữ liệu đào tạo và hướng dẫn cập nhật của riêng nó, cho phép nó hấp thụ vĩnh viễn kiến thức mới và học các tác vụ mới.

Khung này có thể hữu ích cho các ứng dụng doanh nghiệp, đặc biệt đối với các tác nhân AI hoạt động trong môi trường năng động, nơi chúng phải liên tục xử lý thông tin mới và điều chỉnh hành vi của mình.

Thách thức của việc điều chỉnh LLM

Mặc dù các mô hình ngôn ngữ lớn đã thể hiện những khả năng đáng chú ý, nhưng việc điều chỉnh chúng cho các nhiệm vụ cụ thể, tích hợp thông tin mới hoặc nắm vững các kỹ năng suy luận mới vẫn là một trở ngại đáng kể.

Hiện tại, khi đối mặt với một nhiệm vụ mới, LLM thường học từ dữ liệu “nguyên trạng” thông qua các phương pháp như tinh chỉnh hoặc học trong ngữ cảnh. Tuy nhiên, dữ liệu được cung cấp không phải lúc nào cũng ở định dạng tối ưu để mô hình học một cách hiệu quả. Các phương pháp tiếp cận hiện có không cho phép mô hình phát triển các chiến lược riêng để chuyển đổi và học hỏi từ thông tin mới một cách tốt nhất.

Jyo Pari, nghiên cứu sinh tiến sĩ tại MIT và đồng tác giả của bài báo, nói với VentureBeat: “Nhiều trường hợp sử dụng trong doanh nghiệp đòi hỏi nhiều hơn là chỉ nhớ lại dữ kiện — chúng đòi hỏi sự thích ứng sâu sắc, bền bỉ. Ví dụ: một trợ lý viết mã có thể cần nội bộ hóa khung phần mềm cụ thể của một công ty hoặc một mô hình hướng tới khách hàng có thể cần học hành vi hoặc sở thích riêng của người dùng theo thời gian.”

Trong những trường hợp như vậy, việc truy xuất tạm thời là không đủ và kiến thức cần được “nhúng vào” trọng số của mô hình để nó ảnh hưởng đến tất cả các phản hồi trong tương lai.

Tạo ra các mô hình ngôn ngữ tự thích ứng

Các nhà nghiên cứu MIT tuyên bố trong bài báo của họ: “Như một bước tiến tới khả năng thích ứng có thể mở rộng và hiệu quả của các mô hình ngôn ngữ, chúng tôi đề xuất trang bị cho LLM khả năng tạo ra dữ liệu đào tạo và chỉ thị tinh chỉnh của riêng chúng để sử dụng dữ liệu đó”.

Tổng quan về khung SEAL (Nguồn: arXiv)

Giải pháp của các nhà nghiên cứu là SEAL, viết tắt của Mô hình ngôn ngữ tự thích ứng. Nó sử dụng thuật toán học tăng cường (RL) để đào tạo một LLM tạo ra “tự chỉnh sửa” —các hướng dẫn bằng ngôn ngữ tự nhiên chỉ định cách mô hình nên cập nhật trọng số của chính nó. Những chỉnh sửa tự động này có thể tái cấu trúc thông tin mới, tạo ra các ví dụ đào tạo tổng hợp hoặc thậm chí xác định các tham số kỹ thuật cho chính quy trình học tập.

Về trực giác, SEAL dạy một mô hình cách tạo ra hướng dẫn học tập cá nhân của riêng nó. Thay vì chỉ đọc một tài liệu mới (dữ liệu thô), mô hình học cách viết lại và định dạng lại thông tin đó theo một kiểu mà nó có thể dễ dàng hấp thụ và nội bộ hóa hơn. Quá trình này tập hợp một số lĩnh vực nghiên cứu AI quan trọng, bao gồm tạo dữ liệu tổng hợp, học tăng cường và đào tạo thời gian kiểm tra (TTT).

Khung hoạt động trên hệ thống hai vòng. Trong “vòng trong”, mô hình sử dụng tính năng tự chỉnh sửa để thực hiện một bản cập nhật nhỏ, tạm thời cho trọng số của nó. Trong “vòng ngoài”, hệ thống đánh giá xem bản cập nhật đó có cải thiện hiệu suất của mô hình trên một tác vụ mục tiêu hay không. Nếu có, mô hình sẽ nhận được phần thưởng tích cực, củng cố khả năng tạo ra loại tự chỉnh sửa hiệu quả đó trong tương lai. Theo thời gian, LLM trở thành một chuyên gia trong việc tự dạy chính mình.

Trong nghiên cứu của họ, các nhà nghiên cứu đã sử dụng một mô hình duy nhất cho toàn bộ khung SEAL. Tuy nhiên, họ cũng lưu ý rằng quá trình này có thể được tách thành mô hình “giáo viên-học sinh”. Một mô hình giáo viên chuyên biệt có thể được đào tạo để tạo ra các chỉnh sửa tự động hiệu quả cho một mô hình học sinh riêng biệt, sau đó sẽ được cập nhật. Cách tiếp cận này có thể cho phép các quy trình điều chỉnh chuyên biệt và hiệu quả hơn trong môi trường doanh nghiệp.

SEAL hoạt động

Các nhà nghiên cứu đã thử nghiệm SEAL trong hai lĩnh vực chính: kết hợp kiến thức (khả năng tích hợp vĩnh viễn các sự kiện mới) và học tập ít lần (khả năng khái quát hóa từ một số ít ví dụ).

SEAL trong kết hợp kiến thức (Nguồn: arXiv)

Đối với việc kết hợp kiến thức, mục tiêu là xem liệu mô hình có thể trả lời các câu hỏi về một đoạn văn bản mà không cần truy cập vào đoạn văn đó trong khi đặt câu hỏi hay không. Tinh chỉnh Llama-3.2-1B trên văn bản thô chỉ mang lại sự cải thiện không đáng kể so với mô hình cơ sở.

Tuy nhiên, khi mô hình SEAL tạo ra “tự chỉnh sửa” bằng cách tạo ra một số “hàm ý” từ một đoạn văn và được đào tạo trên dữ liệu tổng hợp này, độ chính xác của nó đã tăng lên 47%. Đáng chú ý, điều này vượt trội hơn kết quả từ việc sử dụng dữ liệu tổng hợp do GPT-4.1 lớn hơn nhiều tạo ra, cho thấy mô hình đã học cách tạo ra tài liệu đào tạo vượt trội cho chính nó.

SEAL trong học tập ít lần (Nguồn: arXiv)

Đối với học tập ít lần, các nhà nghiên cứu đã thử nghiệm SEAL trên các ví dụ từ Abstract Reasoning Corpus (ARC), nơi mô hình phải giải các câu đố trực quan. Trong giai đoạn tự chỉnh sửa, mô hình phải tạo ra toàn bộ chiến lược điều chỉnh, bao gồm việc sử dụng các công cụ và tăng cường dữ liệu nào và áp dụng tốc độ học tập nào.

SEAL đạt tỷ lệ thành công 72,5%, một cải thiện đáng kể so với tỷ lệ 20% đạt được khi không có đào tạo RL và tỷ lệ 0% của học tập trong ngữ cảnh tiêu chuẩn.

SEAL (đường màu đỏ) tiếp tục cải thiện qua các chu kỳ RL (Nguồn: arXiv)

Hàm ý đối với doanh nghiệp

Một số chuyên gia dự đoán rằng nguồn cung dữ liệu đào tạo do con người tạo ra chất lượng cao có thể cạn kiệt trong những năm tới. Sự tiến bộ có thể sớm phụ thuộc vào “khả năng của một mô hình để tạo ra tín hiệu đào tạo có độ hữu ích cao của riêng nó”, như các nhà nghiên cứu đã trình bày. Họ nói thêm, “Một bước tự nhiên tiếp theo là siêu đào tạo một mô hình tạo dữ liệu tổng hợp SEAL chuyên dụng, tạo ra các kho văn bản được đào tạo trước mới, cho phép các mô hình trong tương lai mở rộng quy mô và đạt được hiệu quả dữ liệu cao hơn mà không cần dựa vào văn bản bổ sung của con người.”

Ví dụ: các nhà nghiên cứu đề xuất rằng một LLM có thể tiếp nhận các tài liệu phức tạp như các bài báo học thuật hoặc báo cáo tài chính và tự động tạo ra hàng nghìn lời giải thích và hàm ý để làm sâu sắc thêm sự hiểu biết của nó.

Các nhà nghiên cứu giải thích: “Vòng lặp lặp đi lặp lại của tự thể hiện và tự hoàn thiện có thể cho phép các mô hình tiếp tục cải thiện các chủ đề hiếm hoặc ít được trình bày ngay cả khi không có sự giám sát bên ngoài bổ sung”.

Khả năng này đặc biệt hứa hẹn để xây dựng các tác nhân AI. Các hệ thống tác nhân phải tăng dần thu thập và giữ lại kiến thức khi chúng tương tác với môi trường của chúng. SEAL cung cấp một cơ chế cho việc này. Sau một tương tác, một tác nhân có thể tổng hợp một chỉnh sửa tự động để kích hoạt cập nhật trọng số, cho phép nó nội bộ hóa các bài học kinh nghiệm. Điều này cho phép tác nhân phát triển theo thời gian, cải thiện hiệu suất của nó dựa trên kinh nghiệm và giảm sự phụ thuộc của nó vào lập trình tĩnh hoặc hướng dẫn lặp đi lặp lại của con người.

Các nhà nghiên cứu viết: “SEAL chứng minh rằng các mô hình ngôn ngữ lớn không cần phải tĩnh sau khi đào tạo trước”. “Bằng cách học cách tạo ra dữ liệu tự chỉnh sửa tổng hợp của riêng chúng và áp dụng nó thông qua các bản cập nhật trọng số nhẹ, chúng có thể tự động kết hợp kiến thức mới và thích ứng với các tác vụ mới.”

Hạn chế của SEAL

Tuy nhiên, SEAL không phải là một giải pháp toàn cầu. Ví dụ: nó có thể bị “quên thảm khốc”, trong đó các chu kỳ đào tạo lại liên tục có thể dẫn đến việc mô hình quên đi kiến thức trước đó của nó.

Pari nói: “Trong cách triển khai hiện tại của chúng tôi, chúng tôi khuyến khích một cách tiếp cận hỗn hợp. Các doanh nghiệp nên chọn lọc về kiến thức nào đủ quan trọng để tích hợp vĩnh viễn”.

Dữ liệu thực tế và đang phát triển có thể vẫn còn trong bộ nhớ bên ngoài thông qua RAG, trong khi kiến thức định hình hành vi, tồn tại lâu dài phù hợp hơn cho các bản cập nhật ở cấp độ trọng số thông qua SEAL.

Ông nói: “Loại chiến lược bộ nhớ hỗn hợp này đảm bảo thông tin phù hợp là bền bỉ mà không làm choáng ngợp mô hình hoặc gây ra tình trạng quên không cần thiết”.

Cũng cần lưu ý rằng SEAL mất một lượng thời gian không nhỏ để điều chỉnh các ví dụ tự chỉnh sửa và đào tạo mô hình. Điều này làm cho việc chỉnh sửa liên tục, theo thời gian thực trở nên bất khả thi trong hầu hết các cài đặt sản xuất.

Pari nói: “Chúng tôi hình dung một mô hình triển khai thực tế hơn, trong đó hệ thống thu thập dữ liệu trong một khoảng thời gian—ví dụ: một vài giờ hoặc một ngày—và sau đó thực hiện các chỉnh sửa tự động có mục tiêu trong các khoảng thời gian cập nhật theo lịch trình. Cách tiếp cận này cho phép các doanh nghiệp kiểm soát chi phí thích ứng trong khi vẫn hưởng lợi từ khả năng nội bộ hóa kiến thức mới của SEAL”.

Recommended for You

Salesforce ra mắt Agentforce 3 với khả năng quan sát tác nhân AI và hỗ trợ MCP

Salesforce ra mắt Agentforce 3 với khả năng quan sát tác nhân AI và hỗ trợ MCP

Salesforce ra mắt Agentforce 3 với khả năng quan sát tác nhân AI và hỗ trợ MCP

Các cuộc tấn công mạng vào bệnh viện tốn 600 nghìn đô la mỗi giờ. Đây là cách AI đang thay đổi phép tính

Các cuộc tấn công mạng vào bệnh viện tốn 600 nghìn đô la mỗi giờ. Đây là cách AI đang thay đổi phép tính