Một mô hình mới cho AI- Cách 'tư duy như tối ưu hóa' dẫn đến các mô hình đa năng tốt hơn
Một mô hình mới cho AI- Làm thế nào 'tư duy như tối ưu hóa' dẫn đến các mô hình đa năng tốt hơn.
- 11 min read
Một mô hình AI mới: Tư duy như tối ưu hóa dẫn đến các mô hình đa năng tốt hơn
Một mô hình AI mới học cách “suy nghĩ” lâu hơn về các vấn đề khó, đạt được khả năng suy luận mạnh mẽ hơn và khái quát hóa tốt hơn cho các tác vụ mới, chưa từng thấy.
Bạn muốn có những hiểu biết sâu sắc hơn trong hộp thư đến của mình? Đăng ký bản tin hàng tuần của chúng tôi để chỉ nhận những gì quan trọng đối với các nhà lãnh đạo về AI, dữ liệu và bảo mật doanh nghiệp. Đăng ký ngay
Các nhà nghiên cứu tại Đại học Illinois Urbana-Champaign và Đại học Virginia đã phát triển một kiến trúc mô hình mới có thể dẫn đến các hệ thống AI mạnh mẽ hơn với khả năng suy luận mạnh mẽ hơn.
Được gọi là biến đổi dựa trên năng lượng (EBT), kiến trúc này thể hiện khả năng tự nhiên để sử dụng tỷ lệ suy luận thời gian để giải quyết các vấn đề phức tạp. Đối với doanh nghiệp, điều này có thể chuyển thành các ứng dụng AI hiệu quả về chi phí, có thể khái quát hóa các tình huống mới mà không cần các mô hình tinh chỉnh chuyên dụng.
Thách thức của tư duy Hệ thống 2
Trong tâm lý học, tư duy của con người thường được chia thành hai chế độ: Hệ thống 1, nhanh chóng và trực quan, và Hệ thống 2, chậm, có chủ ý và phân tích. Các mô hình ngôn ngữ lớn (LLM) hiện tại vượt trội trong các tác vụ theo phong cách Hệ thống 1, nhưng ngành công nghiệp AI ngày càng tập trung vào việc cho phép tư duy Hệ thống 2 để giải quyết các thách thức suy luận phức tạp hơn.
Các mô hình suy luận sử dụng nhiều kỹ thuật mở rộng thời gian suy luận để cải thiện hiệu suất của chúng trên các vấn đề khó. Một phương pháp phổ biến là học tăng cường (RL), được sử dụng trong các mô hình như DeepSeek-R1 và các mô hình “o-series” của OpenAI, trong đó AI được thưởng vì tạo ra các mã thông báo suy luận cho đến khi nó đạt được câu trả lời chính xác. Một cách tiếp cận khác, thường được gọi là best-of-n, bao gồm việc tạo ra nhiều câu trả lời tiềm năng và sử dụng cơ chế xác minh để chọn ra câu trả lời tốt nhất.
Tuy nhiên, những phương pháp này có những hạn chế đáng kể. Chúng thường bị giới hạn trong một phạm vi hẹp các vấn đề dễ xác minh, như toán học và mã hóa, và có thể làm giảm hiệu suất trên các tác vụ khác như viết sáng tạo. Hơn nữa, bằng chứng gần đây cho thấy rằng các phương pháp dựa trên RL có thể không dạy cho các mô hình các kỹ năng suy luận mới, thay vào đó chỉ làm cho chúng có nhiều khả năng sử dụng các mẫu suy luận thành công mà chúng đã biết. Điều này hạn chế khả năng giải quyết các vấn đề đòi hỏi sự khám phá thực sự và vượt ra ngoài chế độ đào tạo của chúng.
Mô hình dựa trên năng lượng (EBM)
Kiến trúc đề xuất một cách tiếp cận khác dựa trên một lớp mô hình được gọi là mô hình dựa trên năng lượng (EBM). Ý tưởng cốt lõi rất đơn giản: Thay vì trực tiếp tạo ra một câu trả lời, mô hình học một “hàm năng lượng” hoạt động như một công cụ xác minh. Hàm này lấy một đầu vào (như một lời nhắc) và một dự đoán ứng viên và gán một giá trị, hoặc “năng lượng”, cho nó. Điểm năng lượng thấp cho thấy khả năng tương thích cao, có nghĩa là dự đoán phù hợp tốt với đầu vào, trong khi điểm năng lượng cao biểu thị một kết quả không phù hợp.
Áp dụng điều này vào suy luận AI, các nhà nghiên cứu đề xuất trong một bài báo rằng các nhà phát triển nên xem “tư duy như một quy trình tối ưu hóa liên quan đến một công cụ xác minh đã học, đánh giá khả năng tương thích (xác suất không chuẩn hóa) giữa đầu vào và dự đoán ứng viên”. Quá trình bắt đầu với một dự đoán ngẫu nhiên, sau đó được tinh chỉnh dần dần bằng cách giảm thiểu điểm năng lượng của nó và khám phá không gian của các giải pháp khả thi cho đến khi nó hội tụ vào một câu trả lời tương thích cao. Cách tiếp cận này được xây dựng dựa trên nguyên tắc rằng việc xác minh một giải pháp thường dễ hơn nhiều so với việc tạo ra một giải pháp từ đầu.

Thiết kế “lấy người xác minh làm trung tâm” này giải quyết ba thách thức chính trong suy luận AI. Đầu tiên, nó cho phép phân bổ tính toán động, có nghĩa là các mô hình có thể “suy nghĩ” lâu hơn về các vấn đề khó hơn và ngắn hơn về các vấn đề dễ dàng. Thứ hai, EBM có thể tự nhiên xử lý sự không chắc chắn của các vấn đề trong thế giới thực, nơi không có một câu trả lời rõ ràng. Thứ ba, chúng hoạt động như công cụ xác minh của riêng chúng, loại bỏ sự cần thiết của các mô hình bên ngoài.
Không giống như các hệ thống khác sử dụng các trình tạo và trình xác minh riêng biệt, EBM kết hợp cả hai thành một mô hình thống nhất duy nhất. Một lợi thế chính của sự sắp xếp này là khả năng khái quát hóa tốt hơn. Vì việc xác minh một giải pháp trên dữ liệu mới, ngoài phân phối (OOD) thường dễ hơn so với việc tạo ra một câu trả lời chính xác, nên EBM có thể xử lý các tình huống không quen thuộc tốt hơn.
Mặc dù đầy hứa hẹn, EBM trong lịch sử đã phải vật lộn với khả năng mở rộng. Để giải quyết vấn đề này, các nhà nghiên cứu giới thiệu EBT, là các mô hình biến đổi chuyên dụng được thiết kế cho mô hình này. EBT được đào tạo để trước tiên xác minh khả năng tương thích giữa bối cảnh và dự đoán, sau đó tinh chỉnh dự đoán cho đến khi chúng tìm thấy đầu ra năng lượng thấp nhất (tương thích nhất). Quá trình này mô phỏng hiệu quả một quá trình tư duy cho mọi dự đoán. Các nhà nghiên cứu đã phát triển hai biến thể EBT: Mô hình chỉ giải mã lấy cảm hứng từ kiến trúc GPT và mô hình hai chiều tương tự như BERT.

Biến đổi dựa trên năng lượng (nguồn: GitHub)
Kiến trúc của EBT làm cho chúng trở nên linh hoạt và tương thích với nhiều kỹ thuật mở rộng thời gian suy luận. “EBT có thể tạo CoT dài hơn, tự xác minh, thực hiện best-of-N [hoặc] bạn có thể lấy mẫu từ nhiều EBT”, Alexi Gladstone, một nghiên cứu sinh tiến sĩ về khoa học máy tính tại Đại học Illinois Urbana-Champaign và là tác giả chính của bài báo, nói với VentureBeat. “Điều tuyệt vời nhất là tất cả những khả năng này đều được học trong quá trình đào tạo trước”.
EBT trong hành động
Các nhà nghiên cứu đã so sánh EBT với các kiến trúc đã được thiết lập: công thức transformer++ phổ biến để tạo văn bản (phương thức rời rạc) và biến đổi khuếch tán (DiT) cho các tác vụ như dự đoán video và khử nhiễu hình ảnh (phương thức liên tục). Họ đánh giá các mô hình theo hai tiêu chí chính: “Khả năng mở rộng học tập” hoặc hiệu quả đào tạo của chúng và “khả năng mở rộng tư duy”, đo lường hiệu suất cải thiện như thế nào khi có nhiều tính toán hơn tại thời điểm suy luận.
Trong quá trình đào tạo trước, EBT đã chứng minh hiệu quả vượt trội, đạt được tốc độ mở rộng cao hơn tới 35% so với Transformer++ trên dữ liệu, kích thước lô, tham số và tính toán. Điều này có nghĩa là EBT có thể được đào tạo nhanh hơn và rẻ hơn.
Tại thời điểm suy luận, EBT cũng vượt trội hơn các mô hình hiện có trên các tác vụ suy luận. Bằng cách “suy nghĩ lâu hơn” (sử dụng nhiều bước tối ưu hóa hơn) và thực hiện “tự xác minh” (tạo nhiều ứng viên và chọn ứng viên có năng lượng thấp nhất), EBT đã cải thiện hiệu suất mô hình hóa ngôn ngữ hơn 29% so với Transformer++. “Điều này phù hợp với tuyên bố của chúng tôi rằng vì các biến đổi chuyển tiếp truyền thống không thể phân bổ động thêm tính toán cho mỗi dự đoán được đưa ra, nên chúng không thể cải thiện hiệu suất cho mỗi mã thông báo bằng cách suy nghĩ lâu hơn”, các nhà nghiên cứu viết.
Đối với việc khử nhiễu hình ảnh, EBT đã đạt được kết quả tốt hơn so với DiT trong khi sử dụng ít hơn 99% số lần chuyển tiếp.
Điều quan trọng là nghiên cứu đã phát hiện ra rằng EBT khái quát hóa tốt hơn so với các kiến trúc khác. Ngay cả với hiệu suất đào tạo trước giống nhau hoặc tệ hơn, EBT vẫn vượt trội hơn các mô hình hiện có trên các tác vụ hạ nguồn. Mức tăng hiệu suất từ tư duy Hệ thống 2 là đáng kể nhất trên dữ liệu nằm ngoài phân phối (khác với dữ liệu đào tạo), cho thấy rằng EBT đặc biệt mạnh mẽ khi đối mặt với các tác vụ mới và đầy thách thức.
Các nhà nghiên cứu cho rằng “lợi ích của tư duy của EBT không đồng đều trên tất cả dữ liệu mà tăng tỷ lệ thuận với độ lớn của các thay đổi phân phối, làm nổi bật tư duy như một cơ chế quan trọng để khái quát hóa mạnh mẽ vượt ra ngoài các phân phối đào tạo”.
Lợi ích của EBT rất quan trọng vì hai lý do. Đầu tiên, chúng cho thấy rằng ở quy mô lớn của các mô hình nền tảng ngày nay, EBT có thể vượt trội hơn đáng kể so với kiến trúc biến đổi cổ điển được sử dụng trong LLM. Các tác giả lưu ý rằng “ở quy mô của các mô hình nền tảng hiện đại được đào tạo trên dữ liệu lớn hơn 1.000 lần với các mô hình lớn hơn 1.000 lần, chúng tôi hy vọng hiệu suất đào tạo trước của EBT sẽ tốt hơn đáng kể so với công thức Transformer++”.
Thứ hai, EBT cho thấy hiệu quả dữ liệu tốt hơn nhiều. Đây là một lợi thế quan trọng trong một kỷ nguyên mà dữ liệu đào tạo chất lượng cao đang trở thành một nút thắt chính để mở rộng quy mô AI. “Vì dữ liệu đã trở thành một trong những yếu tố giới hạn chính trong việc mở rộng quy mô hơn nữa, điều này làm cho EBT trở nên đặc biệt hấp dẫn”, bài báo kết luận.
Mặc dù có cơ chế suy luận khác nhau, kiến trúc EBT rất tương thích với biến đổi, giúp có thể sử dụng chúng như một sự thay thế trực tiếp cho LLM hiện tại.
“EBT rất tương thích với các khung phần cứng/suy luận hiện tại”, Gladstone cho biết, bao gồm cả việc giải mã suy đoán bằng các mô hình chuyển tiếp trên cả GPU hoặc TPU. Ông cho biết ông cũng tự tin rằng chúng có thể chạy trên các bộ tăng tốc chuyên dụng như LPU và các thuật toán tối ưu hóa như FlashAttention-3, hoặc có thể được triển khai thông qua các khung suy luận phổ biến như vLLM.
Đối với các nhà phát triển và doanh nghiệp, khả năng suy luận và khái quát hóa mạnh mẽ của EBT có thể khiến chúng trở thành một nền tảng mạnh mẽ và đáng tin cậy để xây dựng thế hệ ứng dụng AI tiếp theo. “Suy nghĩ lâu hơn có thể giúp ích rộng rãi cho hầu hết các ứng dụng doanh nghiệp, nhưng tôi nghĩ điều thú vị nhất sẽ là những ứng dụng đòi hỏi các quyết định quan trọng hơn, an toàn hoặc các ứng dụng có dữ liệu hạn chế”, Gladstone nói.
Nhận thông tin chi tiết hàng ngày về các trường hợp sử dụng kinh doanh với VB Daily
Nếu bạn muốn gây ấn tượng với sếp, VB Daily sẽ giúp bạn. Chúng tôi cung cấp cho bạn thông tin nội bộ về những gì các công ty đang làm với AI tạo sinh, từ các thay đổi quy định đến triển khai thực tế, để bạn có thể chia sẻ thông tin chi tiết để có ROI tối đa.
Đọc Chính sách bảo mật của chúng tôi
Cảm ơn bạn đã đăng ký. Xem thêm bản tin VB tại đây.
Đã xảy ra lỗi.
Link bài viết gốc
- Tags:
- Ai
- 14 July 2025
- Venturebeat.com