Cải tiến hệ thống AI thông qua tiến bộ trong nhận thức, định vị và suy luận

Meta FAIR phát hành một số hiện vật nghiên cứu mới giúp nâng cao hiểu biết của chúng ta về nhận thức và hỗ trợ mục tiêu đạt được trí tuệ máy móc tiên tiến (AMI).

  • 13 min read
Cải tiến hệ thống AI thông qua tiến bộ trong nhận thức, định vị và suy luận
Meta FAIR phát hành một số hiện vật nghiên cứu mới giúp nâng cao hiểu biết của chúng ta về nhận thức và hỗ trợ mục tiêu đạt được trí tuệ máy móc tiên tiến (AMI).

Nâng cao hệ thống AI thông qua những tiến bộ trong nhận thức, định vị và lý luận

Meta FAIR đang phát hành một số sản phẩm nghiên cứu mới nhằm nâng cao sự hiểu biết của chúng ta về nhận thức và hỗ trợ mục tiêu đạt được trí tuệ máy móc tiên tiến (AMI).

Những điểm chính:

  • Meta FAIR đang phát hành một số sản phẩm nghiên cứu mới nhằm nâng cao sự hiểu biết của chúng ta về nhận thức và hỗ trợ mục tiêu đạt được trí tuệ máy móc tiên tiến (AMI).
  • Công việc mà chúng tôi chia sẻ bao gồm Meta Perception Encoder, nhằm xây dựng các hệ thống thị giác máy tính tiên tiến hơn có thể hỗ trợ mọi người trong các công việc hàng ngày, chẳng hạn như nhận dạng hình ảnh và phát hiện đối tượng. Chúng tôi cũng chia sẻ những tiến bộ trong việc hiểu cảnh 3D và định vị các đối tượng từ các truy vấn bằng ngôn ngữ tự nhiên — tất cả đều là những phát triển quan trọng trên con đường đạt được các hệ thống AI tinh vi hơn.
  • Chúng tôi cũng giới thiệu Collaborative Reasoner, một khuôn khổ để đánh giá và cải thiện các kỹ năng lý luận hợp tác của các mô hình ngôn ngữ lớn, đây là một bước quan trọng hướng tới việc xây dựng các tác nhân xã hội hợp tác.
  • Bằng cách cung cấp rộng rãi nghiên cứu của mình, chúng tôi mong muốn cung cấp khả năng truy cập dễ dàng cho cộng đồng nghiên cứu và giúp thúc đẩy một hệ sinh thái mở cho AI, đẩy nhanh tiến độ và khám phá.

Khi chúng tôi làm việc để đạt được mục tiêu về trí tuệ máy móc tiên tiến (AMI), điều quan trọng là phải có các mô hình, điểm chuẩn và tập dữ liệu tập trung vào nhận thức. Chúng ta cần những cỗ máy có khả năng thu thập, xử lý và giải thích thông tin cảm giác về thế giới xung quanh và có thể sử dụng thông tin này để đưa ra quyết định với trí thông minh và tốc độ giống như con người. Hôm nay, chúng tôi rất vui mừng được công khai phát hành năm công trình mới từ nhóm Meta Fundamental AI Research (FAIR), đưa chúng ta đến gần hơn với mục tiêu đó.

Meta Perception Encoder: Thiết lập các tiêu chuẩn mới cho mô hình hóa tầm nhìn phù hợp với ngôn ngữ

Chúng tôi rất vui mừng được giới thiệu Perception Encoder, một bộ mã hóa tầm nhìn quy mô lớn, vượt trội trong một số nhiệm vụ tầm nhìn cho hình ảnh và video. Bộ mã hóa tầm nhìn đóng vai trò là “đôi mắt” cho phép các hệ thống AI diễn giải thông tin trực quan và hiểu rõ hơn về thế giới. Khi các hệ thống AI trở nên tiên tiến hơn, việc xây dựng một bộ mã hóa tầm nhìn đáp ứng mọi kỳ vọng về trí thông minh tiên tiến thậm chí còn trở nên khó khăn hơn. Để đạt được điều này, bộ mã hóa tầm nhìn phải kết nối tầm nhìn và ngôn ngữ, hoạt động tốt trên hình ảnh và video, đồng thời mạnh mẽ trước các điều kiện đầy thách thức và có khả năng gây hại khác nhau. Bộ mã hóa tầm nhìn cũng phải có khả năng nhận ra một loạt các khái niệm đồng thời đủ nhạy bén để phân biệt các khác biệt nhỏ, chẳng hạn như các loài động vật khác nhau.

Perception Encoder thể hiện hiệu suất vượt trội về phân loại và truy xuất không cần ảnh và video, vượt qua tất cả các mô hình độc quyền và mã nguồn mở hiện có cho các tác vụ như vậy. Nó cũng hoạt động đặc biệt tốt trên các tác vụ “khó”, chẳng hạn như nhận ra một con cá đuối gai độc nằm dưới đáy biển, xác định một con chim sẻ nhỏ bé ở hậu cảnh của một hình ảnh hoặc bắt một con chuột lang đang chạy trốn trên một chiếc máy ảnh quan sát động vật hoang dã vào ban đêm.

Những khả năng nhận thức mạnh mẽ này chuyển sang các nhiệm vụ ngôn ngữ hạ nguồn. Sau khi điều chỉnh theo một mô hình ngôn ngữ lớn, Perception Encoder vượt qua tất cả các bộ mã hóa tầm nhìn khác để trả lời câu hỏi bằng hình ảnh và video, chú thích, hiểu tài liệu và nền tảng. Perception Encoder cũng cho phép cải thiện đáng kể các tác vụ vốn khó khăn đối với các mô hình ngôn ngữ, chẳng hạn như cho biết liệu một đối tượng có ở phía sau đối tượng khác hay không hoặc liệu máy ảnh có đang di chuyển theo chiều kim đồng hồ xung quanh một đối tượng hay không.

Khi Perception Encoder bắt đầu được tích hợp vào các ứng dụng mới, chúng tôi rất vui mừng được thấy những khả năng tầm nhìn tiên tiến của nó sẽ cho phép các hệ thống AI có khả năng hơn nữa như thế nào.

Meta Perception Language Model: Nâng cao sự hiểu biết của chúng ta về các nhiệm vụ nhận thức trực quan

Tiếp tục công việc của chúng tôi về nhận thức, chúng tôi đang phát hành Perception Language Model (PLM), một mô hình ngôn ngữ thị giác mở và có thể tái tạo để giải quyết các nhiệm vụ nhận dạng hình ảnh đầy thách thức.

Chúng tôi đã đào tạo PLM bằng cách sử dụng dữ liệu tổng hợp được tạo ở quy mô lớn và các tập dữ liệu hiểu ngôn ngữ thị giác mở, mà không cần bất kỳ sự chắt lọc nào từ các mô hình bên ngoài. Sau đó, chúng tôi xác định các khoảng trống chính trong dữ liệu hiện có để hiểu video và thu thập 2,5 triệu mẫu chú thích không gian thời gian và QA video có nhãn thủ công mới để lấp đầy những khoảng trống này, tạo thành tập dữ liệu lớn nhất thuộc loại này cho đến nay.

PLM được đào tạo trên tập dữ liệu khổng lồ này, sử dụng kết hợp dữ liệu tổng hợp và được gắn nhãn thủ công để tạo ra một mô hình mạnh mẽ, chính xác và hoàn toàn có thể tái tạo. PLM cung cấp các biến thể với 1, 3 và 8 tỷ tham số, khiến nó rất phù hợp cho nghiên cứu học thuật hoàn toàn minh bạch.

Chúng tôi cũng đang chia sẻ một điểm chuẩn mới, PLM-VideoBench, tập trung vào các tác vụ mà các điểm chuẩn hiện có bỏ lỡ: hiểu hoạt động chi tiết và lý luận có nền tảng về mặt không gian thời gian. Chúng tôi hy vọng rằng tập dữ liệu nguồn mở và quy mô lớn, điểm chuẩn đầy thách thức và các mô hình mạnh mẽ của chúng tôi sẽ cùng nhau cho phép cộng đồng nguồn mở xây dựng các hệ thống thị giác máy tính có khả năng hơn.

Meta Locate 3D: Một biên giới mới trong bản địa hóa đối tượng từ vựng mở

Hãy tưởng tượng bạn nói, “Này robot, mang cho tôi cái cốc màu đỏ trên bàn,” và có một con robot hoàn thành nhiệm vụ. Để các hệ thống AI hỗ trợ chúng ta một cách hiệu quả trong thế giới vật chất, điều cần thiết là chúng phải có sự hiểu biết về thế giới 3D dựa trên ngôn ngữ tự nhiên. Để thực hiện các nhiệm vụ như vậy, robot cần trước tiên xác định vị trí đối tượng trong môi trường 3D, điều hướng đến đó và nhặt nó lên.

Để giải quyết vấn đề này, chúng tôi đã xây dựng Meta Locate 3D, một mô hình đầu cuối có thể định vị chính xác các đối tượng từ các truy vấn từ vựng mở. Meta Locate 3D hoạt động trực tiếp trên các đám mây điểm 3D từ các cảm biến RGB-D nhận được từ robot. Khi được cung cấp một lời nhắc bằng văn bản, chẳng hạn như “bình hoa gần bảng điều khiển TV”, Meta Locate 3D sẽ tính đến các mối quan hệ không gian và ngữ cảnh để xác định thể hiện đối tượng cụ thể, chẳng hạn như “bình hoa gần TV”, không phải “bình hoa trên bàn” và có thể xác định chính xác vị trí của vật phẩm.

Meta Locate 3D bao gồm ba thành phần chính:

  • Một bước tiền xử lý, bước đầu tiên nâng các tính năng nền tảng 2D lên các đám mây điểm có tính năng 3D.
  • Bộ mã hóa 3D-JEPA, một bộ mã hóa được đào tạo trước lấy các đám mây điểm có tính năng làm đầu vào và dự đoán một biểu diễn theo ngữ cảnh, được làm mịn của thế giới 3D.
  • Bộ giải mã Locate 3D, bộ này lấy biểu diễn 3D-JEPA và một truy vấn ngôn ngữ và tạo ra cả hộp giới hạn và mặt nạ cho các đối tượng được chỉ định.

Chúng tôi cũng đang phát hành một tập dữ liệu mới để bản địa hóa các đối tượng dựa trên các biểu thức tham chiếu. Tập dữ liệu này bao gồm 130.000 chú thích ngôn ngữ trên ba tập dữ liệu được sử dụng rộng rãi — ARKitScenes, ScanNet và ScanNet++ — và bao gồm 1.346 cảnh, tăng gấp đôi hiệu quả số lượng chú thích dữ liệu hiện có.

Bằng cách cho phép robot hiểu chính xác môi trường xung quanh và đặt nền tảng cho sự hiểu biết của chúng bằng ngôn ngữ tự nhiên, Meta Locate 3D hỗ trợ sự phát triển của các hệ thống robot tinh vi và có khả năng hơn, bao gồm cả Meta PARTNR. Với Meta Locate 3D, con người có thể tương tác tự nhiên với robot để yêu cầu hoặc cộng tác trong các nhiệm vụ, điều này đánh dấu một bước tiến thú vị trong việc theo đuổi các cỗ máy thông minh và tự chủ hơn.

Dynamic Byte Latent Transformer: Xác định lại các tiêu chuẩn về hiệu quả và độ tin cậy

Sau khi xuất bản bài báo nghiên cứu của chúng tôi vào cuối năm 2024, theo yêu cầu phổ biến, chúng tôi đang phát hành trọng số mô hình cho Dynamic Byte Latent Transformer tham số 8B của chúng tôi. Nghiên cứu này đánh dấu một tiến bộ đáng kể trong kiến trúc mô hình ngôn ngữ ở cấp độ byte, đạt được hiệu suất ở quy mô phù hợp với các mô hình ngôn ngữ dựa trên mã thông báo truyền thống lần đầu tiên. Công nghệ này giúp tăng cường hiệu quả suy luận và cải thiện đáng kể độ tin cậy.

Kiến trúc Dynamic Byte Latent Transformer vượt trội hơn các mô hình dựa trên tokenizer trong nhiều tác vụ khác nhau, với lợi thế độ tin cậy trung bình là +7 điểm (trên HellaSwag bị nhiễu) và đạt mức cao nhất là +55 điểm trên các tác vụ từ điểm chuẩn hiểu mã thông báo CUTE. Điều này làm nổi bật tiềm năng của Dynamic Byte Latent Transformer để xác định lại các tiêu chuẩn về hiệu quả và độ tin cậy của mô hình ngôn ngữ, cung cấp một giải pháp thay thế hấp dẫn cho các phương pháp mã thông báo truyền thống.

Với mô hình mới này và cơ sở mã đã phát hành trước đó của chúng tôi, chúng tôi khuyến khích cộng đồng khám phá những ý tưởng mới, hy vọng mở đường cho những phát triển đột phá hơn nữa trong lĩnh vực mô hình hóa ngôn ngữ.

Collaborative Reasoner: Các tác nhân xã hội tự cải thiện bằng các cuộc trò chuyện tổng hợp

Khi con người cộng tác, chúng ta thường đạt được kết quả tốt hơn cùng nhau. Tương tự như sự hợp tác của con người, mục tiêu của chúng tôi là phát triển các tác nhân AI xã hội có thể cộng tác với con người hoặc các tác nhân AI khác để hoàn thành nhiệm vụ tốt hơn một tác nhân hoặc con người duy nhất. Hãy tưởng tượng một tác nhân giúp bạn hiểu một bài tập về nhà khó hoặc giúp bạn chuẩn bị cho một cuộc phỏng vấn xin việc. Những sự hợp tác này đầy thách thức vì ngoài việc giải quyết vấn đề, chúng còn đòi hỏi các kỹ năng xã hội như giao tiếp hiệu quả, cung cấp phản hồi, có sự đồng cảm và lý thuyết về tâm trí. Hơn nữa, loại hợp tác này thường biểu hiện qua nhiều lượt trò chuyện tự nhiên qua lại. Các điểm chuẩn đánh giá và đường ống đào tạo LLM hiện tại không xem xét các loại kỹ năng hợp tác và xã hội này. Dữ liệu trò chuyện qua lại hợp tác rất tốn kém để thu thập, dành riêng cho từng lĩnh vực và ít có khả năng kiểm soát hơn, gây khó khăn cho cả đánh giá và đào tạo.

Để giải quyết những thách thức này, chúng tôi đã xây dựng Collaborative Reasoner, một khuôn khổ để đánh giá và cải thiện các kỹ năng lý luận hợp tác của các mô hình ngôn ngữ. Collaborative Reasoner bao gồm một bộ các nhiệm vụ hướng đến mục tiêu, đòi hỏi lý luận nhiều bước cần được hai tác nhân hoàn thành một cách hợp tác thông qua một cuộc trò chuyện nhiều lượt. Các nhiệm vụ và số liệu trong Collaborative Reasoner yêu cầu các tác nhân không đồng ý về các giải pháp, thuyết phục đối tác của họ về một giải pháp chính xác và cuối cùng đồng ý về giải pháp tốt nhất với tư cách là một nhóm.

Đánh giá của chúng tôi cho thấy các mô hình hiện tại không thể sử dụng nhất quán sự cộng tác để đạt được hiệu suất nhiệm vụ tốt hơn. Để cải thiện khả năng lý luận hợp tác của LLM, chúng tôi đề xuất một phương pháp tự cải thiện bằng cách sử dụng dữ liệu tương tác tổng hợp được lấy mẫu với sự tự cộng tác — nói cách khác, một tác nhân LLM cộng tác với chính nó. Để cho phép tạo dữ liệu như vậy ở quy mô lớn, chúng tôi cũng phát triển một công cụ phục vụ mô hình hiệu suất cao, linh hoạt để suy luận quy mô lớn, được gọi là Matrix: Cơ sở hạ tầng và thử nghiệm tạo dữ liệu đa tác nhân. Trong các nhiệm vụ toán học (MATH), khoa học (MMLU-Pro, GPQA) và lý luận xã hội (ExploreToM, HiToM), phương pháp của chúng tôi mang lại những cải tiến lên đến 29,4% so với hiệu suất chuỗi tư duy của một LLM tác nhân đơn tương đương.

Collaborative Reasoner mở đường cho việc phát triển các tác nhân xã hội có thể hợp tác với con người và các tác nhân khác. Chúng tôi đang mở nguồn dữ liệu và đường ống mô hình hóa của mình để hỗ trợ nghiên cứu sâu hơn trong lĩnh vực này.

Các bản cập nhật mới nhất của chúng tôi được gửi đến hộp thư đến của bạn

Đăng ký vào bản tin của chúng tôi để cập nhật tin tức, sự kiện, đột phá nghiên cứu và hơn thế nữa về Meta AI.

Tham gia cùng chúng tôi trong việc theo đuổi những gì có thể với AI.

Xem tất cả các vị trí đang mở

Recommended for You

17 lý do tại sao Gradio không chỉ là một thư viện UI khác

17 lý do tại sao Gradio không chỉ là một thư viện UI khác

Gradio không chỉ là một thư viện UI.

BigQuery lớn hơn 5 lần so với Snowflake và Databricks Google đang làm gì để làm cho nó tốt hơn nữa

BigQuery lớn hơn 5 lần so với Snowflake và Databricks Google đang làm gì để làm cho nó tốt hơn nữa

BigQuery lớn hơn 5 lần so với Snowflake và Databricks Đây là những gì Google đang làm để làm cho nó tốt hơn nữa.