Mô hình MolmoAct của Ai2 "suy nghĩ trong không gian 3D" để thách thức Nvidia và Google trong lĩnh vực AI робот

Mô hình MolmoAct của Ai2 "suy nghĩ trong không gian 3D" để thách thức Nvidia và Google trong lĩnh vực AI робот.

  • 8 min read
Mô hình MolmoAct của Ai2 "suy nghĩ trong không gian 3D" để thách thức Nvidia và Google trong lĩnh vực AI робот
Mô hình MolmoAct của Ai2 "suy nghĩ trong không gian 3D" để thách thức Nvidia và Google trong lĩnh vực AI робот.

Mô hình MolmoAct của Ai2 ‘Suy nghĩ bằng 3D’ để thách thức Nvidia và Google trong lĩnh vực AI Robotics

Credit: VentureBeat, được tạo bằng MidJourney

Credit: VentureBeat, được tạo bằng MidJourney

AI vật lý, nơi robot và các mô hình nền tảng kết hợp với nhau, đang nhanh chóng trở thành một không gian phát triển với các công ty như Nvidia, Google và Meta phát hành nghiên cứu và thử nghiệm trong việc kết hợp các mô hình ngôn ngữ lớn (LLM) với robot.

Nghiên cứu mới từ Viện Allen về AI (Ai2) nhằm mục đích thách thức Nvidia và Google trong lĩnh vực AI vật lý với việc phát hành MolmoAct 7B, một mô hình mã nguồn mở mới cho phép robot “lý luận trong không gian”. MolmoAct, dựa trên Molmo mã nguồn mở của Ai2, “suy nghĩ” theo ba chiều. Ai2 cũng đang phát hành dữ liệu đào tạo của mình. Ai2 có giấy phép Apache 2.0 cho mô hình, trong khi các bộ dữ liệu được cấp phép theo CC BY-4.0.

Ai2 phân loại MolmoAct là Mô hình Lý luận Hành động, trong đó các mô hình nền tảng lý luận về các hành động trong không gian vật lý, 3D.

Điều này có nghĩa là MolmoAct có thể sử dụng khả năng lý luận của mình để hiểu thế giới vật chất, lập kế hoạch cách nó chiếm không gian và sau đó thực hiện hành động đó.

AI Mở Rộng Quy Mô Đạt Đến Giới Hạn Của Nó

Giới hạn công suất, chi phí mã thông báo tăng và độ trễ suy luận đang định hình lại AI doanh nghiệp. Hãy tham gia hội thảo độc quyền của chúng tôi để khám phá cách các nhóm hàng đầu đang:

  • Biến năng lượng thành một lợi thế chiến lược
  • Thiết kế suy luận hiệu quả để đạt được thông lượng thực tế
  • Mở khóa ROI cạnh tranh với các hệ thống AI bền vững

Giữ chỗ của bạn để luôn dẫn đầu: https://bit.ly/4mwGngO

Ai2 nói với VentureBeat trong một email: “MolmoAct có khả năng lý luận trong không gian 3D so với các mô hình tầm nhìn-ngôn ngữ-hành động (VLA) truyền thống. Hầu hết các mô hình robot là VLA không suy nghĩ hoặc lý luận trong không gian, nhưng MolmoAct có khả năng này, làm cho nó hoạt động tốt hơn và có thể khái quát hóa hơn từ quan điểm kiến trúc.”

Hiểu biết vật lý

Vì robot tồn tại trong thế giới vật chất, Ai2 tuyên bố MolmoAct giúp robot tiếp nhận môi trường xung quanh và đưa ra quyết định tốt hơn về cách tương tác với chúng.

Công ty cho biết: “MolmoAct có thể được áp dụng ở bất cứ đâu mà máy móc cần lý luận về môi trường vật chất xung quanh nó. Chúng tôi nghĩ về nó chủ yếu trong môi trường gia đình vì đó là nơi có thách thức lớn nhất đối với robot, vì mọi thứ ở đó không theo quy luật và liên tục thay đổi, nhưng MolmoAct có thể được áp dụng ở bất cứ đâu.”

MolmoAct có thể hiểu thế giới vật chất bằng cách xuất ra “các mã thông báo nhận thức có cơ sở không gian,” là các mã thông báo được đào tạo trước và trích xuất bằng bộ tự mã hóa biến đổi định lượng vectơ hoặc một mô hình chuyển đổi đầu vào dữ liệu, chẳng hạn như video, thành mã thông báo. Công ty cho biết các mã thông báo này khác với các mã thông báo được VLA sử dụng ở chỗ chúng không phải là đầu vào văn bản.

Những điều này cho phép MolmoAct đạt được sự hiểu biết về không gian và mã hóa các cấu trúc hình học. Với những điều này, mô hình ước tính khoảng cách giữa các đối tượng.

Sau khi có khoảng cách ước tính, MolmoAct sau đó dự đoán một chuỗi các điểm tham chiếu “không gian hình ảnh” hoặc các điểm trong khu vực nơi nó có thể đặt đường dẫn đến. Sau đó, mô hình sẽ bắt đầu xuất ra các hành động cụ thể, chẳng hạn như thả cánh tay xuống vài inch hoặc duỗi ra.

Các nhà nghiên cứu của Ai2 cho biết họ có thể khiến mô hình thích ứng với các hình thức khác nhau (tức là cánh tay cơ học hoặc robot hình người) “chỉ với khả năng tinh chỉnh tối thiểu.”

Kiểm tra điểm chuẩn do Ai2 thực hiện cho thấy MolmoAct 7B có tỷ lệ thành công nhiệm vụ là 72,1%, đánh bại các mô hình từ Google, Microsoft và Nvidia.

hình ảnh

Một bước nhỏ về phía trước

Nghiên cứu của Ai2 là nghiên cứu mới nhất tận dụng những lợi ích độc đáo của LLM và VLM, đặc biệt khi tốc độ đổi mới trong AI tổng quát tiếp tục tăng lên. Các chuyên gia trong lĩnh vực này xem công việc từ Ai2 và các công ty công nghệ khác là các khối xây dựng.

Alan Fern, giáo sư tại Trường Kỹ thuật Đại học Bang Oregon, nói với VentureBeat rằng nghiên cứu của Ai2 “thể hiện một bước tiến tự nhiên trong việc tăng cường VLM cho robot và lý luận vật lý.”

Fern nói: “Mặc dù tôi sẽ không gọi nó là mang tính cách mạng, nhưng đó là một bước tiến quan trọng trong việc phát triển các mô hình lý luận vật lý 3D có khả năng hơn. “Việc họ tập trung vào sự hiểu biết thực sự về cảnh 3D, trái ngược với việc chỉ dựa vào các mô hình 2D, đánh dấu một sự thay đổi đáng chú ý theo hướng đúng đắn. Họ đã cải thiện so với các mô hình trước đây, nhưng các điểm chuẩn này vẫn không đáp ứng được sự phức tạp của thế giới thực và vẫn còn tương đối được kiểm soát và mang tính đồ chơi.”

Ông nói thêm rằng mặc dù vẫn còn chỗ để cải thiện các điểm chuẩn, nhưng ông “rất muốn thử nghiệm mô hình mới này trên một số nhiệm vụ lý luận vật lý của chúng tôi.”

Daniel Maturana, đồng sáng lập của công ty khởi nghiệp Gather AI, ca ngợi tính mở của dữ liệu, lưu ý rằng “đây là một tin tuyệt vời vì việc phát triển và đào tạo các mô hình này rất tốn kém, vì vậy đây là một nền tảng vững chắc để xây dựng và tinh chỉnh cho các phòng thí nghiệm học thuật khác và thậm chí cho những người có sở thích tận tâm.”

Sự quan tâm ngày càng tăng đối với AI vật lý

Việc tạo ra những robot thông minh hơn hoặc ít nhất là nhận biết không gian hơn đã là một giấc mơ từ lâu đối với nhiều nhà phát triển và nhà khoa học máy tính.

Tuy nhiên, việc chế tạo robot xử lý nhanh những gì chúng có thể “nhìn thấy” và di chuyển cũng như phản ứng trơn tru trở nên khó khăn. Trước khi có sự ra đời của LLM, các nhà khoa học phải mã hóa mọi chuyển động. Điều này đương nhiên có nghĩa là rất nhiều công việc và ít linh hoạt hơn trong các loại hành động robot có thể xảy ra. Giờ đây, các phương pháp dựa trên LLM cho phép robot (hoặc ít nhất là cánh tay robot) xác định các hành động có thể thực hiện tiếp theo dựa trên các đối tượng mà nó đang tương tác.

SayCan của Google Research giúp một robot lý luận về các tác vụ bằng LLM, cho phép robot xác định trình tự các chuyển động cần thiết để đạt được mục tiêu. OK-Robot của Meta và Đại học New York sử dụng các mô hình ngôn ngữ trực quan để lập kế hoạch chuyển động và thao tác đối tượng.

Hugging Face đã phát hành một robot máy tính để bàn trị giá 299 đô la trong nỗ lực dân chủ hóa việc phát triển robot. Nvidia, công ty đã tuyên bố AI vật lý là xu hướng lớn tiếp theo, đã phát hành một số mô hình để theo dõi nhanh quá trình đào tạo robot, bao gồm Cosmos-Transfer1.

Fern của OSU cho biết có nhiều sự quan tâm hơn đến AI vật lý mặc dù các bản trình diễn vẫn còn hạn chế. Tuy nhiên, nhiệm vụ đạt được trí thông minh vật lý tổng quát, loại bỏ nhu cầu lập trình riêng lẻ các hành động cho robot, đang trở nên dễ dàng hơn.

Ông nói: “Bối cảnh hiện nay thách thức hơn, với ít trái ngọt hơn. Mặt khác, các mô hình trí thông minh vật lý lớn vẫn đang ở giai đoạn đầu và có nhiều cơ hội để phát triển nhanh chóng hơn, điều này làm cho không gian này trở nên đặc biệt thú vị.”

Recommended for You

Google bổ sung tính năng cá nhân hóa trò chuyện giới hạn cho Gemini, отставая от Anthropic и OpenAI về tính năng ghi nhớ

Google bổ sung tính năng cá nhân hóa trò chuyện giới hạn cho Gemini, отставая от Anthropic и OpenAI về tính năng ghi nhớ

Google bổ sung tính năng cá nhân hóa trò chuyện giới hạn cho Gemini, отставая от Anthropic và OpenAI về tính năng ghi nhớ.

Điều gì xảy ra vào ngày sau siêu trí tuệ?

Điều gì xảy ra vào ngày sau siêu trí tuệ?