Thử thách ô ảo Arc- Sơ cấp

Bài viết này cung cấp một cái nhìn tổng quan về Thử thách Ô ảo Arc, một cuộc thi nhằm mục đích phát triển các tác nhân AI có thể điều khiển một ô ảo để đạt được mục tiêu phức tạp.

July 20, 2025
8 min read

Thử thách ô ảo Arc- Sơ cấp — Bài viết này cung cấp một cái nhìn tổng quan về Thử thách Ô ảo Arc, một cuộc thi nhằm mục đích phát triển các tác nhân AI có thể điều khiển một ô ảo để đạt được mục tiêu phức tạp.

Arc Virtual Cell Challenge: Phần giới thiệu cơ bản

Arc Institute gần đây đã công bố Virtual Cell Challenge. Người tham gia được yêu cầu huấn luyện một mô hình có khả năng dự đoán tác động của việc tắt một gen trong một loại tế bào (chưa được thấy) một phần, một nhiệm vụ mà họ gọi là khái quát hóa ngữ cảnh. Đối với các kỹ sư ML có ít hoặc không có kiến thức nền tảng về sinh học, thuật ngữ chuyên môn và bối cảnh cần thiết có vẻ khá khó khăn. Để khuyến khích sự tham gia, chúng tôi tóm tắt lại thử thách này ở một dạng phù hợp hơn cho các kỹ sư từ các ngành khác.

Mục tiêu Huấn luyện một mô hình để dự đoán tác động lên tế bào của việc tắt một gen bằng CRISPR.

Làm mọi thứ trong thế giới vật chất là tốn kém, khó khăn và dễ xảy ra lỗi. Điều gì sẽ xảy ra nếu chúng ta có thể kiểm tra hàng ngàn ứng cử viên thuốc mà không cần chạm vào đĩa petri? Đây là mục tiêu của thử thách tế bào ảo — một mô hình (rất có thể là mạng nơ-ron) có thể mô phỏng chính xác những gì xảy ra cho một tế bào khi chúng ta thay đổi một số tham số. Cho rằng việc thắt chặt vòng phản hồi của bạn thường là cách tốt nhất để đẩy nhanh tiến độ, một mô hình có khả năng thực hiện điều này một cách chính xác sẽ có tác động đáng kể.

Để huấn luyện mạng nơ-ron này, chúng ta sẽ cần dữ liệu. Đối với thử thách này, Arc đã tuyển chọn một tập dữ liệu gồm ~300k hồ sơ giải trình tự RNA của một tế bào duy nhất. Bạn nên xem lại Central Dogma trước khi tiếp tục. Bài luận này sẽ xây dựng dựa trên điều này để cung cấp kiến thức sinh học ~tối thiểu mà bạn sẽ cần cho thử thách này.

Dữ liệu huấn luyện

Tập huấn luyện bao gồm một ma trận thưa và một số siêu dữ liệu liên quan. Cụ thể hơn, chúng ta có 220k tế bào và đối với mỗi tế bào, chúng ta có một transcriptome. Transcriptome này là một vectơ hàng thưa, trong đó mỗi mục là số lượng phân tử RNA thô (bản sao) mà gen tương ứng (cột của chúng ta) mã hóa. Trong số 220k tế bào, ~38k là không bị xáo trộn, có nghĩa là không có gen nào bị tắt bằng CRISPR. Các tế bào đối chứng này rất quan trọng như chúng ta sẽ thấy trong thời gian ngắn.

Để hiểu tập dữ liệu một cách cụ thể hơn, hãy chọn một gen, TMSB4X (gen bị tắt thường xuyên nhất trong tập dữ liệu) và so sánh số lượng phân tử RNA được phát hiện cho một tế bào đối chứng và một tế bào bị xáo trộn.

Chúng ta có thể thấy rằng tế bào có TMSB4X bị tắt có số lượng bản sao giảm đáng kể so với tế bào đối chứng.

Mô hình hóa thử thách

Những người tinh ý trong số các bạn có thể tự hỏi tại sao bạn không chỉ đo số lượng phân tử RNA trước và sau khi tắt gen — tại sao chúng ta cần các tế bào đối chứng? Thật không may, việc đọc transcriptome sẽ phá hủy tế bào, đây là một vấn đề gợi nhớ đến hiệu ứng người quan sát.

Việc không thể đo trạng thái tế bào trước và sau gây ra nhiều vấn đề, vì chúng ta buộc phải sử dụng một quần thể các tế bào cơ bản (còn gọi là đối chứng, không bị xáo trộn) làm điểm tham chiếu. Các tế bào đối chứng và các tế bào bị xáo trộn không hoàn toàn đồng nhất ngay cả trước khi bị xáo trộn. Điều này có nghĩa là bây giờ chúng ta phải tách tín hiệu thực sự của mình, sự xáo trộn, khỏi tiếng ồn do tính không đồng nhất gây ra.

Chính thức hơn, chúng ta có thể mô hình hóa biểu hiện gen quan sát được trong các tế bào bị xáo trộn như sau:

trong đó:

X^p\hat{X}_pX^p: Các phép đo biểu hiện gen quan sát được trong các tế bào có nhiễu loạn ppp
Dbasal\mathcal{D}_{\text{basal}}Dbasal: Sự phân bố của quần thể tế bào cơ bản, không bị xáo trộn.
T^p(Dbasal)\hat{T}p(\mathcal{D}{\text{basal}})T^p(Dbasal): Tác động thực sự do nhiễu loạn ppp trên quần thể.
H(Dbasal)H(\mathcal{D}_{\text{basal}})H(Dbasal): Tính không đồng nhất sinh học của quần thể cơ bản.
ε\varepsilonε: Tiếng ồn kỹ thuật dành riêng cho thí nghiệm, được cho là độc lập với trạng thái tế bào không bị xáo trộn và Dbasal\mathcal{D}_{\text{basal}}Dbasal

Trước Virtual Cell Challenge, Arc đã phát hành STATE, nỗ lực của riêng họ để giải quyết thử thách này sử dụng một cặp mô hình dựa trên biến đổi. Điều này đóng vai trò là một cơ sở mạnh mẽ để người tham gia bắt đầu, vì vậy chúng ta sẽ khám phá nó một cách chi tiết.

STATE bao gồm hai mô hình, Mô hình chuyển đổi trạng thái (ST) và Mô hình nhúng trạng thái (SE). SE được thiết kế để tạo ra các nhúng ngữ nghĩa phong phú của các tế bào nhằm cải thiện khái quát hóa trên các loại tế bào. ST là “trình mô phỏng tế bào”, nhận vào một bảng điểm của một tế bào đối chứng hoặc một nhúng của một tế bào được tạo bởi SE, cùng với một vectơ mã hóa một lần đại diện cho nhiễu loạn quan tâm và xuất ra bảng điểm bị xáo trộn.

Mô hình chuyển đổi trạng thái (ST)

Mô hình chuyển đổi trạng thái là một biến đổi tương đối đơn giản với xương sống Llama hoạt động trên những điều sau:

Một tập hợp các bảng điểm (hoặc các nhúng SE) cho các tế bào cơ bản phù hợp với hiệp biến.
Một tập hợp các vectơ mã hóa một lần đại diện cho nhiễu loạn gen của chúng ta cho mỗi tế bào.

Việc sử dụng một tập hợp các tế bào đối chứng phù hợp với hiệp biến với các tế bào mục tiêu được ghép nối sẽ hỗ trợ mô hình phân biệt tác động thực sự của nhiễu loạn dự định của chúng ta. Cả tensor tập đối chứng và tensor nhiễu loạn đều được đưa qua các bộ mã hóa độc lập, đó chỉ đơn giản là MLP 4 lớp với kích hoạt GELU. Nếu làm việc trực tiếp trong không gian biểu hiện gen (tức là tạo ra một bảng điểm đầy đủ), chúng sẽ chuyển đầu ra qua một bộ giải mã đã học.

ST được huấn luyện bằng cách sử dụng Sự khác biệt trung bình tối đa. Nói một cách đơn giản, mô hình học cách giảm thiểu sự khác biệt giữa hai phân bố xác suất.

Mô hình nhúng trạng thái (SE)

Mô hình nhúng trạng thái là một bộ tự mã hóa giống BERT. Để hiểu điều này sâu sắc hơn, trước tiên chúng ta phải thực hiện một chuyến đi vòng một chút để có thêm nền tảng sinh học.

Một chuyến đi vòng sinh học nhỏ

Một gen bao gồm exon (các phần mã hóa protein) và intron (các phần không mã hóa protein). DNA trước tiên được phiên mã thành tiền mRNA, như hình trên. Tế bào sau đó thực hiện Ghép nối xen kẽ. Về cơ bản, đây là “chọn và chọn exon”, cắt bỏ tất cả các intron. Bạn có thể coi gen như một hướng dẫn sử dụng IKEA để làm một chiếc bàn. Người ta cũng có thể tạo một chiếc bàn 3 chân, có lẽ là một giá sách kỳ lạ với một số nỗ lực, bằng cách bỏ qua một số bộ phận. Các đối tượng khác nhau này tương tự như các dạng đồng phân protein, các protein được mã hóa bởi cùng một gen.

Trở lại mô hình

Với sự hiểu biết cơ bản này, chúng ta có thể chuyển sang cách mô hình SE hoạt động. Hãy nhớ rằng, mục tiêu cốt lõi của chúng ta đối với SE là tạo ra các nhúng tế bào có ý nghĩa. Để làm được điều này, trước tiên chúng ta phải tạo ra các nhúng gen có ý nghĩa.

Để tạo ra một nhúng gen duy nhất, trước tiên chúng ta lấy chuỗi axit amin (ví dụ: SDKPDMAEI\texttt{SDKPDMAEI}SDKPDMAEI… cho TMSB4X) của tất cả các dạng đồng phân protein khác nhau được mã hóa bởi gen được đề cập. Sau đó, chúng ta đưa các chuỗi này vào ESM2, một Mô hình ngôn ngữ protein 15B tham số từ FAIR. ESM tạo ra một nhúng cho mỗi axit amin và chúng ta gộp trung bình chúng lại với nhau để có được một nhúng “bản sao” (còn gọi là dạng đồng phân protein).

Bây giờ chúng ta có tất cả các nhúng dạng đồng phân protein này, chúng ta chỉ cần gộp trung bình chúng để có được nhúng gen. Tiếp theo, chúng ta chiếu các nhúng gen này vào chiều mô hình của mình bằng một bộ mã hóa đã học như sau:

AI Today - SkyAI