AlphaGenome- AI để hiểu rõ hơn về bộ gen
Giới thiệu một mô hình trình tự DNA thống nhất mới, giúp dự đoán hiệu quả các biến thể điều chỉnh và hứa hẹn làm sáng tỏ chức năng của bộ gen — hiện có sẵn thông qua API.
- 13 min read
AlphaGenome: AI giúp hiểu rõ hơn về bộ gen
Giới thiệu một mô hình trình tự DNA thống nhất, mới, giúp nâng cao khả năng dự đoán tác động của các biến thể điều hòa và hứa hẹn làm sáng tỏ chức năng của bộ gen - hiện đã có sẵn qua API.
Bộ gen là sổ tay hướng dẫn tế bào của chúng ta. Nó là tập hợp đầy đủ các DNA hướng dẫn gần như mọi bộ phận của một sinh vật sống, từ hình thức và chức năng đến sự tăng trưởng và sinh sản. Các biến thể nhỏ trong trình tự DNA của bộ gen có thể thay đổi phản ứng của một sinh vật đối với môi trường hoặc khả năng mắc bệnh của nó. Nhưng việc giải mã cách các hướng dẫn của bộ gen được đọc ở cấp độ phân tử - và điều gì xảy ra khi một biến thể DNA nhỏ xảy ra - vẫn là một trong những bí ẩn lớn nhất của sinh học.
Hôm nay, chúng tôi giới thiệu AlphaGenome, một công cụ trí tuệ nhân tạo (AI) mới dự đoán toàn diện và chính xác hơn cách các biến thể hoặc đột biến đơn lẻ trong trình tự DNA của con người tác động đến một loạt các quá trình sinh học điều chỉnh gen. Điều này được thực hiện, bên cạnh các yếu tố khác, nhờ những tiến bộ kỹ thuật cho phép mô hình xử lý các trình tự DNA dài và đưa ra các dự đoán có độ phân giải cao.
Để thúc đẩy nghiên cứu khoa học, chúng tôi đang cung cấp bản xem trước AlphaGenome thông qua API AlphaGenome của chúng tôi cho nghiên cứu phi thương mại và có kế hoạch phát hành mô hình trong tương lai.
Chúng tôi tin rằng AlphaGenome có thể là một nguồn tài nguyên có giá trị cho cộng đồng khoa học, giúp các nhà khoa học hiểu rõ hơn về chức năng của bộ gen, sinh học bệnh tật và cuối cùng là thúc đẩy những khám phá sinh học mới và sự phát triển của các phương pháp điều trị mới.
Cách AlphaGenome hoạt động
Mô hình AlphaGenome của chúng tôi lấy một trình tự DNA dài làm đầu vào - tối đa 1 triệu chữ cái, còn được gọi là cặp base - và dự đoán hàng nghìn thuộc tính phân tử đặc trưng cho hoạt động điều hòa của nó. Nó cũng có thể chấm điểm ảnh hưởng của các biến thể hoặc đột biến di truyền bằng cách so sánh các dự đoán của các trình tự bị đột biến với các trình tự không bị đột biến.
Các thuộc tính được dự đoán bao gồm nơi gen bắt đầu và nơi chúng kết thúc trong các loại tế bào và mô khác nhau, nơi chúng được nối, lượng RNA được tạo ra, và cả những base DNA nào có thể truy cập, gần nhau hoặc liên kết bởi các protein nhất định. Dữ liệu huấn luyện được lấy từ các tập đoàn công lớn bao gồm ENCODE, GTEx, 4D Nucleome và FANTOM5, nơi đã đo lường bằng thực nghiệm các thuộc tính này bao gồm các phương thức điều chỉnh gen quan trọng trên hàng trăm loại tế bào và mô của người và chuột.
Kiến trúc AlphaGenome sử dụng các lớp tích chập để ban đầu phát hiện các mẫu ngắn trong trình tự bộ gen, các máy biến áp để truyền đạt thông tin trên tất cả các vị trí trong trình tự và một loạt các lớp cuối cùng để biến các mẫu được phát hiện thành dự đoán cho các phương thức khác nhau. Trong quá trình huấn luyện, tính toán này được phân phối trên nhiều Đơn vị xử lý Tensor (TPU) được kết nối với nhau cho một trình tự duy nhất.
Mô hình này xây dựng dựa trên mô hình bộ gen trước đây của chúng tôi, Enformer và bổ sung cho AlphaMissense, chuyên phân loại tác động của các biến thể trong các vùng mã hóa protein. Các vùng này bao phủ 2% bộ gen. 98% còn lại, được gọi là vùng không mã hóa, rất quan trọng để điều phối hoạt động của gen và chứa nhiều biến thể liên quan đến bệnh tật. AlphaGenome cung cấp một góc nhìn mới để giải thích các trình tự mở rộng này và các biến thể trong chúng.
Các tính năng đặc biệt của AlphaGenome
AlphaGenome cung cấp một số tính năng đặc biệt so với các mô hình trình tự DNA hiện có:
Bối cảnh trình tự dài ở độ phân giải cao
Mô hình của chúng tôi phân tích tối đa 1 triệu chữ cái DNA và đưa ra dự đoán ở độ phân giải của các chữ cái riêng lẻ. Bối cảnh trình tự dài rất quan trọng để bao phủ các vùng điều chỉnh gen từ xa và độ phân giải base rất quan trọng để nắm bắt các chi tiết sinh học chi tiết.
Các mô hình trước đây phải đánh đổi độ dài trình tự và độ phân giải, điều này hạn chế phạm vi các phương thức mà chúng có thể mô hình hóa chung và dự đoán chính xác. Những tiến bộ kỹ thuật của chúng tôi giải quyết hạn chế này mà không làm tăng đáng kể các nguồn lực đào tạo — việc đào tạo một mô hình AlphaGenome duy nhất (không cần chưng cất) mất bốn giờ và yêu cầu một nửa ngân sách tính toán được sử dụng để đào tạo mô hình Enformer ban đầu của chúng tôi.
Dự đoán đa phương thức toàn diện
Bằng cách mở khóa dự đoán độ phân giải cao cho các trình tự đầu vào dài, AlphaGenome có thể dự đoán phạm vi phương thức đa dạng nhất. Bằng cách đó, AlphaGenome cung cấp cho các nhà khoa học thông tin toàn diện hơn về các bước phức tạp của điều hòa gen.
Chấm điểm biến thể hiệu quả
Ngoài việc dự đoán một loạt các thuộc tính phân tử đa dạng, AlphaGenome có thể chấm điểm hiệu quả tác động của một biến thể di truyền đối với tất cả các thuộc tính này trong một giây. Nó thực hiện điều này bằng cách đối chiếu các dự đoán của các trình tự bị đột biến với các trình tự không bị đột biến và tóm tắt hiệu quả sự đối chiếu đó bằng các phương pháp khác nhau cho các phương thức khác nhau.
Mô hình hóa nối-liên kết mới
Nhiều bệnh di truyền hiếm gặp, chẳng hạn như teo cơ tủy sống và một số dạng xơ nang, có thể do lỗi trong quá trình nối RNA — một quá trình trong đó các phần của phân tử RNA bị loại bỏ, hoặc “nối ra”, và các đầu còn lại được nối lại. Lần đầu tiên, AlphaGenome có thể mô hình hóa rõ ràng vị trí và mức độ biểu hiện của các mối nối này trực tiếp từ trình tự, đưa ra những hiểu biết sâu sắc hơn về hậu quả của các biến thể di truyền đối với quá trình nối RNA.
Hiệu suất hiện đại trên các điểm chuẩn
AlphaGenome đạt được hiệu suất hiện đại trên một loạt các điểm chuẩn dự đoán bộ gen, chẳng hạn như dự đoán những phần nào của phân tử DNA sẽ ở gần nhau, liệu một biến thể di truyền sẽ làm tăng hay giảm biểu hiện của một gen, hoặc liệu nó sẽ thay đổi kiểu nối của gen.
<picture class="picture">
<source
media="(min-width: 600px)"
type="image/webp"
width="616"
height="355"
srcset="https://lh3.googleusercontent.com/iuiVs77psK_6U926XmCtIHgLADKxY-7IFZzkBbVS-t3igBATakf4GqEILM67MJzj8gpioDcwilbxs1JY_pdmlTvNHXEx2b-rN9QG1Im4GKLznuvimA=w616-rw 1x, https://lh3.googleusercontent.com/iuiVs77psK_6U926XmCtIHgLADKxY-7IFZzkBbVS-t3igBATakf4GqEILM67MJzj8gpioDcwilbxs1JY_pdmlTvNHXEx2b-rN9QG1Im4GKLznuvimA=w1232-rw 2x"
/><source
type="image/webp"
width="528"
height="304"
srcset="https://lh3.googleusercontent.com/iuiVs77psK_6U926XmCtIHgLADKxY-7IFZzkBbVS-t3igBATakf4GqEILM67MJzj8gpioDcwilbxs1JY_pdmlTvNHXEx2b-rN9QG1Im4GKLznuvimA=w528-rw 1x, https://lh3.googleusercontent.com/iuiVs77psK_6U926XmCtIHgLADKxY-7IFZzkBbVS-t3igBATakf4GqEILM67MJzj8gpioDcwilbxs1JY_pdmlTvNHXEx2b-rN9QG1Im4GKLznuvimA=w1056-rw 2x"
/>
<img alt="" class="picture__image" height="355" loading="lazy" src="https://lh3.googleusercontent.com/iuiVs77psK_6U926XmCtIHgLADKxY-7IFZzkBbVS-t3igBATakf4GqEILM67MJzj8gpioDcwilbxs1JY_pdmlTvNHXEx2b-rN9QG1Im4GKLznuvimA=w616" width="616">
</picture>
Khi đưa ra dự đoán cho các trình tự DNA đơn lẻ, AlphaGenome hoạt động tốt hơn các mô hình bên ngoài tốt nhất trên 22 trong số 24 đánh giá. Và khi dự đoán tác động điều hòa của một biến thể, nó phù hợp hoặc vượt quá các mô hình bên ngoài hoạt động hàng đầu trên 24 trong số 26 đánh giá.
So sánh này bao gồm các mô hình chuyên biệt cho các tác vụ riêng lẻ. AlphaGenome là mô hình duy nhất có thể dự đoán chung tất cả các phương thức được đánh giá, làm nổi bật tính tổng quát của nó. Đọc thêm trong bản in trước của chúng tôi.
Lợi ích của một mô hình thống nhất
Tính tổng quát của AlphaGenome cho phép các nhà khoa học đồng thời khám phá tác động của một biến thể đối với một số phương thức chỉ với một lệnh gọi API. Điều này có nghĩa là các nhà khoa học có thể tạo và kiểm tra các giả thuyết nhanh hơn, mà không phải sử dụng nhiều mô hình để điều tra các phương thức khác nhau.
Hơn nữa, hiệu suất mạnh mẽ của AlphaGenome chỉ ra rằng nó đã học được một biểu diễn tương đối chung của trình tự DNA trong bối cảnh điều hòa gen. Điều này làm cho nó trở thành một nền tảng vững chắc để cộng đồng rộng lớn hơn xây dựng. Sau khi mô hình được phát hành đầy đủ, các nhà khoa học sẽ có thể điều chỉnh và tinh chỉnh nó trên bộ dữ liệu của riêng họ để giải quyết tốt hơn các câu hỏi nghiên cứu độc đáo của họ.
Cuối cùng, phương pháp này cung cấp một kiến trúc linh hoạt và có thể mở rộng cho tương lai. Bằng cách mở rộng dữ liệu huấn luyện, khả năng của AlphaGenome có thể được mở rộng để mang lại hiệu suất tốt hơn, bao gồm nhiều loài hơn hoặc bao gồm các phương thức bổ sung để làm cho mô hình trở nên toàn diện hơn.
Một công cụ nghiên cứu mạnh mẽ
Khả năng dự đoán của AlphaGenome có thể giúp một số con đường nghiên cứu:
- Hiểu biết về bệnh tật: Bằng cách dự đoán chính xác hơn sự gián đoạn di truyền, AlphaGenome có thể giúp các nhà nghiên cứu xác định chính xác hơn các nguyên nhân tiềm ẩn gây ra bệnh tật và giải thích tốt hơn tác động chức năng của các biến thể liên quan đến một số đặc điểm nhất định, có khả năng khám phá ra các mục tiêu điều trị mới. Chúng tôi nghĩ rằng mô hình đặc biệt phù hợp để nghiên cứu các biến thể hiếm gặp với các tác động tiềm năng lớn, chẳng hạn như những biến thể gây ra các rối loạn Mendelian hiếm gặp.
- Sinh học tổng hợp: Các dự đoán của nó có thể được sử dụng để hướng dẫn thiết kế DNA tổng hợp với chức năng điều hòa cụ thể — ví dụ: chỉ kích hoạt một gen trong các tế bào thần kinh mà không phải trong các tế bào cơ.
- Nghiên cứu cơ bản: Nó có thể đẩy nhanh sự hiểu biết của chúng ta về bộ gen bằng cách hỗ trợ lập bản đồ các yếu tố chức năng quan trọng của nó và xác định vai trò của chúng, xác định các hướng dẫn DNA thiết yếu nhất để điều chỉnh chức năng của một loại tế bào cụ thể.
Ví dụ: chúng tôi đã sử dụng AlphaGenome để điều tra cơ chế tiềm năng của một đột biến liên quan đến ung thư. Trong một nghiên cứu hiện có về bệnh nhân mắc bệnh bạch cầu lympho cấp tính tế bào T (T-ALL), các nhà nghiên cứu đã quan sát thấy các đột biến ở các vị trí cụ thể trong bộ gen. Sử dụng AlphaGenome, chúng tôi dự đoán rằng các đột biến sẽ kích hoạt một gen gần đó gọi là TAL1 bằng cách giới thiệu một motif liên kết DNA MYB, bắt chước cơ chế bệnh đã biết và làm nổi bật khả năng của AlphaGenome trong việc liên kết các biến thể không mã hóa cụ thể với các gen gây bệnh.
Những hạn chế hiện tại
AlphaGenome đánh dấu một bước tiến quan trọng, nhưng điều quan trọng là phải thừa nhận những hạn chế hiện tại của nó.
Giống như các mô hình dựa trên trình tự khác, việc nắm bắt chính xác ảnh hưởng của các yếu tố điều hòa rất xa, như những yếu tố cách xa hơn 100.000 chữ cái DNA, vẫn là một thách thức đang diễn ra. Một ưu tiên khác cho công việc trong tương lai là tiếp tục tăng cường khả năng của mô hình để nắm bắt các mẫu cụ thể của tế bào và mô.
Chúng tôi chưa thiết kế hoặc xác thực AlphaGenome để dự đoán bộ gen cá nhân, một thách thức đã biết đối với các mô hình AI. Thay vào đó, chúng tôi tập trung nhiều hơn vào việc mô tả hiệu suất trên các biến thể di truyền riêng lẻ. Và mặc dù AlphaGenome có thể dự đoán kết quả phân tử, nhưng nó không cung cấp bức tranh đầy đủ về cách các biến thể di truyền dẫn đến các đặc điểm hoặc bệnh tật phức tạp. Chúng thường liên quan đến các quá trình sinh học rộng lớn hơn, như các yếu tố phát triển và môi trường, nằm ngoài phạm vi trực tiếp của mô hình của chúng tôi.
Chúng tôi tiếp tục cải thiện các mô hình của mình và thu thập phản hồi để giúp chúng tôi giải quyết những khoảng trống này.
Cho phép cộng đồng mở khóa tiềm năng của AlphaGenome
AlphaGenome hiện có sẵn để sử dụng phi thương mại thông qua API AlphaGenome của chúng tôi. Xin lưu ý rằng các dự đoán của mô hình của chúng tôi chỉ dành cho mục đích nghiên cứu và chưa được thiết kế hoặc xác thực cho các mục đích lâm sàng trực tiếp.
Các nhà nghiên cứu trên toàn thế giới được mời liên hệ với các trường hợp sử dụng tiềm năng cho AlphaGenome và đặt câu hỏi hoặc chia sẻ phản hồi thông qua diễn đàn cộng đồng.
Chúng tôi hy vọng AlphaGenome sẽ là một công cụ quan trọng để hiểu rõ hơn về bộ gen và chúng tôi cam kết hợp tác cùng với các chuyên gia bên ngoài trên khắp các tổ chức học thuật, ngành công nghiệp và chính phủ để đảm bảo AlphaGenome mang lại lợi ích cho càng nhiều người càng tốt.
Cùng với những nỗ lực tập thể của cộng đồng khoa học rộng lớn hơn, chúng tôi hy vọng nó sẽ làm sâu sắc thêm sự hiểu biết của chúng ta về các quá trình tế bào phức tạp được mã hóa trong trình tự DNA và tác động của các biến thể, đồng thời thúc đẩy những khám phá mới thú vị trong bộ gen và chăm sóc sức khỏe.
Tìm hiểu thêm về AlphaGenome
Lời cảm ơn
Chúng tôi xin cảm ơn Juanita Bawagan, Arielle Bier, Stephanie Booth, Irina Andronic, Armin Senoner, Dhavanthi Hariharan, Rob Ashley, Agata Laydon và Kathryn Tunyasuvunakool vì sự giúp đỡ của họ với văn bản và hình ảnh.
Công trình này được thực hiện nhờ sự đóng góp của các đồng tác giả AlphaGenome: Žiga Avsec, Natasha Latysheva, Jun Cheng, Guido Novati, Kyle R. Taylor, Tom Ward, Clare Bycroft, Lauren Nicolaisen, Eirini Arvaniti, Joshua Pan, Raina Thomas, Vincent Dutordoir, Matteo Perino, Soham De, Alexander Karollus, Adam Gayoso, Toby Sargeant, Anne Mottram, Lai Hong Wong, Pavol Drotár, Adam Kosiorek, Andrew Senior, Richard Tanburn, Taylor Applebaum, Souradeep Basu, Demis Hassabis và Pushmeet Kohli.
Chúng tôi cũng xin cảm ơn Dhavanthi Hariharan, Charlie Taylor, Ottavia Bertolli, Yannis Assael, Alex Botev, Anna Trostanetski, Lucas Tenório, Victoria Johnston, Richard Green, Kathryn Tunyasuvunakool, Molly Beck, Uchechi Okereke, Rachael Tremlett, Sarah Chakera, Ibrahim I. Taskiran, Andreea-Alexandra Muşat, Raiyan Khan, Ren Yi và nhóm Google DeepMind lớn hơn vì sự hỗ trợ, giúp đỡ và phản hồi của họ.
Link bài viết gốc
- Tags:
- Ai
- 25 June 2025
- Deepmind.google