DolphinGemma- Cách Google AI đang giúp giải mã giao tiếp của cá heo
DolphinGemma, một mô hình ngôn ngữ lớn được phát triển bởi Google, đang giúp các nhà khoa học nghiên cứu cách cá heo giao tiếp - và hy vọng sẽ tìm ra chúng đang nói gì.
- 9 min read
DolphinGemma: Cách AI đang giúp giải mã giao tiếp của cá heo
Các nhà nghiên cứu về cá heo đang sử dụng Gemma và điện thoại Google Pixel để cố gắng giải mã cách cá heo nói chuyện với nhau.
Trong nhiều thập kỷ, việc hiểu các tiếng click, huýt sáo và tiếng nổ của cá heo là một biên giới khoa học. Điều gì sẽ xảy ra nếu chúng ta không chỉ có thể lắng nghe cá heo mà còn hiểu các kiểu giao tiếp phức tạp của chúng đủ tốt để tạo ra các phản hồi thực tế?
Hôm nay, nhân Ngày Cá heo Quốc gia, Google, hợp tác với các nhà nghiên cứu tại Georgia Tech và nghiên cứu thực địa của Dự án Cá heo Hoang dã (WDP), đang công bố tiến bộ về DolphinGemma: một mô hình AI nền tảng được đào tạo để tìm hiểu cấu trúc của âm thanh cá heo và tạo ra các chuỗi âm thanh giống cá heo mới. Cách tiếp cận này trong nhiệm vụ giao tiếp giữa các loài đẩy lùi ranh giới của AI và kết nối tiềm năng của chúng ta với thế giới biển.
Nghiên cứu về xã hội cá heo trong nhiều thập kỷ
Để hiểu bất kỳ loài nào đòi hỏi bối cảnh sâu sắc, và đó là một trong nhiều điều mà WDP cung cấp. Kể từ năm 1985, WDP đã thực hiện dự án nghiên cứu về cá heo dưới nước dài nhất thế giới, nghiên cứu một cộng đồng cụ thể gồm cá heo đốm Đại Tây Dương hoang dã (Stenella frontalis) ở Bahamas qua nhiều thế hệ. Cách tiếp cận “Trong thế giới của chúng, theo cách của chúng” không xâm lấn này mang lại một bộ dữ liệu phong phú, độc đáo: hàng thập kỷ video và âm thanh dưới nước được ghép nối tỉ mỉ với danh tính cá heo riêng lẻ, lịch sử cuộc đời và các hành vi được quan sát.

Trọng tâm chính của WDP là quan sát và phân tích giao tiếp tự nhiên và các tương tác xã hội của cá heo. Làm việc dưới nước cho phép các nhà nghiên cứu liên kết trực tiếp âm thanh với các hành vi cụ thể theo những cách mà quan sát trên bề mặt không thể. Trong nhiều thập kỷ, họ đã tương quan các loại âm thanh với bối cảnh hành vi. Dưới đây là một vài ví dụ:
- Tiếng huýt sáo đặc trưng (tên duy nhất) có thể được sử dụng bởi cá mẹ và cá con để đoàn tụ
- Tiếng “squawk” bộc phát thường thấy trong các cuộc chiến
- Tiếng “buzz” click thường được sử dụng trong quá trình tán tỉnh hoặc đuổi theo cá mập
Biết được những cá heo riêng lẻ liên quan là rất quan trọng để giải thích chính xác. Mục tiêu cuối cùng của công việc quan sát này là hiểu cấu trúc và ý nghĩa tiềm ẩn trong các chuỗi âm thanh tự nhiên này — tìm kiếm các kiểu và quy tắc có thể chỉ ra ngôn ngữ. Phân tích dài hạn về giao tiếp tự nhiên này tạo thành nền tảng của nghiên cứu WDP và cung cấp bối cảnh thiết yếu cho bất kỳ phân tích AI nào.

Bên trái: Một con cá heo đốm mẹ quan sát con mình kiếm ăn. Cô ấy sẽ sử dụng tiếng huýt sáo đặc trưng của mình để gọi con trở lại sau khi nó kết thúc. Bên phải: Quang phổ để hình dung tiếng huýt sáo.
Giới thiệu DolphinGemma
Phân tích giao tiếp tự nhiên, phức tạp của cá heo là một nhiệm vụ to lớn và bộ dữ liệu rộng lớn, được gắn nhãn của WDP cung cấp một cơ hội duy nhất cho AI tiên tiến.
Hãy tham gia DolphinGemma. Được phát triển bởi Google, mô hình AI này sử dụng các công nghệ âm thanh cụ thể của Google: bộ mã hóa SoundStream biểu diễn hiệu quả âm thanh cá heo, sau đó được xử lý bởi kiến trúc mô hình phù hợp với các chuỗi phức tạp. Mô hình tham số ~400M này có kích thước tối ưu để chạy trực tiếp trên điện thoại Pixel mà WDP sử dụng trên thực địa.

Trái: Tiếng huýt sáo (trái) và tiếng nổ (phải) được tạo ra trong quá trình thử nghiệm ban đầu của DolphinGemma.
Mô hình này được xây dựng dựa trên những hiểu biết sâu sắc từ Gemma, bộ sưu tập các mô hình mở, hiện đại, nhẹ nhàng của Google được xây dựng từ cùng một nghiên cứu và công nghệ cung cấp năng lượng cho các mô hình Gemini của chúng tôi. Được đào tạo rộng rãi trên cơ sở dữ liệu âm thanh của WDP về cá heo đốm Đại Tây Dương hoang dã, DolphinGemma hoạt động như một mô hình âm thanh đầu vào, âm thanh đầu ra, xử lý các chuỗi âm thanh cá heo tự nhiên để xác định các kiểu, cấu trúc và cuối cùng là dự đoán các âm thanh tiếp theo có khả năng xảy ra trong một chuỗi, giống như cách các mô hình ngôn ngữ lớn cho ngôn ngữ của con người dự đoán từ hoặc mã thông báo tiếp theo trong một câu.
WDP đang bắt đầu triển khai DolphinGemma trong mùa thực địa này với những lợi ích tiềm năng ngay lập tức. Bằng cách xác định các kiểu âm thanh định kỳ, cụm và chuỗi đáng tin cậy, mô hình có thể giúp các nhà nghiên cứu khám phá các cấu trúc ẩn và ý nghĩa tiềm ẩn trong giao tiếp tự nhiên của cá heo — một nhiệm vụ trước đây đòi hỏi nỗ lực to lớn của con người. Cuối cùng, những kiểu này, được tăng cường bằng âm thanh tổng hợp do các nhà nghiên cứu tạo ra để chỉ các đối tượng mà cá heo thích chơi, có thể thiết lập một từ vựng chung với cá heo để giao tiếp tương tác.
Sử dụng điện thoại Pixel để nghe và phân tích âm thanh cá heo
Ngoài việc phân tích giao tiếp tự nhiên, WDP cũng đang theo đuổi một con đường riêng biệt, song song: khám phá tương tác hai chiều tiềm năng bằng cách sử dụng công nghệ trong đại dương. Nỗ lực này đã dẫn đến sự phát triển của hệ thống CHAT (Cetacean Hearing Augmentation Telemetry), hợp tác với Viện Công nghệ Georgia. CHAT là một máy tính dưới nước được thiết kế không phải để giải mã trực tiếp ngôn ngữ tự nhiên phức tạp của cá heo, mà là để thiết lập một từ vựng đơn giản hơn, được chia sẻ.
Ý tưởng đầu tiên dựa trên việc liên kết các tiếng huýt sáo tổng hợp mới (do CHAT tạo ra, khác với âm thanh tự nhiên của cá heo) với các đối tượng cụ thể mà cá heo yêu thích, như tảo bẹ, cỏ biển hoặc khăn choàng mà các nhà nghiên cứu sử dụng. Bằng cách trình bày hệ thống giữa con người, các nhà nghiên cứu hy vọng những con cá heo tò mò tự nhiên sẽ học cách bắt chước tiếng huýt sáo để yêu cầu những vật phẩm này. Cuối cùng, khi hiểu rõ hơn về âm thanh tự nhiên của cá heo, chúng cũng có thể được thêm vào hệ thống.
Để cho phép tương tác hai chiều, hệ thống CHAT trước tiên cần:
- Nghe chính xác tiếng bắt chước giữa tiếng ồn của đại dương.
- Xác định tiếng huýt sáo nào đã được bắt chước trong thời gian thực.
- Thông báo cho nhà nghiên cứu (thông qua tai nghe dẫn truyền qua xương hoạt động dưới nước) đối tượng nào mà cá heo “yêu cầu”.
- Cho phép nhà nghiên cứu phản hồi nhanh chóng bằng cách cung cấp đúng đối tượng, củng cố kết nối.
Google Pixel 6 xử lý phân tích độ trung thực cao về âm thanh cá heo trong thời gian thực. Thế hệ sắp tới, tập trung vào Google Pixel 9 (nghiên cứu dự kiến vào mùa hè năm 2025), xây dựng trên nỗ lực này bằng cách tích hợp các chức năng loa/micrô và sử dụng khả năng xử lý tiên tiến của điện thoại để chạy đồng thời cả các mô hình học sâu và thuật toán khớp mẫu.

Trái: Tiến sĩ Denise Herzing đeo “Chat Senior, 2012”, Phải: Sinh viên Tiến sĩ Georgia Tech Charles Ramey đeo “Chat Junior, 2025”
Sử dụng điện thoại thông minh Pixel làm giảm đáng kể sự cần thiết của phần cứng tùy chỉnh, cải thiện khả năng bảo trì hệ thống, giảm tiêu thụ điện năng và thu nhỏ chi phí và kích thước của thiết bị — những lợi thế quan trọng cho nghiên cứu thực địa ở đại dương mở. Trong khi đó, sức mạnh dự đoán của DolphinGemma có thể giúp CHAT dự đoán và xác định các bản sao tiềm năng sớm hơn trong chuỗi âm thanh, tăng tốc độ mà các nhà nghiên cứu có thể phản ứng với cá heo và làm cho các tương tác trở nên trôi chảy và củng cố hơn.
![]()
Google Pixel 9 bên trong phần cứng hệ thống CHAT mới nhất.
Chia sẻ DolphinGemma với cộng đồng nghiên cứu
Nhận thấy giá trị của sự hợp tác trong khám phá khoa học, chúng tôi đang lên kế hoạch chia sẻ DolphinGemma dưới dạng một mô hình mở vào mùa hè này. Mặc dù được đào tạo về âm thanh của cá heo đốm Đại Tây Dương, chúng tôi dự đoán tiện ích tiềm năng của nó cho các nhà nghiên cứu nghiên cứu các loài cetacean khác, như cá heo mũi chai hoặc cá heo spinner. Điều chỉnh có thể được yêu cầu đối với âm thanh của các loài khác nhau và bản chất mở của mô hình tạo điều kiện cho sự thích ứng này.
Bằng cách cung cấp các công cụ như DolphinGemma, chúng tôi hy vọng sẽ cung cấp cho các nhà nghiên cứu trên toàn thế giới các công cụ để khai thác bộ dữ liệu âm thanh của riêng họ, đẩy nhanh việc tìm kiếm các mẫu và cùng nhau làm sâu sắc thêm sự hiểu biết của chúng ta về những động vật có vú biển thông minh này.
Hành trình tìm hiểu giao tiếp của cá heo còn dài, nhưng sự kết hợp giữa nghiên cứu thực địa chuyên dụng của WDP, chuyên môn kỹ thuật từ Georgia Tech và sức mạnh của công nghệ Google đang mở ra những khả năng mới thú vị. Chúng ta không chỉ lắng nghe nữa. Chúng ta đang bắt đầu hiểu các kiểu trong âm thanh, mở đường cho một tương lai nơi khoảng cách giữa giao tiếp của con người và cá heo có thể trở nên nhỏ hơn một chút.
Bạn có thể tìm hiểu thêm về Dự án Cá heo Hoang dã trên trang web của họ.
Link bài viết gốc
- Tags:
- Ai
- 14 April 2025
- Blog.google
