CTO của Sakana AI nói rằng ông 'hoàn toàn phát ốm' với các bộ chuyển đổi, công nghệ cung cấp năng lượng cho mọi mô hình AI lớn

Trong một hành động tự phê bình đáng chú ý, một trong những kiến trúc sư của công nghệ biến áp cung cấp năng lượng cho ChatGPT, Claude và hầu như mọi hệ thống AI lớn đã nói với khán giả gồm các nhà lãnh đạo ngành trong tuần này rằng nghiên cứu trí tuệ nhân tạo đã trở nên hẹp một cách nguy hiểm - và ông đang từ bỏ sáng tạo của riêng mình.

  • 11 min read
Trong một hành động tự phê bình đáng chú ý, một trong những kiến trúc sư của công nghệ biến áp cung cấp năng lượng cho ChatGPT, Claude và hầu như mọi hệ thống AI lớn đã nói với khán giả gồm các nhà lãnh đạo ngành trong tuần này rằng nghiên cứu trí tuệ nhân tạo đã trở nên hẹp một cách nguy hiểm - và ông đang từ bỏ sáng tạo của riêng mình.

CTO của Sakana AI Thẳng Thắn: “Tôi Phát Ốm” Với Transformers, Công Nghệ Đứng Sau Mọi Mô Hình AI Lớn

Trong một hành động tự phê bình đáng chú ý, một trong những kiến trúc sư của công nghệ transformer cung cấp sức mạnh cho ChatGPT, Claude và hầu như mọi hệ thống AI lớn, đã nói với khán giả gồm các nhà lãnh đạo ngành trong tuần này rằng nghiên cứu trí tuệ nhân tạo đã trở nên quá hẹp một cách nguy hiểm — và ông đang từ bỏ chính sản phẩm sáng tạo của mình.

Llion Jones, đồng tác giả của bài báo mang tính bước ngoặt năm 2017 “Attention Is All You Need” và thậm chí còn đặt ra cái tên “transformer”, đã đưa ra một đánh giá thẳng thắn bất thường tại Hội nghị TED AI ở San Francisco vào thứ Ba: Mặc dù có khoản đầu tư chưa từng có và tài năng đổ vào AI, nhưng lĩnh vực này đã bị vôi hóa xung quanh một cách tiếp cận kiến trúc duy nhất, có khả năng làm mù quáng các nhà nghiên cứu trước đột phá lớn tiếp theo.

“Mặc dù thực tế là chưa bao giờ có nhiều sự quan tâm, nguồn lực, tiền bạc và tài năng đến vậy, nhưng điều này bằng cách nào đó đã gây ra sự thu hẹp nghiên cứu mà chúng ta đang thực hiện,” Jones nói với khán giả. Thủ phạm, ông lập luận, là “lượng áp lực to lớn” từ các nhà đầu tư đòi hỏi lợi nhuận và các nhà nghiên cứu tranh giành để nổi bật trong một lĩnh vực quá đông đúc.

Lời cảnh báo này có một trọng lượng đặc biệt khi xét đến vai trò của Jones trong lịch sử AI. Kiến trúc transformer mà ông đã giúp phát triển tại Google đã trở thành nền tảng của sự bùng nổ AI tạo sinh, cho phép các hệ thống có thể viết luận, tạo hình ảnh và tham gia vào cuộc trò chuyện giống con người. Bài báo của ông đã được trích dẫn hơn 100.000 lần, khiến nó trở thành một trong những ấn phẩm khoa học máy tính có ảnh hưởng nhất của thế kỷ.

Giờ đây, với tư cách là CTO và đồng sáng lập của Sakana AI có trụ sở tại Tokyo, Jones đang từ bỏ một cách rõ ràng sản phẩm sáng tạo của chính mình. “Cá nhân tôi đã đưa ra quyết định vào đầu năm nay rằng tôi sẽ giảm đáng kể thời gian tôi dành cho transformers,” ông nói. “Giờ đây, tôi đang khám phá và tìm kiếm điều lớn lao tiếp theo một cách rõ ràng.”

Theo một người tiên phong về transformer, tại sao việc tài trợ nhiều hơn cho AI lại dẫn đến nghiên cứu ít sáng tạo hơn

Jones đã vẽ ra một bức tranh về một cộng đồng nghiên cứu AI đang phải chịu đựng điều mà ông gọi là một nghịch lý: Nhiều nguồn lực hơn đã dẫn đến ít sáng tạo hơn. Ông mô tả các nhà nghiên cứu liên tục kiểm tra xem họ có bị các đối thủ cạnh tranh làm việc trên các ý tưởng giống hệt nhau “hớt tay trên” hay không, và các học giả chọn các dự án an toàn, có thể xuất bản hơn là các dự án đầy rủi ro, có khả năng chuyển đổi.

“Nếu bạn đang thực hiện nghiên cứu AI tiêu chuẩn ngay bây giờ, bạn phải cho rằng có thể có ba hoặc bốn nhóm khác đang làm điều gì đó rất giống nhau, hoặc có thể hoàn toàn giống nhau,” Jones nói, mô tả một môi trường nơi “thật không may, áp lực này làm tổn hại đến khoa học, bởi vì mọi người đang vội vã viết bài báo của họ và nó đang làm giảm lượng sáng tạo.”

Ông đưa ra một phép loại suy từ chính AI — sự đánh đổi “khám phá so với khai thác” chi phối cách các thuật toán tìm kiếm giải pháp. Khi một hệ thống khai thác quá nhiều và khám phá quá ít, nó sẽ tìm thấy các giải pháp cục bộ tầm thường trong khi bỏ lỡ các giải pháp thay thế vượt trội. “Chúng ta gần như chắc chắn đang ở trong tình huống đó ngay bây giờ trong ngành công nghiệp AI,” Jones lập luận.

Hàm ý rất tỉnh táo. Jones nhớ lại giai đoạn ngay trước khi transformers xuất hiện, khi các nhà nghiên cứu không ngừng tinh chỉnh các mạng nơ-ron tái phát — kiến trúc thống trị trước đây — để đạt được những lợi ích gia tăng. Khi transformers đến, tất cả công việc đó đột nhiên trở nên không liên quan. “Bạn nghĩ những nhà nghiên cứu đó sẽ dành bao nhiêu thời gian để cố gắng cải thiện mạng nơ-ron tái phát nếu họ biết một cái gì đó như transformers sắp xuất hiện?” ông hỏi.

Ông lo lắng rằng lĩnh vực này đang lặp lại mô hình đó. “Tôi lo lắng rằng chúng ta đang ở trong tình huống đó ngay bây giờ, nơi chúng ta chỉ tập trung vào một kiến trúc và chỉ hoán vị nó và thử những điều khác nhau, nơi có thể có một đột phá ngay gần đó.”

Làm thế nào bài báo ‘Attention is all you need’ được sinh ra từ sự tự do, không phải áp lực

Để nhấn mạnh quan điểm của mình, Jones đã mô tả các điều kiện cho phép transformers xuất hiện ngay từ đầu — một sự tương phản rõ rệt với môi trường ngày nay. Ông nói, dự án này “rất hữu cơ, từ dưới lên”, được sinh ra từ “những cuộc nói chuyện trong bữa trưa hoặc nguệch ngoạc ngẫu nhiên trên bảng trắng trong văn phòng.”

Điều quan trọng là, “chúng tôi thực sự không có một ý tưởng hay, chúng tôi có sự tự do để thực sự dành thời gian và đi làm việc đó, và quan trọng hơn nữa, chúng tôi không có bất kỳ áp lực nào đến từ ban quản lý,” Jones kể lại. “Không có áp lực phải làm việc trên bất kỳ dự án cụ thể nào, xuất bản một số bài báo để đẩy một số liệu nhất định lên.”

Jones cho rằng sự tự do đó phần lớn không có ngày nay. Ngay cả các nhà nghiên cứu được tuyển dụng với mức lương thiên văn — “theo nghĩa đen là một triệu đô la một năm, trong một số trường hợp” — có thể không cảm thấy được trao quyền để chấp nhận rủi ro. “Bạn có nghĩ rằng khi họ bắt đầu vị trí mới của mình, họ cảm thấy được trao quyền để thử những ý tưởng điên rồ và những ý tưởng mang tính suy đoán hơn của họ, hay họ cảm thấy áp lực to lớn để chứng minh giá trị của mình và một lần nữa, đi tìm những thành quả dễ hái được?” ông hỏi.

Tại sao một phòng thí nghiệm AI đang đặt cược rằng tự do nghiên cứu tốt hơn mức lương hàng triệu đô la

Giải pháp được đề xuất của Jones là cố ý khiêu khích: Tăng “quay số khám phá” và công khai chia sẻ các phát hiện, ngay cả với chi phí cạnh tranh. Ông thừa nhận sự trớ trêu trong vị trí của mình. “Có vẻ hơi gây tranh cãi khi nghe một trong những tác giả của Transformer đứng trên sân khấu và nói với bạn rằng anh ấy hoàn toàn phát ốm với chúng, nhưng điều đó khá công bằng, phải không? Tôi đã làm việc với chúng lâu hơn bất kỳ ai, ngoại trừ có thể là bảy người.”

Tại Sakana AI, Jones cho biết ông đang cố gắng tái tạo môi trường trước transformer đó, với nghiên cứu lấy cảm hứng từ thiên nhiên và áp lực tối thiểu để theo đuổi các ấn phẩm hoặc cạnh tranh trực tiếp với các đối thủ. Ông đã đưa ra cho các nhà nghiên cứu một câu thần chú từ kỹ sư Brian Cheung: “Bạn chỉ nên thực hiện nghiên cứu mà sẽ không xảy ra nếu bạn không làm nó.”

Một ví dụ là “máy tư duy liên tục” của Sakana, kết hợp đồng bộ hóa giống như não bộ vào các mạng nơ-ron. Một nhân viên đưa ra ý tưởng nói với Jones rằng anh ta sẽ phải đối mặt với sự hoài nghi và áp lực không lãng phí thời gian tại các nhà tuyển dụng hoặc vị trí học thuật trước đây. Tại Sakana, Jones đã cho anh ta một tuần để khám phá. Dự án đã trở nên thành công đến mức được nêu bật tại NeurIPS, một hội nghị AI lớn.

Jones thậm chí còn gợi ý rằng tự do đánh bại sự đền bù trong tuyển dụng. “Đó là một cách thực sự, thực sự tốt để có được tài năng,” ông nói về môi trường thăm dò. “Hãy nghĩ về điều đó, những người tài năng, thông minh, những người đầy tham vọng, sẽ tự nhiên tìm kiếm loại môi trường này.”

Thành công của transformer có thể đang ngăn chặn đột phá tiếp theo của AI

Có lẽ khiêu khích nhất, Jones cho rằng transformers có thể là nạn nhân của chính thành công của chúng. “Thực tế là công nghệ hiện tại rất mạnh mẽ và linh hoạt… đã ngăn chúng ta tìm kiếm những thứ tốt hơn,” ông nói. “Có lý khi nếu công nghệ hiện tại tồi tệ hơn, nhiều người sẽ tìm kiếm những thứ tốt hơn.”

Ông cẩn thận làm rõ rằng ông không bác bỏ nghiên cứu transformer đang diễn ra. “Vẫn còn rất nhiều công việc quan trọng cần được thực hiện trên công nghệ hiện tại và mang lại nhiều giá trị trong những năm tới,” ông nói. “Tôi chỉ nói rằng với lượng tài năng và nguồn lực mà chúng ta hiện có, chúng ta có thể đủ khả năng để làm nhiều hơn nữa.”

Thông điệp cuối cùng của ông là về sự hợp tác hơn là cạnh tranh. “Thực sự, từ quan điểm của tôi, đây không phải là một cuộc cạnh tranh,” Jones kết luận. “Tất cả chúng ta đều có cùng mục tiêu. Tất cả chúng ta đều muốn thấy công nghệ này tiến bộ để tất cả chúng ta có thể hưởng lợi từ nó. Vì vậy, nếu tất cả chúng ta có thể cùng nhau tăng quay số khám phá và sau đó công khai chia sẻ những gì chúng ta tìm thấy, chúng ta có thể đạt được mục tiêu của mình nhanh hơn nhiều.”

Những rủi ro cao của vấn đề khám phá của AI

Những nhận xét này đến vào một thời điểm quan trọng đối với trí tuệ nhân tạo. Ngành công nghiệp đang vật lộn với ngày càng nhiều bằng chứng cho thấy việc chỉ xây dựng các mô hình transformer lớn hơn có thể đang tiến gần đến lợi nhuận giảm dần. Các nhà nghiên cứu hàng đầu đã bắt đầu công khai thảo luận xem liệu mô hình hiện tại có những hạn chế cơ bản hay không, với một số người cho rằng những đổi mới kiến trúc — không chỉ quy mô — sẽ cần thiết để tiếp tục tiến bộ đối với các hệ thống AI có khả năng hơn.

Lời cảnh báo của Jones cho thấy rằng việc tìm kiếm những đổi mới đó có thể yêu cầu dỡ bỏ chính các cấu trúc khuyến khích đã thúc đẩy sự bùng nổ gần đây của AI. Với hàng chục tỷ đô la đổ vào phát triển AI hàng năm và sự cạnh tranh gay gắt giữa các phòng thí nghiệm thúc đẩy sự bí mật và chu kỳ xuất bản nhanh chóng, môi trường nghiên cứu thăm dò mà ông mô tả dường như ngày càng xa vời.

Tuy nhiên, góc nhìn từ người trong cuộc của ông mang một trọng lượng bất thường. Là người đã giúp tạo ra công nghệ hiện đang thống trị lĩnh vực này, Jones hiểu cả những gì cần thiết để đạt được đột phá đổi mới và những gì ngành công nghiệp có nguy cơ đánh mất bằng cách từ bỏ cách tiếp cận đó. Quyết định của ông về việc từ bỏ transformers — kiến trúc đã tạo nên danh tiếng của ông — thêm uy tín cho một thông điệp nếu không có thể nghe giống như một vị trí trái ngược.

Liệu những người chơi quyền lực của AI có chú ý đến lời kêu gọi hay không vẫn chưa chắc chắn. Nhưng Jones đã đưa ra một lời nhắc nhở rõ ràng về những gì đang bị đe dọa: Đột phá quy mô transformer tiếp theo có thể chỉ ở ngay gần đó, được theo đuổi bởi các nhà nghiên cứu có sự tự do để khám phá. Hoặc nó có thể đang lụi tàn chưa được khám phá trong khi hàng ngàn nhà nghiên cứu chạy đua để xuất bản những cải tiến gia tăng trên một kiến trúc mà, theo lời của Jones, một trong những người sáng tạo của nó là “hoàn toàn phát ốm”.

Sau tất cả, ông đã làm việc trên transformers lâu hơn hầu hết mọi người. Ông sẽ biết khi nào là thời điểm để tiếp tục.

Recommended for You

'AI đang xé nát các công ty'- CEO của Writer AI chỉ trích các nhà lãnh đạo Fortune 500 vì quản lý sai công nghệ

Vấn đề, theo Habib, không phải là công nghệ. Vấn đề là các nhà lãnh đạo doanh nghiệp đang mắc một sai lầm về phạm trù, coi việc chuyển đổi AI giống như việc triển khai công nghệ trước đây và giao nó cho các bộ phận CNTT. Cách tiếp cận này, bà cảnh báo, đã dẫn đến 'hàng tỷ đô la chi cho các sáng kiến AI mà không đi đến đâu'.

Các doanh nghiệp có thể rút ra điều gì từ thư gửi cổ đông của CEO Microsoft Satya Nadella

Một trong những kiến trúc sư hàng đầu của sự bùng nổ AI tạo sinh hiện tại — Giám đốc điều hành Microsoft Satya Nadella, nổi tiếng vì đã có khoản đầu tư ban đầu vào OpenAI (và sau đó nói rằng ông đã '[tốt cho 80 tỷ đô la của mình](https-//www.geekwire.com/2025/im-good-for-my-80-billion-what-microsoft-ceo-satya-nadella-really-meant-by-his-stargate-zinger/)') — đã xuất bản [bức thư thường niên mới nhất của mình ngày hôm qua trên LinkedIn](https-//www.linkedin.com/pulse/my-annual-letter-thinking-decades-executing-quarters-satya-nadella-7orpc/) (một công ty con của Microsoft) và nó chứa đầy những ý tưởng thú vị về tương lai gần mà những người ra quyết định kỹ thuật của doanh nghiệp nên chú ý, vì nó có thể hỗ trợ lập kế hoạch và phát triển ngăn xếp công nghệ của riêng họ.