Vượt qua rào cản 'thiếu dữ liệu'- Persona tổng hợp thúc đẩy phát triển AI của Nhật Bản
Vượt qua rào cản 'thiếu dữ liệu'- Persona tổng hợp thúc đẩy phát triển AI của Nhật Bản
- 10 min read
Vượt qua rào cản “thiếu dữ liệu”: Persona tổng hợp thúc đẩy phát triển AI tại Nhật Bản
AI có tiềm năng mở ra một chương mới cho sự tăng trưởng kinh tế của Nhật Bản, với dự báo tạo ra giá trị kinh tế vượt quá 100 nghìn tỷ yên (650 tỷ USD) nhờ vào công nghệ này. Tuy nhiên, liệu tiềm năng khổng lồ đó có được hiện thực hóa hay không phụ thuộc vào một yếu tố quan trọng mà nhiều dự án AI hiện đang thiếu: “dữ liệu thực tế có thể sử dụng để huấn luyện”.
Thách thức này đặc biệt nghiêm trọng đối với các nhà phát triển xây dựng hệ thống AI hiểu được tiếng Nhật và văn hóa Nhật Bản. Trong khi dữ liệu huấn luyện tiếng Anh có sẵn rất phong phú, các nhà phát triển Nhật Bản lại đối mặt với tình trạng thiếu dữ liệu kinh niên. Dữ liệu chuyên biệt cho các tác vụ và có nguồn gốc văn hóa Nhật Bản lại cực kỳ khan hiếm, khiến việc xây dựng các mô hình hiệu suất cao ngay từ đầu trở nên khó khăn. Việc thu thập, làm sạch và gán nhãn các mẫu dữ liệu mới tốn nhiều thời gian và chi phí, khó theo kịp chu kỳ phát triển AI đang diễn biến nhanh chóng.
Điều này dẫn đến việc hình thành một “bức tường dữ liệu” cản trở sự đổi mới ngay từ khi nó bắt đầu.
Con đường hướng tới sự tiến bộ mới
Nghiên cứu mới từ NTT DATA, một công ty công nghệ lớn, chứng minh cách dữ liệu tổng hợp có thể giúp phá bỏ bức tường này. Nó cho phép tạo ra các bộ dữ liệu huấn luyện quy mô lớn, sẵn sàng cho việc triển khai thực tế, mà không ảnh hưởng đến quyền riêng tư hoặc hiệu suất của mô hình, chỉ với một lượng nhỏ dữ liệu độc quyền.
Bằng cách sử dụng NVIDIA Nemotron-Personas-Japan (bộ dữ liệu tổng hợp mở đầu tiên của NVIDIA bao gồm 6 triệu persona dựa trên nhân khẩu học, địa lý và văn hóa Nhật Bản, được tạo bằng NeMo Data Designer), NTT DATA đã cải thiện đáng kể độ chính xác của mô hình trong tác vụ Hỏi Đáp Pháp Lý, tăng từ 15.3% lên 79.3%, cùng với sự cải thiện tương tự về tính nhất quán của câu trả lời.
Điều này có nghĩa là đạt được mức tăng 60 điểm mà không cần tiết lộ dữ liệu nhạy cảm trong quy trình huấn luyện.
Đối với những độc giả quan tâm đến phương pháp tổng thể và khung đánh giá của thí nghiệm, báo cáo kỹ thuật chi tiết của NTT DATA (bằng tiếng Nhật) đi sâu hơn vào thiết kế và kết quả của nghiên cứu này.
Những điểm chính rút ra ở đây là các công ty có thể xây dựng AI chuyên biệt cho các miền (lĩnh vực) cụ thể chỉ bằng cách sử dụng cơ sở hạ tầng mã nguồn mở hoàn toàn và một lượng nhỏ dữ liệu độc quyền mà họ có. Bằng cách tận dụng dữ liệu persona mở, có thể đạt được cả việc xây dựng mô hình chất lượng cao và vận hành dữ liệu nhanh nhẹn.
Thử nghiệm thực chứng
Để kiểm chứng nghiêm ngặt phương pháp này, NTT DATA đã tiến hành đánh giá đối chứng bằng cách sử dụng tài liệu pháp lý giả định để cho phép mô hình thu nhận kiến thức mới. Đối với quá trình huấn luyện, họ đã sử dụng cấu hình sau:
- Mô hình cơ sở:
tsuzumi 2(LLM độc quyền của NTT) - Mô hình mở rộng dữ liệu:
GPT-OSS-120b - Dữ liệu gốc: Nemotron-Personas-Japan
- Mô hình đánh giá:
GPT-5(Phương pháp LLM-as-a-judge)
Sử dụng 500 persona từ Nemotron-Personas-Japan và chỉ 450 mẫu gốc ban đầu để mở rộng, họ đã tạo ra hơn 138.000 điểm dữ liệu huấn luyện (tương đương gấp 300 lần bộ dữ liệu tổng hợp so với các mẫu được tạo thủ công), giúp cải thiện độ chính xác của mô hình từ 15.3% lên 79.3%.
Kết quả này cho thấy rõ ràng vấn đề thiếu dữ liệu mà các doanh nghiệp đang đối mặt.
| Cấu hình | Dữ liệu gốc | Mở rộng tổng hợp | Độ chính xác |
|---|---|---|---|
| Cơ sở (không huấn luyện) | — | — | 15.3% |
| SFT sử dụng dữ liệu tổng hợp | 450 mẫu | 138.000 mẫu | 79.3% |
Việc huấn luyện bằng dữ liệu tổng hợp không chỉ tăng độ chính xác mà còn loại bỏ hiện tượng ảo giác (hallucination) mà mô hình cơ sở gặp phải. Mô hình trước khi huấn luyện đã đưa ra phân loại pháp lý sai nhưng nghe có vẻ hợp lý, trong khi mô hình đã tinh chỉnh có thể trích xuất các thuật ngữ chính xác mà không thêm nhiễu.
Có lẽ phát hiện có giá trị nhất khi triển khai trong môi trường doanh nghiệp là NTT DATA nhận thấy rằng, nếu có đủ dữ liệu tổng hợp để tinh chỉnh, thì “Continuous Pre-training (CPT)” không còn là bắt buộc nữa, ngay cả khi cần bổ sung kiến thức. Điều này có nghĩa là các nhà phát triển có thể sử dụng quy trình huấn luyện hiệu quả hơn về chi phí, hoàn toàn bỏ qua giai đoạn CPT tốn nhiều tài nguyên tính toán và tập trung vào việc tạo dữ liệu tổng hợp lặp lại cho việc tinh chỉnh có giám sát (SFT).
Sự gia tăng hiệu quả này trực tiếp dẫn đến việc giảm chi phí tính toán và rút ngắn chu kỳ phát triển.
Shinya Higuchi, Trưởng phòng Bộ phận Đổi mới AI, Bộ phận Đổi mới Công nghệ, NTT DATA, cho biết: “Bằng cách mở rộng các bộ dữ liệu độc quyền nhỏ với Nemotron Personas, chúng tôi có thể xây dựng các mô hình chuyên biệt cho tác vụ một cách hiệu quả, ngay cả khi dữ liệu sẵn có bị hạn chế. Cách tiếp cận này cho thấy tiềm năng lớn để cải thiện kết quả trong các lĩnh vực như điều tra sơ bộ, hỗ trợ khách hàng và tiếp thị, nơi dữ liệu độc quyền thường khan hiếm.”
Bảo vệ quyền riêng tư ngay từ giai đoạn thiết kế
Trong khi sự cải thiện về độ chính xác là rất hấp dẫn, nó cũng đặt ra một câu hỏi sâu sắc hơn: Dữ liệu không bao giờ đi vào quy trình huấn luyện (và do đó, không thể sử dụng) thì sẽ ra sao?
Hơn 90% dữ liệu doanh nghiệp có giá trị vẫn chưa được sử dụng do các quy định về quyền riêng tư, rủi ro bảo mật và hạn chế cấp phép. Ở Nhật Bản, các khuôn khổ như Đạo luật Bảo vệ Thông tin Cá nhân (PIPA) và các nguyên tắc quản trị AI tập trung vào đổi mới (được công bố vào tháng 9 năm 2025) củng cố thực tế này. Khi AI tiến bộ nhanh chóng, việc xử lý dữ liệu có trách nhiệm vẫn là điều bắt buộc.
Dữ liệu tổng hợp cung cấp một con đường để giải quyết những thách thức trái ngược này. Bằng cách tạo ra dữ liệu huấn luyện không chứa thông tin nhận dạng cá nhân (PII) nhưng vẫn phản ánh chính xác các xu hướng (mẫu) của dữ liệu thực tế, các công ty có thể đạt được cả việc giảm thiểu dữ liệu và cải thiện hiệu suất mô hình. Chỉ cần sử dụng một lượng nhỏ dữ liệu độc quyền cho lần khởi động ban đầu và sau đó mở rộng quy mô cho đến mức triển khai thực tế bằng dữ liệu tổng hợp.
Nói cách khác, dữ liệu tổng hợp không chỉ là một “kỹ thuật tối ưu hóa quy trình huấn luyện”. Nó là một công nghệ tăng cường quyền riêng tư (PET) cho phép đạt được sự cân bằng lý tưởng (vùng Goldilocks) nơi quyền riêng tư dữ liệu và hiệu suất AI cùng tồn tại. Hơn nữa, quy trình tổng hợp dữ liệu có tính tái tạo và kiểm toán được, đáp ứng các yêu cầu về độ tin cậy và minh bạch mà các nhóm quản trị và cơ quan quản lý ngày càng yêu cầu.
Không gian dữ liệu chủ quyền
Đối với các công ty Nhật Bản xây dựng AI chủ quyền, quyền kiểm soát dữ liệu là điều kiện tiên quyết. Tuy nhiên, quyền kiểm soát đơn thuần là chưa đủ. Mô hình cũng cần được trang bị kiến thức có cơ sở, được hình thành bởi các quy chuẩn khu vực và các ràng buộc về miền, chứ không chỉ là những bản phân tích thống kê dựa trên các kho dữ liệu chủ yếu từ phương Tây. Nemotron-Personas-Japan đóng vai trò là dữ liệu nền tảng để tạo ra AI bắt nguồn từ thực tế này. 6 triệu persona của nó dựa trên số liệu thống kê chính thức về dân số và lao động của Nhật Bản, bao phủ hơn 1.500 phân loại nghề nghiệp và phân bố khu vực.
Tuy nhiên, tác động của nó vượt ra ngoài phạm vi của từng tổ chức. Các công ty đi đầu như NTT DATA đang tích cực tham gia phát triển “không gian dữ liệu”. Đây là một môi trường hợp tác nơi chính phủ và doanh nghiệp có thể trao đổi dữ liệu tổng hợp cho mục đích huấn luyện AI, dưới sự bảo đảm quản trị và quyền riêng tư chung. Các công nghệ mã hóa đầu cuối như học liên kết (federated learning) cho phép phương pháp tiếp cận phân tán này. Dữ liệu tổng hợp thúc đẩy điều này hơn nữa, cho phép các tổ chức cung cấp các mẫu dữ liệu của họ dưới dạng dữ liệu tổng hợp một cách an toàn mà không cần tiết lộ thông tin bí mật ban đầu.
Điều này chuyển đổi việc quản lý rủi ro dữ liệu từ một tư thế phòng thủ sang một tư thế “hợp tác”, phù hợp với tầm nhìn của Nhật Bản về “quản trị AI dựa trên đổi mới”. Cách tiếp cận này cũng thách thức quan niệm cố hữu rằng “sự phát triển AI nên đến từ một số mô hình khổng lồ được huấn luyện trên toàn cầu”. Thay vào đó, nó chỉ ra một tương lai nơi các hệ thống AI chủ quyền và tương tác lẫn nhau được xây dựng tại các khu vực tương ứng, trên một nền tảng mở và bảo vệ quyền riêng tư.
Bắt đầu xây dựng
“Bức tường dữ liệu” chắc chắn là có thật. Tuy nhiên, như nghiên cứu của NTT DATA cho thấy, các công cụ để vượt qua nó giờ đây đã mở và có thể truy cập được. Dữ liệu tổng hợp không còn là “công nghệ tương lai” nữa. Nó là một giải pháp thực tế mà các nhà phát triển có thể triển khai “ngay bây giờ” để xây dựng các hệ thống AI có chủ quyền, bắt nguồn từ văn hóa Nhật Bản, mà không phải hy sinh quyền riêng tư hoặc hiệu suất.
Tại sao không bắt đầu ngay hôm nay? Hãy thử nghiệm thư viện mã nguồn mở NeMo Data Designer hoặc khám phá bộ dữ liệu Nemotron-Personas-Japan có sẵn trên Hugging Face. Để biết thêm thông tin chi tiết về kỹ thuật, hãy tham khảo báo cáo chi tiết của NTT Data bao gồm phương pháp và thiết kế thử nghiệm (bằng tiếng Nhật).
- NeMo Data Designer: https://docs.nvidia.com/nemo/microservices/latest/design-synthetic-data-from-scratch-or-seeds/index.html
- Nemotron-Personas-Japan (Hugging Face): https://huggingface.co/blog/nvidia/nemotron-personas-japan
- Báo cáo của NTT Data (tiếng Nhật): https://www.nttdata.com/jp/ja/trends/data-insight/2026/0219/
Nemotron-Personas-Japan có sẵn theo giấy phép CC BY 4.0, cho phép sử dụng thương mại và phi thương mại.