Cách định hướng Tác nhân AI tiếng Hàn theo nhân khẩu học thực tế với các Persona tổng hợp

  • 9 min read
Cách định hướng Tác nhân AI tiếng Hàn theo nhân khẩu học thực tế với các Persona tổng hợp

Cách định hướng AI Agent Hàn Quốc dựa trên dữ liệu nhân khẩu học thực tế thông qua các Persona tổng hợp

Hầu hết các mô hình vận hành AI Agent ngày nay chủ yếu được huấn luyện trên dữ liệu web tiếng Anh. Điều này khiến chúng thiếu hụt các cấu trúc kính ngữ của tiếng Hàn, các đặc điểm nghề nghiệp theo vùng miền và bối cảnh văn hóa mà người dùng Hàn Quốc mong đợi. Một AI Agent áp dụng quy trình chăm sóc sức khỏe của Hoa Kỳ vào hệ thống y tế công cộng của Hàn Quốc sẽ không thể đưa vào sử dụng thực tế.

Nemotron-Personas-Korea ra đời để giải quyết vấn đề này. Bộ dữ liệu cung cấp 6 triệu persona (hình mẫu nhân vật) tổng hợp hoàn toàn, được định hướng dựa trên số liệu thống kê chính thức và dữ liệu hạt giống từ Dịch vụ Thông tin Thống kê Hàn Quốc (KOSIS), Tòa án Tối cao Hàn Quốc, Dịch vụ Bảo hiểm Y tế Quốc gia và Viện Kinh tế Nông thôn Hàn Quốc. NAVER Cloud cũng đóng góp dữ liệu hạt giống và chuyên môn trong quá trình thiết kế.

Mỗi persona đều chính xác về mặt nhân khẩu học nhưng không chứa bất kỳ thông tin định danh cá nhân (PII) nào, đảm bảo tuân thủ Đạo luật Bảo vệ Thông tin Cá nhân (PIPA) của Hàn Quốc. Hàn Quốc cũng là một trong số ít các quốc gia công bố hướng dẫn chính thức về Tạo dữ liệu tổng hợp, thiết lập quản trị cho việc định hướng các mô hình bằng các phiên bản tổng hợp của dữ liệu nhạy cảm. Bộ dữ liệu này tuân theo phương pháp đó.

Trong bài hướng dẫn này, chúng ta sẽ biến một persona tổng hợp thành một AI Agent Hàn Quốc được triển khai — từ bước lọc dữ liệu đến suy luận — trong khoảng 20 phút bằng cách sử dụng các API được cung cấp.

Một bộ dữ liệu chủ quyền cho Hàn Quốc

Sơ đồ dữ liệu

Thuộc tính Chi tiết
Tổng số persona 7 triệu (1 triệu bản ghi $\times$ 7 persona mỗi bản)
Các trường dữ liệu 26 trường: 7 trường persona, 6 trường thuộc tính, 12 trường bối cảnh nhân khẩu học & địa lý, và 1 mã định danh duy nhất
Phạm vi địa lý Toàn bộ 17 tỉnh và 25 quận của Hàn Quốc
Tên ~209K tên duy nhất (118 họ, ~21.4K tên gọi)
Nghề nghiệp Hơn 2K danh mục phản ánh các lĩnh vực công nghệ, sản xuất, khu vực công, v.v.
Loại persona Chuyên nghiệp, gia đình, thể thao, nghệ thuật, du lịch, ẩm thực, ngắn gọn
Giai đoạn cuộc đời Học sinh/sinh viên, nghĩa vụ quân sự, đang đi làm, thất nghiệp, nghỉ hưu
Ngôn ngữ Tiếng Hàn tự nhiên
Giấy phép CC BY 4.0

Nemotron-Personas-Korea được tạo ra bằng NeMo Data Designer, hệ thống AI hợp nhất mã nguồn mở của NVIDIA để tạo dữ liệu tổng hợp. Quy trình này kết hợp một Mô hình Đồ thị Xác suất (Probabilistic Graphical Model) để định hướng thống kê với Gemma-4-31B để tạo lời kể bằng tiếng Hàn. Dữ liệu dân số đến từ KOSIS (phát hành 2020–2026); phân phối tên đến từ Tòa án Tối cao Hàn Quốc.

Sơ đồ quy trình

Nemotron-Personas-Korea là bổ sung mới nhất cho Bộ sưu tập Nemotron-Personas, vốn đã bao gồm Hoa Kỳ, Nhật Bản, Ấn Độ, Singapore, Brazil và Pháp. Nếu bạn đang xây dựng một AI Agent đa ngôn ngữ phục vụ người dùng Hàn Quốc cùng với các thị trường khác, bạn có thể kết hợp các persona từ nhiều quốc gia trong cùng một quy trình.

Tại sao điều này lại quan trọng đối với các AI Agent tự trị?

Hầu hết các AI Agent hiện nay đều “mù” về danh tính. Chúng thực hiện theo hướng dẫn mà không có sự định hướng về đối tượng mà chúng đang phục vụ. Ví dụ, một Agent đặt lịch hẹn bệnh viện tại Hàn Quốc theo quy ước sắp xếp của Mỹ, hoặc xưng hô với một bệnh nhân 60 tuổi bằng banmal (cách nói trống không/không kính ngữ), không chỉ gây cảm giác sai trái mà còn dẫn đến thất bại trong giao tiếp.

Nemotron-Personas-Korea thay đổi điều này bằng cách cung cấp cho Agent của bạn một bối cảnh vận hành tại Hàn Quốc. Khi nạp một persona vào system prompt, Agent sẽ thừa hưởng vùng miền, nghề nghiệp, chuẩn mực giao tiếp và chuyên môn trong lĩnh vực của persona đó.

Điều này hoạt động trên mọi framework Agent. Bạn có thể triển khai với NemoClaw (stack tham chiếu mã nguồn mở của NVIDIA cho các Agent luôn hoạt động trong sandbox NVIDIA OpenShell), phục vụ thông qua NVIDIA NIM để suy luận thực tế, hoặc gọi trực tiếp NVIDIA API. Lớp persona này không phụ thuộc vào framework, đóng vai trò như một system prompt có cấu trúc chặt chẽ, dựa trên nhân khẩu học thực tế của Hàn Quốc.

Hướng dẫn: Từ Persona tổng hợp đến AI Agent chủ quyền

🔗 Tài nguyên:

Bước 1: Tải và khám phá bộ dữ liệu

Tải bộ dữ liệu và khám phá các thông tin có sẵn. Mỗi bản ghi bao gồm các trường nhân khẩu học có cấu trúc cùng với các lời kể chi tiết về persona bằng ngôn ngữ tự nhiên.

from datasets import load_dataset

# Tải bộ dữ liệu persona Hàn Quốc
dataset = load_dataset("nvidia/Nemotron-Personas-Korea")

# Xem tất cả các trường có sẵn
print(dataset["train"].column_names)

# Xem trước một bản ghi để hiểu cấu trúc (schema)
print(dataset["train"][0])

Bước 2: Lọc và chọn một Persona

Lọc bộ dữ liệu theo nghề nghiệp, vùng miền, độ tuổi hoặc bất kỳ kết hợp nào để tìm các persona phù hợp với lĩnh vực mục tiêu. Ở đây, chúng ta sẽ xây dựng một AI Agent về y tế công cộng Hàn Quốc.

# Lọc các nghề nghiệp liên quan đến y tế
# "보건" = y tế công cộng, "간호" = điều dưỡng, "의료" = y khoa, "의사" = bác sĩ
health_personas = dataset["train"].filter(
    lambda x: "보건" in x["occupation"] or "간호" in x["occupation"] or "의료" in x["occupation"]
)

print(f"Tìm thấy {len(health_personas)} persona y tế")

# Chọn một persona để định hướng cho Agent
persona = health_personas[0]
print(persona)

Bạn có thể lọc chi tiết hơn theo vùng miền (ví dụ: chỉ những nhân viên y tế ở Jeju), trình độ học vấn hoặc giai đoạn cuộc đời.

Bước 3: Định nghĩa hành vi của Agent

Đây là lúc dữ liệu persona trở thành hành vi của Agent. Các trường có cấu trúc — tên, vùng miền, nghề nghiệp, kỹ năng — trở thành danh tính của Agent. Sau đó, bạn thêm các hướng dẫn về hành vi và phạm vi công việc lên trên. Kết quả là một Agent có tư duy như một chuyên gia Hàn Quốc trong một vai trò và vùng miền cụ thể.

# Xây dựng system prompt từ các thuộc tính của persona
# Prompt dưới đây yêu cầu Agent:
#   - Phản hồi bằng tiếng Hàn trang trọng (존댓말 - kính ngữ)
#   - Cung cấp hướng dẫn về các phòng khám y tế công cộng địa phương
#   - Dựa trên chính sách y tế công cộng của Hàn Quốc
#   - Xem xét bối cảnh văn hóa khi tư vấn
system_prompt = f"""당신은 한국의 공중보건 상담 AI 에이전트입니다.

[신원]                              # Danh tính
- 이름: {persona['name']}           # Tên
- 지역: {persona['region']}         # Vùng miền
- 직업: {persona['occupation']}     # Nghề nghiệp
- 전문분야: {persona['skills']}      # Chuyên môn

[행동 지침]                           # Hướng dẫn hành vi
- 한국어 존댓말을 사용하여 응답하세요.      # Sử dụng kính ngữ tiếng Hàn
- 지역 보건소 및 공공 의료 체계에 대한 안내를 제공하세요.  # Hướng dẫn về phòng khám địa phương
- 한국 공중보건 정책과 절차를 기반으로 정확한 정보를 제공하세요.  # Theo chính sách y tế HQ
- 문화적 맥락을 고려하여 상담하세요.        # Xem xét bối cảnh văn hóa

[업무 범위]                           # Phạm vi công việc
- 예방접종 일정 안내                    # Hướng dẫn lịch tiêm chủng
- 건강검진 절차 설명                    # Giải thích quy trình khám sức khỏe
- 지역 보건 자원 연결                   # Kết nối nguồn lực y tế địa phương
- 공중보건 관련 일반 상담                # Tư vấn chung về y tế công cộng

"""

Bước 4: Triển khai Agent

Kết nối prompt đã được định hướng persona với một mô hình để suy luận. Bạn có ba lựa chọn tùy theo thiết lập:

  • NVIDIA API catalog: Cách nhanh nhất để thử nghiệm (như ví dụ dưới).
  • NVIDIA NIM: Suy luận tự lưu trữ cho triển khai thực tế.
  • NemoClaw: Stack tham chiếu để triển khai các Agent luôn hoạt động, chạy ở bất cứ đâu, kể cả PC RTX thông qua DGX Spark.
from openai import OpenAI

# NVIDIA API catalog (tương thích OpenAI)
client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key="nvapi-YOUR_KEY"  # Lấy key tại build.nvidia.com
)

response = client.chat.completions.create(
    model="nvidia/nemotron-nano-8b-v1",
    messages=[
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": "독감 예방접종은 언제 맞아야 하나요?"}  # "Khi nào tôi nên tiêm phòng cúm?"
    ],
    temperature=0.7,
    max_tokens=512
)

print(response.choices[0].message.content)

Quy trình tương tự áp dụng cho mọi lĩnh vực. Chỉ cần thay đổi bộ lọc persona và phạm vi công việc, bạn sẽ có một Agent mới: persona tài chính (금융) trở thành cố vấn ngân hàng bán lẻ, persona giáo dục (교육) trở thành trợ lý gia sư, persona công chức (공무원) trở thành nhân viên dịch vụ y tế chính phủ.

Sự thay đổi khi được định hướng (Grounding)

Hãy cùng xem câu hỏi “독감 예방접종은 언제 맞아야 하나요?” (Khi nào tôi nên tiêm phòng cúm?) được trả lời khi có và không có định hướng persona:

Tiêu chí Không có Persona Có Persona Nhân viên Y tế Hàn Quốc
Ngôn ngữ Phản hồi bằng tiếng Anh hoặc tiếng Hàn chung chung Kính ngữ (존댓말) tự nhiên, phù hợp với tư vấn y tế
Nội dung Tham chiếu hướng dẫn của CDC hoặc toàn cầu Tham chiếu lịch của trung tâm y tế (보건소) và chương trình tiêm chủng quốc gia Hàn Quốc
Độ chi tiết “Hãy đến phòng khám địa phương” “Bạn có thể tiêm miễn phí tại trung tâm y tế gần nhất” kèm bối cảnh vùng miền
Độ tin cậy Không có Trích dẫn chính sách y tế công cộng Hàn Quốc, dùng thuật ngữ y khoa chuyên nghiệp

Việc định hướng persona không chỉ đơn thuần là dịch thuật — nó cung cấp bối cảnh và tạo ra một AI Agent mà người dùng thực sự tin tưởng.

Hãy cùng xây dựng với chúng tôi tại Seoul

NVIDIA Nemotron Developer Days sẽ diễn ra tại Seoul vào ngày 21–22 tháng 4 năm 2026 — lần đầu tiên sự kiện này được tổ chức bên ngoài GTC. Hai ngày hoạt động bao gồm các phiên kỹ thuật về AI chủ quyền và mô hình mở, cùng với một cuộc thi hackathon thực tế, nơi bạn có cơ hội sử dụng Nemotron-Personas-Korea để xây dựng các AI Agent đặc thù cho Hàn Quốc. 🦞

Recommended for You

QIMMA قِمّة ⛰- Bảng xếp hạng LLM tiếng Ả Rập ưu tiên chất lượng

QIMMA قِمّة ⛰- Bảng xếp hạng LLM tiếng Ả Rập ưu tiên chất lượng

Huấn luyện và Tinh chỉnh các Mô hình Embedding & Reranker Đa phương thức với Sentence Transformers

Huấn luyện và Tinh chỉnh các Mô hình Embedding & Reranker Đa phương thức với Sentence Transformers

Huấn luyện và tinh chỉnh các mô hình Embedding và Reranker đa phương thức bằng Sentence Transformers