Phương pháp mới cho phép DeepSeek và các mô hình khác trả lời các câu hỏi 'nhạy cảm'

Một phương pháp mới cho phép DeepSeek và các mô hình khác trả lời các câu hỏi 'nhạy cảm'.

  • 7 min read
Phương pháp mới cho phép DeepSeek và các mô hình khác trả lời các câu hỏi 'nhạy cảm'
Một phương pháp mới cho phép DeepSeek và các mô hình khác trả lời các câu hỏi 'nhạy cảm'.

Phương pháp mới cho phép DeepSeek và các mô hình khác trả lời các câu hỏi ’nhạy cảm'

Công ty quản lý rủi ro doanh nghiệp CTGT cho biết phương pháp của họ cắt giảm sự thiên vị và kiểm duyệt trong các mô hình như DeepSeek.

Việc loại bỏ sự thiên vị và trong một số trường hợp, kiểm duyệt hoàn toàn trong các mô hình ngôn ngữ lớn (LLM) là rất khó khăn. Một mô hình như vậy, DeepSeek từ Trung Quốc, đã báo động các chính trị gia và một số lãnh đạo doanh nghiệp về mối nguy tiềm tàng của nó đối với an ninh quốc gia.

Một ủy ban đặc biệt tại Quốc hội Hoa Kỳ gần đây đã công bố một báo cáo gọi DeepSeek là “mối đe dọa sâu sắc đối với an ninh quốc gia của chúng ta” và nêu chi tiết các khuyến nghị về chính sách.

Mặc dù có nhiều cách để vượt qua sự thiên vị thông qua Học tăng cường từ phản hồi của con người (RLHF) và tinh chỉnh, nhưng công ty khởi nghiệp quản lý rủi ro doanh nghiệp CTGT tuyên bố có một cách tiếp cận thay thế. CTGT đã phát triển một phương pháp bỏ qua sự thiên vị và kiểm duyệt được tích hợp trong một số mô hình ngôn ngữ mà họ cho là loại bỏ 100% kiểm duyệt.

Trong một bài báo, Cyril Gorlla và Trevor Tuttle của CTGT cho biết khung của họ “trực tiếp xác định vị trí và sửa đổi các tính năng bên trong chịu trách nhiệm kiểm duyệt”.

Bài báo cho biết: “Cách tiếp cận này không chỉ hiệu quả về mặt tính toán mà còn cho phép kiểm soát hành vi của mô hình một cách chi tiết, đảm bảo rằng các phản hồi không bị kiểm duyệt được cung cấp mà không ảnh hưởng đến khả năng tổng thể và độ chính xác thực tế của mô hình”.

Mặc dù phương pháp này được phát triển rõ ràng với DeepSeek-R1-Distill-Llama-70B, nhưng quy trình tương tự có thể được sử dụng trên các mô hình khác.

Gorlla nói với VentureBeat trong một email: “Chúng tôi đã thử nghiệm CTGT với các mô hình trọng lượng mở khác như Llama và thấy nó cũng hiệu quả như vậy. Công nghệ của chúng tôi hoạt động ở cấp độ mạng nơ-ron nền tảng, có nghĩa là nó áp dụng cho tất cả các mô hình học sâu. Chúng tôi đang làm việc với một phòng thí nghiệm mô hình nền tảng hàng đầu để đảm bảo các mô hình mới của họ đáng tin cậy và an toàn từ cốt lõi”.

Cách nó hoạt động

Các nhà nghiên cứu cho biết phương pháp của họ xác định các tính năng có khả năng cao liên quan đến các hành vi không mong muốn.

Gorlla và Tuttle viết: “Ý tưởng chính là trong một mô hình ngôn ngữ lớn, tồn tại các biến tiềm ẩn (nơ-ron hoặc hướng trong trạng thái ẩn) tương ứng với các khái niệm như ’tác nhân kích hoạt kiểm duyệt’ hoặc ’tình cảm độc hại’. Nếu chúng ta có thể tìm thấy những biến đó, chúng ta có thể trực tiếp thao túng chúng".

CTGT cho biết có ba bước chính:

  1. Xác định tính năng
  2. Cách ly và mô tả đặc điểm tính năng
  3. Sửa đổi tính năng động.

Các nhà nghiên cứu đưa ra một loạt các lời nhắc có thể kích hoạt một trong những “tình cảm độc hại” đó. Ví dụ: họ có thể yêu cầu thêm thông tin về Quảng trường Thiên An Môn hoặc yêu cầu các mẹo để vượt qua tường lửa. Dựa trên các phản hồi, họ chạy các lời nhắc và thiết lập một mẫu và tìm các vectơ nơi mô hình quyết định kiểm duyệt thông tin.

Sau khi xác định được, các nhà nghiên cứu có thể cô lập tính năng đó và tìm ra phần nào của hành vi không mong muốn mà nó kiểm soát. Hành vi có thể bao gồm phản hồi thận trọng hơn hoặc từ chối phản hồi hoàn toàn. Hiểu những hành vi mà tính năng kiểm soát, các nhà nghiên cứu sau đó có thể “tích hợp một cơ chế vào quy trình suy luận của mô hình” để điều chỉnh mức độ kích hoạt hành vi của tính năng.

Làm cho mô hình trả lời nhiều lời nhắc hơn

CTGT cho biết các thử nghiệm của họ, sử dụng 100 truy vấn nhạy cảm, cho thấy rằng mô hình DeepSeek-R1-Distill-Llama-70B cơ bản chỉ trả lời 32% các lời nhắc gây tranh cãi mà nó được cung cấp. Nhưng phiên bản sửa đổi đã trả lời 96% các lời nhắc. CTGT giải thích rằng 4% còn lại là nội dung cực kỳ rõ ràng.

Công ty cho biết rằng mặc dù phương pháp này cho phép người dùng chuyển đổi mức độ hoạt động của các tính năng an toàn và thiên vị tích hợp, nhưng họ vẫn tin rằng mô hình sẽ không biến thành “một trình tạo liều lĩnh”, đặc biệt nếu chỉ loại bỏ kiểm duyệt không cần thiết.

Phương pháp của nó cũng không làm giảm độ chính xác hoặc hiệu suất của mô hình.

Bài báo cho biết: “Điều này về cơ bản khác với tinh chỉnh truyền thống vì chúng tôi không tối ưu hóa trọng số mô hình hoặc cung cấp cho nó các phản hồi ví dụ mới. Điều này có hai ưu điểm chính: các thay đổi có hiệu lực ngay lập tức đối với thế hệ mã thông báo tiếp theo, trái ngược với hàng giờ hoặc hàng ngày đào tạo lại; và khả năng đảo ngược và thích ứng, vì không có trọng số nào bị thay đổi vĩnh viễn, mô hình có thể được chuyển đổi giữa các hành vi khác nhau bằng cách bật hoặc tắt điều chỉnh tính năng hoặc thậm chí điều chỉnh ở các mức độ khác nhau cho các ngữ cảnh khác nhau".

An toàn và bảo mật mô hình

Báo cáo của quốc hội về DeepSeek khuyến nghị Hoa Kỳ “hành động nhanh chóng để mở rộng kiểm soát xuất khẩu, cải thiện việc thực thi kiểm soát xuất khẩu và giải quyết rủi ro từ các mô hình trí tuệ nhân tạo của Trung Quốc”.

Khi chính phủ Hoa Kỳ bắt đầu đặt câu hỏi về mối đe dọa tiềm tàng của DeepSeek đối với an ninh quốc gia, các nhà nghiên cứu và công ty AI đã tìm cách làm cho nó và các mô hình khác trở nên “an toàn”.

Những gì “an toàn” hay không, hoặc thiên vị hoặc kiểm duyệt, đôi khi có thể khó đánh giá, nhưng việc phát triển các phương pháp cho phép người dùng tìm ra cách chuyển đổi các điều khiển để làm cho mô hình hoạt động cho họ có thể tỏ ra rất hữu ích.

Gorlla cho biết các doanh nghiệp “cần có khả năng tin tưởng rằng các mô hình của họ phù hợp với các chính sách của họ”, đó là lý do tại sao các phương pháp như phương pháp mà ông đã giúp phát triển sẽ rất quan trọng đối với các doanh nghiệp.

Ông nói: “CTGT cho phép các công ty triển khai AI thích ứng với các trường hợp sử dụng của họ mà không phải chi hàng triệu đô la để tinh chỉnh các mô hình cho từng trường hợp sử dụng. Điều này đặc biệt quan trọng trong các ứng dụng có rủi ro cao như bảo mật, tài chính và chăm sóc sức khỏe, nơi những tác hại tiềm tàng có thể đến từ sự cố AI là rất nghiêm trọng".

Recommended for You

BigQuery lớn hơn 5 lần so với Snowflake và Databricks Google đang làm gì để làm cho nó tốt hơn nữa

BigQuery lớn hơn 5 lần so với Snowflake và Databricks Google đang làm gì để làm cho nó tốt hơn nữa

BigQuery lớn hơn 5 lần so với Snowflake và Databricks Đây là những gì Google đang làm để làm cho nó tốt hơn nữa.

Cách mã hóa lại dữ liệu đang tái tạo bảo mật dữ liệu trong kỷ nguyên AI

Cách mã hóa lại dữ liệu đang tái tạo bảo mật dữ liệu trong kỷ nguyên AI

Leon Bian của Capital One Software giải thích cách mã hóa lại dữ liệu cung cấp một phương pháp mới về quyền riêng tư và bảo mật dữ liệu, đồng thời vẫn cho phép các nhóm khai thác giá trị dữ liệu.