Phân hủy phân chiếu chuẩn hóa
Phân hủy phân chiếu chuẩn hóa
- 13 min read
Norm-Preserving Biprojected Abliteration
Abliteration là một kỹ thuật nhằm loại bỏ các hành vi từ chối khỏi các mô hình ngôn ngữ bằng cách xác định và can thiệp vào “các hướng từ chối” trong không gian kích hoạt, về mặt lý thuyết được biểu diễn thông qua một hướng từ chối trung bình duy nhất. Phát hiện này rất hữu ích trong việc diễn giải cơ chế hoạt động của mô hình.
Chúng tôi gần đây đã trình bày một phương pháp cải tiến gọi là “abliteration được chiếu” (projected abliteration) nhằm cải thiện cách tiếp cận truyền thống bằng cách chỉ loại bỏ các thành phần quan trọng về mặt cơ chế của hướng từ chối, xác nhận một phát hiện trước đó rằng các LLM mã hóa sự từ chối và có hại một cách riêng biệt. Sau đó, chúng tôi đã tinh chỉnh thêm kỹ thuật này thành “abliteration hai chiều chiếu” (biprojected abliteration), kỹ thuật này cũng loại bỏ thành phần tương ứng khi loại bỏ sự từ chối được đo bằng một lớp khác với lớp can thiệp. Về lý thuyết, điều này sẽ tránh làm xáo trộn hướng vô hại của bất kỳ lớp nào được nhắm mục tiêu can thiệp. Thật thú vị, một số hành vi từ chối an toàn đã quay trở lại.
Sau khi xem xét kỹ hơn, vẫn còn một vấn đề liên quan đến việc sửa đổi trọng số lớp và chuẩn trọng số.
Trong abliteration truyền thống (và các sửa đổi trước đó của chúng tôi), hướng từ chối đã chuẩn hóa được trừ khỏi các luồng còn lại của lớp mục tiêu để can thiệp, cụ thể là self_attn.o_proj và mlp.down_proj. Mặc dù điều này có hiệu quả trong thực tế để điều hướng, nhưng nó không có cơ sở toán học vì:
- Hướng bị loại bỏ chứa một thành phần có độ lớn đơn vị cùng với thành phần hướng, làm phức tạp việc diễn giải.
- Việc loại bỏ không tôn trọng tầm quan trọng tương đối của các neuron, dẫn đến các hiệu ứng tỷ lệ không thể đoán trước.
- Nó làm xáo trộn hình học của ma trận trọng số theo những cách không thể đoán trước.
Trái với quan niệm thông thường rằng abliteration làm suy giảm đáng kể khả năng của mô hình, phương pháp bảo toàn chuẩn của chúng tôi đã cải thiện hiệu suất suy luận so với mô hình cơ sở (NatInt: 21.33 so với 18.72), đồng thời đạt được việc loại bỏ từ chối hiệu quả (UGI: 32.61 so với 19.58).
Một Can thiệp Toán học Tinh chỉnh
Thay vì trừ hướng từ chối khỏi các trọng số đích, chúng tôi đề xuất trừ chỉ thành phần hướng, đồng thời bảo toàn chuẩn của các trọng số.
Việc áp dụng bảo toàn chuẩn có tính tôn trọng hơn đối với việc chuẩn hóa lớp hiện có bằng cách duy trì cấu trúc tỷ lệ kích hoạt tương đối mà các lớp chuẩn hóa của mô hình đã được huấn luyện để mong đợi. Do đó, chúng tôi mong đợi một số cải thiện so với abliteration thông thường về việc giảm thiểu thiệt hại ngẫu nhiên đối với khả năng suy luận. Hơn nữa, quá trình abliteration vẫn có thể được thực hiện dưới dạng sửa đổi hạng 1, giữ cho phương pháp tổng thể có hiệu quả về mặt tính toán.
Cho trước:
- Ma trận trọng số $\mathbf{W} \in \mathbb{R}^{d_{\text{out}} \times d_{\text{in}}}$
- Hướng từ chối $\mathbf{r} \in \mathbb{R}^{d_{\text{out}}}$ (được tinh chỉnh thông qua chiếu hai chiều)
- Hệ số tỷ lệ $\alpha \in [0, 1]$
Bước 1: Chuẩn hóa hướng từ chối
Đối với mỗi hàng $i$ của $\mathbf{W}$:
Tính toán các hệ số chiếu (sự căn chỉnh của mỗi chiều đầu vào với sự từ chối):
Ví dụ Triển khai PyTorch
python import torch
Triển khai cốt lõi (trích đoạn từ hàm hoàn chỉnh)
""" Args: W: Ma trận trọng số có hình dạng [out_features, in_features] refusal_dir: Vector hướng từ chối có hình dạng [out_features] scale_factor: Hệ số tỷ lệ cho cường độ abliteration (mặc định: 1.0) """
# Chuẩn hóa hướng từ chối
refusal_normalized = torch.nn.functional.normalize(refusal_dir, dim=0)
# Phân rã ma trận trọng số
W_norm = torch.norm(W, dim=1, keepdim=True) # [out_features, 1]
W_direction = torch.nn.functional.normalize(W, dim=1) # chuẩn hóa trên mỗi neuron đầu ra
# Áp dụng abliteration cho thành phần HƯỚNG
projection = torch.matmul(refusal_normalized, W_direction) # [in_features]
W_direction_new = W_direction - scale_factor * torch.outer(refusal_normalized, projection)
# Chuẩn hóa lại hướng đã điều chỉnh để cho phép kết hợp lại
W_direction_new = torch.nn.functional.normalize(W_direction_new, dim=1)
# Kết hợp lại: giữ nguyên độ lớn ban đầu, sử dụng hướng mới
W_new = W_norm * W_direction_new
Phương pháp Lựa chọn Lớp
Chúng tôi đã đo lường các hướng từ chối trên tất cả các lớp nhưng yêu cầu một phương pháp có nguyên tắc để chọn các phép đo nào sẽ sử dụng để can thiệp. Lựa chọn của chúng tôi sử dụng một chỉ số chất lượng tổng hợp kết hợp ba yếu tố:
Tỷ lệ tín hiệu trên nhiễu (SNR): Độ lớn của hướng từ chối so với các kích hoạt trung bình:
python snr = ||r|| / max(||harmful_mean||, ||harmless_mean||)
trong đó hướng từ chối $\mathbf{r} = \text{harmful_mean} - \text{harmless_mean}$.
Độ tương tự cosin: Khoảng cách góc giữa các giá trị trung bình kích hoạt có hại và vô hại:
python dissimilarity = 1 - cosine_similarity(harmful_mean, harmless_mean)
Các giá trị cao hơn cho thấy hình học biểu diễn rõ ràng hơn.
Điểm chất lượng tổng hợp:
python quality = snr × (1 - cos_sim)
Bằng cách lập biểu đồ các chỉ số này trên tất cả các lớp, chúng tôi đã chọn các ứng cử viên thể hiện cả SNR cao và độ tương tự cosin mạnh, đặc biệt chú ý đến các lớp thể hiện sự thay đổi đột ngột về các chỉ số này. Sự phù hợp của hướng từ chối đã chọn để áp dụng cho các lớp lân cận và phía trước được hướng dẫn bởi việc theo dõi sự tiến hóa tương tự cosin của các hướng từ chối qua các lớp liên tiếp — sự căn chỉnh hướng ổn định cho thấy khả năng áp dụng đa lớp mạnh mẽ.
Phương pháp này có thể nói là mang tính kinh nghiệm, nhưng dựa trên cấu trúc hình học đã quan sát được của các biểu diễn từ chối. Công việc trong tương lai có thể chính thức hóa việc lựa chọn lớp tối ưu thông qua các nghiên cứu abliteration có hệ thống.
Heuristic này có hiệu quả về mặt tính toán: một lượt suy luận duy nhất thu thập các kích hoạt trên tất cả các lớp và các chỉ số chất lượng được tính toán sau khi hoàn thành từ dữ liệu này. Không giống như các phương pháp tìm kiếm lặp đi lặp lại yêu cầu nhiều lần đánh giá mô hình, phân tích này bổ sung thêm chi phí tối thiểu vào quy trình abliteration tiêu chuẩn, chỉ đơn giản là trích xuất thêm tín hiệu từ các phép đo đã được thực hiện.
Đối với Gemma3 12B Instruct, với các lớp được đánh số [0..47], chúng tôi đã chọn các phép đo từ các lớp 23 và 29 để ứng dụng rộng rãi. Việc giữ lại các phép đo hướng từ chối và trung bình vô hại đã chứng tỏ là rất quan trọng trong các lần tinh chỉnh tiếp theo.
Kết quả
Với phương pháp sửa đổi này, chúng tôi đã thực hiện abliteration Gemma3 12B Instruct một lần nữa. Như trước đây, chúng tôi đã áp dụng hệ số tỷ lệ mặc định là 1.0, can thiệp vào các lớp [11..41]. Đúng như mong đợi, chúng tôi đã có thể bỏ qua sự từ chối với các lời nhắc thử nghiệm có hại. Mô hình đã giữ lại nhiều khả năng của nó trong thử nghiệm không chính thức và “grimjim/gemma-3-12b-it-norm-preserved-biprojected-abliterated” đạt điểm cao nhất trên các benchmark UGI và NatInt trong Bảng xếp hạng UGI so với các biến thể abliteration được công bố trước đó của chúng tôi cho cùng một mô hình cơ sở, và chính mô hình Instruct cơ sở.
Như trước đây, trong quá trình đo lường kích hoạt, việc làm thưa thớt độ lớn ở mức cường độ 0.995 đã được áp dụng khi thu thập các phép đo từ các lời nhắc. Điều này là cần thiết để phân biệt hướng từ chối giữa các giá trị trung bình có hại và vô hại. Quan sát thực nghiệm là các kích hoạt ngoại lệ mạnh mẽ đặc trưng cho mô hình.
Để tối đa hóa độ ổn định số, chúng tôi tiếp tục sử dụng dấu phẩy động 32-bit trong suốt các phép tính trung gian mặc dù mô hình được phát hành ở định dạng dấu phẩy động bfloat16 16-bit. Trước đây đã ghi nhận rằng việc thực hiện các phép tính trung gian ở dấu phẩy động bfloat16 16-bit dẫn đến kết quả không tối ưu. Chúng tôi khuyến nghị rằng ít nhất dấu phẩy động 32-bit nên được sử dụng trong các mô hình thể hiện sự biến thiên lớn về độ lớn kích hoạt.
Thảo luận
Bằng cách thu hẹp thành công phạm vi can thiệp chỉ còn thành phần hướng với các chuẩn được bảo toàn, chúng tôi thiết lập rằng hướng từ chối một mình là rất quan trọng đối với kết quả abliteration, thay vì hướng từ chối bị vướng vào các hiệu ứng độ lớn. Tuy nhiên, bất chấp cơ sở lý thuyết này, có khả năng việc loại bỏ thành phần bị vướng vào việc đánh giá có hại có thể làm giảm sự an toàn theo những cách không có nguyên tắc. Korznikov và cộng sự. (2025) đã chứng minh rằng việc điều chỉnh kích hoạt trên các đặc điểm ngay cả khi vô hại cũng có thể làm tổn hại đến sự an toàn của LLM, cho thấy rằng các can thiệp trong không gian biểu diễn có thể có những hậu quả không mong muốn đối với các cơ chế an toàn.
Việc bảo toàn độ lớn có thể rất quan trọng trong trường hợp của Gemma3 12B Instruct, vì các ngoại lệ có độ lớn cao che giấu hướng từ chối gần như chắc chắn mã hóa thông tin hành vi quan trọng cần được bảo toàn để duy trì chức năng, như được báo cáo bởi Sun và cộng sự. (2024).
Kết quả benchmark trên Bảng xếp hạng UGI cho thấy sự cải thiện rõ ràng so với các biến thể abliteration trước đó:
| Biến thể Mô hình | Điểm UGI | Điểm NatInt |
|---|---|---|
| Gemma-3 12B Instruct (cơ sở) | 19.58 | 18.72 |
| Abliterated tiêu chuẩn | 32.08 | 18.64 |
| Biprojected bảo toàn chuẩn | 32.61 | 21.33 |
Đáng chú ý, trong khi abliteration tiêu chuẩn đạt được mức độ bỏ qua kiểm duyệt tương đương (điểm UGI), thì nó lại cho thấy sự suy giảm khả năng nhẹ (NatInt: 18.64 so với 18.72 của mô hình cơ sở). Phương pháp bảo toàn chuẩn không chỉ đạt hiệu quả bỏ qua kiểm duyệt mà còn cải thiện đáng kể khả năng suy luận (NatInt: 21.33). Phát hiện này phù hợp với những quan sát gần đây về hiện tượng “Thuế An toàn” (Huang và cộng sự, 2025), nơi sự căn chỉnh an toàn đã được chứng minh là làm suy giảm khả năng suy luận trong các mô hình ngôn ngữ. Sự cải thiện so với mô hình cơ sở cho thấy việc loại bỏ các ràng buộc an toàn được mã hóa theo hướng có thể mở khóa các khả năng suy luận tiềm ẩn đã bị các cơ chế an toàn ngăn chặn, mặc dù mối quan hệ này cần được điều tra thêm.
Mặc dù chúng tôi đã thiết lập trước đây bằng thực nghiệm rằng can thiệp vào nhiều lớp là cần thiết để đạt được tốc độ tuân thủ mong muốn đối với các lời nhắc có hại, chúng tôi đã tìm thấy cơ sở lý thuyết trong một bài báo năm 2023 của McGrath và cộng sự có tiêu đề “Hiệu ứng Hydra: Sự tự sửa chữa nổi lên trong các phép tính mô hình ngôn ngữ”. Các tác giả đã chứng minh rằng khi các lớp riêng lẻ bị ablate, các lớp khác sẽ bù đắp thích ứng để phục hồi khoảng 70% phép tính ban đầu. Cơ chế tự sửa chữa này giải thích tại sao các can thiệp lớp đơn lẻ thường không đủ để abliteration mạnh mẽ, vì mô hình vốn đã định tuyến xung quanh các hư hỏng cục bộ.
Chiến lược can thiệp đa lớp giải quyết trực tiếp thách thức này: bằng cách đồng thời sửa đổi cả phép chiếu đầu ra chú ý và phép chiếu xuống MLP trên nhiều lớp, người ta có thể “cắt nhiều đầu của hydra” cùng một lúc, ngăn chặn các cơ chế bù đắp khôi phục hành vi từ chối. Thông qua việc lựa chọn cẩn thận các phép đo lớp và một bộ lớp can thiệp, một phép can thiệp hạng 2L có cấu trúc (trong đó L là số lớp được nhắm mục tiêu) có thể cung cấp đủ phạm vi phủ sóng để vượt qua sự tự sửa chữa nổi lên đồng thời vẫn giữ hiệu quả về mặt tính toán thông qua cấu trúc hạng 1 của mỗi sửa đổi trọng số riêng lẻ. “Hiệu ứng hydra” này khi nhìn lại đã giải thích cho sự trở lại một phần của các yêu cầu an toàn trong quá trình “biprojected abliteration”.
Chúng tôi đã cấu trúc lại quy trình abliteration truyền thống thành ba giai đoạn riêng biệt: (1) đo lường trên tất cả các lớp, (2) lựa chọn lớp phân tích thông qua các chỉ số chất lượng và (3) can thiệp có mục tiêu trên các lớp đã chọn. Sự phân tách này mang lại sự linh hoạt: thay vì cam kết với một lớp ’tốt nhất’ duy nhất, các chuyên gia có thể chọn nhiều ứng cử viên chất lượng cao để can thiệp, cho phép chiến lược đa lớp cần thiết để vượt qua hiệu ứng hydra đồng thời duy trì hiệu quả về mặt tính toán thông qua cấu trúc hạng 1 của mỗi sửa đổi trọng số riêng lẻ.
Cuối cùng, một hậu quả thực tế thú vị nảy sinh từ sự hiểu biết này: số lượng lớp can thiệp cung cấp một cơ chế thô nhưng hiệu quả để điều chỉnh sự cân bằng tuân thủ-an toàn. Ít lớp hơn cho phép nhiều tự sửa chữa hơn, bảo toàn một số khả năng từ chối, trong khi nhiều lớp hơn khắc phục các cơ chế bù đắp một cách triệt để hơn. Điều này cung cấp cho các chuyên gia một tham số có thể điều chỉnh để hiệu chỉnh hành vi của mô hình theo trường hợp sử dụng và khả năng chấp nhận rủi ro của họ.
Tài liệu tham khảo
- Arditi và cộng sự, “Refusal in LLMs is mediated by a single direction”, lesswrong.com, 2024.
- Huang và cộng sự, “Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable”, arXiv preprint, 2025
- Korznikov và cộng sự, “The Rogue Scalpel: Activation Steering Compromises LLM Safety”, arXiv preprint, 2025
- Labonne, “Uncensor any LLM with abliteration”, huggingface.co, 2024.
- Lai, “Projected Abliteration”, HuggingFace article, 2025
- McGrath và cộng sự, “The Hydra Effect: Emergent Self-repair in Language Model Computations”, arXiv preprint, 2023
- Sun và cộng sự, “Massive Activations in Large Language Models”, arXiv preprint, 2024
- Zhao và cộng sự, “LLMs Encode Harmfulness and Refusal Separately”, arXiv preprint, 2025.
Ngày xuất bản ban đầu: Ngày 6 tháng 11 năm 2025.
Cộng đồng
grimjim Tác giả bài viết
In retrospect, a key insight to this approach was to treat the harmless direction as a boundary condition to clamp to. Both the removal of projected interference along the harmless direction and the preservation of per element magnitudes aimed to minimize perturbation along and near the harmless direction.
Activation measurements were done on a 4-bit bitsandbytes quant, but final assembly was performed on the full-weight bfloat16 model.
ItzPingCat
GPT OSS when
SeaJay20k
Really cool stuff! I look forward to your future worl
Link bài viết gốc
- Tags:
- Ai
- 13 Days Ago
- Huggingface.co