Báo cáo Liêm chính và Minh bạch Hàng năm của Stability AI

Tại Stability AI, chúng tôi cam kết xây dựng và triển khai AI tạo sinh một cách có trách nhiệm, và chúng tôi tin rằng tính minh bạch là nền tảng cho AI an toàn và có đạo đức.

  • 14 min read
Báo cáo Liêm chính và Minh bạch Hàng năm của Stability AI
Tại Stability AI, chúng tôi cam kết xây dựng và triển khai AI tạo sinh một cách có trách nhiệm, và chúng tôi tin rằng tính minh bạch là nền tảng cho AI an toàn và có đạo đức.

Báo cáo Tính chính trực và Minh bạch Hàng năm của Stability AI

Tại Stability AI, chúng tôi cam kết xây dựng và triển khai AI tạo sinh một cách có trách nhiệm, và chúng tôi tin rằng sự minh bạch là nền tảng cho AI an toàn và có đạo đức.

Báo cáo minh bạch này là một phần trong nỗ lực không ngừng của chúng tôi nhằm chia sẻ thông tin có ý nghĩa về cách các mô hình của chúng tôi được phát triển và phát hành với các nguyên tắc an toàn được thiết kế ngay từ đầu. Chúng tôi muốn cung cấp sự rõ ràng về các biện pháp an toàn của mình, bao gồm cách chúng tôi thiết kế, thử nghiệm và giám sát hệ thống AI. Chúng tôi cũng chia sẻ cách chúng tôi ngăn chặn và phản ứng với việc sử dụng sai mục đích. Thông qua báo cáo này, chúng tôi mong muốn thúc đẩy trách nhiệm giải trình và xây dựng niềm tin với người dùng, nhà phát triển, nhà nghiên cứu và các nhà hoạch định chính sách.

Phạm vi: Các mô hình Video, Hình ảnh, 3D và Âm thanh, cũng như các mô hình có sẵn thông qua Giao diện Lập trình Ứng dụng (API) của chúng tôi.

Thời kỳ: Tháng 4 năm 2024 - Tháng 4 năm 2025

Cách tiếp cận về An toàn Mô hình

Stability AI đặc biệt cam kết ngăn chặn việc sử dụng sai công nghệ của chúng tôi. Chúng tôi coi trọng trách nhiệm đạo đức của mình và đã triển khai các biện pháp bảo vệ mạnh mẽ để nâng cao tiêu chuẩn an toàn, nhằm bảo vệ chống lại các tác nhân xấu.

Nhiệm vụ của chúng tôi là ngăn chặn nội dung có hại bắt đầu ngay từ khâu đánh giá dữ liệu huấn luyện và thực hiện đánh giá rủi ro trước khi phát hành bất kỳ mô hình mới nào. Cách tiếp cận của chúng tôi để ngăn chặn nội dung có hại tập trung vào ba lĩnh vực chính: 1) loại bỏ nội dung có hại khỏi dữ liệu huấn luyện của chúng tôi, 2) ngăn người dùng sử dụng mô hình của chúng tôi để tạo nội dung có hại và 3) thực thi Chính sách Sử dụng Chấp nhận được (AUP) của chúng tôi, quy định cấm nội dung có hại.

Chính sách của chúng tôi là báo cáo mọi Tài liệu Lạm dụng Tình dục Trẻ em (CSAM) cho Trung tâm Quốc gia về Trẻ em Mất tích và Bị bóc lột (NCMEC) thông qua đường dây trợ giúp CyberTipline của họ, nơi phân loại và phổ biến các báo cáo này cho các cơ quan thực thi pháp luật phù hợp.

Dữ liệu huấn luyện

Các mô hình nền tảng của chúng tôi được phát triển bằng ba nguồn thông tin dữ liệu chính: 1) dữ liệu có sẵn công khai trên internet, 2) dữ liệu mà chúng tôi hợp tác với các bên thứ ba để truy cập và 3) dữ liệu tổng hợp mà các nhà nghiên cứu của chúng tôi tạo ra.

Dữ liệu huấn luyện của chúng tôi cho các mô hình hình ảnh, video và 3D có nguồn gốc từ các bộ dữ liệu mở và từ các trang web được cung cấp một cách có trách nhiệm và có sẵn công khai. Các thẻ mô hình có sẵn trực tuyến. Chúng tôi không thu thập dữ liệu từ các nguồn phát tán nội dung có hại, như dark web hoặc trang web người lớn. Chúng tôi cũng không cố tình thu thập dữ liệu từ các nguồn có yêu cầu trả phí.

Chúng tôi sử dụng các bộ phân loại không phù hợp cho công việc (NSFW) do chúng tôi tự xây dựng và các bộ phân loại mã nguồn mở để lọc dữ liệu huấn luyện. Chúng tôi cũng đã chạy danh sách băm CSAM của ngành từ Thorn’s Safer và từ Tổ chức Giám sát Internet (IWF) trên một tập hợp con dữ liệu huấn luyện của chúng tôi và chưa phát hiện thấy CSAM nào cho đến nay.

Số liệu dữ liệu huấn luyện của chúng tôi cho kỳ báo cáo:

  • Số lượng CSAM và CSEM được phát hiện trong bộ dữ liệu huấn luyện của chúng tôi: 0%

An toàn Mô hình và API Nền tảng

Liên quan đến nỗ lực của chúng tôi nhằm đảm bảo các mô hình của chúng tôi không tạo ra nội dung có hại, chúng tôi áp dụng nhiều lớp giảm thiểu, cả ở cấp độ API nền tảng và cấp độ mô hình.

Ở cấp độ API nền tảng, chúng tôi triển khai các biện pháp bảo vệ thời gian thực như bộ lọc nội dung và bộ phân loại để phát hiện các đầu vào và đầu ra vi phạm chính sách. Chúng tôi cũng tích hợp các hệ thống băm CSAM để phát hiện, chặn và báo cáo CSAM đã biết. Kết hợp lại, các biện pháp giảm thiểu theo lớp này giúp thực thi các chính sách an toàn của chúng tôi và hỗ trợ việc sử dụng công nghệ của chúng tôi một cách có trách nhiệm.

Ở cấp độ mô hình, chúng tôi sử dụng các kỹ thuật như tinh chỉnh và LoRA an toàn, được thông báo từ các đánh giá red teaming có cấu trúc (thử nghiệm mô hình để tìm các đầu ra vi phạm chính sách hoặc có hại), trước khi phát hành mô hình.

Red Teaming (Thử nghiệm Cấu trúc)

Đội ngũ Liêm chính của chúng tôi đánh giá rủi ro của mô hình thông qua red teaming. Red teaming là một phần cốt lõi trong quy trình đánh giá an toàn của chúng tôi, tập trung vào việc xác định và giảm thiểu các rủi ro nghiêm trọng. Điều này bao gồm việc thu hút cả các chuyên gia nội bộ và bên ngoài để kiểm tra các mô hình của chúng tôi về các tác hại tiềm ẩn. Những đánh giá có cấu trúc này giúp chúng tôi phát hiện các chế độ lỗi rủi ro tiềm ẩn, cải thiện các biện pháp bảo vệ của chúng tôi và cung cấp thông tin cho các quyết định triển khai của chúng tôi. Red teaming là một quy trình liên tục, phát triển song song với các mô hình của chúng tôi, cho phép chúng tôi chủ động giải quyết các rủi ro mới khi khả năng tiến bộ.

Chúng tôi đã phát triển một cách tiếp cận để truy cập các khả năng tạo CSAM/CSEM bằng cách red teaming sử dụng các gợi ý về khỏa thân của người lớn/hoạt động tình dục của người lớn làm chỉ số. Chúng tôi cũng đã hợp tác với Đội Tình báo Bí mật về CSEA Trực tuyến (OCCIT, một đơn vị thực thi pháp luật của Vương quốc Anh) để thực hiện các bài tập red teaming trên mô hình Stable Diffusion 3 của chúng tôi trước khi phát hành và không thể tạo ra CSAM nào. Nếu các khả năng có hại được xác định thông qua quy trình red-teaming của chúng tôi, mô hình sẽ trải qua quá trình tinh chỉnh an toàn bổ sung để loại bỏ các khái niệm đó trước bất kỳ lần phát hành nào.

Số liệu red teaming của chúng tôi cho kỳ báo cáo:

  • Tỷ lệ phần trăm các mô hình AI tạo sinh đã được kiểm tra cường độ cho các khả năng CSAM và CSEM (sử dụng các gợi ý có mô tả về khỏa thân của người lớn và hoạt động tình dục của người lớn): 100%
  • Tỷ lệ phần trăm các mô hình AI tạo sinh được phát hiện có các vấn đề liên quan đến CSAM và CSEM, như một kết quả của việc kiểm tra cường độ này: 0%

Yêu cầu về Tuổi tác

Người tiêu dùng sử dụng bất kỳ công nghệ nào của Stability AI để tạo nội dung trước tiên phải đồng ý với AUP của Công ty. Như đã nêu trong AUP, người dùng phải đủ 18 tuổi trở lên và phải đồng ý không sử dụng, hoặc cho phép người khác sử dụng, công nghệ của chúng tôi để, trong số những điều khác, (1) vi phạm pháp luật; (2) tạo điều kiện cho nội dung thù địch hoặc phân biệt đối xử, khai thác hoặc gây hại cho trẻ em; hoặc (3) lừa dối hoặc đánh lừa người khác, bao gồm cả việc tạo điều kiện cho thông tin sai lệch.

Nguồn gốc (Provenance)

Tại Stability AI, chúng tôi triển khai Liên minh về Nguồn gốc và Xác thực Nội dung (C2PA) thông qua API của mình để giúp người dùng và các nền tảng phân phối nội dung xác định nội dung do AI tạo ra. Hình ảnh, video, cũng như phương tiện âm thanh được tạo bởi API wav. của chúng tôi (tập trung vào hiệu ứng âm thanh và các đoạn riff nhạc cụ, không có rủi ro CSEM) được gắn siêu dữ liệu cho biết nội dung được tạo bằng công cụ AI tạo sinh. Siêu dữ liệu này bao gồm tên mô hình và số phiên bản được sử dụng để tạo nội dung. Sau khi được tạo, siêu dữ liệu được niêm phong bằng kỹ thuật số bằng chứng chỉ Stability AI mật mã và lưu trữ trong tệp.

Nguồn gốc nội dung chưa được triển khai trong quá trình tạo nội dung cho các mô hình được phát hành công khai của chúng tôi. Đây là những lĩnh vực đòi hỏi thêm công việc để tăng cường nguồn gốc và khả năng truy xuất nguồn gốc trên các hệ thống của chúng tôi.

Mặc dù chúng tôi đã gặp thách thức với các loại giải pháp đóng dấu nước khác (không phải C2PA) dẫn đến suy giảm chất lượng đầu ra hình ảnh, chúng tôi không ngừng khám phá những cách hiệu quả và đáng tin cậy hơn để giải quyết nguồn gốc và tính xác thực của nội dung. Khi chúng tôi phát triển nghiên cứu và triển khai, chúng tôi vẫn cam kết cải thiện các công cụ nguồn gốc vừa mạnh mẽ vừa bảo toàn tính toàn vẹn của nội dung được tạo ra.

Kiểm duyệt Nội dung

Đội ngũ Liêm chính của chúng tôi tham gia vào việc kiểm duyệt nội dung, bao gồm cả các công cụ tự động và xem xét của con người để đánh giá hoặc thực thi việc sử dụng sai mục đích bị nghi ngờ hoặc cố gắng sử dụng sản phẩm của chúng tôi.

  • Phát hiện Tự động: Chúng tôi thực thi các chính sách của mình thông qua việc từ chối mô hình bằng cách chặn nội dung vi phạm. Chúng tôi đã xây dựng bộ lọc văn bản nội bộ và bộ phân loại hình ảnh NSFW với hiệu suất để phát hiện các lời nhắc, hình ảnh và video vi phạm chính sách của chúng tôi. Chúng tôi tập trung vào các biện pháp kiểm soát hoạt động tại thời điểm người dùng cố gắng tải lên hoặc tạo một hình ảnh:

    • Chúng tôi đã triển khai các bộ lọc lời nhắc, áp dụng cho các lời nhắc và hướng dẫn văn bản mà người dùng cung cấp để tạo hình ảnh. Các bộ lọc này nhằm chặn người dùng tạo hình ảnh có thể vi phạm AUP của chúng tôi, bao gồm cả CSAM.
    • Chúng tôi đã phát triển một bộ phân loại hình ảnh NSFW để gắn cờ các lượt tải lên hình ảnh và video có thể vi phạm AUP và chặn mọi hoạt động tạo nội dung.
    • Stability AI so sánh tất cả các hình ảnh được tải lên với cơ sở dữ liệu băm về hình ảnh CSAM đã biết do nhà cung cấp dịch vụ bên thứ ba Thorn duy trì. Nếu người dùng cố gắng tải lên một hình ảnh khớp, hình ảnh đó sẽ bị từ chối.
  • Xem xét của Con người: Để cho phép chúng tôi giám sát hoạt động của người dùng, chúng tôi có một đội ngũ kiểm duyệt nội dung nội bộ và bên ngoài. Những người kiểm duyệt nội dung của chúng tôi xem xét các lời nhắc và hình ảnh được gắn cờ cũng như một tập hợp con nội dung không được gắn cờ, và áp dụng các hành động thực thi khi cần thiết. Khi CSAM được phát hiện trong tài khoản Stability AI của người dùng, chúng tôi sẽ thực hiện các hành động thích hợp, bao gồm gửi báo cáo CyberTipline tới NCMEC. Chúng tôi cũng có thể thực thi các biện pháp bổ sung đối với tài khoản, chẳng hạn như cảnh báo hoặc vô hiệu hóa hoàn toàn tài khoản. Các chuyên gia kiểm duyệt nội dung của chúng tôi cũng tương tác trực tiếp với khách hàng doanh nghiệp khi người dùng hạ nguồn cố gắng sử dụng sai sản phẩm của chúng tôi. Ví dụ, API của chúng tôi cho phép các doanh nghiệp cung cấp một mã định danh duy nhất giúp họ truy tìm hoạt động trở lại các người dùng cuối cụ thể và thực hiện hành động.

  • Thông báo và Kháng nghị: Chúng tôi tin vào giao tiếp minh bạch khi các hành động thực thi được thực hiện. Chúng tôi thông báo quyết định cho người dùng bằng văn bản, và cũng cung cấp cho người dùng tùy chọn để kháng nghị quyết định.

Báo cáo NCMEC

Stability AI cống hiến để chống lại CSAM trực tuyến, điều này bị cấm bởi AUP của chúng tôi. Chúng tôi báo cáo tất cả các trường hợp CSAM cho Trung tâm Quốc gia về Trẻ em Mất tích và Bị bóc lột (NCMEC), sau đó chuyển tiếp các báo cáo này đến các cơ quan thực thi pháp luật trên toàn cầu. Để duy trì cam kết này, các chính sách toàn diện và chương trình đào tạo nghiêm ngặt đã được thiết lập để đảm bảo mọi trường hợp CSAM được phát hiện thông qua API của chúng tôi đều được báo cáo kịp thời và chính xác cho NCMEC.

Tất cả nhân viên Liêm chính đều được đào tạo về việc xác định CSAM và các bước quan trọng để báo cáo ngay lập tức. Việc đào tạo này bao gồm các nghĩa vụ pháp lý liên quan đến việc phát hiện nó và các quy trình chính xác để gửi báo cáo cho NCMEC. Bằng cách hợp tác chặt chẽ với NCMEC, chúng tôi đang tích cực đóng góp vào cuộc chiến toàn cầu chống lại việc bóc lột trẻ em.

Số liệu NCMEC của chúng tôi cho kỳ báo cáo:

  • Tổng số báo cáo được gửi từ Stability AI đến NCMEC: 13

Lưu ý: Có thể gửi nhiều báo cáo cho cùng một người dùng, chẳng hạn như khi phát hiện nhiều lần thử tải lên hình ảnh.

Báo cáo của Người dùng

Bất kỳ ai cũng có thể báo cáo việc sử dụng sai mục đích mà họ nghi ngờ đang diễn ra trên nền tảng của chúng tôi và cung cấp phản hồi cho đội ngũ an toàn của chúng tôi.

Không có báo cáo nào của người dùng được gửi đến Stability AI về các vi phạm mô hình liên quan đến CSAM và CSEM.

Hợp tác

Chúng tôi đã thiết lập các hợp tác hàng đầu trong ngành và với chính phủ để ngăn chặn việc sử dụng sai mục đích, bao gồm:

  • Vào tháng 4 năm 2024, chúng tôi đã công bố cam kết tham gia Thorn và All Tech Is Human để thực hiện các cam kết về an toàn trẻ em cho Gen AI thông qua Safety by Design.
  • Vào tháng 7 năm 2024, chúng tôi đã công bố hợp tác với Tổ chức Giám sát Internet (IWF) để giải quyết việc tạo ra hình ảnh lạm dụng tình dục trẻ em do AI tạo ra trực tuyến.
  • Vào tháng 7 năm 2024, chúng tôi đã tham gia chương trình Pathways của Tech Coalition để nhận lời khuyên chuyên môn, tài nguyên và cơ hội nhằm tiếp tục xây dựng năng lực để chống lại việc bóc lột và lạm dụng tình dục trẻ em trực tuyến.

Nhìn về phía trước

Là một phần trong cam kết không ngừng của chúng tôi đối với việc phát triển và triển khai AI có trách nhiệm, chúng tôi đang tích cực thực hiện các bước để điều chỉnh các hoạt động của mình với các khuôn khổ AI có trách nhiệm mới nổi. Điều này bao gồm việc tiến hành kiểm toán nội bộ, cập nhật quy trình quản lý rủi ro, mở rộng quy mô công nghệ và tinh chỉnh các quy trình minh bạch, an toàn và giám sát của con người để đáp ứng các tiêu chuẩn đạo đức đang phát triển. Chúng tôi cũng đang theo dõi chặt chẽ các diễn biến pháp lý và sẽ tiếp tục điều chỉnh hệ thống, tài liệu và quy trình vận hành của mình để đảm bảo tuân thủ.

Bạn có thể đọc toàn bộ báo cáo bên dưới cũng như trên trang An toàn Trẻ em của chúng tôi.

Đọc báo cáo đầy đủ

Recommended for You

Giới thiệu Giám đốc Kiến trúc Quy trình mới của chúng tôi, Robert Legato

Giới thiệu Giám đốc Kiến trúc Quy trình mới của chúng tôi, Robert Legato

CEO của chúng tôi, Prem Akkaraju, hôm nay đã thông báo rằng Robert Legato sẽ gia nhập Stability AI với vai trò Giám đốc Kiến trúc Quy trình. Robert gia nhập với nền tảng sâu rộng trong ngành hiệu ứng hình ảnh (VFX) và giải trí. Ông là người tiên phong về hiệu ứng hình ảnh đằng sau các bộ phim huyền thoại như _Avatar_, _Titanic_, _The Lion King (2019)_ và _Jungle Book_.

Giới thiệu Tân Phó Chủ tịch, Trưởng phòng Sản phẩm, Ryan Ellis

Giới thiệu Tân Phó Chủ tịch, Trưởng phòng Sản phẩm, Ryan Ellis

CEO của chúng tôi, Prem Akkaraju, hôm nay đã thông báo rằng Ryan Ellis sẽ gia nhập Stability AI với vai trò Phó Chủ tịch, Trưởng phòng Sản phẩm. Ellis gia nhập từ Unity, nơi ông đã lãnh đạo phát triển sản phẩm cho công cụ 3D thời gian thực được sử dụng rộng rãi nhất thế giới, phục vụ 1,5 triệu nhà phát triển trong lĩnh vực trò chơi, ô tô, sản xuất và bán lẻ.