Cách tiếp cận của chúng tôi để hiểu và giải quyết các tác hại của AI

Anthropic trình bày chi tiết về cách tiếp cận của mình để hiểu và giải quyết các tác hại tiềm ẩn của AI, nhấn mạnh cam kết đối với sự an toàn và trách nhiệm.

  • 9 min read
Cách tiếp cận của chúng tôi để hiểu và giải quyết các tác hại của AI
Anthropic trình bày chi tiết về cách tiếp cận của mình để hiểu và giải quyết các tác hại tiềm ẩn của AI, nhấn mạnh cam kết đối với sự an toàn và trách nhiệm.
    <div class="post-hero">
        <img src="https://www-cdn.anthropic.com/images/4zrzovbb/website/ddad92700787ec1bf1d80359c0c5e6ca305682b0-1000x1000.svg" alt="Geometric staircase steps ascending vertically with incremental progression"/>
    </div>

    <article>
        <div>
            <div>
                <p>
                    Khi khả năng của AI ngày càng tiến bộ nhanh chóng, việc hiểu và giải quyết toàn bộ các tác động tiềm ẩn trở nên ngày càng quan trọng. Hôm nay, chúng tôi chia sẻ những hiểu biết về cách tiếp cận đang phát triển của chúng tôi để đánh giá và giảm thiểu các tác hại khác nhau có thể phát sinh từ các hệ thống của chúng tôi, từ các tình huống thảm khốc như các mối đe dọa sinh học đến các mối quan tâm quan trọng như an toàn trẻ em, thông tin sai lệch và gian lận.
                </p>
                <p>
                    Tại sao cách tiếp cận này lại quan trọng? Khi các mô hình tiếp tục phát triển, chúng ta cần những cách toàn diện hơn để suy nghĩ và quản lý các tác động tiềm ẩn của chúng. Chúng tôi tin rằng việc xem xét các loại tác hại khác nhau một cách có cấu trúc giúp chúng tôi hiểu rõ hơn về những thách thức phía trước và định hướng cho suy nghĩ của chúng tôi về việc phát triển AI có trách nhiệm.
                </p>
                <p>
                    Cách tiếp cận của chúng tôi bổ sung cho 
                    <a href="https://www-cdn.anthropic.com/17310f6d70ae5627f55313ed067afc1a762a4068.pdf">Chính sách Mở rộng Có Trách nhiệm (RSP)</a>
                    của chúng tôi, tập trung cụ thể vào các rủi ro thảm khốc. Việc xác định và giải quyết toàn bộ các tác động tiềm ẩn đòi hỏi một góc nhìn rộng hơn. Đó là lý do tại sao chúng tôi đã xây dựng một khuôn khổ toàn diện hơn để đánh giá tác hại mà chúng tôi có thể quản lý và giảm thiểu một cách tương xứng.
                </p>
                <p>
                    <em>
                        <br/>
                        <strong>*Lưu ý quan trọng</strong>: Cách tiếp cận này vẫn đang phát triển. Chúng tôi chia sẻ suy nghĩ hiện tại của mình đồng thời thừa nhận rằng nó sẽ tiếp tục phát triển khi chúng tôi tìm hiểu thêm. Chúng tôi hoan nghênh sự hợp tác từ khắp hệ sinh thái AI khi chúng tôi nỗ lực để các hệ thống này mang lại lợi ích cho nhân loại.
                    </em>
                </p>
                <h3 id="breaking-down-our-approach"><strong>Phân tích cách tiếp cận của chúng tôi:</strong></h3>
                <p>
                    Chúng tôi đã phát triển một phương pháp giúp các nhóm của chúng tôi giao tiếp rõ ràng, đưa ra quyết định hợp lý và phát triển các giải pháp cụ thể cho cả những tác hại đã biết và những tác hại mới phát sinh. Cách tiếp cận này được thiết kế vừa dựa trên nguyên tắc vừa có khả năng thích ứng để theo kịp với bối cảnh AI đang phát triển. Chúng tôi xem xét các tác động tiềm ẩn của AI trên nhiều chiều cơ bản, với không gian để phát triển và mở rộng theo thời gian:
                </p>
                <ul>
                    <li><strong>Tác động vật lý:</strong> Ảnh hưởng đến sức khỏe và thể chất.</li>
                    <li><strong>Tác động tâm lý:</strong> Ảnh hưởng đến sức khỏe tinh thần và chức năng nhận thức.</li>
                    <li><strong>Tác động kinh tế:</strong> Hậu quả tài chính và các vấn đề về tài sản.</li>
                    <li><strong>Tác động xã hội:</strong> Ảnh hưởng đến cộng đồng, tổ chức và các hệ thống chung.</li>
                    <li><strong>Tác động đến quyền tự chủ của cá nhân:</strong> Ảnh hưởng đến việc ra quyết định và quyền tự do cá nhân.</li>
                </ul>
                <p>
                    Đối với mỗi chiều, chúng tôi xem xét các yếu tố như khả năng xảy ra, quy mô, đối tượng bị ảnh hưởng, thời gian, nguyên nhân, sự đóng góp của công nghệ và tính khả thi của việc giảm thiểu. Điều này giúp chúng tôi hiểu được ý nghĩa thực tế của các tác động tiềm ẩn khác nhau.
                </p>
                <p>
                    Tùy thuộc vào loại và mức độ nghiêm trọng của tác hại, chúng tôi giải quyết và quản lý rủi ro thông qua nhiều chính sách và thực tiễn khác nhau, bao gồm phát triển và duy trì 
                    <a href="https://www.anthropic.com/legal/aup">Chính sách Sử dụng</a>
                    toàn diện, tiến hành 
                    <a href="https://assets.anthropic.com/m/785e231869ea8b3b/original/claude-3-7-sonnet-system-card.pdf">đánh giá</a> 
                    (bao gồm thử nghiệm đỏ và kiểm tra đối nghịch) trước và sau khi ra mắt, các 
                    <a href="https://www.anthropic.com/research/clio">kỹ thuật phát hiện</a> 
                    tinh vi để phát hiện việc lạm dụng và sử dụng sai mục đích, và 
                    <a href="https://www.anthropic.com/transparency/voluntary-commitments">thực thi nghiêm ngặt</a> 
                    từ sửa đổi lời nhắc đến chặn tài khoản. Góc nhìn này giúp chúng tôi cân bằng nhiều yếu tố: giải quyết tác hại bằng các biện pháp bảo vệ tương xứng trong khi vẫn duy trì tính hữu ích và chức năng của hệ thống trong các trường hợp sử dụng hàng ngày. Chúng tôi mong muốn chia sẻ thêm về công việc này trong tương lai gần.
                </p>
                <h3 id="some-examples-of-how-weve-used-our-framework-to-inform-our-understanding-of-harm"><strong>Một số ví dụ về cách chúng tôi đã sử dụng khuôn khổ của mình để hiểu rõ hơn về tác hại:</strong></h3>
                <p>
                    Khi khám phá các khả năng hoặc tính năng mới, chúng tôi xem xét cách chúng có thể đưa ra các cân nhắc bổ sung trên các chiều tác hại khác nhau. Ví dụ:
                    <br/><br/>
                    <strong>Sử dụng Máy tính:</strong> Khi các mô hình của chúng tôi phát triển khả năng tương tác với giao diện máy tính, chúng tôi xem xét các yếu tố như các loại phần mềm mà hệ thống AI có thể tương tác và bối cảnh mà các tương tác này xảy ra, điều này giúp chúng tôi xác định nơi có thể có lợi cho các biện pháp bảo vệ bổ sung. Đối với việc sử dụng máy tính, chúng tôi đặc biệt xem xét nhiều rủi ro bao gồm cả những rủi ro liên quan đến phần mềm tài chính và nền tảng ngân hàng, nơi tự động hóa trái phép có thể tạo điều kiện thuận lợi cho gian lận hoặc thao túng, và các công cụ giao tiếp, nơi hệ thống AI có thể được sử dụng cho các chiến dịch ảnh hưởng nhắm mục tiêu hoặc các chiến dịch lừa đảo. Phân tích này giúp chúng tôi phát triển các phương pháp duy trì tiện ích của các khả năng này đồng thời tích hợp giám sát và thực thi phù hợp để ngăn chặn việc sử dụng sai mục đích. Ví dụ, công việc ban đầu của chúng tôi về chức năng sử dụng máy tính đã dẫn chúng tôi thiết kế các ngưỡng thực thi nghiêm ngặt hơn và sử dụng các phương pháp thực thi mới lạ như 
                    <a href="https://alignment.anthropic.com/2025/summarization-for-monitoring/">tóm tắt phân cấp</a> 
                    cho phép chúng tôi phát hiện tác hại trong khi vẫn duy trì các tiêu chuẩn về quyền riêng tư của chúng tôi.
                </p>
                <p>
                    <strong>Giới hạn Phản hồi của Mô hình:</strong> Khi xem xét cách mô hình nên phản hồi các loại yêu cầu khác nhau của người dùng, chúng tôi nhận thấy giá trị trong việc xem xét sự đánh đổi giữa tính hữu ích và các giới hạn phù hợp. Các mô hình được đào tạo để hữu ích và phản hồi nhanh hơn với các yêu cầu của người dùng cũng có thể có xu hướng hành vi có hại (ví dụ: chia sẻ thông tin vi phạm AUP của chúng tôi hoặc có thể bị sử dụng theo những cách nguy hiểm). Ngược lại, các mô hình tập trung quá mức vào sự vô hại có xu hướng không chia sẻ bất kỳ thông tin nào với người dùng, ngay cả khi yêu cầu là vô hại. Bằng cách xem xét cả tác động cá nhân và xã hội, chúng ta có thể hiểu rõ hơn về nơi cần tập trung các đánh giá và đào tạo an toàn của mình. Ví dụ, với Claude 3.7 Sonnet, chúng tôi đã đánh giá các loại yêu cầu khác nhau dọc theo phổ này và cải thiện cách mô hình của chúng tôi xử lý các lời nhắc mơ hồ bằng cách khuyến khích các phản hồi an toàn, hữu ích thay vì chỉ từ chối tham gia. Điều này dẫn đến giảm 45% các lần từ chối không cần thiết trong khi vẫn duy trì các biện pháp bảo vệ mạnh mẽ chống lại nội dung thực sự có hại. Cách tiếp cận này giúp chúng tôi đưa ra các quyết định tinh tế hơn về hành vi của mô hình, đặc biệt trong các tình huống mà các nhóm dân số dễ bị tổn thương nhất định—như trẻ em, cộng đồng thiểu số hoặc những người đang gặp khủng hoảng—có thể có nguy cơ cao hơn.
                </p>
                <h3 id="looking-ahead"><strong>Nhìn về phía trước</strong></h3>
                <p>
                    Vẫn còn rất nhiều việc phải làm. Cách tiếp cận của chúng tôi để hiểu và giải quyết các tác hại chỉ là một yếu tố đầu vào cho chiến lược an toàn tổng thể của chúng tôi, nhưng chúng tôi nghĩ rằng nó đại diện cho một bước đi hữu ích hướng tới tư duy có hệ thống hơn về các tác động của AI.
                </p>
                <p>
                    Khi các hệ thống AI trở nên có khả năng hơn, chúng tôi mong đợi những thách thức mới sẽ xuất hiện mà chúng tôi chưa lường trước được. Chúng tôi cam kết phát triển cách tiếp cận của mình song song với những diễn biến này, bao gồm cả việc điều chỉnh các khuôn khổ, tinh chỉnh các phương pháp đánh giá và học hỏi từ cả những thành công và thất bại trong quá trình này.
                </p>
                <p>
                    Chúng tôi biết rằng chúng tôi không thể làm việc này một mình. Chúng tôi mời các nhà nghiên cứu, chuyên gia chính sách và đối tác ngành hợp tác với chúng tôi khi chúng tôi tiếp tục khám phá những câu hỏi quan trọng này. Bạn có thể liên hệ với chúng tôi về các vấn đề này qua 
                    <a href="mailto:usersafety@anthropic.com">usersafety@anthropic.com</a>.
                </p>
                <p><br/></p>
            </div>
        </div>
    </article>

    <div class="social-share">
        <a href="https://twitter.com/intent/tweet?text=https://www.anthropic.com/news/our-approach-to-understanding-and-addressing-ai-harms" target="_blank" rel="noopener" aria-label="Share on Twitter">
            <svg width="32" height="32" viewBox="0 0 32 32">
                <path d="M28 28L18.6145 14.0124L18.6305 14.0255L27.0929 4H24.265L17.3713 12.16L11.8968 4H4.48021L13.2425 17.0593L13.2414 17.0582L4 28H6.82792L14.4921 18.9215L20.5834 28H28ZM10.7763 6.18182L23.9449 25.8182H21.7039L8.52468 6.18182H10.7763Z" fill="#191919"></path>
            </svg>
        </a>
        <a href="https://www.linkedin.com/shareArticle?mini=true&amp;url=https://www.anthropic.com/news/our-approach-to-understanding-and-addressing-ai-harms" target="_blank" rel="noopener" aria-label="Share on LinkedIn">
            <svg width="32" height="32" viewBox="0 0 32 32">
                <path d="M25.8182 4H6.18182C4.97636 4 4 4.97636 4 6.18182V25.8182C4 27.0236 4.97636 28 6.18182 28H25.8182C27.0236 28 28 27.0236 28 25.8182V6.18182C28 4.97636 27.0236 4 25.8182 4ZM11.5862 23.6364H8.368V13.2815H11.5862V23.6364ZM9.94436 11.8011C8.90691 11.8011 8.068 10.96 8.068 9.92473C8.068 8.88945 8.908 8.04945 9.94436 8.04945C10.9785 8.04945 11.8196 8.89055 11.8196 9.92473C11.8196 10.96 10.9785 11.8011 9.94436 11.8011ZM23.6407 23.6364H20.4247V18.6007C20.4247 17.3996 20.4029 15.8549 18.7524 15.8549C17.0778 15.8549 16.8204 17.1629 16.8204 18.5135V23.6364H13.6044V13.2815H16.6916V14.6964H16.7353C17.1651 13.8825 18.2145 13.024 19.78 13.024C23.0385 13.024 23.6407 15.1687 23.6407 17.9571V23.6364Z" fill="#141413"></path>
            </svg>
        </a>
    </div>

    <section>
        <div>
            <div>
                <a href="/news/new-offices-in-paris-and-munich-expand-european-presence">
                    <div>
                        <div>
                            <div>
                                <p>News</p>
                                <h3>New offices in Paris and Munich expand Anthropic’s European presence</h3>
                            </div>
                            <p>Nov 07, 2025</p>
                        </div>
                    </div>
                </a>
                <a href="/news/economic-futures-uk-europe">
                    <div>
                        <div>
                            <div>
                                <p>News</p>
                                <h3>Launching the Anthropic Economic Futures Programme in the UK and Europe</h3>
                            </div>
                            <p>Nov 05, 2025</p>
                        </div>
                    </div>
                </a>
                <a href="/news/anthropic-and-iceland-announce-one-of-the-world-s-first-national-ai-education-pilots">
                    <div>
                        <div>
                            <div>
                                <p>News</p>
                                <h3>Anthropic and Iceland announce one of the world’s first national AI education pilots</h3>
                            </div>
                            <p>Nov 04, 2025</p>
                        </div>
                    </div>
                </a>
            </div>
        </div>
    </section>
</article>

Recommended for You

Anthropic Ký cam kết của Nhà Trắng với Thanh niên Hoa Kỳ- Đầu tư vào Giáo dục AI

Anthropic Ký cam kết của Nhà Trắng với Thanh niên Hoa Kỳ- Đầu tư vào Giáo dục AI

Anthropic tham gia cùng Nhà Trắng và các tổ chức khác trong cam kết đầu tư vào giáo dục AI cho giới trẻ Mỹ, thúc đẩy tương lai của lực lượng lao động.

Anthropic bổ nhiệm Guillaume Princen làm Trưởng bộ phận EMEA và công bố hơn 100 vị trí mới trong khu vực

Anthropic bổ nhiệm Guillaume Princen làm Trưởng bộ phận EMEA và công bố hơn 100 vị trí mới trong khu vực

Anthropic chào đón Guillaume Princen đảm nhận vai trò Trưởng bộ phận EMEA, đồng thời công bố kế hoạch tuyển dụng mở rộng trong khu vực.