Chi phí ẩn khi triển khai AI- Tại sao các mô hình Claude có thể đắt hơn GPT từ 20-30% trong môi trường doanh nghiệp

Một bài viết về chi phí ẩn khi triển khai AI, đặc biệt là so sánh chi phí của các mô hình Claude với GPT trong môi trường doanh nghiệp.

  • 7 min read
Chi phí ẩn khi triển khai AI- Tại sao các mô hình Claude có thể đắt hơn GPT từ 20-30% trong môi trường doanh nghiệp
Một bài viết về chi phí ẩn khi triển khai AI, đặc biệt là so sánh chi phí của các mô hình Claude với GPT trong môi trường doanh nghiệp.

Chi phí ẩn khi triển khai AI: Tại sao các mô hình Claude có thể đắt hơn GPT từ 20-30% trong môi trường doanh nghiệp

Người ta đều biết rằng các họ mô hình khác nhau có thể sử dụng các trình mã hóa (tokenizer) khác nhau. Tuy nhiên, có rất ít phân tích về cách thức quá trình “mã hóa” khác nhau giữa các trình mã hóa này. Có phải tất cả các trình mã hóa đều tạo ra số lượng mã thông báo (token) giống nhau cho một văn bản đầu vào nhất định không? Nếu không, các mã thông báo được tạo ra khác nhau như thế nào? Sự khác biệt lớn đến mức nào?

Trong bài viết này, chúng ta sẽ khám phá những câu hỏi này và kiểm tra các tác động thực tế của sự biến đổi trong quá trình mã hóa. Chúng tôi trình bày một câu chuyện so sánh về hai họ mô hình hàng đầu: ChatGPT của OpenAI so với Claude của Anthropic. Mặc dù các số liệu “chi phí trên mỗi mã thông báo” được quảng cáo của họ có tính cạnh tranh cao, nhưng các thử nghiệm cho thấy các mô hình Anthropic có thể đắt hơn các mô hình GPT từ 20–30%.

Giá API — Claude 3.5 Sonnet so với GPT-4o

Tính đến tháng 6 năm 2024, cấu trúc giá cho hai mô hình tiên tiến hàng đầu này có tính cạnh tranh cao. Cả Claude 3.5 Sonnet của Anthropic và GPT-4o của OpenAI đều có chi phí giống hệt nhau cho mã thông báo đầu ra, trong khi Claude 3.5 Sonnet cung cấp chi phí thấp hơn 40% cho mã thông báo đầu vào.

Nguồn: Vantage

“Hiệu quả mã hóa” ẩn

Mặc dù tỷ lệ mã thông báo đầu vào của mô hình Anthropic thấp hơn, nhưng chúng tôi nhận thấy rằng tổng chi phí chạy các thử nghiệm (trên một tập hợp lời nhắc cố định nhất định) với GPT-4o rẻ hơn nhiều so với Claude Sonnet-3.5.

Tại sao?

Trình mã hóa Anthropic có xu hướng chia cùng một đầu vào thành nhiều mã thông báo hơn so với trình mã hóa của OpenAI. Điều này có nghĩa là, đối với các lời nhắc giống hệt nhau, các mô hình Anthropic tạo ra số lượng mã thông báo lớn hơn đáng kể so với các mô hình OpenAI. Do đó, trong khi chi phí trên mỗi mã thông báo cho đầu vào của Claude 3.5 Sonnet có thể thấp hơn, thì việc tăng cường mã hóa có thể bù đắp những khoản tiết kiệm này, dẫn đến chi phí tổng thể cao hơn trong các trường hợp sử dụng thực tế.

Chi phí ẩn này xuất phát từ cách trình mã hóa của Anthropic mã hóa thông tin, thường sử dụng nhiều mã thông báo hơn để biểu thị cùng một nội dung. Việc tăng số lượng mã thông báo có tác động đáng kể đến chi phí và việc sử dụng cửa sổ ngữ cảnh.

Tính không hiệu quả của mã hóa phụ thuộc vào lĩnh vực

Các loại nội dung miền khác nhau được mã hóa khác nhau bởi trình mã hóa của Anthropic, dẫn đến các mức tăng số lượng mã thông báo khác nhau so với các mô hình của OpenAI. Cộng đồng nghiên cứu AI đã ghi nhận những khác biệt tương tự trong quá trình mã hóa ở đây. Chúng tôi đã kiểm tra những phát hiện của mình trên ba miền phổ biến, cụ thể là: Bài viết tiếng Anh, mã (Python) và toán học.

% Chi phí mã thông báo của Trình mã hóa Claude 3.5 Sonnet (so với GPT-4o) Nguồn: Lavanya Gupta

Khi so sánh Claude 3.5 Sonnet với GPT-4o, mức độ không hiệu quả của trình mã hóa khác nhau đáng kể giữa các miền nội dung. Đối với các bài viết tiếng Anh, trình mã hóa của Claude tạo ra nhiều hơn khoảng 16% mã thông báo so với GPT-4o cho cùng một văn bản đầu vào. Chi phí này tăng mạnh với nội dung có cấu trúc hoặc kỹ thuật hơn: đối với các phương trình toán học, chi phí là 21% và đối với mã Python, Claude tạo ra nhiều hơn 30% mã thông báo.

Sự thay đổi này phát sinh vì một số loại nội dung, chẳng hạn như tài liệu kỹ thuật và mã, thường chứa các mẫu và ký hiệu mà trình mã hóa của Anthropic phân mảnh thành các phần nhỏ hơn, dẫn đến số lượng mã thông báo cao hơn. Ngược lại, nội dung ngôn ngữ tự nhiên có xu hướng thể hiện chi phí mã thông báo thấp hơn.

Các tác động thực tế khác của tính không hiệu quả của trình mã hóa

Ngoài tác động trực tiếp đến chi phí, còn có tác động gián tiếp đến việc sử dụng cửa sổ ngữ cảnh. Mặc dù các mô hình Anthropic tuyên bố một cửa sổ ngữ cảnh lớn hơn là 200 nghìn mã thông báo, trái ngược với 128 nghìn mã thông báo của OpenAI, do tính dài dòng, không gian mã thông báo có thể sử dụng hiệu quả có thể nhỏ hơn đối với các mô hình Anthropic. Do đó, có thể có một sự khác biệt nhỏ hoặc lớn trong kích thước cửa sổ ngữ cảnh “được quảng cáo” so với kích thước cửa sổ ngữ cảnh “hiệu quả”.

Triển khai trình mã hóa

Các mô hình GPT sử dụng mã hóa cặp byte (BPE), hợp nhất các cặp ký tự thường xuyên xuất hiện cùng nhau để tạo thành mã thông báo. Cụ thể, các mô hình GPT mới nhất sử dụng trình mã hóa o200k_base mã nguồn mở. Các mã thông báo thực tế được GPT-4o sử dụng (trong trình mã hóa tiktoken) có thể được xem tại đây.

 
{
    #reasoning
    "o1-xxx": "o200k_base",
    "o3-xxx": "o200k_base",

    # chat
    "chatgpt-4o-": "o200k_base",
    "gpt-4o-xxx": "o200k_base",  # e.g., gpt-4o-2024-05-13
    "gpt-4-xxx": "cl100k_base",  # e.g., gpt-4-0314, etc., plus gpt-4-32k
    "gpt-3.5-turbo-xxx": "cl100k_base",  # e.g, gpt-3.5-turbo-0301, -0401, etc.
}

Thật không may, không có nhiều điều có thể nói về trình mã hóa Anthropic vì trình mã hóa của họ không có sẵn trực tiếp và dễ dàng như GPT. Anthropic đã phát hành API Đếm mã thông báo của họ vào tháng 12 năm 2024. Tuy nhiên, nó đã sớm bị hủy bỏ trong các phiên bản năm 2025 sau đó.

Latenode báo cáo rằng “Anthropic sử dụng một trình mã hóa duy nhất chỉ với 65.000 biến thể mã thông báo, so với 100.261 biến thể mã thông báo của OpenAI cho GPT-4.” Notebook Colab này chứa mã Python để phân tích sự khác biệt về mã hóa giữa các mô hình GPT và Claude. Một công cụ khác cho phép giao tiếp với một số trình mã hóa có sẵn công khai phổ biến sẽ xác thực những phát hiện của chúng tôi.

Khả năng ước tính chủ động số lượng mã thông báo (mà không cần gọi API mô hình thực tế) và chi phí ngân sách là rất quan trọng đối với các doanh nghiệp AI.

Kết luận chính

  • Giá cả cạnh tranh của Anthropic đi kèm với chi phí ẩn: Trong khi Claude 3.5 Sonnet của Anthropic cung cấp chi phí mã thông báo đầu vào thấp hơn 40% so với GPT-4o của OpenAI, lợi thế chi phí rõ ràng này có thể gây hiểu nhầm do sự khác biệt trong cách mã hóa văn bản đầu vào.
  • “Tính không hiệu quả của trình mã hóa” ẩn: Các mô hình Anthropic vốn đã dài dòng hơn. Đối với các doanh nghiệp xử lý khối lượng lớn văn bản, việc hiểu sự khác biệt này là rất quan trọng khi đánh giá chi phí thực sự của việc triển khai mô hình.
  • Tính không hiệu quả của trình mã hóa phụ thuộc vào lĩnh vực: Khi lựa chọn giữa các mô hình OpenAI và Anthropic, hãy đánh giá bản chất văn bản đầu vào của bạn. Đối với các tác vụ ngôn ngữ tự nhiên, sự khác biệt về chi phí có thể là tối thiểu, nhưng các miền kỹ thuật hoặc có cấu trúc có thể dẫn đến chi phí cao hơn đáng kể với các mô hình Anthropic.
  • Cửa sổ ngữ cảnh hiệu quả: Do tính dài dòng của trình mã hóa Anthropic, cửa sổ ngữ cảnh 200 nghìn được quảng cáo lớn hơn có thể cung cấp không gian sử dụng hiệu quả ít hơn so với 128 nghìn của OpenAI, dẫn đến khoảng cách tiềm năng giữa cửa sổ ngữ cảnh được quảng cáo và thực tế.

Anthropic đã không trả lời các yêu cầu bình luận của VentureBeat trước thời hạn xuất bản. Chúng tôi sẽ cập nhật câu chuyện nếu họ trả lời.

Recommended for You

Microsoft ra mắt Phi-4-Reasoning-Plus, một mô hình suy luận trọng lượng mở nhỏ, mạnh mẽ!

Microsoft ra mắt Phi-4-Reasoning-Plus, một mô hình suy luận trọng lượng mở nhỏ, mạnh mẽ!

Microsoft ra mắt Phi-4-Reasoning-Plus, một mô hình suy luận trọng lượng mở nhỏ, mạnh mẽ.

AI lỏng đang cách mạng hóa LLM để hoạt động trên các thiết bị biên như điện thoại thông minh với mô hình 'Hyena Edge' mới

AI lỏng đang cách mạng hóa LLM để hoạt động trên các thiết bị biên như điện thoại thông minh với mô hình 'Hyena Edge' mới

Liquid AI đang cách mạng hóa LLM để hoạt động trên các thiết bị biên như điện thoại thông minh với mô hình 'Hyena Edge' mới