BigQuery lớn hơn 5 lần so với Snowflake và Databricks Google đang làm gì để làm cho nó tốt hơn nữa

BigQuery lớn hơn 5 lần so với Snowflake và Databricks Đây là những gì Google đang làm để làm cho nó tốt hơn nữa.

  • 12 min read
BigQuery lớn hơn 5 lần so với Snowflake và Databricks Google đang làm gì để làm cho nó tốt hơn nữa
BigQuery lớn hơn 5 lần so với Snowflake và Databricks Đây là những gì Google đang làm để làm cho nó tốt hơn nữa.

BigQuery lớn hơn Snowflake và Databricks gấp 5 lần: Google đang làm gì để làm cho nó tốt hơn nữa

Google Cloud đã công bố một số lượng lớn các tính năng mới tại sự kiện Google Cloud Next tuần trước, với ít nhất 229 thông báo mới.

Ẩn trong núi tin tức đó, bao gồm các chip AI mới và khả năng AI agentic, cũng như các bản cập nhật cơ sở dữ liệu, Google Cloud cũng đã thực hiện một số động thái lớn với dịch vụ kho dữ liệu BigQuery của mình. Trong số các khả năng mới là BigQuery Unified Governance, giúp các tổ chức khám phá, hiểu và tin tưởng tài sản dữ liệu của họ. Các công cụ quản trị giúp giải quyết các rào cản chính đối với việc áp dụng AI bằng cách đảm bảo chất lượng, khả năng truy cập và độ tin cậy của dữ liệu.

Rủi ro là rất lớn đối với Google khi hãng cạnh tranh với các đối thủ trong không gian dữ liệu doanh nghiệp.

BigQuery đã có mặt trên thị trường từ năm 2011 và đã phát triển đáng kể trong những năm gần đây, cả về khả năng và cơ sở người dùng. Rõ ràng, BigQuery cũng là một hoạt động kinh doanh lớn của Google Cloud. Trong Google Cloud Next, lần đầu tiên người ta tiết lộ quy mô kinh doanh thực sự lớn đến mức nào. Theo Google, BigQuery có số lượng khách hàng gấp 5 lần so với cả Snowflake và Databricks.

Yasmeen Ahmad, giám đốc điều hành phân tích dữ liệu tại Google Cloud, nói với VentureBeat: “Đây là năm đầu tiên chúng tôi được phép đăng thống kê về khách hàng, điều này thật thú vị đối với tôi. Databricks và Snowflake, chúng là những nền tảng kho dữ liệu doanh nghiệp duy nhất khác trên thị trường. Chúng tôi có số lượng khách hàng gấp 5 lần so với bất kỳ nền tảng nào trong số đó.”

Google đang cải thiện BigQuery như thế nào để thúc đẩy việc áp dụng trong doanh nghiệp?

Mặc dù Google hiện tuyên bố có cơ sở người dùng rộng lớn hơn các đối thủ, nhưng hãng cũng không hề chùn bước. Trong những tháng gần đây, và đặc biệt là tại Google Cloud Next, hyperscaler đã công bố nhiều khả năng mới để thúc đẩy việc áp dụng trong doanh nghiệp.

Một thách thức quan trọng đối với AI doanh nghiệp là có quyền truy cập vào dữ liệu chính xác đáp ứng các thỏa thuận cấp độ dịch vụ (SLA) kinh doanh. Theo nghiên cứu của Gartner do Google trích dẫn, các tổ chức không cho phép và hỗ trợ các trường hợp sử dụng AI của họ thông qua thực hành dữ liệu sẵn sàng cho AI sẽ thấy hơn 60% dự án AI không đáp ứng được SLA kinh doanh và bị từ bỏ.

Thách thức này xuất phát từ ba vấn đề dai dẳng đang gây khó khăn cho việc quản lý dữ liệu doanh nghiệp:

  1. Các silo dữ liệu bị phân mảnh
  2. Các yêu cầu thay đổi nhanh chóng
  3. Các văn hóa dữ liệu tổ chức không nhất quán, nơi các nhóm không chia sẻ ngôn ngữ chung về dữ liệu.

Giải pháp BigQuery Unified Governance của Google thể hiện một sự khác biệt đáng kể so với các phương pháp tiếp cận truyền thống bằng cách nhúng các khả năng quản trị trực tiếp vào nền tảng BigQuery thay vì yêu cầu các công cụ hoặc quy trình riêng biệt.

BigQuery Unified Governance: Đi sâu vào kỹ thuật

Cốt lõi của thông báo của Google là BigQuery Unified Governance, được hỗ trợ bởi danh mục phổ quát BigQuery mới. Không giống như các danh mục truyền thống chỉ chứa thông tin cơ bản về bảng và cột, danh mục phổ quát tích hợp ba loại siêu dữ liệu riêng biệt:

  1. Siêu dữ liệu vật lý/kỹ thuật: Định nghĩa lược đồ, kiểu dữ liệu và thống kê lập hồ sơ.
  2. Siêu dữ liệu kinh doanh: Các thuật ngữ trong bảng chú giải thuật ngữ kinh doanh, mô tả và ngữ cảnh ngữ nghĩa.
  3. Siêu dữ liệu thời gian chạy: Các mẫu truy vấn, thống kê sử dụng và thông tin cụ thể về định dạng cho các công nghệ như Apache Iceberg.

Phương pháp hợp nhất này cho phép BigQuery duy trì sự hiểu biết toàn diện về các tài sản dữ liệu trên toàn doanh nghiệp. Điều khiến hệ thống này trở nên đặc biệt mạnh mẽ là cách Google đã tích hợp Gemini, mô hình AI tiên tiến của mình, trực tiếp vào lớp quản trị thông qua cái mà họ gọi là công cụ tri thức.

Công cụ tri thức chủ động tăng cường khả năng quản trị bằng cách khám phá các mối quan hệ giữa các bộ dữ liệu, làm phong phú siêu dữ liệu bằng ngữ cảnh kinh doanh và tự động theo dõi chất lượng dữ liệu.

Các khả năng chính bao gồm tìm kiếm ngữ nghĩa với khả năng hiểu ngôn ngữ tự nhiên, tạo siêu dữ liệu tự động, khám phá mối quan hệ do AI hỗ trợ, các sản phẩm dữ liệu để đóng gói các tài sản liên quan, bảng chú giải thuật ngữ kinh doanh, lập danh mục tự động cả dữ liệu có cấu trúc và phi cấu trúc, và phát hiện bất thường tự động.

Hãy quên đi các điểm chuẩn, AI doanh nghiệp là một vấn đề lớn hơn

Chiến lược của Google vượt xa cuộc cạnh tranh mô hình AI.

Ahmad nói: “Tôi nghĩ rằng có quá nhiều ngành chỉ tập trung vào việc đứng đầu bảng xếp hạng cá nhân đó, và thực tế là Google đang suy nghĩ một cách toàn diện về vấn đề này.”

Phương pháp toàn diện này giải quyết toàn bộ vòng đời dữ liệu của doanh nghiệp, trả lời các câu hỏi quan trọng như: Làm thế nào để bạn mang lại sự tin cậy? Làm thế nào để bạn mang lại quy mô? Làm thế nào để bạn mang lại khả năng quản trị và bảo mật?

Bằng cách đổi mới ở mỗi lớp của ngăn xếp và kết hợp những đổi mới này lại với nhau, Google đã tạo ra thứ mà Ahmad gọi là vòng quay kích hoạt dữ liệu theo thời gian thực, nơi ngay khi dữ liệu được thu thập, bất kể loại hoặc định dạng hoặc nơi nó được lưu trữ, sẽ có khả năng tạo siêu dữ liệu, dòng dõi và chất lượng tức thì.

Tuy nhiên, các mô hình vẫn quan trọng. Ahmad giải thích rằng với sự ra đời của các mô hình tư duy như Gemini 2.0, đã có một sự mở khóa lớn cho các nền tảng dữ liệu của Google.

Bà nói: “Một năm trước, khi bạn yêu cầu GenAI trả lời một câu hỏi kinh doanh, bất kỳ điều gì trở nên phức tạp hơn một chút, bạn thực sự cần phải chia nhỏ nó thành nhiều bước. Đột nhiên, với mô hình tư duy, nó có thể đưa ra một kế hoạch… bạn không cần phải mã hóa cứng một cách để nó xây dựng một kế hoạch. Nó biết cách xây dựng các kế hoạch.”

Do đó, bà cho biết rằng giờ đây bạn có thể dễ dàng có một agent kỹ thuật dữ liệu xây dựng một pipeline gồm ba bước hoặc 10 bước. Việc tích hợp với các khả năng AI của Google đã thay đổi những gì có thể thực hiện được với dữ liệu doanh nghiệp.

Tác động thực tế: Các doanh nghiệp đang hưởng lợi như thế nào?

Levi Strauss & Company đưa ra một ví dụ hấp dẫn về cách quản trị dữ liệu thống nhất có thể chuyển đổi các hoạt động kinh doanh. Công ty 172 năm tuổi này đang sử dụng các khả năng quản trị dữ liệu của Google khi công ty chuyển từ chủ yếu là một doanh nghiệp bán buôn sang trở thành một thương hiệu trực tiếp đến người tiêu dùng. Trong một phiên tại Google Cloud Next, Vinay Narayana, người điều hành kỹ thuật nền tảng dữ liệu và AI tại Levi’s, đã trình bày chi tiết về trường hợp sử dụng của tổ chức mình.

Narayana nói: “Chúng tôi mong muốn trao quyền cho các nhà phân tích kinh doanh của mình có quyền truy cập vào dữ liệu thời gian thực cũng chính xác. Trước khi chúng tôi bắt tay vào hành trình xây dựng một nền tảng mới, chúng tôi đã phát hiện ra nhiều thách thức khác nhau của người dùng. Người dùng doanh nghiệp của chúng tôi không biết dữ liệu nằm ở đâu và nếu họ biết nguồn dữ liệu, họ không biết ai sở hữu nó. Nếu bằng cách nào đó họ có quyền truy cập, thì không có tài liệu nào.”

Levi’s đã xây dựng một nền tảng dữ liệu trên Google Cloud, nền tảng này tổ chức các sản phẩm dữ liệu theo miền kinh doanh, giúp chúng có thể khám phá thông qua Analytics Hub (thị trường dữ liệu của Google). Mỗi sản phẩm dữ liệu đi kèm với tài liệu chi tiết, thông tin dòng dõi và số liệu chất lượng.

Kết quả rất ấn tượng: Narayana nói: “Chúng tôi nhanh hơn 50 lần so với nền tảng dữ liệu kế thừa của mình và đây là ở mức thấp. Một số lượng đáng kể các hình ảnh trực quan nhanh hơn 100 lần. Chúng tôi có hơn 700 người dùng đã sử dụng nền tảng này hàng ngày.”

Một ví dụ khác đến từ Verizon, công ty đang sử dụng các công cụ quản trị của Google như một phần của sáng kiến One Verizon Data để thống nhất dữ liệu bị cô lập trước đó trên các đơn vị kinh doanh.

Arvind Rajagopalan, AVP kỹ thuật, kiến trúc và sản phẩm dữ liệu tại Verizon, cho biết trong một phiên họp tại Google Cloud Next: “Đây sẽ là kho dữ liệu viễn thông lớn nhất ở Bắc Mỹ chạy trên BigQuery.”

Tài sản dữ liệu của công ty rất lớn, bao gồm 3.500 người dùng chạy khoảng 50 triệu truy vấn, 35.000 pipeline dữ liệu và hơn 40 petabyte dữ liệu.

Trong một phiên nổi bật tại Google Cloud Next, Ahmad cũng đã cung cấp nhiều ví dụ khác về người dùng. Radisson Hotel Group đã cá nhân hóa quảng cáo của họ ở quy mô lớn, đào tạo các mô hình Gemini trên dữ liệu BigQuery. Các nhóm đã trải qua sự gia tăng 50% về năng suất, trong khi doanh thu từ các chiến dịch do AI cung cấp đã tăng hơn 20%. Gordon Food Service đã di chuyển sang BigQuery, đảm bảo dữ liệu của họ đã sẵn sàng cho AI và tăng mức độ chấp nhận của các ứng dụng hướng đến khách hàng lên 96%.

Sự khác biệt “lớn” là gì: Khám phá bối cảnh cạnh tranh

Có nhiều nhà cung cấp trong không gian kho dữ liệu doanh nghiệp, bao gồm Databricks, Snowflake, Microsoft với Synapse và Amazon với Redshift. Tất cả các nhà cung cấp này đã phát triển các hình thức tích hợp AI khác nhau trong những năm gần đây.

Databricks có một nền tảng lakehouse dữ liệu toàn diện và đã mở rộng các khả năng AI của riêng mình, một phần nhờ vào việc mua lại Mosaic với giá 1,3 tỷ đô la. Amazon Redshift đã thêm hỗ trợ cho AI tổng hợp vào năm 2023, với Amazon Q giúp người dùng xây dựng các truy vấn và có được câu trả lời tốt hơn. Về phần mình, Snowflake đã bận rộn phát triển các công cụ và hợp tác với các nhà cung cấp mô hình ngôn ngữ lớn (LLM), bao gồm Anthropic.

Khi được hỏi về so sánh cụ thể với các sản phẩm của Microsoft, Ahmad cho rằng Synapse không phải là một nền tảng dữ liệu doanh nghiệp cho các loại trường hợp sử dụng mà khách hàng sử dụng BigQuery.

Bà nói: “Tôi nghĩ rằng chúng tôi đã vượt qua toàn bộ ngành, bởi vì chúng tôi đã làm việc trên tất cả các phần. Nhân tiện, chúng tôi có mô hình tốt nhất, đó là mô hình tốt nhất được tích hợp trong một ngăn xếp dữ liệu hiểu cách các agent hoạt động.”

Sự tích hợp này đã thúc đẩy việc áp dụng nhanh chóng các khả năng AI trong BigQuery. Theo Google, việc khách hàng sử dụng các mô hình AI của Google trong BigQuery để phân tích đa phương thức đã tăng gấp 16 lần so với năm trước.

Điều này có ý nghĩa gì đối với các doanh nghiệp áp dụng AI?

Đối với các doanh nghiệp vốn đã gặp khó khăn với việc triển khai AI, phương pháp tiếp cận quản trị tích hợp của Google có thể cung cấp một con đường hợp lý hơn để thành công so với việc chắp vá các hệ thống quản lý dữ liệu và AI riêng biệt.

Tuyên bố của Ahmad rằng Google đã “vượt qua” các đối thủ cạnh tranh trong không gian này sẽ phải đối mặt với sự giám sát khi các tổ chức đưa những khả năng mới này vào hoạt động. Tuy nhiên, các ví dụ về khách hàng và các chi tiết kỹ thuật cho thấy Google đã đạt được tiến bộ đáng kể trong việc giải quyết một trong những khía cạnh khó khăn nhất của việc áp dụng AI doanh nghiệp.

Đối với những người ra quyết định kỹ thuật đánh giá các nền tảng dữ liệu, các câu hỏi chính sẽ là liệu phương pháp tiếp cận tích hợp này có mang lại giá trị bổ sung đầy đủ để biện minh cho việc di chuyển từ các khoản đầu tư hiện có vào các nền tảng chuyên dụng, chẳng hạn như Snowflake hoặc Databricks hay không và liệu Google có thể duy trì tốc độ đổi mới hiện tại của mình khi các đối thủ cạnh tranh phản hồi.

Recommended for You

Cách mã hóa lại dữ liệu đang tái tạo bảo mật dữ liệu trong kỷ nguyên AI

Cách mã hóa lại dữ liệu đang tái tạo bảo mật dữ liệu trong kỷ nguyên AI

Leon Bian của Capital One Software giải thích cách mã hóa lại dữ liệu cung cấp một phương pháp mới về quyền riêng tư và bảo mật dữ liệu, đồng thời vẫn cho phép các nhóm khai thác giá trị dữ liệu.

Giới thiệu Gemini 2.5 Flash

Giới thiệu Gemini 2.5 Flash

Gemini 2.5 Flash là mô hình suy luận hoàn toàn kết hợp đầu tiên của chúng tôi, cho phép các nhà phát triển bật hoặc tắt khả năng suy nghĩ.