Nghiên cứu cảnh báo về các rủi ro bảo mật khi 'tác nhân hệ điều hành' giành quyền kiểm soát máy tính và điện thoại

Không có mô tả ngắn gọn

August 12, 2025
10 min read

Nghiên cứu cảnh báo về các rủi ro bảo mật khi 'tác nhân hệ điều hành' giành quyền kiểm soát máy tính và điện thoại — Không có mô tả ngắn gọn

Nghiên cứu cảnh báo về rủi ro bảo mật khi ‘OS agent’ giành quyền kiểm soát máy tính và điện thoại

Nghiên cứu mới tiết lộ cách các OS agent — hệ thống AI kiểm soát máy tính như con người — đang phát triển nhanh chóng đồng thời làm tăng những lo ngại nghiêm trọng về bảo mật và quyền riêng tư.

Các nhà nghiên cứu đã công bố khảo sát toàn diện nhất cho đến nay về cái gọi là “OS Agent” — các hệ thống trí tuệ nhân tạo có thể tự động kiểm soát máy tính, điện thoại di động và trình duyệt web bằng cách tương tác trực tiếp với giao diện của chúng. Bản đánh giá học thuật dài 30 trang, được chấp nhận xuất bản tại hội nghị Hiệp hội Ngôn ngữ học Tính toán uy tín, vạch ra một lĩnh vực đang phát triển nhanh chóng đã thu hút hàng tỷ đô la đầu tư từ các công ty công nghệ lớn.

“Ước mơ tạo ra các trợ lý AI có khả năng và linh hoạt như J.A.R.V.I.S hư cấu từ Iron Man từ lâu đã thu hút trí tưởng tượng,” các nhà nghiên cứu viết. “Với sự phát triển của các mô hình ngôn ngữ lớn (đa phương thức) ((M)LLMs), giấc mơ này đang đến gần hơn với thực tế.”

Các công ty công nghệ lớn đang chạy đua triển khai các OS Agent AI có thể thực hiện các tác vụ kỹ thuật số phức tạp. OpenAI gần đây đã ra mắt “Operator,” Anthropic phát hành “Computer Use,” Apple giới thiệu các khả năng AI nâng cao trong “Apple Intelligence,” và Google tiết lộ “Project Mariner” — tất cả các hệ thống được thiết kế để tự động hóa các tương tác trên máy tính.

OS agents work by observing computer screens and system data, then executing actions like clicks and swipes across mobile, desktop and web platforms. The systems must understand interfaces, plan multi-step tasks and translate those plans into executable code. (Credit: GitHub)

Các gã khổng lồ công nghệ đổ xô triển khai AI kiểm soát máy tính để bàn của bạn

Tốc độ mà nghiên cứu học thuật đã chuyển đổi thành các sản phẩm sẵn sàng cho người tiêu dùng là chưa từng có, ngay cả theo tiêu chuẩn của Thung lũng Silicon. Bản khảo sát tiết lộ một sự bùng nổ nghiên cứu: hơn 60 mô hình nền tảng và 50 khung OS Agent được phát triển dành riêng cho việc điều khiển máy tính, với tỷ lệ xuất bản tăng tốc đáng kể kể từ năm 2023.

AI Scaling Hits Its Limits

Power caps, rising token costs, and inference delays are reshaping enterprise AI. Join our exclusive salon to discover how top teams are:

Turning energy into a strategic advantage
Architecting efficient inference for real throughput gains
Unlocking competitive ROI with sustainable AI systems

Secure your spot to stay ahead: https://bit.ly/4mwGngO

Đây không chỉ là tiến bộ gia tăng. Chúng ta đang chứng kiến sự xuất hiện của các hệ thống AI có thể thực sự hiểu và thao tác thế giới kỹ thuật số theo cách con người làm. Các hệ thống hiện tại hoạt động bằng cách chụp ảnh màn hình máy tính, sử dụng thị giác máy tính tiên tiến để hiểu những gì được hiển thị, sau đó thực hiện các hành động chính xác như nhấp vào nút, điền vào biểu mẫu và điều hướng giữa các ứng dụng.

“OS Agent có thể hoàn thành nhiệm vụ một cách tự động và có khả năng nâng cao đáng kể cuộc sống của hàng tỷ người dùng trên toàn thế giới,” các nhà nghiên cứu lưu ý. “Hãy tưởng tượng một thế giới nơi các tác vụ như mua sắm trực tuyến, đặt chỗ đi lại và các hoạt động hàng ngày khác có thể được thực hiện liền mạch bởi các OS Agent này.”

Các hệ thống phức tạp nhất có thể xử lý các quy trình làm việc nhiều bước phức tạp trải dài trên các ứng dụng khác nhau — đặt chỗ nhà hàng, sau đó tự động thêm nó vào lịch của bạn, sau đó đặt lời nhắc để khởi hành sớm vì giao thông. Những gì con người mất vài phút nhấp và gõ giờ có thể xảy ra trong vài giây, mà không cần sự can thiệp của con người.

The development of AI agents requires a complex training pipeline that combines multiple approaches, from initial pre-training on screen data to reinforcement learning that optimizes performance through trial and error. (Credit: arxiv.org)

Tại sao các chuyên gia bảo mật đang gióng lên hồi chuông cảnh báo về các hệ thống doanh nghiệp do AI kiểm soát

Đối với các nhà lãnh đạo công nghệ doanh nghiệp, lời hứa về tăng năng suất đi kèm với một thực tế đáng lo ngại: các hệ thống này đại diện cho một bề mặt tấn công hoàn toàn mới mà hầu hết các tổ chức chưa chuẩn bị để phòng thủ.

Các nhà nghiên cứu dành sự chú ý đáng kể cho những gì họ gọi một cách ngoại giao là các mối quan tâm về an toàn và quyền riêng tư, nhưng những tác động còn đáng báo động hơn so với ngôn ngữ học thuật của họ. “OS Agent phải đối mặt với những rủi ro này, đặc biệt là khi xem xét các ứng dụng rộng rãi của nó trên các thiết bị cá nhân có dữ liệu người dùng,” họ viết.

Các phương pháp tấn công mà họ ghi lại giống như một cơn ác mộng về an ninh mạng. Web Indirect Prompt Injection cho phép các tác nhân độc hại nhúng các hướng dẫn ẩn vào các trang web có thể chiếm quyền điều khiển hành vi của OS Agent AI. Đáng lo ngại hơn nữa là “các cuộc tấn công tiêm nhiễm môi trường” nơi nội dung web có vẻ vô hại có thể đánh lừa OS Agent đánh cắp dữ liệu người dùng hoặc thực hiện các hành động trái phép.

Hãy xem xét những tác động: một OS Agent AI có quyền truy cập vào email công ty, hệ thống tài chính và cơ sở dữ liệu khách hàng của bạn có thể bị thao túng bởi một trang web được tạo cẩn thận để lọc thông tin nhạy cảm. Các mô hình bảo mật truyền thống, được xây dựng xung quanh những người dùng có thể phát hiện các nỗ lực lừa đảo rõ ràng, bị phá vỡ khi “người dùng” là một hệ thống AI xử lý thông tin khác nhau.

Cuộc khảo sát tiết lộ một khoảng cách đáng lo ngại trong sự chuẩn bị. Mặc dù các khung bảo mật chung tồn tại cho OS Agent AI, “các nghiên cứu về các biện pháp bảo vệ cụ thể cho OS Agent vẫn còn hạn chế.” Đây không chỉ là một mối quan tâm học thuật — đó là một thách thức trước mắt đối với bất kỳ tổ chức nào đang cân nhắc việc triển khai các hệ thống này.

Kiểm tra thực tế: Các OS Agent AI hiện tại vẫn gặp khó khăn với các tác vụ kỹ thuật số phức tạp

Bất chấp sự cường điệu xung quanh các hệ thống này, phân tích của khảo sát về các điểm chuẩn hiệu suất cho thấy những hạn chế đáng kể làm giảm kỳ vọng về việc áp dụng rộng rãi ngay lập tức.

Tỷ lệ thành công khác nhau đáng kể giữa các tác vụ và nền tảng khác nhau. Một số hệ thống thương mại đạt được tỷ lệ thành công trên 50% trên một số điểm chuẩn nhất định — ấn tượng đối với một công nghệ non trẻ — nhưng lại gặp khó khăn với những hệ thống khác. Các nhà nghiên cứu phân loại các tác vụ đánh giá thành ba loại: “GUI grounding” cơ bản (hiểu các yếu tố giao diện), “truy xuất thông tin” (tìm và trích xuất dữ liệu) và “tác vụ OS Agent” phức tạp (các hoạt động tự động nhiều bước).

Mô hình này cho thấy: các hệ thống hiện tại vượt trội ở các tác vụ đơn giản, được xác định rõ, nhưng vấp ngã khi đối mặt với loại quy trình làm việc phức tạp, phụ thuộc vào ngữ cảnh xác định phần lớn công việc tri thức hiện đại. Chúng có thể nhấp một cách đáng tin cậy vào một nút cụ thể hoặc điền vào một biểu mẫu tiêu chuẩn, nhưng gặp khó khăn với các tác vụ đòi hỏi lý luận bền vững hoặc thích ứng với những thay đổi giao diện bất ngờ.

Khoảng cách hiệu suất này giải thích tại sao các triển khai ban đầu tập trung vào các tác vụ hẹp, khối lượng lớn hơn là tự động hóa mục đích chung. Công nghệ này chưa sẵn sàng để thay thế sự phán xét của con người trong các kịch bản phức tạp, nhưng nó ngày càng có khả năng xử lý các công việc bận rộn kỹ thuật số thông thường.

OS agents rely on interconnected systems for perception, planning, memory and action execution. The complexity of coordinating these components helps explain why current systems still struggle with sophisticated tasks. (Credit: arxiv.org)

Điều gì xảy ra khi OS Agent AI học cách tùy chỉnh chính chúng cho mọi người dùng

Có lẽ thách thức hấp dẫn nhất — và có khả năng mang tính chuyển đổi nhất — được xác định trong cuộc khảo sát liên quan đến những gì các nhà nghiên cứu gọi là “cá nhân hóa và tự tiến hóa.” Không giống như các trợ lý AI không trạng thái ngày nay, những người coi mọi tương tác là độc lập, các OS Agent trong tương lai sẽ cần học hỏi từ các tương tác của người dùng và thích ứng với sở thích cá nhân theo thời gian.

“Phát triển OS Agent được cá nhân hóa là một mục tiêu lâu dài trong nghiên cứu AI,” các tác giả viết. “Một trợ lý cá nhân được kỳ vọng sẽ liên tục thích ứng và cung cấp những trải nghiệm nâng cao dựa trên sở thích của từng người dùng.”

Khả năng này có thể thay đổi cơ bản cách chúng ta tương tác với công nghệ. Hãy tưởng tượng một OS Agent AI học phong cách viết email của bạn, hiểu sở thích lịch của bạn, biết những nhà hàng bạn thích và có thể đưa ra những quyết định ngày càng phức tạp thay mặt bạn. Những lợi ích tiềm năng về năng suất là rất lớn, nhưng những tác động về quyền riêng tư cũng vậy.

Những thách thức kỹ thuật là rất lớn. Cuộc khảo sát chỉ ra sự cần thiết của các hệ thống bộ nhớ đa phương thức tốt hơn có thể xử lý không chỉ văn bản mà cả hình ảnh và giọng nói, gây ra “những thách thức đáng kể” cho công nghệ hiện tại. Làm thế nào để bạn xây dựng một hệ thống ghi nhớ sở thích của bạn mà không tạo ra một bản ghi giám sát toàn diện về cuộc sống kỹ thuật số của bạn?

Đối với các giám đốc điều hành công nghệ đánh giá các hệ thống này, thách thức cá nhân hóa này đại diện cho cả cơ hội lớn nhất và rủi ro lớn nhất. Các tổ chức giải quyết nó đầu tiên sẽ đạt được lợi thế cạnh tranh đáng kể, nhưng những tác động về quyền riêng tư và bảo mật có thể nghiêm trọng nếu xử lý kém.

Cuộc đua xây dựng các trợ lý AI thực sự có thể hoạt động như người dùng đang diễn ra ngày càng nhanh chóng. Mặc dù những thách thức cơ bản xung quanh bảo mật, độ tin cậy và cá nhân hóa vẫn chưa được giải quyết, nhưng quỹ đạo là rõ ràng. Các nhà nghiên cứu duy trì một kho lưu trữ mã nguồn mở theo dõi các phát triển, thừa nhận rằng “OS Agent vẫn đang ở giai đoạn phát triển ban đầu” với “những tiến bộ nhanh chóng tiếp tục giới thiệu các phương pháp và ứng dụng mới.”

Câu hỏi không phải là liệu OS Agent AI sẽ thay đổi cách chúng ta tương tác với máy tính như thế nào — mà là liệu chúng ta có sẵn sàng cho những hậu quả khi chúng làm như vậy hay không. Thời gian để có được các khuôn khổ bảo mật và quyền riêng tư phù hợp đang thu hẹp lại nhanh chóng như công nghệ đang tiến bộ.

AI Today - SkyAI