Tái hình dung con trỏ chuột cho kỷ nguyên AI

Tái hình dung con trỏ chuột cho kỷ nguyên AI

  • 6 min read
Tái hình dung con trỏ chuột cho kỷ nguyên AI
Tái hình dung con trỏ chuột cho kỷ nguyên AI

Tái định nghĩa con trỏ chuột cho kỷ nguyên AI

Ngày 12 tháng 5 năm 2026 | Lĩnh vực: Nghiên cứu Tác giả: Adrien Baranes và Rob Marchant

Giao diện mô phỏng hiển thị ba biểu tượng con trỏ với các vệt sáng màu xanh trên nền tối. Bên dưới mỗi con trỏ là một nút hình viên thuốc chứa biểu tượng micrô và các câu lệnh bằng giọng nói: ‘Di chuyển cái này’, ‘Hợp nhất những cái kia’ và ‘Thêm cái đó’.

Chúng tôi đang phát triển những phương thức cộng tác với AI mượt mà và trực quan hơn.

Con trỏ chuột đã là một người bạn đồng hành không đổi trên màn hình máy tính, xuất hiện trong mọi trang web, tài liệu và quy trình làm việc. Bất chấp những thay đổi về công nghệ, con trỏ chuột gần như không hề tiến hóa trong hơn nửa thế kỷ qua.

Chúng tôi đang nghiên cứu các khả năng mới vận hành bởi AI để giúp con trỏ không chỉ hiểu nó đang chỉ vào cái gì, mà còn hiểu tại sao điều đó lại quan trọng với người dùng.

Mục tiêu của chúng tôi là giải quyết một sự bất tiện phổ biến: vì các công cụ AI điển hình thường nằm trong một cửa sổ riêng, người dùng buộc phải “kéo” thế giới của họ vào đó. Chúng tôi muốn điều ngược lại: một AI trực quan hiện diện trong mọi công cụ mà người dùng sử dụng mà không làm gián đoạn luồng công việc. Ví dụ, hãy tưởng tượng bạn chỉ vào hình ảnh của một tòa nhà và yêu cầu: “Hãy chỉ đường cho tôi”. Sẽ không cần thêm thao tác nào khác khi hệ thống AI đã hiểu rõ ngữ cảnh.

Hôm nay, chúng tôi sẽ phác thảo các nguyên tắc cơ bản định hướng cho tư duy về giao diện người dùng trong tương lai, đồng thời chia sẻ các bản demo thử nghiệm về con trỏ tích hợp AI được vận hành bởi Gemini. Ví dụ, bạn có thể truy cập Google AI Studio để chỉnh sửa hình ảnh hoặc tìm địa điểm trên bản đồ chỉ bằng cách chỉ và nói.

Các nguyên tắc tương tác của chúng tôi

Chúng tôi đã xây dựng bốn nguyên tắc nhằm chuyển giao gánh nặng truyền đạt ngữ cảnh và ý định từ người dùng sang máy tính, thay thế các câu lệnh văn bản dài dòng bằng các tương tác đơn giản và trực quan hơn.

1. Duy trì luồng công việc (Maintain the flow)

Các khả năng của AI nên hoạt động trên tất cả các ứng dụng, thay vì buộc người dùng phải thực hiện những “chuyến đi vòng” sang công cụ AI. Nguyên mẫu con trỏ tích hợp AI của chúng tôi xuất hiện ở bất cứ nơi nào người dùng đang làm việc. Ví dụ, bạn có thể chỉ vào một tệp PDF và yêu cầu tóm tắt các ý chính để dán trực tiếp vào email, di chuột qua một bảng thống kê và yêu cầu chuyển thành biểu đồ tròn, hoặc bôi đen một công thức nấu ăn và yêu cầu gấp đôi tất cả nguyên liệu.

2. Chỉ và nói (Show and tell)

Các mô hình AI hiện nay yêu cầu những hướng dẫn chính xác. Để nhận được phản hồi tốt, người dùng phải viết một câu lệnh (prompt) chi tiết. Con trỏ tích hợp AI sẽ tinh giản quy trình này bằng cách nắm bắt mượt mà ngữ cảnh hình ảnh và ngữ nghĩa xung quanh con trỏ, cho phép máy tính “nhìn” thấy và hiểu điều gì là quan trọng với người dùng. Trong hệ thống thử nghiệm của chúng tôi, bạn chỉ cần chỉ vào, và AI sẽ biết chính xác từ, đoạn văn, phần hình ảnh hoặc khối mã nào mà người dùng cần hỗ trợ.

3. Tận dụng sức mạnh của “Cái này” và “Cái kia” (Embrace the power of “This” and “That”)

Trong tương tác hàng ngày, con người hiếm khi nói bằng những đoạn văn dài và chi tiết. Chúng ta thường nói “Sửa cái này”, “Di chuyển cái kia ra đây”, hoặc “Cái này có nghĩa là gì?” — đồng thời dựa vào cử chỉ vật lý và ngữ cảnh chung để bù đắp cho những phần thiếu hụt trong hiểu biết. Một hệ thống AI hiểu được sự kết hợp giữa ngữ cảnh, hành động chỉ và lời nói sẽ cho phép người dùng đưa ra các yêu cầu phức tạp bằng cách nói tắt tự nhiên, không cần phải nhập câu lệnh cầu kỳ.

4. Biến các điểm ảnh thành thực thể có thể tương tác (Turn pixels into actionable entities)

Trong nhiều thập kỷ, máy tính chỉ theo dõi vị trí chúng ta đang chỉ vào. Giờ đây, AI có thể hiểu được thứ người dùng đang chỉ là gì. Điều này biến các điểm ảnh (pixels) thành các thực thể có cấu trúc, chẳng hạn như địa điểm, ngày tháng và đối tượng mà người dùng có thể tương tác ngay lập tức. Một bức ảnh chụp ghi chú viết tay trở thành danh sách việc cần làm tương tác; một khung hình tạm dừng trong video du lịch trở thành liên kết đặt chỗ cho nhà hàng trông có vẻ thú vị đó.

Việc xây dựng công nghệ thích ứng với hành vi con người — thay vì buộc người dùng phải thích nghi với công nghệ — sẽ mở ra một tương lai nơi việc cộng tác với AI thực sự trực quan, linh hoạt và mượt mà. Chúng tôi rất hào hứng khi những khái niệm lấy con người làm trung tâm này đang được đưa vào các sản phẩm chúng ta sử dụng hàng ngày.

Ứng dụng vào các sản phẩm thực tế

Chúng tôi hiện đang tích hợp các nguyên tắc này để tái định nghĩa thao tác chỉ trong Chrome và trải nghiệm laptop Googlebook mới.

Kể từ hôm nay, thay vì viết một câu lệnh phức tạp, bạn có thể sử dụng con trỏ để hỏi Gemini trong Chrome về phần trang web mà bạn quan tâm. Ví dụ, bạn có thể chọn một vài sản phẩm trên trang và yêu cầu so sánh, hoặc chỉ vào vị trí bạn muốn hình dung một chiếc ghế sofa mới trong phòng khách của mình. Tương tự, chúng tôi sẽ sớm triển khai Magic Pointer trên Googlebook, cho phép người dùng tận dụng Gemini ngay trong tầm tay.

Vì có rất nhiều ứng dụng tiềm năng khác, chúng tôi sẽ tiếp tục thử nghiệm các khái niệm tương lai trên nhiều nền tảng, bao gồm cả Google Labs’ Disco.

Hãy thử con trỏ tích hợp AI trong Google AI Studio:

Recommended for You

AlphaEvolve- Cách tác nhân lập trình hỗ trợ bởi Gemini mở rộng tầm ảnh hưởng trên nhiều lĩnh vực

AlphaEvolve- Cách tác nhân lập trình hỗ trợ bởi Gemini mở rộng tầm ảnh hưởng trên nhiều lĩnh vực

AlphaEvolve- Cách tác nhân lập trình hỗ trợ bởi Gemini mở rộng tầm ảnh hưởng trên nhiều lĩnh vực

Hợp tác với các nhà lãnh đạo trong ngành để tăng tốc chuyển đổi AI

Hợp tác với các nhà lãnh đạo trong ngành để tăng tốc chuyển đổi AI

Hợp tác với các nhà lãnh đạo trong ngành để tăng tốc chuyển đổi AI