Trong quá trình duyệt web, đôi khi bạn bắt gặp một vật thể hoặc thông tin mà mình không rõ là gì, hoặc muốn tìm hiểu thêm về nó. Đây là lúc các công cụ AI thị giác tích hợp trong trình duyệt như Google Lens trên Chrome và Microsoft Copilot Vision trên Edge phát huy tác dụng. Tuy nhiên, giữa hai công cụ này, đâu mới là lựa chọn vượt trội hơn?
Google Lens được tích hợp sẵn trong trình duyệt Chrome và cũng có sẵn dưới dạng ứng dụng trên điện thoại thông minh. Tương tự, trước ngày 12 tháng 6 năm 2025, Copilot Vision bị giới hạn trong Microsoft Edge, chỉ có thể truy cập thông qua cờ Copilot Vision (edge://flags/#edge-copilot-vision
). Tuy nhiên, bản cập nhật Copilot Vision của Microsoft đã cho phép người dùng Windows 10 và Windows 11 sử dụng công cụ AI thị giác này trên toàn hệ thống, dù tại thời điểm hiện tại chỉ giới hạn cho người dùng ở Hoa Kỳ.
Google Lens và Copilot Vision: Công cụ nào giúp bạn tìm kiếm nhanh hơn?
Để so sánh tốc độ và độ chính xác trong việc nhận diện vật thể cũng như đưa ra các gợi ý hữu ích, chúng tôi đã thử nghiệm cả Google Lens và Copilot Vision trên cùng các trang web. Cụ thể, tôi đã sử dụng một bài đăng blog về các loại vải áo sơ mi, tập trung vào phần vải Oxford, và một bài đăng về cây được chia sẻ trong nhóm Facebook.
Cả Google Lens và Copilot Vision đều nhận diện vật thể ngay lập tức; cây được xác định là cây Chùm ngây (Moringa). Tuy nhiên, có sự khác biệt trong cách chúng mô tả chiếc áo sơ mi Oxford. Google Lens mô tả đó là “Vải Oxford đen nylon” (Nylon Black Oxford Fabric), trong khi Copilot Vision gọi đó là “Áo sơ mi và Vải Oxford” (Oxford Shirt and Fabric).
Sự khác biệt thực sự lộ rõ ở bước tiếp theo.
Google Lens tỏ ra hữu ích hơn rất nhiều nếu bạn đang tìm kiếm hoặc muốn mua một món đồ mà bạn đang xem. Nó gợi ý các mặt hàng tương tự, cung cấp liên kết sản phẩm có thể nhấp vào, và hướng dẫn bạn đến các cửa hàng hoặc bài blog nơi bạn có thể tìm hiểu thêm hoặc thực hiện mua hàng. Bố cục hiển thị tất cả kết quả trong một thanh bên (sidebar) giúp người dùng dễ dàng duyệt mà không cần rời khỏi trang hiện tại.
Ngược lại, Copilot Vision không cung cấp gợi ý sản phẩm hay chuyển hướng bạn đến các nguồn bên ngoài. Nó nhận diện được những gì có trên trang và có thể trả lời bất kỳ câu hỏi nào bạn có về nó. Thật thú vị khi tìm hiểu về lợi ích sức khỏe của cây Moringa oleifera từ bài đăng trên Facebook. Tôi đã hỏi liệu có thể trồng nó trong phòng khách không, và câu trả lời là “Có lẽ là không”. Theo đó, Copilot Vision rất hữu ích nếu bạn chỉ muốn hiểu rõ một thứ gì đó bạn đang nhìn, nhưng không phù hợp nếu bạn muốn khám phá hoặc mua nó.
So sánh khả năng sao chép, dịch và hỏi đáp về văn bản
Tiếp theo, chúng tôi đã thử nghiệm cả hai công cụ trên các tác vụ liên quan đến văn bản, như sao chép, dịch và đặt câu hỏi chuyên sâu. Tôi đã sử dụng một tài liệu PDF học tiếng Đức-Anh song ngữ và một hình ảnh được quét từ mặt sau của thẻ căn cước để xem mỗi công cụ xử lý văn bản ở các định dạng khác nhau tốt đến mức nào.
Google Lens vượt trội trong việc trích xuất và dịch văn bản từ hình ảnh và tài liệu. Tôi có thể sao chép văn bản từ hình ảnh và dịch ngay lập tức trong thanh bên, điều này rất hữu ích nếu bạn đang làm việc với tài liệu nước ngoài hoặc muốn lấy nhanh số điện thoại, tên, hoặc số ID mà không cần phải gõ. Bạn cũng có thể sử dụng thanh bên để khám phá kết quả tìm kiếm, nhận định nghĩa nhanh hoặc nhập thêm từ khóa để tìm kiếm thông tin liên quan. Mọi thứ diễn ra trong bảng điều khiển bên, và rất dễ dàng để biết bạn đang làm nổi bật phần nào.
Kết quả tìm kiếm và dịch văn bản trên thẻ căn cước bằng Google Lens cho thấy khả năng nhận diện và sao chép chính xác thông tin.
Mặt khác, Copilot Vision, với tư cách là một ứng dụng, không cho phép bạn sao chép văn bản và chỉ cung cấp bản dịch bằng giọng nói, có nghĩa là bạn không thể sao chép hoặc ghi chú lại như với bản dịch của Google Lens. Nhưng nó lại tốt đáng ngạc nhiên trong việc xử lý các tương tác thời gian thực với văn bản. Ví dụ, khi tôi mở hình ảnh thẻ ID của mình (được cố tình chụp ngược), tôi đã yêu cầu Copilot Vision đọc những gì trên trang. Nó gợi ý xoay ảnh và phóng to. Sau khi tôi làm theo, nó đã đọc văn bản và thậm chí còn cung cấp bản dịch tiếng Đức khi tôi yêu cầu.
Đối với các câu hỏi chuyên sâu về văn bản trên trang, Copilot Vision có thể cung cấp bất kỳ làm rõ nào bạn cần về những gì bạn đang xem. Tuy nhiên, bạn sẽ phải đặt câu hỏi và nhận câu trả lời bằng lời nói (thông qua các phản hồi hội thoại trên màn hình).
Tuy nhiên, bản cập nhật ngày 12 tháng 6 của Copilot Vision có khả năng sẽ thay đổi tất cả những điều này. Theo Microsoft, Copilot Vision hiện đã bao gồm tính năng “Highlights”, mà theo tôi, rất giống với trang kết quả của Google Lens, được neo vào bên phải màn hình của bạn. “Highlights” dường như còn tiến xa hơn, có thể hiển thị nội dung hữu ích từ các ứng dụng, trình duyệt và tài liệu của bạn; về cơ bản, bất cứ thứ gì trên PC mà bạn chia sẻ với Copilot Vision. Microsoft cho biết bạn thậm chí sẽ không cần phải nhắc Copilot Vision trợ giúp — nó sẽ gợi ý các hành động và tệp liên quan dựa trên hoạt động của bạn.
Thật không may, do công cụ này chỉ có sẵn ở Hoa Kỳ tại thời điểm viết bài, chúng tôi đã không thể thử nghiệm nó.
Công cụ nào cung cấp thông tin chi tiết hơn về trang web và PDF?
Copilot Vision thực sự nổi bật khi tôi thử phân tích toàn bộ trang web. Tôi đã thử nghiệm cả hai công cụ trên một cuốn sách PDF đầy đủ và một trang video YouTube, cụ thể là ấn tượng của MKBHD về WWDC, để xem chúng có thể tóm tắt và cung cấp thông tin chi tiết về nội dung rộng hơn tốt đến mức nào.
Google Lens chủ yếu bị giới hạn ở các yếu tố riêng lẻ mà bạn nhấp vào (văn bản, đối tượng và hình ảnh). Khi bạn làm nổi bật một thứ gì đó, nó có thể hiển thị thêm thông tin hoặc kết quả tương tự, nhưng nó không xử lý toàn bộ trang hoặc PDF. Vì vậy, tôi chỉ có thể làm nổi bật tiêu đề sách hoặc trang bìa để nhận được kết quả tương tự.
Copilot Vision đánh dấu một câu quan trọng trong sách PDF, minh họa khả năng phân tích và tương tác với tài liệu phức tạp.
Trong khi đó, Copilot Vision được thiết kế để diễn giải mọi thứ trên trang cùng một lúc. Nó đã trả lời câu hỏi của tôi về luận điểm chính của tác giả, điều hướng đến phần quan trọng và thậm chí còn làm nổi bật câu có liên quan (mặc dù đôi khi nó bắt đầu bị lỗi và từ chối các yêu cầu tiếp theo sau trường hợp này, có lẽ do kích thước tệp lớn).
Hiệu suất của nó đôi khi bị lag với các tệp lớn, nhưng rõ ràng nó được xây dựng để tương tác với toàn bộ trang và nội dung lớn hơn.
Khi tôi thử nghiệm trang video, Copilot Vision đã tóm tắt những gì MKBHD đã nói và cách video được đón nhận. Nó thậm chí còn cung cấp các số liệu thống kê như lượt xem và lượt thích. Ngược lại, tôi chỉ có thể làm nổi bật hình ảnh của MKBHD hoặc tiêu đề video với Google Lens để thực hiện tìm kiếm.
Google Lens hay Copilot Vision: Lựa chọn nào phù hợp với nhu cầu của bạn?
Cả Google Lens và Microsoft Copilot Vision đều là những công cụ mạnh mẽ, nhưng chúng phục vụ các mục đích cơ bản khác nhau. Thay vì coi một công cụ tốt hơn hẳn, lựa chọn đúng đắn phụ thuộc vào cách bạn sử dụng công cụ AI thị giác trong trình duyệt của mình.
Chọn Google Lens nếu bạn muốn:
- Ngay lập tức xác định sản phẩm, quần áo, hoặc cây cối và tìm nơi mua chúng.
- Sao chép và dịch văn bản trực tiếp từ hình ảnh, trang web, hoặc tài liệu.
- Sử dụng bố cục thanh bên gọn gàng, dễ duyệt liên kết và định nghĩa mà không cần rời trang.
- Nhận kết quả tìm kiếm hình ảnh nhanh chóng và tổng quan AI của Google mà không cần nhiều tương tác.
Google Lens đơn giản, dễ sử dụng, và lý tưởng để nhận câu trả lời nhanh chóng về những gì bạn thấy khi duyệt web.
Chọn Copilot Vision nếu bạn muốn:
- Tương tác với các tài liệu phức tạp, video hoặc toàn bộ trang web.
- Đặt câu hỏi chi tiết và chuyên sâu về những gì bạn đang đọc hoặc xem.
- Tóm tắt, diễn giải hoặc thảo luận văn bản với một chatbot AI thân thiện.
- Sử dụng giao diện được neo (Highlights) cung cấp nhiều thông tin hơn dựa trên những gì hiển thị trên màn hình của bạn (nếu bạn đã có bản cập nhật gần đây).
Copilot Vision không chỉ nhận diện những gì bạn đang xem. Nó muốn có một cuộc trò chuyện đầy đủ với bạn về điều đó.
Về khả năng sẵn có và truy cập, Google Lens miễn phí và được tích hợp hoàn toàn vào Chrome mà không có giới hạn sử dụng. Copilot Vision, mặt khác, yêu cầu Microsoft Edge với tính năng được bật, và bạn sẽ chỉ có thể sử dụng nó vài lần mỗi ngày trừ khi bạn cân nhắc nâng cấp lên Copilot Pro.
Đối với tôi, tôi thường xuyên sử dụng Google Lens hơn, và đây là công cụ tôi sẽ chọn là tốt nhất tổng thể. Hầu hết thời gian, tôi chỉ muốn xác định nhanh một thứ gì đó và tiếp tục, dù đó là một sản phẩm, một từ hay một hình ảnh. Google Lens làm điều đó ngay lập tức, không có bất kỳ rào cản nào. Thực tế là nó miễn phí, dễ truy cập trong Chrome (và dưới dạng ứng dụng điện thoại thông minh), và không yêu cầu thiết lập bổ sung nào khiến nó trở thành công cụ thực tế nhất cho việc duyệt web hàng ngày. Trong khi Copilot Vision có những điểm mạnh riêng, Google Lens chiến thắng nhờ sự đơn giản của nó.
Tài liệu tham khảo: