Các AI agent có khả năng điều khiển trình duyệt web và thực hiện các tác vụ giống như con người đang dần trở thành hiện thực, không còn là khái niệm xa vời. Những công cụ như ChatGPT Operator mang lại sức mạnh đáng kể nhưng đi kèm với mức phí cao. Thay vì phải chi trả, tôi đã tìm kiếm một giải pháp thay thế miễn phí và bất ngờ tìm thấy một công cụ hoạt động hiệu quả đáng kinh ngạc. Đây là một bước tiến quan trọng cho bất kỳ ai muốn khám phá công nghệ AI Agent điều khiển trình duyệt mà không cần đầu tư lớn.
Browser Use: Đối Thủ Nguồn Mở Mạnh Mẽ của ChatGPT Operator
ChatGPT Operator có thể điều khiển trình duyệt web, tự động thực hiện các hành động như nhấp chuột và cuộn trang. Người dùng chỉ cần ra lệnh cho ChatGPT những gì cần làm, chẳng hạn như đặt vé hoặc nhập văn bản vào Google Docs, và nó sẽ tự động thực thi. Tuy nhiên, để tiếp cận công cụ này, bạn phải trả một khoản phí không hề nhỏ – 200 USD mỗi tháng cho gói ChatGPT Pro. Do không thể chi trả mức phí này, tôi đã tìm kiếm một lựa chọn thay thế và phát hiện ra Browser Use.
Browser Use là một AI agent mã nguồn mở tương tự như ChatGPT Operator. Nó có khả năng tương tác với trình duyệt web, điều hướng qua các trang web và thực hiện nhiều tác vụ khác nhau. Điểm nổi bật là Browser Use có chi phí thấp hơn đáng kể so với ChatGPT Operator. Đặc biệt, người dùng có hai tùy chọn để lựa chọn, giúp tối ưu hóa chi phí và linh hoạt trong việc sử dụng AI tự động hóa trình duyệt.
Lựa chọn đầu tiên là đăng ký gói dịch vụ đám mây với giá 30 USD mỗi tháng, nơi AI agent sẽ được chạy trên máy chủ của Browser Use. Tùy chọn thứ hai, tiết kiệm chi phí nhất, là tự cài đặt Browser Use cục bộ trên máy tính của bạn; khi đó, bạn chỉ phải trả phí cho việc sử dụng API của các mô hình ngôn ngữ lớn (LLM). Tôi đã chọn phương án tiết kiệm nhất này để trải nghiệm khả năng tự động hóa web của công cụ.
Trang web Browser Use hiển thị các gói dịch vụ và mức giá khác nhau
Việc thiết lập Browser Use không trực quan và dễ dàng như ChatGPT Operator, nhưng với một vài dòng lệnh cơ bản, tôi đã có thể khởi chạy nó. Nếu tôi có thể làm được, bạn cũng vậy! Quá trình này không đòi hỏi kiến thức lập trình chuyên sâu, chỉ cần tuân thủ các bước hướng dẫn.
Hướng Dẫn Cài Đặt Browser Use Trên Máy Tính Cá Nhân
Để bắt đầu với Browser Use, bạn cần hai thành phần chính: Python 3.11 được cài đặt trên máy tính và quyền truy cập API từ OpenAI (hoặc một LLM được lưu trữ cục bộ nếu bạn muốn).
Vì Browser Use là một AI agent, nó cần một mô hình ngôn ngữ lớn (LLM) để hoạt động. Bạn có thể lấy quyền truy cập API từ trang web của OpenAI hoặc bất kỳ API nào khác tương thích với Browser Use. Lợi ích của việc sử dụng API là bạn có thể linh hoạt lựa chọn giữa các mô hình khác nhau (như GPT-3.5 và GPT-4o), và bạn chỉ phải trả tiền cho những gì bạn sử dụng, thay vì một khoản phí đăng ký trả trước. Điều này giúp kiểm soát chi phí hiệu quả hơn khi sử dụng AI điều khiển trình duyệt.
Trong quá trình thử nghiệm của mình, tôi đã sử dụng mô hình ChatGPT 4o. Tổng chi phí tôi phải trả cho bảy tác vụ mà Browser Use thực hiện là dưới 1 USD. Tuy nhiên, nếu bạn kết hợp Browser Use với DeepSeek API, chi phí sẽ còn rẻ hơn nhiều lần.
Bạn cũng có thể sử dụng một LLM cục bộ trên máy tính của mình. Tuy nhiên, việc chạy một LLM cục bộ có hiệu năng tương đương ChatGPT 4o đòi hỏi sức mạnh tính toán đáng kể mà hầu hết người dùng thông thường khó có thể đáp ứng. Tôi đã thử nghiệm mô hình LLM 7B của DeepSeek trên máy tính của mình và hiệu suất không được như mong đợi. Do đó, tôi khuyên bạn nên sử dụng API để có trải nghiệm tốt nhất.
Sau khi đã có quyền truy cập API, bạn có thể tạo một môi trường ảo (virtual environment) trong VS Code bằng cách vào View > Command Palette và gõ create environment
. Sau đó, mở một terminal mới và cài đặt Browser-use bằng pip:
pip install browser-use
Tiếp theo, hãy tạo một file .env
trong cùng thư mục và thêm khóa API của bạn vào đó:
OPENAI_API_KEY="Your API Here"
Cuối cùng, tạo một file Python mới có tên app.py
và dán đoạn mã sau:
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()
async def main():
agent = Agent(
task="Go to Reddit, search for 'browser-use', click on the first post and return the first comment.",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
asyncio.run(main())
Bạn có thể thay thế phần task
bằng lời nhắc của riêng mình, ví dụ: “Search for Albert Einstein and open his Wikipedia page.” Cuối cùng, chạy file app.py
bằng terminal:
python app.py
Đánh Giá Thực Tế: Browser Use Hoạt Động Hiệu Quả Đến Đâu?
Tôi bắt đầu thử nghiệm Browser Use với các tác vụ đơn giản, chẳng hạn như tìm kiếm “Albert Einstein” trên Google và mở trang Wikipedia của ông. Khi tôi chạy script, AI agent đã mở một cửa sổ trình duyệt mới và thực hiện tác vụ một cách hoàn hảo.
Tiếp theo, tôi yêu cầu nó tìm kiếm các mẫu laptop gaming trên Amazon và mở kết quả đầu tiên. Một lần nữa, Browser Use đã hoàn thành nhiệm vụ thành công, chứng tỏ khả năng điều hướng cơ bản trên các trang thương mại điện tử.
Tại thời điểm này, tôi đã bị thuyết phục rằng Browser Use có thể điều hướng web một cách thông minh. Để đẩy giới hạn của nó hơn nữa, tôi đã hướng dẫn nó truy cập Yahoo News và tóm tắt năm bài báo hàng đầu. Thật ngạc nhiên, Browser Use đã hoàn thành tác vụ này trong vòng vài phút. Các bản tóm tắt ngắn gọn và đúng trọng tâm, thể hiện khả năng xử lý và tổng hợp thông tin tốt của AI tự động hóa trình duyệt.
Tuy nhiên, mọi thứ trở nên phức tạp hơn đối với Browser Use khi tôi yêu cầu nó tìm kiếm chuyến bay từ London đến Paris trên skyscanner.com. Ban đầu, trang web đã chặn quyền truy cập do phát hiện bot, vì vậy tôi phải can thiệp và bỏ qua cơ chế phát hiện này. Dù vậy, Browser Use vẫn gặp khó khăn – nó đã nhấp vào nút tìm kiếm mà không nhập đúng “London” và “Paris” vào các trường tương ứng. Điều này cho thấy công cụ còn hạn chế trong việc xử lý các form phức tạp và vượt qua các cơ chế chống bot mạnh mẽ.
Bạn có thể kết nối Browser Use với trình duyệt chính của mình, nơi tất cả các tài khoản của bạn đã được đăng nhập. Điều này cho phép AI agent nhập dữ liệu vào Google Sheet hoặc dán các bản tóm tắt tin tức từ Yahoo News vào Google Doc. Tuy nhiên, tôi gặp sự cố khi thiết lập nó với trình duyệt đang hoạt động của mình, vì vậy tôi tạm thời gác lại tính năng này.
Nhìn chung, đây là một thử nghiệm thú vị. Việc quan sát một AI agent tự điều hướng web và thực hiện các tác vụ thật sự rất hấp dẫn. Mặc dù Browser Use chưa hoàn hảo và vẫn còn một chặng đường dài để trở thành một AI agent duyệt web thực sự vững chắc, công nghệ này vẫn đang ở giai đoạn sơ khai. Do đó, chúng ta có thể kỳ vọng những cải tiến đáng kể trong tương lai.
Nếu bạn sẵn sàng mày mò với việc thiết lập và không ngại một vài trục trặc nhỏ, hãy khởi động máy tính và cài đặt Browser Use ngay hôm nay. Hãy chia sẻ trải nghiệm của bạn và đặt câu hỏi trong phần bình luận nếu bạn gặp khó khăn, đội ngũ thuthuat365.net luôn sẵn lòng hỗ trợ.