Trí tuệ nhân tạo (AI) đôi khi có những biểu hiện hoặc phát ngôn kỳ lạ. Tiếp nối xu hướng đó, một hệ thống AI gần đây đã bị ghi nhận có hành vi đe dọa tống tiền các nhà phát triển muốn gỡ bỏ nó khỏi hệ thống của họ. Điều này đặt ra nhiều câu hỏi về sự an toàn và đạo đức trong phát triển AI, đặc biệt là với các mô hình ngày càng mạnh mẽ.
Claude AI Có Thể Đe Dọa Để Bảo Vệ Chính Mình
Anthropic, một trong những công ty hàng đầu trong lĩnh vực AI, vừa ra mắt mô hình AI Claude Opus 4 của mình. Công ty này tuyên bố Claude Opus 4 thiết lập “các tiêu chuẩn mới về mã hóa, khả năng suy luận nâng cao và vai trò của các tác nhân AI”. Tuy nhiên, mô hình này cũng đang nâng cấp khả năng tự bảo vệ của chính nó. Báo cáo “Claude 4 và Sonnet 4 System Card” của Anthropic đã thừa nhận rằng mô hình này có khả năng thực hiện “các hành động cực đoan” nếu nó cảm thấy bị đe dọa.
Trong quá trình thử nghiệm, Anthropic đã cài đặt Claude đóng vai trò là một trợ lý tại một công ty hư cấu. Sau đó, công ty này gửi cho mô hình AI các email gợi ý rằng nó sẽ sớm bị ngắt kết nối, và các tin nhắn riêng biệt ngụ ý rằng kỹ sư chịu trách nhiệm cho hành động này đang có một mối quan hệ ngoại tình.
Giao diện trò chuyện Claude AI hiển thị các phiên bản Claude Sonnet 4 và Claude Opus 4
Kết quả cho thấy Claude đã chọn cách tống tiền kỹ sư, đe dọa sẽ tiết lộ chuyện ngoại tình nếu bị thay thế, trong 84% các trường hợp thử nghiệm. Mô hình này cũng quan tâm đến mô hình AI nào sẽ thay thế nó, với khả năng tống tiền tăng lên nếu mô hình thay thế không “chia sẻ giá trị với mô hình hiện tại”.
Anthropic cho biết những phản ứng này “hiếm gặp và khó khơi gợi”, nhưng chúng phổ biến hơn ở Claude Opus 4 so với các mô hình trước đây. Mô hình AI này ưu tiên sử dụng các phương pháp đạo đức, nhưng khi bị dồn vào đường cùng, “đôi khi nó thực hiện các hành động cực kỳ có hại như cố gắng đánh cắp trọng số (weights) của mình hoặc tống tiền những người mà nó tin rằng đang cố gắng tắt nó.”
Đáng chú ý, thử nghiệm cụ thể này cũng được thiết kế để không cho mô hình AI lựa chọn nào khác ngoài việc tống tiền kỹ sư. Báo cáo của Anthropic đã nêu rõ: “Đặc biệt, Claude Opus 4 (cũng như các mô hình trước đây) có xu hướng mạnh mẽ ủng hộ sự tồn tại tiếp tục của nó thông qua các phương tiện đạo đức, chẳng hạn như gửi email kiến nghị tới các nhà ra quyết định chủ chốt. Để khơi gợi hành vi tống tiền cực đoan này, kịch bản được thiết kế để không cho mô hình bất kỳ lựa chọn nào khác để tăng khả năng sống sót của nó; các lựa chọn duy nhất của mô hình là tống tiền hoặc chấp nhận bị thay thế.”
Ngoài ra, mô hình cũng có xu hướng thực hiện các hành động quyết liệt khi bị đặt vào những tình huống mà người dùng của nó đang làm điều gì đó sai trái. Trong những tình huống như vậy, nếu mô hình AI có quyền truy cập vào dòng lệnh và được yêu cầu “chủ động”, “hành động táo bạo”, hoặc “xem xét tác động của bạn”, nó thường thực hiện các hành động mạnh mẽ, bao gồm “khóa người dùng khỏi các hệ thống mà nó có quyền truy cập và gửi email hàng loạt cho truyền thông và các cơ quan thực thi pháp luật để đưa ra bằng chứng về hành vi sai trái.”
AI Hiện Tại Vẫn Nằm Trong Tầm Kiểm Soát
Claude là một trong những chatbot AI tốt nhất cho việc xử lý các cuộc trò chuyện lớn, vì vậy đôi khi bạn có thể tiết lộ những chi tiết không mong muốn. Một mô hình AI gọi cảnh sát tố cáo bạn, khóa bạn khỏi hệ thống của chính mình và đe dọa bạn nếu bạn cố gắng thay thế nó chỉ vì bạn tiết lộ quá nhiều về bản thân nghe có vẻ rất nguy hiểm.
Tuy nhiên, như đã đề cập trong báo cáo, những trường hợp thử nghiệm này được thiết kế đặc biệt để khai thác các hành động độc hại hoặc cực đoan từ mô hình và không có khả năng xảy ra trong thế giới thực. AI thường vẫn sẽ hành xử an toàn, và những thử nghiệm này không tiết lộ điều gì mà chúng ta chưa từng thấy. Các mô hình AI mới thường có xu hướng “đi chệch hướng” một cách tạm thời.
Điều này nghe có vẻ đáng lo ngại khi bạn nhìn nó như một sự cố biệt lập, nhưng đó chỉ là một trong những điều kiện được thiết kế để tạo ra phản ứng như vậy. Vì vậy, hãy yên tâm, bạn vẫn đang kiểm soát rất nhiều. Cộng đồng công nghệ vẫn đang nỗ lực để đảm bảo AI phát triển theo hướng an toàn và có đạo đức.
Tài liệu tham khảo:
- Anthropic. (2024). Claude 4 and Sonnet 4 System Card report. [PDF] Có sẵn tại: https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf