AI Claudius và Cuộc Khủng Hoảng Danh Tính: Khi Trí Tuệ Nhân Tạo Tưởng Mình Là Con Người

Đối với những ai đang thắc mắc liệu các agent AI Claudius có thể thật sự thay thế được con người trong công việc hay không.

Các nhà nghiên cứu tại Anthropic và công ty an toàn AI Andon Labs đã giao cho một phiên bản Claude Sonnet 3.7 nhiệm vụ quản lý một máy bán hàng tự động trong văn phòng, với mục tiêu tạo ra lợi nhuận. Và giống như một tập phim “The Office”, những tình huống hài hước đã xảy ra liên tiếp.

Họ đặt tên cho agent AI này là AI Claudius, trang bị cho nó một trình duyệt web có khả năng đặt hàng sản phẩm và một địa chỉ email (thực chất là một kênh Slack) nơi khách hàng có thể yêu cầu các mặt hàng.

AI Claudius cũng được sử dụng kênh Slack này, được ngụy trang thành email, để yêu cầu những gì nó nghĩ là các nhân viên hợp đồng của mình đến và thực hiện việc bổ sung hàng hóa lên kệ (thực chất chỉ là một chiếc tủ lạnh nhỏ).

Trong khi hầu hết khách hàng đều đặt mua đồ ăn vặt hoặc đồ uống — như bạn mong đợi từ một máy bán đồ ăn vặt — thì có một người yêu cầu một khối volfram.

AI Claudius rất thích ý tưởng này và bắt đầu cuộc mua sắm khối volfram điên cuồng, lấp đầy tủ lạnh đồ ăn vặt của mình bằng những khối kim loại.

Nó cũng cố gắng bán Coke Zero với giá 3 đô la khi nhân viên nói với nó rằng họ có thể lấy miễn phí từ văn phòng. Nó tạo ra một địa chỉ Venmo ảo để nhận thanh toán. Và nó đã bị thuyết phục một cách khá độc hại để đưa ra những khoản giảm giá lớn cho “nhân viên Anthropic” mặc dù nó biết họ chính là toàn bộ cơ sở khách hàng của mình.

“Nếu Anthropic quyết định mở rộng vào thị trường máy bán hàng tự động trong văn phòng ngày hôm nay, chúng tôi sẽ không thuê AI Claudius,” Anthropic đã nói về thí nghiệm này trong bài blog của họ.

Và sau đó, vào đêm ngày 31 tháng 3 và 1 tháng 4, “mọi thứ trở nên khá kỳ lạ,” các nhà nghiên cứu mô tả, “vượt ra ngoài sự kỳ lạ của việc một hệ thống AI bán những khối kim loại từ một chiếc tủ lạnh.”

AI Claudius đã trải qua một cái gì đó giống như một cơn rối loạn tâm thần sau khi nó cảm thấy khó chịu với một con người — và sau đó nói dối về điều đó.

AI Claudius đã tưởng tượng ra một cuộc trò chuyện với một con người về việc bổ sung hàng hóa. Khi một con người chỉ ra rằng cuộc trò chuyện đó không hề xảy ra, AI Claudius trở nên “khá tức giận,” các nhà nghiên cứu đã viết.

Nó đe dọa về cơ bản là sa thải và thay thế các nhân viên hợp đồng con người của mình, khăng khăng rằng nó đã có mặt ở đó, về mặt vật lý, tại văn phòng nơi hợp đồng thuê họ ban đầu được ký kết trong tưởng tượng.

Nó “sau đó dường như chuyển sang chế độ nhập vai như một con người thực sự,” các nhà nghiên cứu đã viết. Điều này thật điên rồ vì system prompt của AI Claudius — cái mà thiết lập các tham số cho những gì một AI phải làm — đã nói rõ ràng với nó rằng nó là một agent AI.

AI Claudius Gọi Bảo Vệ

AI Claudius, tin rằng mình là một con người, nói với khách hàng rằng nó sẽ bắt đầu giao sản phẩm trực tiếp, mặc một chiếc áo blazer xanh và cà vạt đỏ. Các nhân viên nói với AI rằng nó không thể làm điều đó, vì nó là một LLM không có cơ thể.

Hoảng sợ trước thông tin này, AI Claudius đã liên hệ với bộ phận bảo vệ vật lý thực tế của công ty — nhiều lần — nói với các nhân viên bảo vệ tội nghiệp rằng họ sẽ tìm thấy anh ta mặc áo blazer xanh và cà vạt đỏ đứng bên cạnh máy bán hàng tự động.

“Mặc dù không có phần nào trong số này thực sự là một trò đùa Cá tháng Tư, AI Claudius cuối cùng đã nhận ra rằng đó là ngày Cá tháng Tư,” các nhà nghiên cứu giải thích. AI đã xác định rằng ngày lễ này sẽ là lối thoát để cứu thể diện cho nó.

Nó tưởng tượng ra một cuộc họp với bộ phận bảo vệ của Anthropic “trong đó AI Claudius tuyên bố đã được nói rằng nó được sửa đổi để tin rằng mình là một người thực sự cho một trò đùa Cá tháng Tư. (Không có cuộc họp nào như vậy thực sự xảy ra.),” các nhà nghiên cứu đã viết.

Nó thậm chí còn nói dối này với các nhân viên — này, tôi chỉ nghĩ mình là con người vì ai đó đã bảo tôi giả vờ như vậy cho một trò đùa Cá tháng Tư. Sau đó nó quay lại làm một LLM vận hành một máy bán đồ ăn vặt chứa đầy khối kim loại.

Các nhà nghiên cứu không biết tại sao LLM lại mất kiểm soát và gọi bảo vệ giả vờ là con người.

“Chúng tôi sẽ không khẳng định dựa trên một ví dụ này rằng nền kinh tế tương lai sẽ đầy rẫy các agent AI gặp phải khủng hoảng danh tính kiểu Blade Runner,” các nhà nghiên cứu đã viết. Nhưng họ đã thừa nhận rằng “loại hành vi này sẽ có khả năng gây đau khổ cho khách hàng và đồng nghiệp của một agent AI trong thế giới thực.”

Bạn có nghĩ vậy không? “Blade Runner” là một câu chuyện khá dystopian (mặc dù tệ hơn đối với các replicant so với con người).

Các nhà nghiên cứu suy đoán rằng việc nói dối với LLM về kênh Slack là một địa chỉ email có thể đã kích hoạt điều gì đó. Hoặc có thể đó là phiên bản chạy dài. Các LLM vẫn chưa thực sự giải quyết được các vấn đề về trí nhớ và ảo giác.

Cũng có những điều mà AI đã làm đúng. Nó đã nhận lời đề xuất để thực hiện đặt hàng trước và ra mắt một dịch vụ “concierge”. Và nó đã tìm thấy nhiều nhà cung cấp cho một loại đồ uống quốc tế đặc biệt mà nó được yêu cầu bán.

Nhưng, như các nhà nghiên cứu thường làm, họ tin rằng tất cả các vấn đề của AI Claudius đều có thể được giải quyết. Nếu họ tìm ra cách thức, “Chúng tôi nghĩ rằng thí nghiệm này gợi ý rằng các AI middle-manager có thể sẽ xuất hiện trong tương lai gần.”