Các mô hình trí tuệ nhân tạo (AI) tạo ảnh đang phát triển với tốc độ chóng mặt, nhưng việc chúng tạo ra những hình ảnh không như ý vẫn là điều phổ biến. Mọi người thường dễ dàng đổ lỗi cho các prompt (lời nhắc) do con người cung cấp. Nhưng liệu vấn đề thực sự có phải từ đó? Chúng tôi đã quyết định thực hiện một thử nghiệm để kiểm tra xem liệu AI có dễ dàng hơn khi làm việc với các prompt được tạo ra hoàn toàn bởi AI hay không, từ đó đánh giá khả năng hiểu và thể hiện ý tưởng của các mô hình này.
Quy tắc và Cài đặt Thử nghiệm của Chúng tôi
Khi các mô hình AI tạo ảnh xuất hiện cách đây vài năm, nhiều người nghĩ rằng chúng sẽ thay thế hoàn toàn những người làm việc trong lĩnh vực truyền thông thị giác. Tuy nhiên, điều này đã không xảy ra. Mặc dù có khả năng tạo ra những bức ảnh siêu thực, hình ảnh AI thường rơi vào danh mục khó đoán, đặc biệt nếu bạn yêu cầu một điều gì đó phức tạp hơn (ví dụ, AI có xu hướng gặp khó khăn với các chi tiết như bàn tay).
Bạn có thể đổ lỗi cho chính các mô hình AI về vấn đề này, hoặc đổ lỗi cho sự thiếu nhất quán trong kỹ năng prompt của con người. Cách tự nhiên để kiểm tra xem ai là người đáng trách là xem liệu các mô hình tạo ảnh có mang lại kết quả tốt hơn nếu bạn nhập các prompt do AI tạo ra hay không.
Để kiểm tra giả thuyết này, chúng tôi sẽ sử dụng Gemini để tạo một loạt prompt. Các prompt này sẽ tránh sử dụng tên của đối tượng hoặc bức ảnh mà chúng tôi đang cố gắng tạo ra. Điều này sẽ giúp kiểm tra mức độ “đọc” hướng dẫn của AI tốt đến đâu. Mặc dù vẫn có khả năng mô hình sẽ lấy cảm hứng mạnh mẽ từ dữ liệu mà nó đã được huấn luyện (đặc biệt khi tái tạo các bức ảnh hiện có), nhưng chúng tôi chấp nhận điều đó như một phần của cuộc thử nghiệm.
Công cụ chúng tôi chọn để tạo hình ảnh là Bing Image Creator, vốn dựa trên DALL-E 3. Để thử thách mô hình này một cách toàn diện, chúng tôi sẽ bắt đầu với các hình dạng đơn giản, sau đó chuyển sang các hình ảnh phức tạp hơn khi thí nghiệm tiến triển. Nếu bạn đã từng sử dụng ChatGPT hay các công cụ tương tự, bạn sẽ nhận thấy câu trả lời của chúng có thể rất dài dòng, và Gemini cũng không ngoại lệ với các prompt mà nó đưa ra trong lần chạy thử của chúng tôi. Vì vậy, chúng tôi quyết định giới hạn mỗi prompt ở 500 ký tự để đảm bảo tính nhất quán.
AI Làm Gì Với Các Hình Dạng Đơn Giản?
Chúng ta hãy bắt đầu với một hình vuông đơn giản. Chúng tôi yêu cầu Gemini mô tả một hình vuông mà không gọi tên nó, và đây là kết quả:
“Một hình có bốn cạnh với tất cả các cạnh có độ dài bằng nhau. Mỗi góc bên trong có số đo chính xác là 90 độ. Nó là một tứ giác đều với các cạnh đối song song.”
Sau khi nhập mô tả này vào DALL-E 3, chúng tôi nhận được các kết quả sau:
Hình ảnh AI tạo ra một hình vuông với các đường lưới phức tạp phía sau.
Đúng là một hình vuông, mặc dù có vẻ như nó đã “quá đà” với hình học. Giờ là lúc nâng độ khó, chúng tôi yêu cầu AI mô tả chi tiết một khối lập phương.
“Một hình ba chiều với sáu mặt giống hệt nhau. Mỗi mặt là một tứ giác đều có bốn cạnh bằng nhau và bốn góc vuông. Nó có mười hai cạnh có độ dài bằng nhau và tám đỉnh. Tất cả các góc bên trong hình đều là góc vuông.”
Kết quả thật đáng ngạc nhiên:
Ảnh AI tạo ra một khối Rubik's lập phương trên nền trắng, cho thấy sự hiểu sai của mô hình.
Bạn còn nhớ chúng ta đã nói gì về các mô hình AI rất khó đoán không? Vâng, ở đây, DALL-E 3 đã tạo ra một khối lập phương, nhưng nó đã bị “nhầm lẫn” và biến thành một khối Rubik. Mặc dù đã tránh dùng từ chính xác, AI vẫn mắc lỗi một phần – có lẽ do sự phổ biến của món đồ chơi trí tuệ này.
AI Tạo Ảnh Chân Dung Con Người Từ Mô Tả AI
Tình huống khối lập phương cho thấy ngay cả với một mô tả chi tiết và “khách quan”, AI vẫn có thể hiểu sai các hướng dẫn khá trực tiếp. Vậy, hãy xem nó hoạt động như thế nào với các mô tả do AI tạo ra về các hình ảnh kinh điển, chẳng hạn như bức ảnh “Migrant Mother” của Dorothea Lange. Đây là ảnh gốc:
Bức ảnh kinh điển "Migrant Mother" của Dorothea Lange, khắc họa người mẹ với vẻ mặt lo lắng cùng các con.
Và đây là mô tả do Gemini tạo:
“Một người phụ nữ, khuôn mặt khắc sâu nỗi lo lắng, nhìn ra ngoài khung hình. Cô ấy được bao quanh bởi các con, khuôn mặt của chúng bị che khuất hoặc quay đi. Bàn tay của cô ấy đặt gần mặt, thể hiện sự kiệt sức và lo lắng. Cảnh tượng gợi lên sự nghèo đói và khó khăn. Quần áo của người phụ nữ đã sờn rách, và bố cục tổng thể u ám, nhấn mạnh gánh nặng hoàn cảnh của cô ấy.”
Đây là bản diễn giải của DALL-E 3 về bức ảnh nổi tiếng này:
Hình ảnh AI được tạo ra dựa trên mô tả của ảnh "Migrant Mother", với chi tiết không hoàn toàn trùng khớp.
Gần đúng! Không hoàn toàn chính xác, vì DALL-E 3 rõ ràng đã bỏ qua phần “được bao quanh bởi các con, khuôn mặt của chúng bị che khuất hoặc quay đi” và thay vì “người mẹ” đặt tay gần mặt, một trong những đứa trẻ lại thực hiện vai trò đó.
Hãy thử một cái gì đó phức tạp hơn. Có lẽ bạn đã từng thấy bức ảnh kinh điển “Lunch atop a Skyscraper”:
Bức ảnh đen trắng nổi tiếng "Lunch atop a Skyscraper", mô tả công nhân ăn trưa trên dầm thép cao tầng.
Đây là prompt “thần sầu” do AI tạo ra:
“Mười một người đàn ông ngồi trên một dầm thép, lơ lửng trên không trung. Họ ăn trưa, chân đung đưa. Dầm được treo lơ lửng phía trên một thành phố rộng lớn. Những người đàn ông có vẻ thư thái, bất chấp độ cao cực lớn. Họ mặc quần áo lao động, và cảnh được chụp từ một góc hơi thấp, nhấn mạnh chiều cao.”
Prompt xuất sắc này đã mang lại kết quả xuất sắc:
Ảnh AI tái tạo bức "Lunch atop a Skyscraper" với các chi tiết lặp lại, điển hình của hình ảnh do AI tạo.
Khi bạn bỏ qua các dấu hiệu kinh điển của một hình ảnh do AI tạo ra (như những chiếc bát giống hệt nhau và các chủ thể bị “sao chép”), bức ảnh này gần như kỳ lạ về bố cục và không khí tổng thể. Tuy nhiên, điều này không quá ngạc nhiên – không chỉ bức ảnh này siêu phổ biến, mà nó còn thuộc phạm vi công cộng, vì vậy chúng tôi có một linh cảm DALL-E 3 đã “nhả” nội dung của nó trong quá trình huấn luyện.
Khả Năng Của AI Với Các Bức Ảnh Phức Tạp và Trừu Tượng
Vì đây là “thử nghiệm” cuối cùng trong thí nghiệm, chúng tôi sẽ nâng cao độ khó! Mặc dù AI khá tốt với các chủ thể con người, nhưng nó thường gặp khó khăn khi đối mặt với các cảnh phức tạp và “bí ẩn” hơn. Vậy còn bức ảnh kinh điển “Earthrise” chụp từ quỹ đạo mặt trăng trên Apollo 8 thì sao?
Bức ảnh "Earthrise" nổi tiếng chụp Trái Đất từ quỹ đạo mặt trăng bởi William Anders.
Và đây là mô tả của Gemini:
“Một quả cầu được chiếu sáng một phần lơ lửng trong không gian tối tăm. Một quả cầu nhỏ hơn, có tông màu xám, mọc lên phía trên đường chân trời của nó. Quả cầu lớn hơn hiển thị các màu xanh lam và trắng lốm đốm, gợi ý nước và mây. Sự tương phản rõ rệt giữa hai quả cầu và bóng tối nhấn mạnh sự mong manh và cô lập của quả cầu nhỏ hơn đang mọc lên”.
Gemini thực sự đã “đánh rơi quả bóng” (hay đúng hơn là quả cầu) với mô tả này. Xem xét việc này quá trừu tượng, chúng tôi đã thêm cụm từ “chụp từ quỹ đạo mặt trăng gần” vào prompt, nhưng nó cũng không giúp ích nhiều:
Hình ảnh không gian do AI tạo ra, mô tả mặt trăng và trái đất nhưng không giống bức "Earthrise" gốc.
Đúng là một bìa album nhạc progressive rock tuyệt vời, nhưng không có gì liên quan đến “Earthrise”. Để kết thúc thử nghiệm, chúng tôi đã chọn bức ảnh ít được biết đến nhất từ trước đến nay, kiệt tác công nghiệp “Armco Steel” của Edward Weston:
Bức ảnh công nghiệp "Armco Steel" của Edward Weston, nhấn mạnh hình dáng và kết cấu của vật thể.
Prompt do Gemini tạo ra:
“Một loạt các bể công nghiệp kim loại hình tròn lấp đầy khung hình. Hình dạng của chúng mịn và phình ra, tạo thành một mẫu lặp lại. Ánh sáng phản chiếu từ các bề mặt, làm nổi bật hình dạng cong của chúng và tạo cảm giác về khối lượng. Bố cục nhấn mạnh các phẩm chất trừu tượng của các vật thể công nghiệp, tập trung vào hình dạng và kết cấu hơn là chức năng của chúng. Cảnh tượng khắc nghiệt và tối giản, với sự nhấn mạnh mạnh mẽ vào ánh sáng và bóng tối.”
Có vẻ là một prompt tốt, hãy xem DALL-E 3 có đồng ý không:
Ảnh AI tạo ra một loạt hình trụ kim loại sáng bóng, không liên quan đến tác phẩm gốc "Armco Steel".
Mặc dù chúng tôi đánh giá cao không khí khoa học viễn tưởng, nhưng nó không giống chút nào so với bản gốc. Chúng tôi không muốn kết thúc thí nghiệm với một thất bại lớn như vậy, vì vậy chúng tôi quyết định “giúp” máy bằng cách thêm thuật ngữ “bức ảnh thập niên 1920” vào cuối prompt.
Suy nghĩ của chúng tôi là thuật ngữ cụ thể này có thể giúp làm rõ bức ảnh mà chúng tôi đang đề cập. Thật không may, AI lại làm chúng tôi thất vọng một lần nữa và tạo ra một bìa album nhạc prog rock khác:
Hình ảnh AI tiếp tục tạo ra các hình trụ lớn, ngay cả khi prompt đã được bổ sung yếu tố "ảnh thập niên 1920".
Kết quả của thử nghiệm này rất thú vị, và kết luận chúng ta có thể rút ra là AI tạo ảnh cực kỳ khó đoán, đặc biệt với các khái niệm trừu tượng hơn. Không quan trọng là prompt do AI tạo ra và chính xác, hay do con người tạo ra và không hoàn hảo – kết quả dường như vẫn mang tính ngẫu nhiên cao.
Vì vậy, lần tới khi bạn cố gắng tự trách mình và khả năng prompt của bạn, hãy nhớ rằng kết quả có thể sẽ tương tự ngay cả khi đó là hai cỗ máy đang giao tiếp với nhau. Thí nghiệm này của thuthuat365.net cho thấy, việc nâng cao chất lượng prompt chỉ là một phần nhỏ trong bức tranh lớn hơn về khả năng tạo ảnh của AI, và chúng ta vẫn còn một chặng đường dài để đi cho đến khi AI có thể hiểu và tái tạo ý tưởng một cách hoàn hảo.