AI có khả năng “tạo ra hình ảnh từ văn bản” giống như Google Imagen

Công ty OpenAI đã phát triển một mô hình AI (trí tuệ nhân tạo) mới có thể tạo ra hình ảnh dựa trên văn bản, và kết quả nó mang lại thật sự bất ngờ.

Theo CNBC, có một xu hướng “thời thượng” mới đang lan truyền trên các phương tiện truyền thông xã hội, giờ đây bạn có thể dễ dàng bắt gặp trên Twitter những hình ảnh lạ mắt kèm theo một câu chú thích có nội dung miêu tả về nó.

Những bức ảnh đó có thể được tạo ra nhờ một phần mềm AI chuyển văn bản thành hình ảnh có tên DALL-E. Phần mềm này đã được OpenAI, một công ty khởi nghiệp được hỗ trợ bởi Microsoft phát triển. Trên trang web của mình, OpenAI gọi phiên bản DALL-E 2 là “một hệ thống AI mới có thể tạo ra hình ảnh và tác phẩm nghệ thuật cực kỳ chân thực chỉ bằng một mô tả ngắn gọn”.

Ví dụ: Một người dùng Twitter đã đăng một dòng tweet với nội dung: “Có thể có hay không, một giáo sĩ Do Thái đang cầm quả bơ, tác phẩm điêu khắc bằng đá cẩm thạch”. Kèm theo đó là một bức ảnh được cho thấy một bức tượng bằng đá cẩm thạch của một người đàn ông có râu trong chiếc áo choàng và đội mũ quả dưa, đang cầm một quả bơ.

Hình ảnh được tạo ra từ câu lệnh của phiên bản DALL-E 2 mới.

Ngoài ra, còn có một số tác phẩm khác được tạo ra bởi các câu lệnh như “một con cá sấu, ôm một cây kèn saxophone, đi trên đường phố đông người” hoặc “một con sóc đang lái xe mui trần, xuống đường cao tốc rợp bóng cây cọ, vào một ngày nắng”. Kết quả trả về khá ấn tượng với phần lớn nội dung đều được tạo ra đúng với yêu cầu, bằng hệ thống trí tuệ nhân tạo của OpenAI.

Hình ảnh con cá sấu cùng kèn saxophone được tạo ra bởi DALL-E Mini.

Hình ảnh chú sóc lái xe mui trần được tạo ra bởi DALL-E Mini.

Tuy nhiên, giống với Google Imagen, OpenAI chưa cung cấp công nghệ rộng rãi cho công chúng. Những hình ảnh đã công bố được tạo ra bởi một nhóm người đã được công ty lựa chọn cho việc thử nghiệm. Một số người dùng đầu tiên của OpenAI là bạn bè và người thân của nhân viên. Nếu những người khác muốn có được cơ hội thử nghiệm, họ phải đợi trong một danh sách chờ và thuộc những ngành nghề nhất định như nghệ sĩ chuyên nghiệp, nhà phát triển, nhà nghiên cứu hàn lâm, nhà báo hay người sáng tạo trực tuyến.

“Chúng tôi đang làm việc chăm chỉ để tăng tốc độ hoạt động của phần mềm, nhưng có thể sẽ mất một khoảng thời gian cho đến khi chúng tôi tiếp cận được với tất cả mọi người; kể từ ngày 15/6, chúng tôi đã mời 10.217 người dùng thử DALL-E”, Joanne Jang của OpenAI đã viết trên trang trợ giúp trên trang web của công ty.

Công ty cũng có một hệ thống công khai là DALL-E Mini. Nó dựa trên mã nguồn mở từ một nhóm các nhà phát triển được tổ chức lỏng lẻo và thường bị quá tải bởi nhu cầu sử dụng quá lớn.

Các dịch vụ chuyển văn bản thành hình ảnh hoạt động rất phức tạp, chúng phải xác định những phần quan trọng nhất trong câu lệnh của người dùng và sau đó tìm cách cách tốt nhất để minh họa những thuật ngữ đó. Google đã đào tạo mô hình Imagen của mình với hàng trăm chip AI nội bộ trên 460 triệu cặp văn bản hình ảnh bên trong, chưa tính đến những dữ liệu bên ngoài.

Các kỹ sư đã đào tạo việc tạo nên các mô hình từ các bộ sưu tập câu lệnh và hình ảnh phong phú từ web, bao gồm cả những bức ảnh mà mọi người đã đăng trên Flickr.

OpenAI cũng nhận ra khả năng gây hại có thể đến từ việc sử dụng AI để tạo ra hình ảnh từ văn bản. Để thử và giải quyết rủi ro, các nhân viên đã xóa nội dung bạo lực khỏi dữ liệu đào tạo và có các bộ lọc ngăn DALL-E 2 tạo hình ảnh nếu người dùng sử dụng miêu ta vi phạm chính sách của công ty về ảnh khỏa thân, bạo lực hoặc nội dung chính trị.

Bất chấp những rủi ro có thể xảy ra, OpenAI rất hào hứng với những gì mà công nghệ của họ có thể tạo ra. Dhariwal cho biết nó có thể mở ra cơ hội sáng tạo cho các cá nhân và có thể giúp tạo ra các ứng dụng thương mại cho các trang web thiết kế nội thất.

Kết quả sẽ tiếp tục được cải thiện theo thời gian. Minh chứng là DALL-E 2, được giới thiệu vào tháng 4, đã cho ra hình ảnh thực tế hơn so với phiên bản đầu tiên mà OpenAI đã công bố vào năm ngoái. Ngoài ra, mô hình tạo văn bản GPT của công ty đã trở nên tinh vi hơn qua từng thế hệ.