Trong khi khả năng sản sinh ra các hình ảnh chỉ từ vài dòng văn bản của AI tạo sinh còn đang khiến người dùng chưa hết kinh ngạc, OpenAI vừa bất ngờ giới thiệu một mô hình AI mới có tên Sora, giúp người dùng tự tạo các đoạn video dài đến một phút chỉ với vài dòng văn bản.
Điều bất ngờ là các video do Sora tạo ra chân thực đến mức đáng kinh ngạc cho thấy khả năng đáng nể của mô hình AI này. Hiện tại, Sora chỉ dành cho một nhóm nhỏ các nhà nghiên cứu và nhà sáng tạo để thử nghiệm trước khi phát hành rộng rãi. Sự xuất hiện của Sora có thể gây ra ảnh hưởng đáng kể đến ngành công nghiệp điện ảnh và vấn nạn deepfake ngày càng nghiêm trọng.
Hiện OpenAI chưa tiết lộ thời gian phát hành công khai của Sora.
Sora là sản phẩm đầu tiên của OpenAI trong lĩnh vực tạo sinh video bằng AI, bổ sung vào danh mục các công cụ tạo văn bản và hình ảnh dựa trên AI của công ty như ChatGPT và Dall-E. Điểm độc đáo của Sora là nó ít mang tính công cụ sáng tạo mà thiên về "công cụ vật lý dựa trên dữ liệu", như Giám đốc nghiên cứu cao cấp của Nvidia, Tiến sĩ Jim Fan, chỉ ra.
"Sora có khả năng tạo ra những khung cảnh phức tạp với nhiều nhân vật, chuyển động cụ thể và chi tiết chính xác về chủ thể và nền," OpenAI cho biết trong bài đăng trên blog. "Mô hình không chỉ hiểu yêu cầu của người dùng trong lời nhắc, mà còn hiểu cách những thứ đó tồn tại trong thế giới vật chất", cũng như "diễn giải chính xác các đạo cụ và tạo ra những nhân vật hấp dẫn, thể hiện cảm xúc sống động".
Bên cạnh tạo video từ văn bản, Sora còn có thể tạo video dựa trên ảnh tĩnh, điền vào các khung hình bị thiếu trong video hiện có hoặc kéo dài video đó. Các ví dụ video do Sora tạo được OpenAI chia sẻ trong bài đăng trên blog bao gồm cảnh trên không của California thời kỳ đào vàng, video như được quay từ bên trong tàu điện Tokyo, v.v...
Nhiều video vẫn mang một số dấu hiệu cho thấy là sản phẩm của AI, chẳng hạn như sàn nhà chuyển động lạ trong video về viện bảo tàng. OpenAI cũng thừa nhận mô hình "có thể gặp khó khăn trong việc mô phỏng chính xác vật lý của một cảnh phức tạp", nhưng về tổng thể, kết quả khá ấn tượng.
Không thể phủ nhận chất lượng tuyệt vời với các video do Sora sản sinh ra. Thông thường để sản xuất các video này, một đội ngũ quay phim hoặc họa sĩ hoạt hình thực sự sẽ mất hàng giờ đồng hồ. Sora có thể sẽ gây đảo lộn ngành công nghiệp điện ảnh tương tự như cách ChatGPT và trình tạo hình ảnh AI đã khiến thế giới biên tập và thiết kế bị sốc. Đây là một công nghệ vừa đáng chú ý vừa đáng sợ về vấn đề bảo đảm việc làm cho những nhà sáng tạo video.
OpenAI cho biết vẫn còn một vài điểm cần cải thiện, bao gồm việc không hiểu mối quan hệ nhân quả. Sora có thể tạo ra video về một người đang cắn một miếng bánh quy, nhưng sau đó, bánh quy có thể không bị cắn. OpenAI cũng cho biết mô hình thiếu nhận thức không gian. Nó có thể nhầm lẫn trái và phải, và không hiểu cách một người hoặc vật thể tương tác với một cảnh.
Tuy vậy, chất lượng đáng kinh ngạc của Sora cũng gây ra một mối lo ngại khác khi công nghệ AI đang bị lợi dụng để tạo ra các nội dung giả mạo trong thời gian gần đây. OpenAI cho biết họ sẽ xây dựng các công cụ để giúp phát hiện nội dung gây hiểu lầm, cũng như áp dụng các công nghệ hiện có để từ chối các lời nhắc văn bản có hại. Tuy nhiên, với những cách mọi người đã vượt qua các biện pháp bảo vệ của các mô hình AI hiện tại, thành công của những nỗ lực này vẫn còn đáng nghi vấn.