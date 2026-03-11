Trong vài tháng gần đây, làn sóng phát triển của các mô hình video AI đã khiến ngành công nghiệp điện ảnh toàn cầu chú ý đặc biệt. Những hệ thống như Seedance 2.0, Sora hay Veo có thể tạo ra các đoạn video với chất lượng hình ảnh chân thực đáng kinh ngạc. Nhân vật trong video có làn da với từng lỗ chân lông rõ ràng, ánh sáng phản chiếu trên bề mặt vật thể giống như quay bằng máy quay chuyên nghiệp, còn bối cảnh xung quanh chi tiết đến mức nhiều người khó phân biệt với cảnh quay thực tế.

Chính vì vậy, sự xuất hiện của các công nghệ này đã khiến Hollywood phản ứng mạnh mẽ. Một số hãng phim lớn đã lên tiếng cảnh báo về nguy cơ thay đổi toàn bộ ngành công nghiệp sáng tạo. Thậm chí theo nhiều nguồn tin, Disney đã gửi thư pháp lý tới ByteDance sau khi các công nghệ tạo video mới xuất hiện.

Tuy nhiên, giữa lúc các mô hình AI gây ấn tượng mạnh về mặt thị giác, một thử nghiệm tưởng chừng rất đơn giản lại hé lộ một giới hạn đáng chú ý. Một lập trình viên sử dụng mạng xã hội X với tài khoản fofr đã đặt ra một bài kiểm tra cơ bản: yêu cầu AI tạo video một người đàn ông đếm từ 1 đến 10 và giơ số ngón tay tương ứng.

Kết quả khiến nhiều người bất ngờ. Video được tạo ra có nhân vật với gương mặt cân đối, biểu cảm tự nhiên và bối cảnh nhà bếp chân thực. Khi nhân vật nói “one”, mọi thứ vẫn diễn ra bình thường. Nhưng ngay sau đó, hệ thống bắt đầu gặp lỗi. Nhân vật có thể lặp lại một âm vô nghĩa, hoặc nói “ten” trong khi chỉ giơ ba ngón tay. Trong toàn bộ đoạn video, số ngón tay giơ lên thường không vượt quá ba.

Điều đáng nói là những lỗi này lại càng gây cảm giác kỳ lạ bởi phần còn lại của video trông quá thật. Sự tương phản giữa hình ảnh chân thực và hành động phi logic tạo ra cảm giác mà nhiều người gọi là “hiệu ứng người giả”.

Sau khi thử nghiệm này được chia sẻ, cộng đồng mạng đã nhanh chóng biến nó thành một thử thách rộng rãi. Nhiều người thử đưa cùng một yêu cầu vào các mô hình khác như Sora của OpenAI, Veo của Google hay Kling của Trung Quốc. Kết quả gần như giống nhau: không có hệ thống nào thực hiện hoàn hảo việc đếm từ 1 đến 10.

Theo các chuyên gia, hiện tượng này không phải là một lỗi kỹ thuật đơn lẻ mà phản ánh giới hạn cơ bản của cách xây dựng mô hình AI hiện nay. Phần lớn hệ thống tạo video hoạt động bằng cách học các quy luật thống kê từ lượng dữ liệu khổng lồ, sau đó dự đoán cách sắp xếp pixel có khả năng xuất hiện tiếp theo trong mỗi khung hình.

Cơ chế này tương tự cách các mô hình ngôn ngữ lớn dự đoán từ tiếp theo trong một câu. Nhờ đó, AI có thể tái tạo những chi tiết hình ảnh rất tinh vi, bởi dữ liệu huấn luyện chứa hàng triệu ví dụ về khuôn mặt, quần áo, ánh sáng hay cảnh vật.

Tuy nhiên, khi nhiệm vụ đòi hỏi sự hiểu biết về logic hoặc kiến thức thường thức, các mô hình này bắt đầu bộc lộ hạn chế. Ví dụ điển hình là việc xử lý bàn tay con người. Một bàn tay có cấu trúc phức tạp với hàng chục khớp và cơ bắp, khiến việc mô phỏng chính xác chuyển động trở nên khó khăn.

Ngoài ra, dữ liệu huấn luyện về bàn tay thường ít rõ ràng hơn so với khuôn mặt. Trong nhiều video, bàn tay nằm ở rìa khung hình, bị che khuất hoặc bị nhòe do chuyển động. Điều này khiến mô hình học được ít thông tin chính xác hơn.

Một hạn chế khác nằm ở việc mô phỏng các quy luật vật lý. Nhiều hệ thống AI hiện nay vẫn gặp khó khăn khi tái tạo các hiện tượng như dòng nước chảy, vật thể va chạm hoặc kính vỡ. Báo cáo kỹ thuật khi OpenAI ra mắt Sora cũng thừa nhận rằng mô hình chưa thể mô phỏng chính xác nhiều tương tác vật lý cơ bản.

Bên cạnh đó, video còn đòi hỏi tính nhất quán theo thời gian. Mỗi khung hình phải liên kết logic với khung hình trước đó. Tuy nhiên, các mô hình khuếch tán hiện nay xử lý thời gian như một chiều toán học trừu tượng, nên chúng không thực sự “nhớ” điều gì đã xảy ra ở những khung hình trước.

Chính vì vậy, trong một đoạn video dài vài giây, AI có thể quên mất nhân vật đã giơ bao nhiêu ngón tay trước đó và tiếp tục tạo ra những hành động không nhất quán.

Trước những hạn chế này, nhiều nhà nghiên cứu đang tìm kiếm một hướng đi mới. Một trong những ý tưởng được chú ý nhất là xây dựng cái gọi là “mô hình thế giới”. Thay vì chỉ học từ hình ảnh, AI sẽ được thiết kế để hiểu cấu trúc không gian ba chiều và các quy luật vật lý chi phối thế giới thực.

Một trong những người tiên phong trong hướng nghiên cứu này là nhà khoa học Fei-Fei Li, người sáng lập bộ dữ liệu ImageNet nổi tiếng. Năm 2024, bà thành lập công ty World Labs với mục tiêu phát triển trí tuệ không gian cho AI.

Theo quan điểm của bà, để AI thực sự hiểu thế giới, hệ thống cần học được các quy luật vật lý như trọng lực, chuyển động hay cấu trúc vật chất. Đây là những yếu tố vượt xa khả năng của các mô hình chỉ dựa vào dữ liệu hình ảnh.

World Labs gần đây đã huy động được khoảng 1 tỷ USD vốn đầu tư và đang phát triển công nghệ tạo môi trường 3D từ hình ảnh hoặc văn bản. Ngoài ra, nhiều tổ chức lớn khác cũng đang theo đuổi hướng tương tự, bao gồm Google DeepMind và Nvidia.

Sự xuất hiện của những dự án này cho thấy một điều quan trọng: con đường chỉ dựa vào dữ liệu có thể đang dần chạm tới giới hạn. Để AI tiến xa hơn, các nhà nghiên cứu có thể cần một bước nhảy về kiến trúc và cách tiếp cận.

Trong bối cảnh đó, thử thách “đếm từ 1 đến 10” trở thành một phép thử thú vị. Nó nhắc nhở rằng dù các mô hình AI ngày nay có thể tạo ra hình ảnh giống thật đến đâu, việc hiểu thế giới thực vẫn là một bài toán khó hơn nhiều.

Và ít nhất ở thời điểm hiện tại, việc đếm từ một đến mười vẫn là kỹ năng mà con người làm tốt hơn máy móc.