Một video được tạo ra bằng Sora - công cụ tạo video bằng AI mới ra mắt của OpenAI đã lan truyền mạnh mẽ trên mạng xã hội, nhưng không phải vì sự ấn tượng mà vì những lỗi "ác mộng" trong quá trình xử lý. Video cho thấy một vận động viên thể dục dụng cụ thực hiện bài tập, nhưng cơ thể cô liên tục biến dạng: mọc thêm tay chân, và thậm chí mất đầu giữa bài tập.
Đoạn video này không chỉ là một tình huống hài hước mà còn phơi bày một trong những điểm yếu lớn của Sora, cũng như các công cụ tạo video AI khác. Đó chính là khả năng xử lý chuyển động phức tạp và tuân theo các quy luật vật lý cơ bản.
Video được nhà đầu tư mạo hiểm Deedy Das tạo ra và chia sẻ trên nền tảng X (Twitter cũ). Trong bài tập, vận động viên thực hiện các động tác xoay lộn và chạy đà, nhưng AI khiến cô ấy mọc thêm các chi thừa, cơ thể biến dạng và thậm chí bị mất đầu trong vài giây trước khi chiếc đầu quay lại vị trí cũ.
Đoạn video cho thấy khả năng xử lý của Sora chưa thực sự hoàn hảo. Nguồn: Deedy Das
Das cho biết anh đã thử nghiệm Sora để kiểm tra khả năng xử lý chuyển động phức tạp như thể dục dụng cụ, lĩnh vực mà nhiều công cụ AI trước đây đều thất bại. "Dù nhân vật trong video đã nhất quán hơn so với các mô hình cũ, nhưng kết quả cuối cùng vẫn kinh dị. Chúng tôi từng hy vọng AI có thể học được quy luật vật lý, nhưng điều đó vẫn chưa xảy ra," Das nói.
Vì sao Sora thất bại?
Sora được huấn luyện bằng cách phân tích hàng nghìn video, đi kèm mô tả văn bản chi tiết, để "học" cách tạo video dựa trên các dữ liệu đã có. Khi nhận được yêu cầu, Sora dựa vào các thống kê trong dữ liệu để dự đoán các khung hình tiếp theo. Tuy nhiên, đối với các chuyển động phức tạp như thể dục dụng cụ, AI gặp khó khăn lớn trong việc tái hiện chính xác.
Vấn đề nằm ở dữ liệu huấn luyện. Các video huấn luyện có thể thiếu độ chính xác hoặc không bao gồm các thông tin chi tiết về chuyển động ở cấp độ từng chi cụ thể. Kết quả là Sora không chỉ "không hiểu" quy luật vật lý, mà còn sắp xếp các khung hình một cách hỗn loạn, dẫn đến những lỗi kỳ dị như trong video.
Những lỗi như của Sora thường được gọi là hiện tượng "Jabberwocky", thuật ngữ chỉ các kết quả vô nghĩa hoặc kỳ quái mà AI tạo ra. Đây không phải lần đầu AI video gặp phải tình huống này. Các công cụ khác như Runway Gen-3 hay Hunyuan Video cũng từng tạo ra những kết quả "kinh dị" khi xử lý các yêu cầu vượt xa dữ liệu huấn luyện của chúng.
Hiện tượng Jabberwocky cho thấy một điểm yếu chung của AI video hiện tại: chúng chỉ giỏi bắt chước dữ liệu có sẵn, nhưng không có khả năng hiểu thực tế hay các quy luật tự nhiên. Khi gặp phải những yêu cầu phức tạp hoặc khác lạ, AI sẽ "chế biến" dữ liệu theo cách riêng của mình, thường dẫn đến kết quả vô nghĩa hoặc kỳ dị.
Để tránh những lỗi tương tự trong tương lai, các nhà phát triển cần cải thiện dữ liệu huấn luyện, bổ sung nhiều video được dán nhãn chính xác hơn và xây dựng mô hình AI có khả năng hiểu quy luật vật lý tốt hơn. OpenAI cho biết họ đang làm việc để nâng cao chất lượng của Sora, với mục tiêu đạt được "ảo giác hiểu biết"—khi AI có thể tạo ra video gần giống thực tế, tương tự cách các mô hình ngôn ngữ như GPT xử lý văn bản.
Dù vậy, vẫn cần thêm thời gian để AI video đạt đến mức độ hoàn thiện như kỳ vọng. Hiện tại, Sora và các công cụ tương tự chỉ ở giai đoạn đầu phát triển, và những lỗi "Jabberwocky" như trong video vừa qua là điều khó tránh khỏi.
Lấy link