Meta ra mắt AI làm phim: tương đối chân thực, tạo khẩu hình trông hơi sượng nhưng tạm chấp nhận được

2/4

1264

Sau này sẽ khác!

Theo nhận định từ nhóm nghiên cứu các mô hình trí tuệ nhân tạo của Meta, chuyển động trong các video tạo bằng AI đã mức độ chân thực ấn tượng, tuy nhiên, họ cho rằng yếu tố kể chuyện bằng nhân vật chưa đạt tới độ chín muồi.

Đó là lý do nhóm nghiên cứu của Meta công bố MoCha, một mô hình AI sử dụng giọng nói và văn bản để tạo hoạt ảnh nhân vật nói chuyện. Là viết tắt của Movie-Grade Talking Character Synthesis - Tổng hợp Hình Nhân vật Nói chuyện với Chất lượng Điện ảnh, MoCha là mô hình Diffusion Transformer (DiT - kết hợp mô hình khuếch tán và mô hình transformer) có thể tạo ra nhân vật với chất lượng điện ảnh.

Khẳng định trên do trưởng dự án, ông đưa ra trên mạng xã hội X. Bạn có thể đọc báo cáo của nhóm tại

Hình ảnh có thể coi là chân thực, tuy nhiên vẫn có thể nhận biết rất rõ rằng đây là sản phẩm của AI - Video: Cong Wei/Meta.

Cũng theo lời nhà nghiên cứu này, đây là lần đầu tiên có một mô hình tạo ra được nhiều nhân vật cùng trò chuyện theo lượt, qua đó mở ra kỷ nguyên mới cho làm phim tự động.

Dưới đây là một số ví dụ về những video MoCha có thể tạo ra:

Những ví dụ cho thấy AI có khả năng kết hợp nhiều yếu tố trong cùng một video, như một số ví dụ dưới đây.

Kết hợp khẩu hình, câu thoại với khả năng mô tả biểu cảm:

Kết hợp khẩu hình, câu thoại với hành động của nhân vật:

Kết hợp khẩu hình, câu thoại trên nhiều nhân vật trong một cảnh quay:

Ta có thể thấy gì từ MoCha?

Như các nhà nghiên cứu từ Meta khẳng định, MoCha có thể được sử dụng như công cụ làm phim trong tương lai. Có trong tay một kịch bản hay và quyền sử dụng hình ảnh của diễn viên nổi tiếng, một đạo diễn kỳ tài có thể tạo ra bộ phim trong mơ của mình.

Tuy nhiên, chắc chắn việc sử dụng MoCha hay những mô hình AI tiên tiến hơn sau này sẽ vấp phải nhiều trở ngại. Một mô hình AI dạng này có thể lấy tước mất làm của nhiều người, từ diễn viên, quay phim cho đến ban xử lý hậu kỳ. Thậm chí, những câu thoại kia hoàn toàn có thể do một chatbot sản sinh ra, khiến biên kịch cũng thất nghiệp.

Từ những ví dụ mà MoCha tạo ra, có thể thấy chất lượng hình ảnh chưa thuyết phục: khẩu hình nhân vật bị cường điệu hóa, có khi đến mức lố bịch; bố cục vật thể chưa thực tế, có thể khiến cảnh quay trở nên giả tạo.

Vị trí tay và vô lăng chưa hợp lý với hướng ngồi - Video: Video: Cong Wei/Meta.

Nhưng cũng giống những mô hình AI khác, MoCha sẽ dần tiến bộ, khiến chất lượng sản phẩm đầu ra ngày một chân thực hơn. Bạn cứ nhìn vào cách AI vẽ bàn tay của ngày xưa và ngày nay thì biết.

Và một khi những thước phim mà MoCha, hay bất cứ mô hình AI làm phim nào khác, tạo ra chân thật đến đáng kinh ngạc, khó có thể biết công tác nhận biết thật-giả của tương lai sẽ gian nan đến nhường nào.

Lấy link