vừa công bố hai mô hình AI mới là o3 và o4-mini, được giới thiệu là "tối tân" về khả năng suy luận và xử lý logic. Nhưng trái với kỳ vọng, cả hai lại có một vấn đề nghiêm trọng: chúng tưởng tượng quá đà – hay nói cách khác, bịa chuyện nhiều hơn cả những mô hình cũ.
Hallucination (tạm dịch: ảo giác hay "nói bậy") là một vấn đề cố hữu của trí tuệ nhân tạo. Đây là hiện tượng AI tạo ra thông tin sai sự thật một cách tự tin, khiến người dùng dễ bị đánh lừa. Các phiên bản trước thường cải thiện được phần nào vấn đề này, nhưng với o3 và o4-mini, tình hình có vẻ đang đi ngược lại.
Theo báo cáo kỹ thuật từ chính OpenAI, o3 và o4-mini - hai mô hình thuộc dòng "reasoning models" chuyên xử lý suy luận logic - lại tạo ra thông tin sai lệch nhiều hơn cả các phiên bản cũ như o1, o1-mini và o3-mini, thậm chí cả GPT-4o. Trên bộ đánh giá nội bộ PersonQA, o3 bịa đến 33% câu trả lời, gấp đôi so với o1 và o3-mini (16% và 14,8%). Tệ hơn nữa, o4-mini đạt mức hallucination 48% – gần như tung đồng xu để phân biệt đúng sai.
Một điều đáng lo hơn: ngay cả OpenAI cũng không chắc vì sao điều này xảy ra.

Trong báo cáo, hãng thừa nhận "cần nghiên cứu thêm" để lý giải vì sao càng mở rộng mô hình suy luận thì mức độ bịa đặt lại càng cao. Dù o3 và o4-mini thể hiện tốt hơn ở các bài toán lập trình và toán học, chúng cũng "nói nhiều hơn" - tức là có xu hướng tạo ra nhiều thông tin hơn, dẫn đến cả nhiều câu trả lời đúng lẫn sai.
Một nhóm nghiên cứu độc lập từ tổ chức phi lợi nhuận Transluce cũng xác nhận điều này. Họ phát hiện o3 không chỉ bịa ra dữ kiện, mà còn… bịa cả quá trình làm ra câu trả lời. Trong một trường hợp, o3 tuyên bố đã chạy code trên MacBook Pro 2021 "ngoài ChatGPT" rồi copy kết quả vào — điều mà bản thân nó không thể thực hiện được.
Theo Neil Chowdhury - nhà nghiên cứu tại Transluce và cựu nhân viên OpenAI - vấn đề có thể nằm ở cách huấn luyện tăng cường (reinforcement learning) mà OpenAI áp dụng cho dòng o-series. Dù phương pháp này cải thiện hiệu suất ở một số tác vụ, nó có thể vô tình khuếch đại xu hướng "nói bậy".
Dù vậy, một số người dùng vẫn đánh giá cao tiềm năng của o3. Kian Katanforoosh, giảng viên Stanford và CEO startup Workera, cho biết nhóm của ông đang thử nghiệm o3 trong quy trình lập trình và thấy nó "vượt trội hơn các đối thủ". Tuy nhiên, ông cũng thừa nhận o3 thường xuyên tạo ra link web không tồn tại – một kiểu hallucination gây phiền toái nếu dùng trong các ứng dụng thực tế.
Vấn đề nằm ở chỗ: trong khi khả năng "bịa chuyện" đôi khi giúp AI sáng tạo hơn, thì nó cũng là lý do khiến các doanh nghiệp - đặc biệt trong lĩnh vực yêu cầu độ chính xác cao như luật, y tế hay tài chính - rất dè chừng trong việc triển khai AI vào công việc.
Một hướng đi tiềm năng là kết hợp AI với công cụ tìm kiếm. Chẳng hạn, GPT-4o khi có quyền truy cập web đạt độ chính xác 90% trên bộ SimpleQA. Điều này gợi ý rằng khả năng tra cứu ngoài có thể là chìa khoá để hạn chế AI bịa đặt – nếu người dùng chấp nhận đánh đổi bằng việc chia sẻ prompt cho bên thứ ba.
Về phần mình, người phát ngôn OpenAI khẳng định đây vẫn là "một lĩnh vực nghiên cứu liên tục" và họ đang nỗ lực để cải thiện độ tin cậy của tất cả các mô hình.
Trong năm qua, ngành AI đang chuyển hướng mạnh sang các mô hình suy luận logic, vì nó giúp cải thiện hiệu năng mà không cần tiêu tốn dữ liệu và tài nguyên khổng lồ. Nhưng giờ đây, giới nghiên cứu đang phải đối mặt với nghịch lý: càng thông minh, mô hình lại càng… bịa giỏi. Và tìm ra lời giải cho bài toán này có thể sẽ là thách thức lớn nhất tiếp theo của trí tuệ nhân tạo.
Lấy link