Tiếp nối sự thành công của Gemini 1.0 ra mắt vào tháng 12, Google vừa giới thiệu thế hệ tiếp theo – Gemini 1.5 – với hứa hẹn về hiệu năng được cải thiện đáng kể.
Điểm nâng cấp đáng chú ý nhất của Gemini 1.5 là "cửa sổ ngữ cảnh" lớn hơn nhiều. "Cửa sổ ngữ cảnh" của một mô hình AI được tạo thành từ các token – đơn vị cơ bản để xử lý thông tin. Token có thể là toàn bộ từ, một phần từ, hình ảnh, video, âm thanh hoặc code. Cửa sổ ngữ cảnh càng lớn, mô hình càng thu nhận và xử lý được nhiều thông tin trong một yêu cầu, giúp kết quả phản hồi chính xác, liên quan và hữu ích hơn.
Phiên bản Pro của Gemini 1.5, thuộc phân khúc trung bình của Google, sở hữu cửa sổ ngữ cảnh lên tới 128.000 token (so với 32.000 token của Gemini 1.0). Điều này tương đương với hơn 700.000 từ, cơ sở mã nguồn với hơn 30.000 dòng code, 11 giờ âm thanh hoặc 1 giờ video. GPT-4 Turbo cũng có 128.000 token, trong khi Claude 2.1 là 200.000 token.
Những lợi ích của cửa sổ ngữ cảnh lớn được thể hiện qua các ví dụ sau:
Gemini 1.5 Pro có thể phân tích, phân loại và tóm tắt chính xác một lượng lớn nội dung trong một yêu cầu nhất định. Ví dụ, khi được cung cấp 402 trang bản ghi âm từ sứ mệnh Apollo 11 lên mặt trăng, nó có thể suy luận về các cuộc trò chuyện, sự kiện và chi tiết trong toàn bộ tài liệu.
Gemini 1.5 Pro có khả năng hiểu và suy luận phức tạp với các dạng dữ liệu đa phương thức, bao gồm video. Chẳng hạn, khi được cung cấp một bộ phim câm 44 phút của Buster Keaton, mô hình có thể phân tích chính xác các điểm cốt truyện và sự kiện, thậm chí suy luận về những chi tiết nhỏ trong phim mà người xem dễ bỏ qua.
Gemini 1.5 Pro có thể giải quyết các vấn đề phức tạp hơn trong khối lượng code lớn. Khi được cung cấp một yêu cầu với hơn 100.000 dòng code, nó có thể suy luận dựa trên các ví dụ, đề xuất những thay đổi hữu ích và giải thích cách thức hoạt động của các phần khác nhau trong code.
Những tiến bộ này có được nhờ kiến trúc Mixture-of-Experts (MoE) mới, nơi các mô hình được "chia thành các mạng nơ-ron chuyên biệt nhỏ hơn". Điều này khiến việc huấn luyện và sử dụng Gemini 1.5 trở nên hiệu quả hơn. Tùy thuộc vào loại dữ liệu đầu vào, các mô hình MoE học cách kích hoạt chọn lọc chỉ những nơ-ron "chuyên biệt" liên quan nhất trong mạng lưới nơ-ron. Sự chuyên môn hóa này giúp nâng cao đáng kể hiệu quả của mô hình.
Về hiệu suất, Gemini 1.5 Pro vượt trội so với Gemini 1.0 Pro trên 87% các điểm chuẩn đánh giá trên văn bản, code, hình ảnh, âm thanh và video. Nó thậm chí "hoạt động ở mức tương đồng" với Gemini 1.0 Ultra.
Gemini 1.5 Pro cũng cho thấy khả năng "học tập theo ngữ cảnh" ấn tượng, nghĩa là nó có thể học một kỹ năng mới từ thông tin được cung cấp trong một yêu cầu dài, mà không cần tinh chỉnh thêm.
Lấy link