Gemini 3.5 Live Translate dịch trực tiếp theo người nói, độ trễ chỉ vài giây

11:12

Gemini 3.5 Live Translate không cần chờ người nói kết thúc câu mới bắt đầu dịch và phản hồi mà gần như theo kịp tốc độ của các cuộc trò chuyện thực tế.

Mới đây, Google đã công bố Gemini 3.5 Live Translate, một mô hình âm thanh AI mới được thiết kế để các cuộc hội thoại đa ngôn ngữ theo thời gian thực trở nên tự nhiên hơn.

Khác với các hệ thống dịch truyền thống xử lý lời nói theo từng lượt, Gemini 3.5 Live Translate liên tục lắng nghe, dịch và phát lại nội dung đã dịch, cho phép cuộc trò chuyện diễn ra trôi chảy chỉ với độ trễ vài giây, mô phỏng cách con người giao tiếp tự nhiên.

W-google gemini live translate.jpg — Chế độ Dịch trực tiếp trên ứng dụng Google Dịch cho iPhone. Ảnh: Du Lam

Mô hình này có thể tự động nhận diện ngôn ngữ đang được sử dụng và hỗ trợ hơn 70 ngôn ngữ, bao gồm tiếng Việt, tạo ra hàng nghìn cặp ngôn ngữ khác nhau trong cùng một cuộc hội thoại.

Google cho biết công nghệ hiện đã được cung cấp cho các nhà phát triển và đối tác để tích hợp vào các cuộc họp trực tuyến, nền tảng giao tiếp và ứng dụng di động.

Những điểm mới của Gemini 3.5 Live Translate

Thay đổi lớn nhất nằm ở cách thức dịch thuật: Thay vì chờ một người nói xong rồi mới tạo bản dịch, Gemini 3.5 Live Translate thực hiện dịch trực tuyến liên tục.

Nhờ đó, cuộc trò chuyện trở nên mượt mà hơn, giảm đáng kể những khoảng dừng khó xử, sự gián đoạn và độ trễ thường thấy ở các công cụ dịch truyền thống.

Google cho biết hệ thống được xây dựng để hoạt động hiệu quả trong các tình huống giao tiếp hằng ngày. Mô hình có thể xử lý môi trường nhiều tiếng ồn, âm thanh nền, nhiều người nói cùng lúc và các kiểu nói chuyện không quá trang trọng.

Điều này giúp Gemini 3.5 Live Translate phù hợp với nhiều tình huống sử dụng như: tổng đài chăm sóc khách hàng; các chuyến tham quan có hướng dẫn viên; lớp học đa ngôn ngữ; dịch vụ gọi xe; chương trình phát sóng trực tiếp.

Google cũng đặc biệt chú trọng đến chất lượng giọng nói đầu ra. Thay vì tạo ra một giọng nói tổng hợp chung chung, hệ thống cố gắng giữ lại các đặc điểm trong cách nói của người dùng, bao gồm: tốc độ nói, ngữ điệu, cảm xúc trong giọng nói.

Nhờ vậy, phần nội dung được dịch nghe tự nhiên hơn và người nghe dễ theo dõi cuộc trò chuyện hơn.

Gemini 3.5 Live Translate dich truc tiep theo nguoi noi, do tre chi vai giay

Gemini 3.5 Live Translate khong can cho nguoi noi ket thuc cau moi bat dau dich va phan hoi ma gan nhu theo kip toc do cua cac cuoc tro chuyen thuc te.

Gemini 3.5 Live Translate dịch trực tiếp theo người nói, độ trễ chỉ vài giây

By www.tincongnghe.net

Gemini 3.5 Live Translate không cần chờ người nói kết thúc câu mới bắt đầu dịch và phản hồi mà gần như theo kịp tốc độ của các cuộc trò chuyện thực tế.