Cuộc đối đầu giữa AMD và Nvidia trong lĩnh vực tăng tốc GPU dành cho AI tiếp tục nóng lên với sự ra mắt của MI300X từ AMD. Được thiết kế trên kiến trúc CDNA 3, MI300X được kỳ vọng trở thành đối thủ đáng gờm với Nvidia H100 và H200 trong các khối lượng công việc AI. Tuy nhiên, theo phân tích từ SemiAnalysis, dù MI300X có thông số phần cứng vượt trội, AMD vẫn gặp nhiều trở ngại lớn trong hệ sinh thái phần mềm, điều mà Nvidia vẫn đang thống trị.
Trên giấy tờ, MI300X của AMD thể hiện sự vượt trội với khả năng tính toán FP16 lên tới 1.307 TeraFLOPS và 192GB HBM3, nhiều hơn đáng kể so với các đối thủ Nvidia. AMD cũng nhấn mạnh rằng giải pháp của họ có chi phí tổng sở hữu (TCO) thấp hơn khi so sánh với các hệ thống Nvidia, vốn yêu cầu mạng InfiniBand đắt đỏ. Tuy nhiên, sức mạnh phần cứng chỉ là một phần của câu chuyện.
SemiAnalysis đã dành hơn 5 tháng để thử nghiệm MI300X và phát hiện ra rằng hệ sinh thái phần mềm của AMD còn nhiều vấn đề. Trong quá trình thử nghiệm, nhóm nghiên cứu phải dựa vào sự hỗ trợ liên tục từ các kỹ sư của AMD để khắc phục lỗi, một điều hiếm khi xảy ra với phần cứng Nvidia, nơi hệ sinh thái CUDA hoạt động trơn tru ngay khi khởi động. Các vấn đề về phần mềm không chỉ dừng lại ở việc thử nghiệm mà còn ảnh hưởng đến khách hàng của AMD. Ví dụ, nhà cung cấp đám mây Tensorwave, một trong những khách hàng lớn nhất của AMD, đã phải cho phép kỹ sư của AMD truy cập trực tiếp vào chip MI300X để sửa lỗi phần mềm.
Những vấn đề này bao gồm sự không tương thích với PyTorch, hiệu suất kém khi mở rộng quy mô nhiều chip và khả năng tích hợp không ổn định. SemiAnalysis cũng nhận thấy rằng nhiều thư viện AI của AMD là bản "fork" từ thư viện của Nvidia, dẫn đến hiệu suất không tối ưu và sự cố không tương thích.
Phân tích từ SemiAnalysis cho thấy AMD vẫn chưa thể vượt qua "bức tường CUDA" – lợi thế hệ sinh thái phần mềm mạnh mẽ của Nvidia. CUDA không chỉ mang lại trải nghiệm người dùng mượt mà mà còn là một nền tảng đầy đủ tính năng với các thư viện, công cụ và hỗ trợ tốt nhất trong ngành. Trong khi AMD cố gắng cải thiện hệ sinh thái của mình, Nvidia liên tục mở rộng và cập nhật CUDA, làm sâu thêm khoảng cách giữa hai bên.
Dù vậy, SemiAnalysis cũng ghi nhận một điểm sáng trong các nhánh phần mềm BF16 của AMD dành cho MI300X. Các thử nghiệm ban đầu cho thấy hiệu suất cải thiện đáng kể, nhưng thời gian để triển khai chính thức vẫn còn dài. Trong khi đó, Nvidia có thể đã ra mắt thế hệ GPU tiếp theo, Blackwell, khiến AMD tiếp tục bị bỏ lại phía sau.
Để cải thiện tình hình, AMD cần đầu tư mạnh mẽ hơn vào hệ sinh thái phần mềm. Dylan Patel, người sáng lập SemiAnalysis, đã gặp gỡ CEO AMD Lisa Su, và nhận thấy bà hiểu rõ những gì cần làm để cải thiện vấn đề. Tuy nhiên, với nhiều năm thiếu đầu tư vào phần mềm, việc thay đổi không thể diễn ra trong ngắn hạn.
Mặc dù MI300X là một sản phẩm đầy hứa hẹn về phần cứng, các vấn đề về phần mềm khiến AMD khó lòng cạnh tranh trực tiếp với Nvidia. "Bức tường CUDA" không chỉ là một lợi thế kỹ thuật mà còn là kết quả của nhiều năm phát triển bền bỉ từ Nvidia, tạo nên một nền tảng mà các đối thủ khó lòng vượt qua. Nếu AMD muốn thực sự thách thức vị trí dẫn đầu của Nvidia, họ cần tập trung nhiều hơn vào trải nghiệm tổng thể của khách hàng thay vì chỉ dựa vào sức mạnh silicon. Trong một cuộc đua nơi cả phần cứng và phần mềm đều quan trọng, Nvidia vẫn đang nắm lợi thế lớn.
Lấy link