Geoffrey Hinton - 'bố già' mở đường cho công nghệ học sâu

8/12

Geoffrey Hinton thường được gọi là "bố già học sâu" nhờ đóng góp to lớn trong lĩnh vực trí tuệ nhân tạo và học máy.

Đóng góp của Giáo sư Geoffrey E. Hinton cùng 4 nhà khoa học: Yoshua Bengio, Jen-Hsun Huang, Yann LeCun, và Fei-Fei Li thúc đẩy sự tiến bộ của học sâu được vinh danh giải chính trị giá 3 triệu USD (hơn 76 tỷ đồng) VinFuture 2024.

Hội đồng giải thưởng ghi nhận ông với vai trò lãnh đạo và công trình nghiên cứu nền tảng của ông về kiến trúc mạng nơ-ron. Bài báo xuất bản năm 1986 của ông cùng với David Rumelhart và Ronald Williams đã cho thấy các biểu diễn phân tán trong mạng nơ-ron được huấn luyện bởi thuật toán lan truyền ngược. Phương pháp này đã trở thành công cụ tiêu chuẩn trong lĩnh vực trí tuệ nhân tạo và tạo ra các tiến bộ trong nhận diện hình ảnh và giọng nói.

Geoffrey Everest Hinton, nhà tâm lý học nhận thức và khoa học máy tính người Anh - Canada, được công nhận rộng rãi nhờ nghiên cứu tiên phong về trí tuệ nhân tạo (AI). Sinh ngày 6/12/1947 tại Wimbledon, London, Hinton là hậu duệ của nhà logic học George Boole, người đặt nền móng cho lý thuyết thiết kế mạch số.

Hinton lấy bằng cử nhân ngành Tâm lý học thực nghiệm ở trường King’s College, Cambridge năm 1970. Sau đó, ông tiếp tục theo đuổi bằng tiến sĩ về trí tuệ nhân tạo ở Đại học Edinburgh năm1977. Người hướng dẫn luận văn tiến sĩ của ông là Christopher Longuet-Higgins, nhà tiên phong về AI và khoa học nhận thức. Nghiên cứu này đặt nền móng cho những đóng góp tương lai của Hinton đối với học máy và mạng thần kinh.

Trong thập niên 1980, cùng với David Rumelhart và Ronald J. Williams, Hinton phát triển mô hình đơn giản hóa của bộ não mang tên mạng thần kinh. Họ giới thiệu thuật toán lan truyền ngược, phương pháp huấn luyện mạng thần kinh đã trở thành tiêu chuẩn trong học máy.

Sự nghiệp của Hinton đưa ông tới Mỹ, nơi ông trở thành giáo sư ở Đại học Carnegie Mellon từ năm 1982 đến năm 1987. Sau đó, ông chuyển tới Canada và gia nhập khoa Khoa học máy tính ở Đại học Toronto. Nghiên cứu của Hinton ở Đại học Toronto tập trung vào học sâu, một tập hợp con của học máy bao gồm huấn luyện mạng thần kinh để nhận biết các mô hình dữ liệu.

Năm 2013, Hinton gia nhập đội ngũ Google’s Brain, nơi ông tiếp tục làm việc về học sâu và mạng thần kinh. Nghiên cứu của ông tại Google bao gồm phát triển TensorFlow, một thư viện phần mềm nguồn mở dành cho học máy, và áp dụng học sâu vào nhiều sản phẩm và dịch vụ của Google.

Đóng góp của Hinton đối với AI được ghi nhận qua nhiều giải thưởng, bao gồm Turing Award năm 2018 mà ông đồng nhận giải cùng Yoshua Bengio và Yann LeCun dành cho nghiên cứu về học sâu. Công trình của Hilton tác động sâu sắc tới AI, ảnh hưởng tới sự phát triển của nhiều công nghệ từ phần mềm nhận dạng giọng nói tới xe tự lái. Cùng với John Hopfield, Geoffrey Hinton được vinh danh với giải Nobel Vật lý năm nay nhờ những đóng góp trong lĩnh vực học máy.

Lan truyền ngược: nghiên cứu tiên phong của Hinton

Hinton giới thiệu lan truyền ngược, một phương pháp sử dụng trong AI và học máy, vào thập niên 1980. Thuật toán thiết yếu đối với huấn luyện mạng thần kinh này dựa trên khái niệm toán học suy giảm độ dốc. Nó cho phép điều chỉnh trọng lượng của mạng thần kinh bằng cách điều chỉnh trọng số trong mạng thần kinh thông qua lan truyền lỗi ngược trở lại từ lớp cuối cùng tới lớp đầu tiên.

Nghiên cứu về lan truyền ngược của Hinton mang tính đột phá do cung cấp một phương pháp khả thi để huấn luyện mạng thần kinh nhiều lớp. Trước đó, huấn luyện những mạng như vậy là một nhiệm vụ nan giải do độ khó của việc điều chỉnh trọng số của các lớp ẩn. Thuật toán lan truyền ngược của Hinton giải quyết vấn đề thông qua tính toán độ dốc của chức năng lỗi liên quan tới trọng số của mạng, qua đó điều chỉnh trọng số theo hướng giảm tối đa lỗi.

Thuật toán lan truyền ngược dựa trên quy tắc dây chuyền, một quy tắc toán học cơ bản. Quy tắc dây chuyền cho phép đạo hàm của hàm phức hiển thị dưới dạng đạo hàm của nhiều hàm thành phần hơn. Trong trường hợp lan truyền ngược, quy tắc dây chuyền tính toán đạo hàm của hàm lỗi liên quan tới trọng số của mạng.

Ở thời đó, nhiều nhà nghiên cứu tỏ ra hoài nghi đối với mạng thần kinh và tiềm năng ứng dụng thực tiễn của chúng. Tuy nhiên, sự kiên trì của Hinton và thành công sau đó của lan truyền lỗi trong nhiều ứng dụng thu hút nhiều quan tâm đối với mạng thần kinh vào thập niên 1990. Thời kỳ này được ví như "làn sóng thứ hai" của mạng thần kinh.

Dù thành công, lan truyền ngược có một số hạn chế. Ví dụ, huấn luyện một mạng thần kinh đòi hỏi nhiều dữ liệu và nguồn lực máy tính. Ngoài ra, đôi khi nó có thể dẫn tới hiện tượng quá khớp, trong đó mạng hoạt động tốt với dữ liệu huấn luyện nhưng kém với dữ liệu mới chưa từng thấy. Tuy nhiên, lan truyền ngược vẫn là trụ cột của AI hiện đại và học máy.

Hinton và sự phát triển của học sâu

Nghiên cứu về AI của Hinton là công cụ để phát triển thuật toán học sâu, ngày nay dùng trong vô số ứng dụng, từ phần mềm nhận dạng giọng nói đến xe tự lái. Ông tập trung vào mạng thần kinh nhân tạo, đặc biệt là lan truyền ngược và kỹ thuật học không giám sát. Nghiên cứu của Hilton vào thập niên 1980 cùng với David Rumelhart và Ronald Williams dẫn tới sự phát triển của một phương pháp nhanh hữu ích nhằm ứng dụng lan truyền nhanh vào mạng thần kinh.

Ngoài ra, Hinton còn có những đóng góp to lớn đối với học không giám sát. Học không giám sát là một loại học máy tìm kiếm mô hình chưa từng phát hiện trước đây trong tập dữ liệu mà không có nhãn sẵn và sự giám sát tối thiểu của con người. Đặc biệt, Hinton phát triển một mô hình gọi là Máy Boltzmann hạn chế (RBM), mạng thần kinh nhân tạo sản sinh ngẫu nhiên, có thể học về phân phối xác suất qua một loạt dữ liệu nạp vào. Ví dụ, hệ thống nhận dạng giọng nói của Google sử dụng kỹ thuật học sâu dựa trên nghiên cứu của Hinton.

Dự án Google Brain: tầm ảnh hưởng và vai trò của Hinton

Nghiên cứu của Hinton về mạng thần kinh nhân tạo và thuật toán lan truyền ngược ảnh hưởng to lớn tới sự phát triển của dự án Google Brain, đội nghiên cứu AI học sâu tại Google. Sức ảnh hưởng của Hinton đối với dự án Google Brain rất rõ ràng ở việc sử dụng thuật toán học sâu. Những lớp này chắt lọc dần dần đặc điểm cao cấp từ dữ liệu thô nạp vào. Ví dụ, lớp thấp hơn có thể xác định phần rìa trong xử lý ảnh, trong khi lớp cao hơn nhận dạng khái niệm liên quan tới con người như chữ số, chữ cái hoặc gương mặt.

Vai trò của Hinton trong dự án Google Brain không chỉ dừng ở lý thuyết. Năm 2013, ông gia nhập Google và làm việc bán thời gian cùng với đội Google Brain. Công việc của ông ở Google bao gồm phát triển mạng thần kinh nhân tạo quy mô lớn như mạng 16.000 máy tính tự học cách nhận biết mèo khi xem video YouTube. Đây là cột mốc quan trọng đối với AI, chứng minh khả năng học không giám sát ở mạng thần kinh.

Thuật toán lan truyền ngược mà Hinton đồng phát minh là cơ sở để các hệ thống học sâu hoạt động, bao gồm hệ thống do đội Google Brain phát triển. Nghiên cứu về mạng Capsule Network cũng được tích hợp vào dự án Google Brain. Capsule network là mạng thần kinh nhân tạo hoạt động tốt hơn trong bảo tồn quan hệ tầng bậc và được thiết kế để nhận dạng cùng một đồ vật trong những bối cảnh khác nhau, bất chấp phương hướng hoặc hình dáng. Đây là bước tiến lớn so với mạng thần kinh truyền thống thường gặp khó khăn với nhiệm vụ như vậy.

Mạng Capsule Networks của Hinton: cuộc cách mạng trong nhận dạng ảnh

Mạng Capsule Networks của Hinton, cách tiếp cận mới đối với nhận dạng ảnh, được ví như nâng cấp quan trọng ở AI. Những mạng này hướng tới giải quyết hạn chế của mạng thần kinh tích chập (CNN) tiêu chuẩn dùng cho nhiệm vụ nhận dạng ảnh. Dù hiệu quả trong nhận dạng mô hình ở ảnh, CNN cần hiểu rõ tầng bậc không gian giữa các đồ vật đơn giản và phức tạp.

Khối xây dựng cơ bản của mạng Capsule Networks là "viên nang", một nhóm neuron học cách nhận dạng vật thể trong ảnh và đặc điểm đa dạng của nó như vị trí, kích thước, phương hướng. Khác với CNN xử lý mỗi đặc điểm như một thực thể riêng biệt, Capsule Networks hiểu các đặc điểm là những khía cạnh có liên quan của cùng vật thể. Điều này cho phép Capsule Networks duy trì độ chính xác cao ngay cả khi vật thể được quan sát từ nhiều góc hoặc vị trí khác nhau.

Điểm sáng tạo chủ chốt ở mạng Capsule Networks là thuật toán định tuyến động. Thuật toán này giúp mạng quyết định nơi truyền kết quả của mỗi viên nang dựa trên dữ liệu đầu vào hiện tại. Định tuyến động khiến mạng Capsule Networks linh hoạt và dễ thích nghi hơn, do đó phù hợp hơn với nhiệm vụ nhận dạng hình ảnh phức tạp hơn.

Capsule Networks cũng hoạt động tốt trong bảo quản thông tin chi tiết xuyên suốt mạng lưới. Ở CNN, các lớp gộp được dùng để giảm quy mô dữ liệu, có thể dẫn tới mất thông tin quan trọng. Ngược lại, Capsule Networks không sử dụng lớp gộp. Thay vào đó, chúng sử dụng quá trình gọi là "định tuyến thỏa thuận", trong đó kết quả của một viên nang được truyền tới mọi đầu nhận khả thi ở lớp bên trên, nhưng chỉ có đầu nhận phù hợp với dự đoán thu được tín hiệu mạnh. Điều này cho phép Capsule Networks duy trì độ chi tiết và chính xác cao trong cả hệ thống.

Dự đoán của Hinton về tương lai của AI

Một trong những dự đoán đáng chú ý nhất của Hinton là AI sẽ sớm có thể hiểu và phát ra ngôn ngữ tự nhiên ở cấp độ không thua kém con người. Dự đoán này dựa trên sự tiến bộ nhanh chóng của thuật toán học máy và học tăng cường.

Một lĩnh vực khác trong nghiên cứu của Hinton là học không giám sát, một loại học máy mà thuật toán học hỏi từ dữ liệu chưa dán nhãn. Hầu hết hệ thống AI hiện nay dựa trên học giám sát, trong đó thuật toán được huấn luyện trên một tập dữ liệu dán nhãn lớn. Tuy nhiên, Hinton cho rằng học không giám sát là mấu chốt để AI mô phỏng sát hơn cách con người học hỏi. Ông đang phát triển thuật toán mới dành cho học không giám sát, nhằm tạo ra hệ thống AI có thể học hỏi từ môi trường như một đứa trẻ.

An Khang