Sinh viên Việt có bài báo khoa học được đăng ở hội nghị quốc tế

Bài báo của nhóm sinh viên Đại học Bách khoa TP HCM nghiên cứu ứng dụng AI có thể tóm tắt nội dung văn bản vài chục trang chỉ trong một phút.


Bài báo khoa học "Enriching and Controlling Global Semantics for Text Summarization" (tạm dịch: "Làm giàu và điều khiển ngữ nghĩa toàn cục để tóm tắt văn bản") vừa được chấp thuận tại hội nghị Empirical Methods in Natural Language Processing - EMNLP 2021, dự kiến đăng vào tháng 11. Tác giả là nhóm sinh viên Nguyễn Thành Thông và Lữ Ngọc Thiên Trúc, khoa Khoa học và Kỹ thuật Máy tính, trường ĐH Bách khoa, ĐHQG TP HCM. Bài báo là một phần của luận văn tốt nghiệp vừa được hai bạn bảo vệ thành công với điểm số 9,97.


PGS.TS Quản Thành Thơ, Phó Chủ nhiệm khoa Khoa học và Kỹ thuật Máy tính, Trường Đại học Bách khoa TP HCM cho biết, hội nghị EMNLP là một trong hai hội nghị lớn nhất thế giới về lĩnh vực Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP). Bài báo được chấp nhận là dạng báo khoa học hội nghị thuộc nhóm A1, là top cao nhất thế giới hiện nay. Có bài được chấp nhận ở hội nghị này là niềm ao ước và tự hào của tất cả những người nghiên cứu trong ngành. "Hai em mới chỉ là sinh viên đã có bài báo được chấp nhận là một thành tích rất xuất sắc, nếu không nói là hiếm gặp", PGS Thơ nói.


Theo TS Thơ, cho đến nay, trong lĩnh vực xử lý ngôn ngữ tự nhiên ở Việt Nam, gần như chưa ai đạt được thành tích đó, kể cả giảng viên trong các trường đại học. Mô hình tóm tắt văn bản sử dụng AI machine learning của nhóm có thể tóm tắt văn bản từ nhiều loại ngôn ngữ khác nhau. Một văn bản có độ dài 10 trang, khi đưa vào mô hình tóm tắt, sau một phút sẽ được xử lý chỉ còn 128-256 từ nhưng vẫn đảm bảo đầy đủ các ngữ nghĩa chính cần diễn đạt.


Hiện nay để tóm tắt văn bản tự động, công cụ sử dụng phổ biến là Pegasus. PGS Thơ cho biết, với các văn bản dài các công cụ này độ chính xác chỉ đạt khoảng 25% do thiếu những từ khóa và thông tin quan trọng nhất. Hệ thống AI được đề xuất từ phương pháp này có thể tóm tắt một đoạn văn bản dài thành một nội dung cô đọng nhưng vẫn đầy đủ các thông tin chính yếu nhất.


Nhóm thực hiện mô hình để khắc phục tính chính xác của văn bản tóm tắt, thay vì chỉ dùng AI, nhóm kết hợp với AI machine learning (trí tuệ nhân tạo học máy). Trước khi đưa văn bản vào tóm tắt, nhóm sử dụng một mô hình khác để nhận ra các chủ đề chính của văn bản gốc. Từ các chủ đề này mới sắp xếp thành văn bản tóm tắt hoàn thiện. Nhờ đó mà mô hình có nhiều thông tin hơn so với các phương pháp tóm tắt văn bản khác trước đó. Độ chính xác của văn bản cũng đạt 50%.


Nguyễn Thành Thông, thành viên của nhóm chia sẻ, để tóm tắt văn bản, file sẽ được chuyển về dạng ký tự (tokens). Mỗi tokens sẽ được đổi về dạng ID tương ứng với từng ký tự, như vậy sẽ có một chuỗi các tokens. AI sẽ đọc chuỗi tokens này và sinh ra chuỗi tokens tương ứng với ký tự của đoạn tóm tắt. Cuối cùng là chuyển các tokens về dạng ký tự mà con người hiểu được.


Tóm tắt tự động là một trong những vấn đề lớn của xử lý ngôn ngữ tự nhiên hiện nay. Đây là công việc rất cần thiết cho những người làm việc trong môi trường học thuật cần phải đọc và nắm được các thông tin chính yếu của một lượng lớn tài liệu.


Hiện nay, Nguyễn Thành Thông đang là thành viên của VinAI Research, Lữ Ngọc Thiên Trúc đang được đào tạo tại Vingroup Big Data Institute.


Tô Hội









Sinh vien Viet co bai bao khoa hoc duoc dang o hoi nghi quoc te


Bai bao cua nhom sinh vien Dai hoc Bach khoa TP HCM nghien cuu ung dung AI co the tom tat noi dung van ban vai chuc trang chi trong mot phut.

Sinh viên Việt có bài báo khoa học được đăng ở hội nghị quốc tế

Bài báo của nhóm sinh viên Đại học Bách khoa TP HCM nghiên cứu ứng dụng AI có thể tóm tắt nội dung văn bản vài chục trang chỉ trong một phút.
Sinh viên Việt có bài báo khoa học được đăng ở hội nghị quốc tế
www.tincongnghe.net
Giới thiệu cho bạn bè
  • gplus
  • pinterest

Bình luận

Đăng bình luận

Đánh giá: