ĐỀ XUẤT THUẬT TOÁN PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG MẠNG LSTM VÀ WORD2VEC

138 lượt xem

Các tác giả

Từ khóa:

Phân loại văn bản; Xử lý ngôn ngữ tự nhiên; Xử lý dữ liệu; Long Short Term Memory; Word2vec.

Tóm tắt

Hiện nay, phân loại văn bản là một trong những ứng dụng cơ bản của xử lý ngôn ngữ tự nhiên. Đặc biệt, những thành tựu gần đây của các mạng học sâu cho thấy các phương pháp học sâu đang làm rất tốt trong việc phân loại văn bản. Các phương pháp này cho thấy hiệu quả trong việc phân loại văn bản với ngôn ngữ tiếng Anh. Tuy nhiên, hiện nay, trong phạm vi nghiên cứu của chúng tôi, không có nhiều nghiên cứu đối với văn bản tiếng Việt. Do đó, trong nghiên cứu này, chúng tôi sử dụng mạng Long Short Term Memory (LSTM) kết hợp với Word2vec để phân loại văn bản nhằm cải thiện hiệu suất và độ chính xác. Kết quả đánh giá mô hình trên bộ văn bản tiếng Việt VNTC [1] đã cho thấy sự khả thi và hứa hẹn áp dụng trong thực tế.

Tải xuống

Đã Xuất bản

15-10-2020

Cách trích dẫn

Phát. “ĐỀ XUẤT THUẬT TOÁN PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG MẠNG LSTM VÀ WORD2VEC”. Tạp Chí Nghiên cứu Khoa học Và Công nghệ quân sự, số p.h 69, Tháng Mười 2020, tr 69-81, https://en.jmst.info/index.php/jmst/article/view/147.

Số

Chuyên mục

Nghiên cứu khoa học