Mô tả
Việc đặt dấu câu trong các câu đối là một thách thức lớn do ảnh hưởng từ ngữ pháp và cú pháp phức tạp của tiếng Hán cổ. Bằng cách tận dụng tài nguyên ngôn ngữ Hán cổ của Trung Quốc, chúng tôi đề xuất phương pháp kết hợp mô hình BERT, BiLSTM và CRF để tăng cường hiệu quả đặt dấu câu trong câu đối Hán-Việt. Kết quả thí nghiệm cho thấy mô hình BERT-BiLSTM-CRF vượt trội về độ chính xác so với các mô hình truyền thống trước đây. Về ý nghĩa, nghiên cứu này nhằm mục đích tăng cường hiệu quả xử lý tự động câu đối Hán Việt, giúp phục vụ các bài toán NLP khác trên miền văn bản này như dịch nghĩa, nhận diện thực thể chứa tên tốt hơn, góp phần bảo tồn và lan truyền những giá trị văn hóa và lịch sử của chúng.
Thông tin các tác giả
1/ Hoàng Thế Anh: Sinh viên, Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên – ĐHQG HCM. Số điện thoại: 0977407439. Email: htanh21@apcs.fitus.edu.vn.
2/ Đặng Hoàng Nhật Hưng: Sinh viên, Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên – ĐHQG HCM. Số điện thoại: 0964246503. Email: dhnhung21@apcs.fitus.edu.vn
Từ khóa
Câu đối Hán-Việt, đặt dấu câu, BERT, BiLSMT, CRF, xử lý ngôn ngữ tự nhiên