Mô tả
Việc khám phá giá trị lịch sử và văn hóa của ông cha là một công việc truyền cảm hứng cho các thế hệ chúng ta. Tuy nhiên, để xử lý và khai thác kiến thức hiệu quả, cần ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên. Những cách tiếp cận này dẫn đến nhu cầu về các ngữ liệu song song của cặp ngôn ngữ để huấn luyện các mô hình. Bài viết này trình bày một cách tiếp cận dựa trên từ điển để dóng hàng các văn bản Hán cổ với tiếng Việt hiện đại của chúng ở cấp độ câu, để giúp xây dựng ngữ liệu song song một cách hiệu quả hơn. Vì thế, việc dóng hàng câu hiện tại cần được thực hiện hiệu quả hơn. Trong nhiều phương pháp dóng hàng câu hiện tại, phương pháp dựa trên độ dài không hiệu quả cho cặp ngôn ngữ này, do thiếu sự tương ứng về độ dài của cặp ngôn ngữ. Phương pháp dựa trên từ điển của chúng tôi, được bổ sung bởi từ điển song ngữ tùy chỉnh, đạt được độ chính xác là 71,92% và 82,87%.
Thông tin các tác giả
1/Vương Quốc Phong: Khoa CNTT, Trường ĐH Khoa học Tự nhiên - ĐHQG - HCM, email: 21125087@student.hcmus.edu.vn, SĐT: 0914495922
2/Lưu Văn Phúc: Khoa CNTT, Trường ĐH Khoa học Tự nhiên - ĐHQG - HCM, email: 21125089@student.hcmus.edu.vn, SĐT: 0777428999
Từ khóa
Dóng hàng câu tự động, Văn bản Trung-Việt cổ điển, Hán Nôm, Xử lý ngôn ngữ tự nhiên, phương pháp dựa trên từ điển