Email thông báo tạo tài khoản, nhận bài, duyệt bài có thể vào Spam. Vui lòng kiểm tra Spam mail và Report Not Spam để email của hội thảo vào Inbox lần sau.

22 novembre 2024
Trường Đại học Ngoại ngữ - Tin học TP.HCM
Múi giờ Asia/Ho_Chi_Minh

PHƯƠNG PHÁP DÓNG HÀNG CÂU TỰ ĐỘNG CHO VĂN BẢN TRUNG QUỐC CỔ ĐIỂN - VIỆT NAM HIỆN ĐẠI

Không được lên lịch
20m
Hội trường lầu 6 (Trường Đại học Ngoại ngữ - Tin học TP.HCM)

Hội trường lầu 6

Trường Đại học Ngoại ngữ - Tin học TP.HCM

288 Sư Vạn Hạnh Quận 10 TP.HCM
Tiểu ban khoa học tự nhiên, công nghệ

Mô tả

Việc khám phá giá trị lịch sử và văn hóa của ông cha là một công việc truyền cảm hứng cho các thế hệ chúng ta. Tuy nhiên, để xử lý và khai thác kiến thức hiệu quả, cần ứng dụng các kỹ thuật xử lý ngôn ngữ tự nhiên. Những cách tiếp cận này dẫn đến nhu cầu về các ngữ liệu song song của cặp ngôn ngữ để huấn luyện các mô hình. Bài viết này trình bày một cách tiếp cận dựa trên từ điển để dóng hàng các văn bản Hán cổ với tiếng Việt hiện đại của chúng ở cấp độ câu, để giúp xây dựng ngữ liệu song song một cách hiệu quả hơn. Vì thế, việc dóng hàng câu hiện tại cần được thực hiện hiệu quả hơn. Trong nhiều phương pháp dóng hàng câu hiện tại, phương pháp dựa trên độ dài không hiệu quả cho cặp ngôn ngữ này, do thiếu sự tương ứng về độ dài của cặp ngôn ngữ. Phương pháp dựa trên từ điển của chúng tôi, được bổ sung bởi từ điển song ngữ tùy chỉnh, đạt được độ chính xác là 71,92% và 82,87%.

Thông tin các tác giả

1/Vương Quốc Phong: Khoa CNTT, Trường ĐH Khoa học Tự nhiên - ĐHQG - HCM, email: 21125087@student.hcmus.edu.vn, SĐT: 0914495922
2/Lưu Văn Phúc: Khoa CNTT, Trường ĐH Khoa học Tự nhiên - ĐHQG - HCM, email: 21125089@student.hcmus.edu.vn, SĐT: 0777428999

Từ khóa

Dóng hàng câu tự động, Văn bản Trung-Việt cổ điển, Hán Nôm, Xử lý ngôn ngữ tự nhiên, phương pháp dựa trên từ điển

Các tác giả chính

Tài liệu trình bày

Không có tài liệu.