Email thông báo tạo tài khoản, nhận bài, duyệt bài có thể vào Spam. Vui lòng kiểm tra Spam mail và Report Not Spam để email của hội thảo vào Inbox lần sau.

22 novembre 2024
Trường Đại học Ngoại ngữ - Tin học TP.HCM
Múi giờ Asia/Ho_Chi_Minh

ỨNG DỤNG MÔ HÌNH DỊCH MÁY THỐNG KÊ TRONG BÀI TOÁN DỊCH VĂN BẢN CHỮ QUỐC NGỮ VIỆT NAM SANG CHỮ HÁN NÔM

Không được lên lịch
15m
Phòng Hội thảo

Phòng Hội thảo

Tiểu ban khoa học tự nhiên, công nghệ Tiểu ban 1

Mô tả

Nếu chữ Quốc Ngữ là chữ viết chính thức hiện nay và được xem như một minh chứng cho độc lập và chủ quyền của quốc gia này, thì chữ Hán Nôm lại được xem như chữ viết đầu tiên của riêng người Việt sau gần 1000 năm Bắc thuộc và là nền tảng mở đường cho chữ Quốc Ngữ sau này. Chúng tôi mong muốn tạo điều kiện cho người Việt Nam hiện đại tiếp cận đến giá trị tinh thần xa xưa ấy dễ dàng hơn thông qua việc cung cấp hướng phát triển cho bài toán dịch ngược từ chữ Quốc Ngữ sang chữ Hán Nôm. Bài báo này ứng dụng và khảo sát mô hình dịch máy thống kê Moses trong bài toán dịch ngược. Ngữ liệu huấn luyện bao gồm 23K cặp câu Quốc Ngữ - Hán Nôm song song được thu thập từ các văn bản truyện, thơ, văn, bản tụng… trên trang web nomfoundatinon.org. Kết quả cho thấy mô hình baseline của Moses đem lại được kết quả ổn định hơn so với một mô hình dịch ngược state-of-the-art (SOTA) khác hiện nay.

Từ khóa

dịch ngược, chữ Quốc Ngữ, chữ Hán Nôm, dịch máy thống kê, Moses SMT, xử lý ngôn ngữ tự nhiên

Thông tin các tác giả

1/Ngô Thái Phụng: Sinh viên đang học tại Trường Đại học Khoa học tự nhiên, ĐHQG TP. HCM, 227 Nguyễn Văn Cừ, Phường 4, Quận 5, TP. HCM, email: ntphung21@apcs.fitus.edu.vn
2/Đặng Minh Nhựt: Sinh viên đang học tại Trường Đại học Khoa học tự nhiên, ĐHQG TP. HCM, 227 Nguyễn Văn Cừ, Phường 4, Quận 5, TP. HCM, email: dmnhut22@apcs.edu.vn

Tác giả chính

Ngô Thái Phụng (Trường đại học Khoa học tự nhiên, ĐHQG TP.HCM)

Đồng tác giả

Mr. Minh Nhựt Đặng (Trường Đại học Khoa học tự nhiên, ĐHQG TP.HCM)

Tài liệu trình bày

Không có tài liệu.