Mô tả
Bảo tồn chữ Hán-Nôm là một sứ mệnh thiết yếu hiện nay do sự xuống cấp của các tài liệu lịch sử theo thời gian. Xử lí thủ công là một phương pháp truyền thống cho công việc này, nhưng lại tốn nhiều công sức và dễ gặp sai sót. Để giải quyết vấn đề này, các tác giả đề xuất một công cụ xây dựng tự động dữ liệu hình ảnh - văn bản hỗ trợ cho việc số hóa, lưu giữ các văn bản Hán - Nôm. Công cụ sử dụng mô hình trí tuệ nhân tạo để phát hiện và nhận diện văn bản, đồng thời trích xuất văn bản từ hình ảnh. Bài viết thử nghiệm các mô hình khác nhau, sử dụng các bộ dữ liệu NomNaOCR [11] và SacPhongHCMUS [10] để huấn luyện. Kết quả thử nghiệm chứng minh tính hiệu quả của các mô hình được đề xuất, với mô hình phát hiện đạt được 85,41% và nhận diện đạt 41.23%. Mặc dù cần thêm sự cải tiến, công cụ này cung cấp một bước quan trọng trong việc tự động hóa việc bảo quản các tài liệu Hán - Nôm.
Thông tin các tác giả
Tác giả 1: Chu Hoàng Phúc, sinh viên khoa CNTT, Trường ĐH Khoa học Tự nhiên - ĐHQG - HCM, Email: 21125130@student.hcmus.edu.vn, SĐT: 0908349812
Tác giả 2: Hoàng Thiên Đức, sinh viên khoa CNTT, Trường ĐH Khoa học Tự nhiên - ĐHQG - HCM, Email: 21125076@student.hcmus.edu.vn, SĐT: 0838418022
Từ khóa
Chữ Hán - Nôm, phát hiện văn bản, nhận diện văn bản, gán nhãn dữ liệu, công cụ tự động