Email thông báo tạo tài khoản, nhận bài, duyệt bài có thể vào Spam. Vui lòng kiểm tra Spam mail và Report Not Spam để email của hội thảo vào Inbox lần sau.

22 novembre 2024
Trường Đại học Ngoại ngữ - Tin học TP.HCM
Múi giờ Asia/Ho_Chi_Minh

Xây dựng tự động dữ liệu hình ảnh-văn bản cho chữ Hán-Nôm

Không được lên lịch
15m
Phòng Hội thảo

Phòng Hội thảo

Tiểu ban khoa học tự nhiên, công nghệ Tiểu ban 1

Mô tả

Bảo tồn chữ Hán-Nôm là một sứ mệnh thiết yếu hiện nay do sự xuống cấp của các tài liệu lịch sử theo thời gian. Xử lí thủ công là một phương pháp truyền thống cho công việc này, nhưng lại tốn nhiều công sức và dễ gặp sai sót. Để giải quyết vấn đề này, các tác giả đề xuất một công cụ xây dựng tự động dữ liệu hình ảnh - văn bản hỗ trợ cho việc số hóa, lưu giữ các văn bản Hán - Nôm. Công cụ sử dụng mô hình trí tuệ nhân tạo để phát hiện và nhận diện văn bản, đồng thời trích xuất văn bản từ hình ảnh. Bài viết thử nghiệm các mô hình khác nhau, sử dụng các bộ dữ liệu NomNaOCR [11] và SacPhongHCMUS [10] để huấn luyện. Kết quả thử nghiệm chứng minh tính hiệu quả của các mô hình được đề xuất, với mô hình phát hiện đạt được 85,41% và nhận diện đạt 41.23%. Mặc dù cần thêm sự cải tiến, công cụ này cung cấp một bước quan trọng trong việc tự động hóa việc bảo quản các tài liệu Hán - Nôm.

Thông tin các tác giả

Tác giả 1: Chu Hoàng Phúc, sinh viên khoa CNTT, Trường ĐH Khoa học Tự nhiên - ĐHQG - HCM, Email: 21125130@student.hcmus.edu.vn, SĐT: 0908349812
Tác giả 2: Hoàng Thiên Đức, sinh viên khoa CNTT, Trường ĐH Khoa học Tự nhiên - ĐHQG - HCM, Email: 21125076@student.hcmus.edu.vn, SĐT: 0838418022

Từ khóa

Chữ Hán - Nôm, phát hiện văn bản, nhận diện văn bản, gán nhãn dữ liệu, công cụ tự động

Các tác giả chính

Tài liệu trình bày

Không có tài liệu.