Mô tả
Y học cổ truyền đã đóng vai trò quan trọng trong lịch sử y học Việt Nam từ xưa đến nay. Trong nhiều thế kỷ, hàng ngàn văn bản y học quý giá đã được ghi chép bằng chữ Hán và truyền lại qua các thế hệ. Một trong những thách thức lớn đối với việc xử lý các văn bản này là Nhận diện Thực thể có tên (NER). Nghiên cứu này nhằm giải quyết vấn đề NER trong lĩnh vực y học cổ truyền bằng cách tạo ra bộ dữ liệu từ "Lĩnh Nam bản thảo" [1], một tác phẩm có ảnh hưởng lớn trong lĩnh vực này của Việt Nam. Chúng tôi so sánh hiệu suất của bốn mô hình trong tác vụ NER: HMM, CRF, BiLSTM-CRF và GPT-4o. Quá trình thực nghiệm cho thấy mô hình BiLSTM-CRF đạt F1-score với giá trị 0.8364, cao nhất so với 3 mô hình còn lại. Nghiên cứu này mong muốn được góp phần vào việc bảo tồn và số hóa kiến thức y học cổ truyền Việt Nam, mở ra hướng phát triển mới cho việc ứng dụng học máy vào văn bản lịch sử.
Thông tin các tác giả
1/ Phạm Võ Quỳnh Như: Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP. HCM, email: pvqnhu21@apcs.fitus.edu.vn
2/ Nguyễn Phúc Bảo Uyên: Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP. HCM, email: npbuyen21@apcs.fitus.edu.vn
Từ khóa
Nhận diện Thực thế có tên, Y học cổ truyền Việt Nam, HMM, CRF, BiLSTM-CRF, GPT-4o