Ly Vattana

Main Article Content

Abstract

Tóm tắt. Bài báo đề cập bài toán tách từ, sử dụng trong việc tổ chức dữ liệu văn bản bằng tiếng Khmer. Bài toán này quan trọng trong xử lí ngôn ngữ tiếng Khmer. Cũng như tiếng Trung Quốc, tiếng Thái, tiếng Khmer không có các dấu hiệu phân tách để phân biệt các từ trong câu. Bài báo sẽ phân tích và so sánh hai phương pháp tiếp cận khác nhau trong bài toán tách từ tiếng Khmer : Tiếp cận dựa trên ký tự (Character-based approaches) và Tiếp cận dựa trên từ (Word-based approachs). Hai cách tiếp cận này được thử nghiệm trong các ngôn ngữ độc lập như tiếng Trung Quốc, và tiếng Thái. Đây là một trong những giải pháp cho bài toán tách từ tiếng Khmer.

Từ khóa: Tách từ, tiếng Khmer, ngôn ngữ.

References

[1] F.E. Huffman, Cambodian systems for writing and begining reader, 1970
[2] Li, S.F.a.H., Chinese Word Segmentation and Its Effect on Information Retrieval, 2004.
[3] Aroonmanakun, W., Collocation and Thai Word Segmentation, 2002.
[4] T. Theeramunkong, S. Usanavasin, Non-dictionary-based Thai word segmentation using decision trees, in Proceedings of the first international conference on Human language technology research. 2001, Association for Computational Linguistics: San Diego.///4
[5] O.P. Ye Kyaw Thu, Yoshiyori URANO and Mitsuji MATSUMOTO, A Word-based Predictive Text Entry Method for Khmer Language, 2008.///5
[6] P. Hok, Development of a Khmer Spell Checker Based on a Hidden Markov Model, 2005.
[7] D.D. Palmer, A Trainable Rule-based Algorithm for Word Segmentation. 1996.
J. Solá, Issues in Khmer Unicode 4.0. 2004.