Nguyễn Việt Tân, Hoàng Vũ, Đặng Vũ Tùng, Từ Minh Phương

Main Article Content

Abstract

Tóm tắt: Trong một số ứng dụng phân loại tự động, bên cạnh các dữ liệu dạng vector còn có dữ liệu liên kết thể hiện quan hệ giữa các đối tượng như: trang web được nối bởi các siêu liên kết, bài báo khoa học được liên kết bởi các tài liệu tham khảo, các nút mạng được kết nối vật lý .v.v. Yêu cầu đặt ra với thuật toán phân loại là tận dụng và kết hợp dữ liệu liên kết với các thông tin khác để cho kết quả dự đoán chính xác hơn. Nhiều nghiên cứu trước đây đã giải quyết vấn đề này bằng cách sử dụng các thuật toán dựa trên đồ thị mà tiêu biểu là bộ phân lớp Gaussian-field, các mạng Hopfield và bộ phân lớp quan hệ láng giềng.v.v. Trong bài báo này, chúng tôi đề xuất giải quyết vấn đề kết hợp thông tin liên kết với các dữ liệu khác bằng cách sử dụng kỹ thuật đồng huấn luyện, trong đó các liên kết được coi là một góc nhìn (view) khác của dữ liệu. Phương pháp được thử nghiệm trên bộ dữ liệu WebKB. Kết quả thử nghiệm và so sánh cho thấy phương pháp đề xuất cho kết quả phân loại chính xác hơn phương pháp kết hợp dữ liệu liên kết dựa trên đồ thị.

Từ khóa: Đồng huấn luyện,dữ liệu liên kết 

References

[1] S. Chakrabarti, B. Dom, and P. Indyk (1998). Enhanced hypertext categorization using hyperlinks. In Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data, pp: 307–319, 1998
[2] Blum A., Mitchell T. (1998): Combining labeled and unlabeled data with co- training. In Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT-98).
[3] Macskassy, S.A., Provost, F. (2005): Suspicion scoring based on guilt-by-association, collective inference, and focused data access. In: International Conference on Intelligence Analysis.
[4] Sen, P., Namata, G., Bilgic, M., Getoor, L., Gallagher, B., Eliassi-Rad, T. (2008): Collective Classification in Network Data. AI Magazine 93-106.
[5] Zhu, X.: Semi-supervised learning literature survey (2008): Technical Report 1530, Department of Computer Science, University of Wisconsin at Madison.
[6] Zhou, D., Bousquet, O., Lal, T., Weston, J., & Scholkopf, B. (2004): Learning with local and global consistency. Advances in Neural Information Processing Systems 16. MIT Press, Cambridge, MA.
[7] Macskassy, S.A., Provost, F. (2007): Classification in Networked Data: A toolkit and a univariate case study. Journal of machine learning research. Vol. 8. pp: 935-983.
[8] Bilgic, M., Getoor, L. (2010): Active inference for collective classification. Proceedings of 24-th AAAI conference on Artificial Intelligence.