Academia.eduAcademia.edu

Outline

Clustering word roots syntactically

2016, 2016 24th Signal Processing and Communication Application Conference (SIU)

Abstract

Özetçe-Sözcüklerin dağılımsal gösterimleri hem sözdizimsel hem de anlambilimsel doğal dil işleme problemlerinde kullanılmaktadır. Bu bildiride sözcük köklerinin kümelenmesi için iki farklı yöntem kullanılmıştır. İlk yöntemde dağılımsal bir sözcük modeli olan word2vec [1] modeli daha önceki çalışmalardan farklı olarak Türkçedeki sözcük köklerinin kümelenmesi için kullanılmıştır. Bu amaçla, sözcük köklerinin dağılımsal olarak benzerlikleri word2vec kullanılarak modellenmiş ve kökler sözdizimsel (isim, fiil vs.) olarak birbirine benzer kategorilere ayrıştırılmıştır. Diğer yöntemde ise sözcük köklerinin kümelenmesi için bilgi teorisi ve olasılık tabanlı iki ayrı model geliştirilmiştir. Karşılıklı bilgi (mutual information) ile geliştirilen bir metrik [8] ve Jensen-Shannon ıraksama (divergence) metriği ile sözcük köklerinin benzerlikleri hesaplanmış ve bu şekilde kümeleme işlemi yapılmıştır. Sözcük köklerinin sözdizimsel olarak kümelenmesi, makine tercümesi, soru cevaplama gibi dil üretme içeren diğer doğal dil işleme uygulamalarında, özellikle sondan eklemeli diller için önemli bir yere sahiptir. Elde edilen sözcük köklerine ait kümelerin saflık değeri 0.92'ye kadar yükselmiştir.

References (18)

  1. Mikolov, T., Le, Q. V., and Sutskever, I., "Exploiting similarities among languages for machine translation", Comouting Research Repository, 2013.
  2. Akın, A.A. & Akın, M.D., "Zemberek, an open source nlp framework for Turkic languages", Structure, vol. 10, p. 1-5, 2007.
  3. Kurimo, M., Lagus, K. S.V.V.T.: Morpho challenge 2009. http://research.ics.aalto.fi/events/morphochallenge2009/datasets.sht ml#download/ (October 2015)
  4. Oflazer, K., "Two-level description of turkish morphology", Literary and linguistic computing, vol. 9, p. 137-148, 1994
  5. word2vec -Tool for computing continuous distributed representations of words. https://code.google.com/p/word2vec/, 2013.
  6. Mikolov, T., Chen, K., Corrado, G. and Dean, J. "Efficient estimation of word representations in vector space", Comouting Research Repository, 2013.
  7. Fortescue, M., Harder, P. and Kristoffersen, L. Hengeveld, K., "Parts of Speech." Layered Structure and Reference in a Functional Perspective. Ed. Amsterdam: John Benjamins, p. 29-55, 1992.
  8. Baek, D.H., Lee, H., chang Rim, H., "Conceptual clustering of korean concordances using similarity between morphemes"
  9. Kullback, S., Leibler, R.A., "On information and sufficiency", The Annals of Mathematical Statistics, vol. 22, p. 79-86, 1951
  10. Brown, P. F., Della Pietra, V. J., deSouza, P. V., Lai, J. C. and Mercer, R. L. "Class-based n-gram models of natural language", Computational Linguistics, vol. 18, p. 467-479, 1992.
  11. Brown, P. F., Della Pietra, V. J., deSouza, P. V., Lai, J. C. and Mercer, R. L., "Class-based n-gram models of natural language", Computational Linguistics, vol. 18, p. 467-479, 1990.
  12. Martin, S., Liermann, J. o. and Ney, H., "Algorithms for bigram and trigram word clustering", Speech Communication, vol. 24, p. 19-37, 1998.
  13. Whittaker, E. W. D. and Woodland, P. C., "Efficient class-based language modelling for very large vocabularies", Acoustics, Speech and Signal Processing, (ICASSP), p. 545-548, 2001.
  14. Kneser, R. and Ney, H., "Improved clustering techniques for class- based statistical language modelling", European Conference on Speech Communication and Technology, p. 973-976, 1993.
  15. Uszkoreit, J. and Brants, T., "Distributed word clustering for large scale class-based language modeling in machine translation", Proc. of ACL, p. 755-762, 2008.
  16. Hogenhout, W. R. and Matsumoto, Y., "Training stochastical grammars on semantical categories", Stefan Wermter, Ellen Riloff, and Gabriele Scheler, editors, Connectionist, Statistical and Symbolic Approaches to Learning for Natural Language Processing. Springer. 1996.
  17. Oflazer, K., Gocmen, E., Bozsahin, C., "An Outline of Turkish Morphology", Technical Report, Bilkent University, 1994.
  18. Niesler, T., Whittaker, E., and Woodland, P., "Comparison of part- of-speech and automatically derived category-based language models for speech recognition", Acoustics, Speech and Signal Processing , vol. 1, p. 177-180, 1998.