Academia.eduAcademia.edu

Outline

Semantic Clustering using Bag-of-Bag-of-Features

https://doi.org/10.24348/CORIA.2012.229

Abstract

Le calcul de distances entre représentations textuelles est au coeur de nombreuses applications du Traitement Automatique des Langues. Les approches standard initiallement développées pour la recherche d'information sont alors le plus souvent utilisées. Dans la plupart des cas, il est donc adopté une description sac-de-mots (ou sac-d'attributs) avec des pondérations de type TF-IDF ou des variantes, une représentation vectorielle et des fonctions classiques de similarité comme le cosinus. Dans ce papier, nous nous intéressons à l'une de ces tâches, à savoir le clustering sémantique d'entités extraites d'un corpus. Nous défendons l'idée que pour ce type de tâches, il est possible d'utiliser des représentations et des mesures de similarités plus adaptées que celles usuellement employées. Plus précisément, nous explorons l'utilisation de représentations alternatives des entités appelées sacs-de-vecteurs ou sacs-de-sacs-de-mots. Dans ce modèle, chaque entité est définie non pas par un unique vecteur, mais par un ensemble de vecteurs, chacun de ces vecteurs étant construit à partir d'une occurrence de l'entité. Pour utiliser cette représentation, nous utilisons et définissons des extensions des mesures classiques du modèle vectoriel (cosinus, Jaccard, produit scalaire...). Ces différents constituants sont testés sur notre tâche de clustering, et nous montrons que cette représentation en sac-de-vecteurs améliore significativement les résultats par rapport à une approche standard en sac- de-mots. 1 ABSTRACT. Computing distances between textual representation is at the heart of many Natural Language Processing tasks. The standard approaches initially developed for Information Retrieval are then used; most often they rely on a bag-of-words (or bag-of-feature) description with a TF-IDF (or variants) weighting, a vectorial representation and classical similarity functions like cosine. In this paper, we are interested in such a task, namely the semantic clustering of entities extracted from a text. We argue that for this kind of tasks, more suited representations 1. Ces travaux ont été (en partie) réalisés dans le cadre du programme QUAERO, financé par OSEO, agence française pour l'innovation. CORIA 2012, pp. 229-244, Bordeaux, 21-23 mars 2012 2. This work was achieved as part of the Quaero Programme, funded by OSEO, French State agency for innovation.

References (26)

  1. Bibliographie
  2. Bagga A., Baldwin B., « Entity-based cross-document coreferencing using the Vector Space Model », Proceedings of the 36th Annual Meeting of the Association for Computational Lin- guistics and 17th International Conference on Computational Linguistics -Volume 1, ACL '98, Association for Computational Linguistics, Stroudsburg, PA, USA, p. 79-85, 1998.
  3. Bunke H., « Recent developments in graph matching », Proceedings of International Confer- ence on Pattern Matching, p. 2117-2124, 2000.
  4. Chieu H. L., Ng H. T., « Named entity recognition: a maximum entropy approach using global information », Proceedings of the 19th international conference on Computational linguis- tics -Volume 1, COLING '02, Association for Computational Linguistics, Stroudsburg, PA, USA, p. 1-7, 2002.
  5. Collins M., Singer Y., « Unsupervised models for named entity classification », Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, 1999.
  6. Ekbal A., Sourjikova E., Frank A., Ponzetto S. P., « Assessing the challenge of fine-grained named entity recognition and classification », Proceedings of the 2010 Named Entities Workshop, NEWS '10, Association for Computational Linguistics, Stroudsburg, PA, USA, p. 93-101, 2010.
  7. Fleischman M., Hovy E., « Fine grained classification of named entities », Proceedings of the 19th International Conference on Computational Linguistics, p. 1-7, 2002.
  8. Gosselin P., Cord M., Philipp-Foliguet S., « Kernels on Bags of Fuzzy Regions for Fast Object retrieval », image processing, 2007. ICIP 2007. IEEE International Conference on, vol. 1, p. 177-180, 16 2007-oct. 19, 2007.
  9. Hubert L., Arabie P., « Comparing partitions », Journal of Classiffication, 1985.
  10. Isozaki H., Kazawa H., « Efficient support vector classifiers for named entity recognition », Proceedings of the 19th international conference on Computational linguistics -Volume 1, COLING '02, Association for Computational Linguistics, Stroudsburg, PA, USA, p. 1-7, 2002.
  11. Kazama J., Torisawa K., « Exploiting Wikipedia as External Knowledge for Named Entity Recognition », Proceedings of the 2007 Joint Conference on Empirical Methods in Natu- ral Language Processing and Computational Natural Language Learning, Association for Computational Linguistics, Prague, p. 698-707, June, 2007.
  12. Kondor R., Jebara T., « A kernel between sets of vectors », Proceedings of the International Conference on Machine Learning (ICML), Washington, États-Unis, 2003.
  13. Kozareva Z., « Bootstrapping named entity recognition with automatically generated gazetteer lists », Proceedings of the Eleventh Conference of the European Chapter of the Association for Computational Linguistics: Student Research Workshop, Trento, Italy, p. 15-21, April, 2006.
  14. Liao W., Veeramachaneni S., « A Simple Semi-supervised Algorithm For Named Entity Recog- nition », Proceedings of the NAACL HLT Workshop on Semi-supervised Learning for Nat- ural Language Processing, Association for Computational Linguistics, Boulder, Colorad, p. 58-65, 2009.
  15. Manning C. D., Schütze H., Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, may, 1999.
  16. Manning C., Raghavan P., Schütze H., Introduction to information retrieval, Cambridge Uni- versity Press, 2008.
  17. McCallum A., Li W., « Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons », Proceedings of the seventh confer- ence on Natural language learning at HLT-NAACL 2003 -Volume 4, CONLL '03, Associ- ation for Computational Linguistics, Stroudsburg, PA, USA, p. 188-191, 2003.
  18. Nadeau D., Satoshi S., « A survey of named entity recognition and classification », Lingvisticae Investigationes, vol. 30, p. 3-26, 2007.
  19. Rand W. M., « Objective Criteria for the Evaluation of Clustering Methods », , vol. 66, n°336, p. pp. 846-850, 1971.
  20. Sang T. K., Erik F., De Meulder F., « Introduction to the CoNLL-2003 shared task: language- independent named entity recognition », Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003 -Volume 4, CONLL '03, Association for Compu- tational Linguistics, Stroudsburg, PA, USA, p. 142-147, 2003.
  21. Schmid H., « Probabilistic part-of-speech tagging using decision trees », international Confer- ence on New Methods in Language Processing, p. 44-49, 1995.
  22. Sobhana N., Pabitra M. G. S., « Conditional Random Field Based Named Entity Recognition in Geological Text », International Journal of Computer Applications, 2010.
  23. Takeuchi K., Collier N., « Use of support vector machines in extended named entity recog- nition », Proceedings of the 6th conference on Natural language learning -Volume 20, COLING-02, Association for Computational Linguistics, Stroudsburg, PA, USA, p. 1-7, 2002.
  24. van Dongen S., Graph Clustering by Flow Simulation, PhD thesis, University of Utrecht, 2000.
  25. Vinh N., Epps J., Bailey J., « Information Theoretic Measures for Clusterings Comparison », Journal of Machine Learning Research, 2010.
  26. Zhou G., Su J., « Named entity recognition using an HMM-based chunk tagger », Proceed- ings of the 40th Annual Meeting on Association for Computational Linguistics, ACL '02, Association for Computational Linguistics, Stroudsburg, PA, USA, p. 473-480, 2002.