Abstract
Cet article décrit la banque documentaire MEDLINE depuis laquelle une collection test comprenant environ 4,5 million de documents structurés a été construite à partir des campagnes d'évaluation TREC. Dans une deuxième partie, nous évaluons et comparons l'efficacité du dépistage de l'information de dix modèles (probabiliste, modèle de langue, approches vectorielles). Cette évaluation est complétée par l'analyse de l'efficacité de trois enracineurs (stemmers) pour la recherche d'information oeuvrant dans un contexte spécifique. L'impact des descripteurs MeSH, manuellement sélectionnés pour chaque article, complète cette analyse. Enfin nous avons conçu deux nouvelles approches d'expansion automatique des requêtes, l'une générale l'autre spécifique et nous les avons évaluées en les comparant au modèle proposé par Rocchio.
References (28)
- Bibliographie
- Amati G., van Rijsbergen C.J., "Probabilistic models of information retrieval based on measuring the divergence from randomness", ACM-Transactions on Information Systems, vol. 20, n° 4, 2002, p. 357-389.
- Buckley C, Singhal A., Mitra M., Salton G., "New retrieval approaches using SMART", Proceedings of TREC-4, NIST Publication #500-236, Gaithersburg (MD), 1996, p. 25- 48. DN -10/2007. Recherche d'information
- Cohen A.M., "Unsupervised gene/protein named entity normalization using automatically extracted dictionaries", Proceeding ACL-ISMB, Detroit (MI), 2005, p. 17-24.
- Efthimiadis E.N., "Query expansion", Annual Review of Information Science & Technology, vol. 31, 1996, p. 121-187.
- Gospodnetić O., Hatcher E., Lucene in action, Greenwich, Manning, 2005.
- Grabar N., Ruch P., « La Gene Ontology : une ontologie pour l'annotation des gènes et de leurs produits », Standards pour la Biologie Systémique, Roux-Rouquier M. & Xavier F. (Eds), Paris, Ecrin, Omnisciences, 2007.
- Harman D., "How effective is suffixing?", Journal of the American Society for Information Science, vol. 42, n° 1, 1991, p. 7-15.
- Hersh W.R., Information retrieval: A health care perspective, New York, Spinger-Verlag, 1996.
- Hersh W.R., Bhuptiraju R.T., Ross L., Johnson P., Cohen A.H., Kraemer D.F., "TREC 2004 genomics track overview", Proceedings TREC-2004, NIST Publication #500-261, Gaithersburg (MD), 2005, p. 192-201.
- Hersh W.R., Cohen A.H., Yang R.T., Bhuptiraju R.T., Roberts P., Herst M., "TREC 2005 genomics track overview", Proceedings TREC-2005, NIST Publication #500-266, Gaithersburg (MD), 2006.
- Hiemstra D., Using language models for information retrieval, CTIT Ph.D. Thesis, 2000.
- Hiemstra D., "Term-specific smoothing for the language modeling approach to information retrieval, The importance of a query term », Proceedings ACM-SIGIR-2002, Tempere, p. 35-41.
- Lyman P., Varian H. R., "How much information?" disponible à l'adresse site www.sims.berkeley.edu/research/projects/how-much-info-2003.
- Porter M.F., "An algorithm for suffix stripping", Program, vol. 14, n° 3, 1980, p. 130-137.
- Robertson S.E., Walker S., Beaulieu M., "Experimentation as a way of life: Okapi at TREC", Information Processing & Management, vol. 36, n° 1, 2000, p. 95-108.
- Ruch P., "Using contextual spelling correction to improve retrieval effectiveness in degraded text collections", Proceedings ACL-COLING 2002, Morgan Kaufman, 2002.
- Ruch P., Müller H., Abdou S., Cohen G., Savoy J., "Report on the TREC 2005 experiment: Genomics track TREC 2005", Proceedings TREC-2005, NIST Publication, Gaithersburg (MD), 2006.
- Ruch P., "Automatic assignment of biomedical categories: toward a generic approach", Bioinformatics, vol. 22, n° 6, 2006, p. 658-664.
- Salton G., Buckley C., "Term weighting approaches in automatic text retrieval", Information Processing & Management, vol. 24, n° 5, 1988, p. 513-523.
- Savoy J., "Statistical inference in retrieval effectiveness evaluation", Information Processing & Management, vol. 33, n° 4, 1997, p. 495-512.
- Recherche d'information dans MEDLINE 151
- Savoy J., « Indexation manuelle et automatique : une évaluation comparative basée sur un corpus en langue française », Actes CORIA, Grenoble, 2005, p. 9-23.
- Savoy J., « Un regard statistique sur l'évaluation de performance : L'exemple de CLEF 2005 », Actes CORIA, Lyon, 2006, p. 73-84.
- Singhal A., Choi J., Hindle D., Lewis D.D., Pereira F., « AT&T at TREC-7 », Proceedings TREC-7, NIST Publication #500-242, Gaithersburg (MD), 1999, p. 239-251.
- Voorhees E.M., "Query expansion using lexical-semantic relations", Proceedings ACM- SIGIR-1994, Dublin, p. 61-69.
- Yu H., Agichtein E., "Extracting synonymous gene and protein terms from biological literature", Bioinformatics, vol. 19, n° 1, 2003, p. i340-i349.
- Annexe. Formules de pondération