Papers by Jeanne Villaneau

Réordonnancement d'hypothèses dans un système de questionsréponses. Title : Re-ranking of hypothe... more Réordonnancement d'hypothèses dans un système de questionsréponses. Title : Re-ranking of hypotheses in a question-answering system. Nombre de pages (Number of pages) : 225 Résumé : L'objectif de cette thèse a été de proposer une approche robuste pour traiter le problème de la recherche de la réponse précise à une question. Notre première contribution a été la conception et la mise en oeuvre d'un modèle de représentation robuste de l'information et son implémentation. Son objectif est d'apporter aux phrases des documents et aux questions de l'information structurelle, composée de groupes de mots typés (segments typés) et de relations entre ces groupes. Ce modèle a été évalué sur différents corpus (écrits, oraux, web) et a donné de bons résultats, prouvant sa robustesse. Notre seconde contribution a consisté en la conception d'une méthode de réordonnancement des candidats réponses retournés par un système de questions-réponses. Cette méthode a aussi été conçue pour des besoins de robustesse, et s'appuie sur notre première contribution. L'idée est de comparer une question et le passage d'où a été extraite une réponse candidate, et de calculer un score de similarité, en s'appuyant notamment sur une distance d'édition. Le réordonnanceur a été évalué sur les données de différentes campagnes d'évaluation. Les résultats obtenus sont particulièrement positifs sur des questions longues et complexes. Ces résultats prouvent l'intérêt de notre méthode, notre approche étant particulièrement adaptée pour traiter les questions longues, et ce quel que soit le type de données. Le réordonnanceur a ainsi été évalué sur l'édition 2010 de la campagne d'évaluation Quaero, où les résultats sont positifs.
COSMOS: Experimental and Comparative Studies of Concept Representations in Schoolchildren
HAL (Le Centre pour la Communication Scientifique Directe), Jun 21, 2022
HAL (Le Centre pour la Communication Scientifique Directe), Jan 16, 2023
HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific re... more HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d'enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Distributed under a Creative Commons Attribution-NonCommercial| 4.0 International License
HAL (Le Centre pour la Communication Scientifique Directe), Jun 28, 2021
Nous présentons ici une nouvelle ressource libre : le corpus EN-ISTEX, un corpus de deux cents ar... more Nous présentons ici une nouvelle ressource libre : le corpus EN-ISTEX, un corpus de deux cents articles scientifiques annotés manuellement en entités nommées. Ces articles ont été extraits des deux éditeurs scientifiques les plus importants de la plateforme ISTEX. Tous les domaines sont concernés, même si les sciences dites dures, en particulier les sciences du vivant et de la santé, sont prépondérantes. Parmi ceux-ci vingt articles ont été multi-annotés afin de vérifier l'adéquation du guide d'annotation et la fiabilité de l'annotation. L'accord inter annotateurs sur ces vingt textes s'élève à 91 %.
Présentation du projet COSMOS
HAL (Le Centre pour la Communication Scientifique Directe), Dec 6, 2022
Graphical document representation for french newsletters analysis
HAL (Le Centre pour la Communication Scientifique Directe), Jun 28, 2021
Driven by digital transformation, companies produce nowadays vast amounts of data. In the manufac... more Driven by digital transformation, companies produce nowadays vast amounts of data. In the manufacturing industry, for example, the use of modern smart technology contributes to this data profusion. However, very few enterprise datasets are made freely available which results in a serious lack of open real data for research and education. In this paper, we present a discrete-events simulation tool that was developed to support undergraduate students in their Statistics and Data analysis course. It simulates scheduling scenarios in a manufacturing environment and the generated data may be used to put into practice Statistics concepts and methods to design cost-effective strategies for optimizing key performance indicators, such as reducing production time, improving quality, eliminating wastes, maximizing profit…

Détection d'émotion, fouille d'opinion et analyse des sentiments sont généralement évalués par co... more Détection d'émotion, fouille d'opinion et analyse des sentiments sont généralement évalués par comparaison des réponses du système concerné par rapport à celles contenues dans un corpus de référence. Les questions posées dans cet article concernent à la fois la définition de la référence et la fiabilité des métriques les plus fréquemment utilisées pour cette comparaison. Les expérimentations menées pour évaluer le système de détection d'émotions EmoLogus servent de base de réflexion pour ces deux problèmes. L'analyse des résultats d'EmoLogus et la comparaison entre les différentes métriques remettent en cause le choix du vote majoritaire comme référence. Par ailleurs elles montrent également la nécessité de recourir à des outils statistiques plus évolués que ceux généralement utilisés pour obtenir des évaluations fiables de systèmes qui travaillent sur des données intrinsèquement subjectives et incertaines.
Athens journal of technology & engineering, Feb 17, 2022
This paper presents a discrete events simulation tool developed to support undergraduate students... more This paper presents a discrete events simulation tool developed to support undergraduate students in their Statistics and Data Analysis course. Although the use of modern smart technologies in the industry contributes to a profusion of data, very few enterprise datasets are freely available, resulting in a serious lack of open real-world data for research and education. To overcome this difficulty, we designed a tool that simulates scheduling scenarios in a manufacturing environment. The generated data may be used to put statistical concepts and methods into practice to design cost-effective strategies for optimizing key performance indicators, such as reducing production time, improving quality, eliminating wastes, and maximizing profits.
Analyse automatique d’émotions pour l’optimisation de campagnes d’e-mails en français
HAL (Le Centre pour la Communication Scientifique Directe), Jan 25, 2022

Le Centre pour la Communication Scientifique Directe - HAL - Archive ouverte HAL, Sep 8, 2008
The ANR project EmotiRob aims at conceiving and realizing a companion robot which interacts emoti... more The ANR project EmotiRob aims at conceiving and realizing a companion robot which interacts emotionally with fragile children. However, the project MAPH which is an extension of EmotiRob tries to extend the cognitive abilities of the robot to implement a linguistic interaction with the child. For this, we studied a children corpus and got semantic links that could exist between each pair of words. This corpus elaborated by D. Bassano has been used to evaluate language development among children under five. Using this corpus, we tried to make a taxonomy in accordance with the conceptual world of children and tested its validity. Using the taxonomy and the semantic properties that we attributed to the corpus words, we defined rapprochement coefficients between words in order to generate new sentences, answer the child questions and play with him. As a perspective for this, we envisage to make the robot able of enriching its vocabulary, and to define new learning patterns basing on its reactions.
DaFNeGE: Dataset of French Newsletters with Graph Representation and Embedding
Lecture Notes in Computer Science, 2022
Le Centre pour la Communication Scientifique Directe - HAL - Université Paris Descartes, Oct 3, 2021
Email communication and newsletter campaigns remain a significant concern for companies. The main... more Email communication and newsletter campaigns remain a significant concern for companies. The main question addressed here is how to optimize the form and content of a newsletter so that it is not interpreted as spam or annoyance by the recipient. We address this question by analyzing the emotions and opinions conveyed by emails and evaluating how they affect their open and click rate performance. We first describe a new dataset of French newsletters, and then we use emotional embeddings to analyze the associations between emotions and email performance. We finally derive clues on how to write effective email campaigns.
International audienceNous présentons ici une nouvelle ressource libre : le corpus EN-ISTEX, un c... more International audienceNous présentons ici une nouvelle ressource libre : le corpus EN-ISTEX, un corpus de deux cents articles scientifiques annotés manuellement en entités nommées. Ces articles ont été extraits des deux éditeurs scientifiques les plus importants de la plateforme ISTEX. Tous les domaines sont concernés, même si les sciences dites dures, en particulier les sciences du vivant et de la santé, sont prépondérantes. Parmi ceux-ci vingt articles ont été multi-annotés afin de vérifier l'adéquation du guide d'annotation et la fiabilité de l’annotation. L'accord inter annotateurs sur ces vingt textes s'élève à 91 %

Traitement Automatique des Langues Naturelles & Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, 2010
Le projet EmotiRob, soutenu par l'agence nationale de la recherche, s'est donné pour objectif de ... more Le projet EmotiRob, soutenu par l'agence nationale de la recherche, s'est donné pour objectif de détecter des émotions dans un contexte d'application original : la réalisation d'un robot compagnon émotionnel pour des enfants fragilisés. Nous présentons dans cet article le système qui caractérise l'émotion induite par le contenu linguistique des propos de l'enfant. Il se base sur un principe de compositionnalité des émotions, avec une valeur émotionnelle fixe attribuée aux mots lexicaux, tandis que les verbes et les adjectifs agissent comme des fonctions dont le résultat dépend de la valeur émotionnelle de leurs arguments. L'article présente la méthode de calcul utilisée, ainsi que la norme lexicale émotionnelle correspondante. Une analyse quantitative et qualitative des premières expérimentations présente les différences entre les sorties du module de détection et l'annotation d'experts, montrant des résultats satisfaisants, avec la bonne détection de la valence émotionnelle dans plus de 90% des cas.

Traitement Automatique des Langues Naturelles & Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, 2009
-Le projet ANR Emotirob aborde la question de la détection des émotions sous un cadre original : ... more -Le projet ANR Emotirob aborde la question de la détection des émotions sous un cadre original : concevoir un robot compagnon émotionnel pour enfants fragilisés. Notre approche consiste à combiner détection linguistique et prosodie. Nos expériences montrent qu'un sujet humain peut estimer de manière fiable la valence émotionnelle d'un énoncé à partir de son contenu propositionnel. Nous avons donc développé un premier modèle de détection linguistique qui repose sur le principe de compositionnalité des émotions : les mots simples ont une valence émotionnelle donnée et les prédicats modifient la valence de leurs arguments. Après une description succincte du système logique de compréhension dont les sorties sont utilisées pour le calcul global de l'émotion, cet article présente la construction d'une norme émotionnelle lexicale de référence, ainsi que d'une ontologie de classes émotionnelles de prédicats, pour des enfants de 5 et 7 ans.
Cet article présente une méthode pour mesurer la similarité sémantique entre phrases qui utilise ... more Cet article présente une méthode pour mesurer la similarité sémantique entre phrases qui utilise Wikipédia comme unique ressource linguistique et qui est, de ce fait, utilisable pour un grand nombre de langues. Basée sur une représentation vectorielle, elle utilise une indexation aléatoire pour réduire la dimension des espaces manipulés. En outre, elle inclut une technique de calcul des vecteurs de termes qui corrige les défauts engendrés par l’utilisation d’un corpus aussi général que Wikipédia. Le système a été évalué sur les données de SemEval 2014 en anglais avec des résultats très encourageants, au-dessus du niveau moyen des systèmes en compétition. Il a également été testé sur un ensemble de paires de phrases en français, à partir de ressources que nous avons construites et qui seront mises à la libre disposition de la communauté scientifique.

Aspect Based Sentiment Analysis (ABSA) aims at identifying the aspects of entities and the sentim... more Aspect Based Sentiment Analysis (ABSA) aims at identifying the aspects of entities and the sentiment expressed towards each aspect. Substantial work already exists in English language and in domains where aspects are easy to define such as restaurants, hotels, laptops, etc. This paper investigates detection of aspects in French language and in the books reviews domain where expression is more complex and aspects are less easy to characterize. On the basis of a corpus that we annotated , 21 aspects were defined and categorized into eight main classes including a catch-all class, General, which was found to be absorbent. Several methods were carried out to address this difficulty, with varying efficiency: Random Forest and SVM provided better results than kNN and Neural Net. Combining these methods with voting rules helped to improve noticeably the results. On another side, the difficulty of the task and the limits of a lexical approach were further explored with a qualitative analysi...
Lecture Notes in Computer Science, 2004
We present a logical approach of spoken language understanding for a human-machine dialogue syste... more We present a logical approach of spoken language understanding for a human-machine dialogue system. The aim of the analysis is to provide a logical formula, or a conceptual graph, by assembling concepts related to a delimited application domain. This flexible structure is gradually built during an incremental parsing, which is meant to combine syntactic and semantic criteria. Then, a contextual understanding step leads to completing this structure. The evaluations of the current system are encouraging. This approach is a preliminary for a logical dialogue that uses the form of the semantic representations.

Semantic Relations for an Oral and Interactive Question-Answering System
... 3 named entities <org> NIST &am... more ... 3 named entities <org> NIST </> <eve> festival Cannes 2007 </> <cit> veni vidi vici </> indistinct entities <Eve> Cannes ... hierarchical bishop → religious function → hierarchical function super-classes thematic markers <literature> novels </> <sport> tennis </> inquiring markers ...
Uploads
Papers by Jeanne Villaneau