Papers by Jessica López Espejel

arXiv (Cornell University), Apr 17, 2024
Large Language Models (LLMs) have become a popular choice for many Natural Language Processing (N... more Large Language Models (LLMs) have become a popular choice for many Natural Language Processing (NLP) tasks due to their versatility and ability to produce high-quality results. Specifically, they are increasingly used for automatic code generation to help developers tackle repetitive coding tasks. However, LLMs' substantial computational and memory requirements often make them inaccessible to users with limited resources. This paper focuses on very low-cost models which offer a more accessible alternative to resource-intensive LLMs. We notably: (1) propose a thorough semi-manual evaluation of their performance in generating Python code, (2) introduce a Chain-of-Thought (CoT) prompting strategy to improve model reasoning and code quality, and (3) propose a new dataset of 60 programming problems, with varied difficulty levels, designed to extend existing benchmarks like HumanEval and EvalPlus. Our findings show that some low-cost compatible models achieve competitive results compared to larger models like ChatGPT despite using significantly fewer resources. We will make our dataset and prompts publicly available to support further research.
arXiv (Cornell University), Jul 10, 2023
• We have presented Entity Identifier, a pipeline method for transforming requirements specificat... more • We have presented Entity Identifier, a pipeline method for transforming requirements specifications in natural language into a model diagram that incorporates Stanford Scene Graph Parsing. • We create a dataset and define evaluation metrics to assess the effectiveness of our approach and facilitate future research in this area. • Our method achieves high scores on simple requirement statements, but struggles in handling complex Wikipedia paragraphs.
arXiv (Cornell University), May 21, 2023
• We manually evaluated the reasoning abilities of both ChatGPT models and Google's BARD by condu... more • We manually evaluated the reasoning abilities of both ChatGPT models and Google's BARD by conducting evaluations covering a range of reasoning domains, such as deductive, inductive, abductive, analogical, causal, and multi-hop reasoning, through question-answering tasks. • We propose new engineered prompts to improve the performance of LLMs in zero-shot-setting. We empirically prove the effectiveness of our approach. • We make our samples publicly available and our test suite completely reproducible on ChatGPT-3.5, ChatGPT-4 and BARD.

arXiv (Cornell University), Oct 7, 2021
We present GeSERA, an open-source improved version of SERA for evaluating automatic extractive an... more We present GeSERA, an open-source improved version of SERA for evaluating automatic extractive and abstractive summaries from the general domain. SERA is based on a search engine that compares candidate and reference summaries (called queries) against an information retrieval document base (called index). SERA was originally designed for the biomedical domain only, where it showed a better correlation with manual methods than the widely used lexical-based ROUGE method. In this paper, we take out SERA from the biomedical domain to the general one by adapting its content-based method to successfully evaluate summaries from the general domain. First, we improve the query reformulation strategy with POS Tags analysis of general-domain corpora. Second, we replace the biomedical index used in SERA with two article collections from AQUAINT-2 and Wikipedia. We conduct experiments with TAC2008, TAC2009, and CNNDM datasets. Results show that, in most cases, GeSERA achieves higher correlations with manual evaluation methods than SERA, while it reduces its gap with ROUGE for general-domain summary evaluation. GeSERA even surpasses ROUGE in two cases of TAC2009. Finally, we conduct extensive experiments and provide a comprehensive study of the impact of human annotators and the index size on summary evaluation with SERA and GeSERA.

HAL (Le Centre pour la Communication Scientifique Directe), Jan 25, 2021
Transformer deep models have gained lots of attraction in Neural Text Summarization. The problem ... more Transformer deep models have gained lots of attraction in Neural Text Summarization. The problem with existing Transformer-based systems is that they truncate documents considerably before feeding them to the network. In this paper, we are particularly interested in biomedical long text summarization. However, current input sequences are far shorter than the average length of biomedical articles. To handle this problem, we propose two improvements to the original Transformer model that allow a faster training of long sequences without penalizing the summary quality. First, we split the input between four encoders to focus attention on smaller segments of the input. Second, we use end-chunk task training at the decoder level for progressive fast decoding. We evaluate our proposed architecture on PubMed, a well-known biomedical dataset. The comparison with competitive baselines shows that our approach: (1) allows reading large input sequences, (2) reduces the training time considerably, and (3) slightly improves the quality of generated summaries.
GPT-3.5, GPT-4, or BARD? Evaluating LLMs reasoning ability in zero-shot learning and performance boosting through prompts
Natural Language Processing Journal
A comprehensive review of State-of-The-Art methods for Java code generation from Natural Language Text
Natural Language Processing Journal
JaCoText: A Pretrained Model for Java Code-Text Generation
arXiv (Cornell University), Mar 22, 2023

Automatic abstractive summarization of long medical texts with multi-encoders Transformer and general-domain summary evaluation with wikiSERA
Université Paris-Nord - Paris XIII, May 5, 2021
Les dernières statistiques faites par l’IDC (International Data Corporation)1 montrent que le vol... more Les dernières statistiques faites par l’IDC (International Data Corporation)1 montrent que le volume d’information en exabytes dans le domaine médical a augmenté de plus de 1400% entre les années 2013 et 2020. Cette croissance monstrueuse fait que des sites tel que "PubMed" (for Biotechnology Information, 2018) de "MEDLINE" (Solutions, 2021) et "Dimensions" contiennent à présent des millions d’articles médicaux portant sur des sujets variés. Cependant, et afin de suivre le rapide progrès dans le domaine médical, les chercheurs et les médecins ont besoin d’accéder aux informations pertinentes le plus rapidement possible. Grâce à l’intelligence artificielle et les avancements dans le traitement automa tique du langage naturel, le domaine du résumé automatique de textes a émergé pour le but de proposer des solutions efficaces afin de transformer un ou plusieurs textes longs en un résumé de petite taille concentrant leur information la plus utile. Les premiers travaux dans le domaine du résumé automatique étaient extractifs, où les phrases les plus pertinentes du texte sont copiées et concaténées afin de construire le résumé. Avec l’apparition de l’apprentissage profond, le résumé automatique est basé désormais sur des approches abstractives, où le système reformule le texte en un résumé qui ne contient pas forcément des mots du texte original. Malgré l’évolution dans le domaine du résumé automatique, il est nécessaire d’évaluer automatiquement la qualité des résumés générés afin de pouvoir com parer et améliorer les différentes approches de l’état de l’art. Ceci dit que le domaine d’évaluation automatique des résumés est aussi important pour le fait que l’évaluation manuelle est coûteuse en termes d’argent et de temps, même si elle constitue la meilleure référence d’évaluation. Il existe deux types d’approches automatiques d’évaluation de résumé : celles qui nécessitent une intervention humaine (telles que ROUGE (Lin, 2004) et SERA (Co han and Goharian, 2016)), et celles qui ne la nécessitent pas (telles que SummTriver (Cabrera Diego and Torres-Moreno, 2018) et FRESA (Torres-Moreno et al., 2010)). Les dernières approches ont l’avantage de fonctionner sans avoir besoin d’un résumé 1https://www.idc.com/ 196 Appendix B. Résumé en français de référence, mais elles ont jusqu’à présent une faible corrélation avec les méthodes d’évaluation manuelles. Dans cette thèse, nous nous focalisons sur le résumé automatique abstractif des textes médicaux longs, ainsi que l’évaluation automatique des résumés appartenant au domaine général. Pour la première problématique, nous proposons une amélioration de l’architecture originale des réseaux de neurones de type Transformers. Notre méthode (appelée HazP i) consiste à augmenter le nombre d’encodeurs du modèle en découpant l’entrée entre eux afin de concentrer l’attention du modèle sur des sous parties du texte (Multi-encoder Transformer). En plus, notre méthode favorise l’apprentissage progressif en présentant les résumés au décodeur partie par partie jusqu’à la consommation de toute la séquence (End-chunk Task Training). Nous menons des expérimentations sans et avec pré-entraînement du modèle sur des datasets médicales et les résultats obtenus sont encourageants en comparant HazP i avec des méthodes compétitives de l’état de l’art. Pour la deuxième problématique, nous présentons wikiSERA, une amélioration de la méthode SERA pour l’évaluation automatique des résumés biomédicaux en se basant sur l’intervention humaine. SERA est basée sur une analyse de la pertinence de contenu entre un résumé candidat et un ensemble de résumés de référence à l’aide d’un moteur de recherche qui compare les résultats de recherche dans un ensemble de documents qui constituent l’index, avec comme requêtes en entrée d’une part les résumés de référence et d’autre part les résumés automatiques...Pas de résumé fourn

Control de movimiento de objetos a través del uso de electro-encefalogramas y redes neuronales artificiales con equipo de bajo costo
“En México, del total de personas discapacitadas, el 58% es referente a problemas para caminar o ... more “En México, del total de personas discapacitadas, el 58% es referente a problemas para caminar o moverse. Dicho dato es alarmante, puesto que implica que este sector de la población carece de motricidad en el cuerpo, por lo que dependen directamente de la ayuda brindada por otras personas. La principal dificultad, sin embargo, radica en que su vida es más complicada, debido a que no pueden desplazarse de un lugar a otro, y en muchas ocasiones las expresiones faciales son su único medio de comunicación. Pensando en las personas cuadripléjicas y con la motivación de ofrecer una alternativa para que se puedan desplazar fácilmente, en este trabajo de tesis se propone realizar un sistema basado en una red neuronal de retro-propagación, para el reconocimiento del movimiento de los párpados, mismos que a cada reacción en específico corresponde una dirección u orden de desplazamiento. Las señales EEG, sensadas por una diadema de bajo costo, como la Emotiv- EPOC (Emotiv I. , 2014), son caracterizadas por el sistema través de una técnica de procesamiento de señales conocida como análisis Wavelet (Burrus Sidney, Gopinath, & Guo, 1998). Las características del EEG sensado se utilizan como entrada a una red neuronal para el reconocimiento de comandos.

Determining the More Adequate Web Page Node for Advertising Placement
Computación y Sistemas, 2020
For many web sites, money earning is crucial for keeping the content production. Advertisingis on... more For many web sites, money earning is crucial for keeping the content production. Advertisingis one of the most common strategies for web content monetization. To determine where is the more appropriate place for ad location is an essential task to get a gentle introduction of the commercial information. There are algorithms based on keywords appearing within text; however we consider that implicit meaningis more adequate for a better harmony between contentad vertising. In this work, we present a formal method that determines the best place for advertising location. For this, we explore the underlying tree-like structure of a web page, we extract the text from each (X) HTML node and compute the semantic similarity (by employing latent semantic analysis) w.r.t., the advertising source text. We introduce a unique formula for the numerical calculation of the web page node relevance. We think it could beused for measuring the concordance among web page nodes and the commercial informati...
L'analyse de la conversation joue un rôle important dans le développement d'appareils de simulati... more L'analyse de la conversation joue un rôle important dans le développement d'appareils de simulation pour la formation des professionnels de la santé (médecins, infirmières). Notre objectif est de développer une méthode de synthèse automatique originale pour les conversations médicales entre un patient et un professionnel de la santé, basée sur les avancées récentes en matière de synthèse à l'aide de réseaux de neurones convolutionnels et récurrents. La méthode proposée doit être adaptée aux problèmes spécifiques liés à la synthèse des dialogues. Cet article présente une revue des différentes méthodes pour les résumés par extraction et par abstraction et pour l'analyse du dialogue. Nous décrivons aussi les utilisation du Traitement Automatique des Langues dans le domaine médical.
GeSERA: General-domain Summary Evaluation by Relevance Analysis
Proceedings of the Conference Recent Advances in Natural Language Processing - Deep Learning for Natural Language Processing Methods and Applications

Research in Computing Science
Resumen. El fin último de este trabajo es disminuir o eliminar la etapa de entrenamiento, para cu... more Resumen. El fin último de este trabajo es disminuir o eliminar la etapa de entrenamiento, para cuando un nuevo sujeto utilice una BCI (brain-computer interface) basada en habla imaginada. La etapa de entrenamiento se debe a que es necesario adquirir suficiente información para identificar los patrones que permitan distinguir lo que el sujeto imagina pronunciar. Ahora bien, en habla imaginada, como cualquier otro potencial evocado, el proceso de entrenamiento es tardado y tedioso. En este artículo se presenta una serie de experimentos que busca comprobar si su información de entrenamiento ya disponible para un grupo de sujetos puede aprovecharse para un nuevo sujeto. El método empleado usa mapas auto-organizados para seleccionar la información ya disponible con la cual se generan clasificadores binarios para identificar las palabras presentes en los EEG del nuevo sujeto. Los resultados alcanzados son alentadores y dan pauta para el diseño de un método apropiado para transferencia de aprendizaje sujetoa-sujeto en habla imaginada.
Uploads
Papers by Jessica López Espejel