Nicolas Pécheux

I am a NLP research Engineer at Aylien, an exciting startup in Artificial Intelligence based in Dublin, Ireland. Check out our Text Analysis API, a package of Natural Language Processing, Information Retrieval and Machine Learning tools for easily extracting meaning and insight from textual and visual content.

News !

J'ai le plaisir de vous inviter à ma soutenance de thèse de doctorat en informatique intitulée :

Modèles exponentiels et contraintes sur les espaces de recherche en traduction automatique et pour le transfert cross-lingue

qui aura lieu en français le Mardi 27 septembre à 14h00 dans la salle de conférences du LIMSI.

En présence du jury :

● Mme Isabelle Tellier, Professeure, Université Paris 3, Rapporteuse
● M. Fabrice Lefèvre, Professeur, Université d'Avignon et des Pays de Vaucluse, Rapporteur
● Mme Anne Vilnat, Professeure, Université Paris-Saclay, Examinatrice
● M. Massih-Reza Amini, Professeur, Examinateur
● M. François Yvon, Professeur, Université Paris-Saclay, Directeur de thèse
● M. Alexandre Allauzen, Maître de Conférence, Université Paris-Saclay, Co-encadrant de thèse

La soutenance sera suivie d'un pot auquel vous êtes tous vivement conviés.

Résumé

La plupart des méthodes de traitement automatique des langues (TAL) peuvent être formalisées comme des problèmes de prédiction, dans lesquels on cherche à choisir automatiquement l'hypothèse la plus plausible parmi un très grand nombre de candidats. Malgré de nombreux travaux qui ont permis de mieux prendre en compte la structure de l'ensemble des hypothèses, la taille de l'espace de recherche est généralement trop grande pour permettre son exploration exhaustive. Dans ce travail, nous nous intéressons à l'importance du design de l'espace de recherche et étudions l'utilisation de contraintes pour en réduire la taille et la complexité. Nous nous appuyons sur l'étude de trois problèmes linguistiques — l'analyse morpho-syntaxique, le transfert cross-lingue et le problème du réordonnancement en traduction — pour mettre en lumière les risques, les avantages et les enjeux du choix de l'espace de recherche dans les problèmes de TAL.

Par exemple, lorsque l'on dispose d'informations a priori sur les sorties possibles d'un problème d'apprentissage structuré, il semble naturel de les inclure dans le processus de modélisation pour réduire l'espace de recherche et ainsi permettre une accélération des traitements lors de la phase d'apprentissage. Une étude de cas sur les modèles exponentiels pour l'analyse morpho-syntaxique montre paradoxalement que cela peut conduire à d'importantes dégradations des résultats, et cela même quand les contraintes associées sont pertinentes. Parallèlement, nous considérons l'utilisation de ce type de contraintes pour généraliser le problème de l'apprentissage supervisé au cas où l'on ne dispose que d'informations partielles et incomplètes lors de l'apprentissage, qui apparaît par exemple lors du transfert cross-lingue d'annotations. Nous étudions deux méthodes d'apprentissage faiblement supervisé, que nous formalisons dans le cadre de l'apprentissage ambigu, appliquées à l'analyse morpho-syntaxiques de langues peu dotées en ressources linguistiques.

Enfin, nous nous intéressons au design de l'espace de recherche en traduction automatique. Les divergences dans l'ordre des mots lors du processus de traduction posent un problème combinatoire difficile. En effet, il n'est pas possible de considérer l'ensemble factoriel de tous les réordonnancements possibles, et des contraintes sur les permutations s'avèrent nécessaires. Nous comparons différents jeux de contraintes et explorons l'importance de l'espace de réordonnancement dans les performances globales d'un système de traduction. Si un meilleur design permet d'obtenir de meilleurs résultats, nous montrons cependant que la marge d'amélioration se situe principalement dans l'évaluation des réordonnancements plutôt que dans la qualité de l'espace de recherche.

Abstract : (Log-linear Models and Search Space Constraints in Statistical Machine Translation and Cross-lingual Transfer)

Most natural language processing tasks are modeled as prediction problems where one aims at finding the best scoring hypothesis from a very large pool of possible outputs. Even if algorithms are designed to leverage some kind of structure, the output space is often too large to be searched exaustively. This work aims at understanding the importance of the search space and the possible use of constraints to reduce it in size and complexity. We report in this thesis three case studies which highlight the risk and benefits of manipulating the seach space in learning and inference.

When information about the possible outputs of a sequence labeling task is available, it may seem appropriate to include this knowledge into the system, so as to facilitate and speed-up learning and inference. A case study on type constraints for CRFs however shows that using such constraints at training time is likely to drastically reduce performance, even when these constraints are both correct and useful at decoding.

On the other side, we also consider possible relaxations of the supervision space, as in the case of learning with latent variables, or when only partial supervision is available, which we cast as ambiguous learning. Such weakly supervised methods, together with cross-lingual transfer and dictionary crawling techniques, allow us to develop natural language processing tools for under-resourced languages. Word order differences between languages pose several combinatorial challenges to machine translation and the constraints on word reorderings have a great impact on the set of potential translations that is explored during search. We study reordering constraints that allow to restrict the factorial space of permutations and explore the impact of the reordering search space design on machine translation performance. However, we show that even though it might be desirable to design better reordering spaces, model and search errors seem yet to be the most important issues.

Research

My main research interest is on designing, understanding and developing machine learning techniques and statistical models to address challenges that arise in natural language processing, in particular Part-of-Speech tagging and machine translation.

I study Conditional Random Fields (CRF), an instance of probabilistic graphical models, and their applications to a variety of sequence labeling problems. I aim at understanding the importance of the search space and the possible use of constraints to reduce it in size and complexity [Pécheux et al. 2015, Pécheux et al. 2016(a)]. I also consider possible relaxations of the supervision space, as in the case of learning with latent variables, or when only partial supervision is available, which I cast as ambiguous learning [Wisniewski et al. 2014(b), Pécheux et al. 2016(b)].

My main target application is machine translation for which I contribute to develop competitive systems [Allauzen et al. 2013, Pécheux et al. 2014(b), Marie et al. 2015, Wisniewski et al. 2015(c)]. One of my goals is to develop large scale discriminative models in a grounded way. Current machine translation systems typically consist in a tangle of heuristic and independent models, and I explore new frameworks to build a fully discriminative unified model that relies on CRFs.

Word order differences between languages poses several combinatorial challenges to machine translation. I study reordering constraints that allow to restrict the factorial space of permutations and explore the impact of the reordering search space design [Pécheux et al. 2014(a), Pécheux et al. 2016(a)].

Finally, I am also interested in under-resourced languages for which I use cross-lingual transfer and dictionary crawling techniques together with weakly supervised methods to develop natural language processing tools [Wisniewski et al. 2014(a), Wisniewski et al. 2014(b), Pécheux et al. 2016(b)].