I am a NLP research Engineer
at Aylien, an exciting
startup in Artificial Intelligence based in Dublin,
Ireland. Check out our
Text Analysis API, a package of Natural Language
Processing, Information Retrieval and Machine Learning tools
for easily extracting meaning and insight from textual and
visual content.
News !
J'ai le plaisir de vous inviter à
ma
soutenance de thèse
de doctorat en informatique intitulée :
Modèles exponentiels et contraintes sur les espaces
de recherche en traduction automatique et pour le transfert
cross-lingue
● Mme Isabelle Tellier, Professeure, Université Paris
3, Rapporteuse
● M. Fabrice Lefèvre, Professeur, Université d'Avignon
et des Pays de Vaucluse, Rapporteur
● Mme Anne Vilnat, Professeure, Université
Paris-Saclay, Examinatrice
● M. Massih-Reza Amini, Professeur, Examinateur
● M. François Yvon, Professeur, Université
Paris-Saclay, Directeur de thèse
● M. Alexandre Allauzen, Maître de Conférence,
Université Paris-Saclay, Co-encadrant de thèse
La soutenance sera suivie d'un pot auquel vous êtes tous
vivement conviés.
Résumé
La plupart des méthodes de traitement automatique des langues (TAL)
peuvent être formalisées comme des problèmes de prédiction,
dans lesquels on cherche à choisir automatiquement
l'hypothèse la plus plausible parmi un très grand nombre de
candidats. Malgré de nombreux travaux qui ont permis de
mieux prendre en compte la structure de l'ensemble des
hypothèses, la taille de l'espace de recherche est
généralement trop grande pour permettre son exploration
exhaustive. Dans ce travail, nous nous intéressons à
l'importance du design de l'espace de recherche et étudions
l'utilisation de contraintes pour en réduire la taille et la
complexité. Nous nous appuyons sur l'étude de trois
problèmes linguistiques — l'analyse morpho-syntaxique, le
transfert cross-lingue et le problème du réordonnancement en
traduction — pour mettre en lumière les risques, les
avantages et les enjeux du choix de l'espace de recherche
dans les problèmes de TAL.
Par exemple, lorsque l'on dispose d'informations a priori sur les
sorties possibles d'un problème d'apprentissage structuré,
il semble naturel de les inclure dans le processus de
modélisation pour réduire l'espace de recherche et ainsi
permettre une accélération des traitements lors de la phase
d'apprentissage. Une étude de cas sur les modèles
exponentiels pour l'analyse morpho-syntaxique montre
paradoxalement que cela peut conduire à d'importantes
dégradations des résultats, et cela même quand les
contraintes associées sont pertinentes. Parallèlement, nous
considérons l'utilisation de ce type de contraintes pour
généraliser le problème de l'apprentissage supervisé au cas
où l'on ne dispose que d'informations partielles et
incomplètes lors de l'apprentissage, qui apparaît par
exemple lors du transfert cross-lingue d'annotations. Nous
étudions deux méthodes d'apprentissage faiblement supervisé,
que nous formalisons dans le cadre de l'apprentissage
ambigu, appliquées à l'analyse morpho-syntaxiques de
langues peu dotées en ressources linguistiques.
Enfin, nous nous intéressons au design de l'espace de recherche en
traduction automatique. Les divergences dans l'ordre des
mots lors du processus de traduction posent un problème
combinatoire difficile. En effet, il n'est pas possible de
considérer l'ensemble factoriel de tous les
réordonnancements possibles, et des contraintes sur les
permutations s'avèrent nécessaires. Nous comparons
différents jeux de contraintes et explorons l'importance de
l'espace de réordonnancement dans les performances globales
d'un système de traduction. Si un meilleur design permet
d'obtenir de meilleurs résultats, nous montrons cependant
que la marge d'amélioration se situe principalement dans
l'évaluation des réordonnancements plutôt que dans la
qualité de l'espace de recherche.
Abstract : (Log-linear Models and Search Space Constraints in Statistical Machine
Translation and Cross-lingual Transfer)
Most natural language processing tasks are modeled as prediction
problems where one aims at finding the best scoring
hypothesis from a very large pool of possible outputs. Even
if algorithms are designed to leverage some kind of
structure, the output space is often too large to be
searched exaustively. This work aims at understanding the
importance of the search space and the possible use of
constraints to reduce it in size and complexity. We report
in this thesis three case studies which highlight the risk
and benefits of manipulating the seach space in learning and
inference.
When information about the possible outputs of a sequence labeling
task is available, it may seem appropriate to include this
knowledge into the system, so as to facilitate and speed-up
learning and inference. A case study on type constraints for
CRFs however shows that using such constraints at training
time is likely to drastically reduce performance, even when
these constraints are both correct and useful at decoding.
On the other side, we also consider possible relaxations of the
supervision space, as in the case of learning with latent
variables, or when only partial supervision is available,
which we cast as ambiguous learning. Such weakly supervised
methods, together with cross-lingual transfer and dictionary
crawling techniques, allow us to develop natural language
processing tools for under-resourced languages. Word order
differences between languages pose several combinatorial
challenges to machine translation and the constraints on
word reorderings have a great impact on the set of potential
translations that is explored during search. We study
reordering constraints that allow to restrict the factorial
space of permutations and explore the impact of the
reordering search space design on machine translation
performance. However, we show that even though it might be
desirable to design better reordering spaces, model and
search errors seem yet to be the most important issues.
Research
My main research interest is on designing, understanding and developing
machine learning techniques and statistical models to address
challenges that arise in natural language processing, in particular
Part-of-Speech tagging and machine translation.
I study Conditional Random Fields (CRF), an instance of
probabilistic graphical models, and their applications to a
variety of sequence labeling problems. I aim at understanding the
importance of the search space and the possible use of
constraints to reduce it in size and
complexity
[Pécheux et
al. 2015, Pécheux
et al. 2016(a)]. I also consider possible relaxations
of the supervision space, as in the case
of learning with latent variables, or when only partial
supervision is available, which I cast
as ambiguous learning
[Wisniewski
et al. 2014(b), Pécheux
et al. 2016(b)].
My main target application is machine translation for
which I contribute to develop competitive systems
[Allauzen et
al. 2013, Pécheux
et
al. 2014(b), Marie
et
al. 2015, Wisniewski
et al. 2015(c)]. One of my goals is to
develop large scale discriminative models
in a grounded way. Current machine translation systems
typically consist in a tangle of heuristic and independent
models, and I explore new frameworks to build a fully
discriminative unified model that relies on CRFs.
Word order differences between languages poses several
combinatorial challenges to machine translation. I
study reordering constraints that allow
to restrict the factorial space of permutations and
explore the impact of the reordering search
space design
[Pécheux et
al. 2014(a), Pécheux
et al. 2016(a)].
Finally, I am also interested in under-resourced
languages for which I use cross-lingual transfer
and dictionary crawling techniques together
with weakly supervised methods to develop
natural language processing tools
[Wisniewski
et
al. 2014(a), Wisniewski
et
al. 2014(b), Pécheux
et al. 2016(b)].