Recherche

Table des matières

1 Thèmes de recherches antérieurs
- 1.1 Postdoctorat
- 1.2 Thèse
- 1.3 DEA

1 Thèmes de recherches antérieurs

1.1 Postdoctorat

Vérification du locuteur

Participation à la campagne d'évaluation NIST SRE 2008 Système fondé sur la librairie Alizé développée au Laboratoire d'Avignon (LIA)

Description d'un système GMM de vérification du locuteur baseline pour les campagnes NIST SRE : Speaker Verification

Reconnaissance et suivi du locuteur dans les documents audiovisuels

Attention, dans cet exemple, l'affichage est limité à Jacques Chancel comme locuteur principal recherché.

Dialogue automatique dans les mondes virtuels et réels

Entretien d'embauche
Expression de détresse

Participation à plusieurs projets

InfoM@gic : projet pôle de compétitivité Iles-de-France Cap-Digital, SP5
K-Space : projet international Réseau d'Excellence
Myblog3D : projet ANR, COST 2102
CompanionAble : projet international

Participation à une session pléniaire à la conférence e-forensics 2009.

Responsable

Gérard Chollet (DR CNRS)

Laboratoire d'accueil

TELECOM ParisTech - TSI (traitement signal et images)

1.2 Thèse

Titre de la thèse

Mesures de confiance trame-synchrones et locales en reconnaissance automatique de la parole

Directeurs de thèse

Jean-Paul Haton (Professeur) et Odile Mella (Maître de conférences)

Date de soutenance

9 octobre 2007

Thèse

Résumé

En reconnaissance automatique de la parole, les mesures de confiance tentent d'estimer la confiance qu'on peut accorder au résultat (phonème, mot, phrase) fourni par le moteur de reconnaissance; l'apport de la mesure de confiance permettant par exemple de mettre en évidence les mots mal reconnus ou hors vocabulaire.

Dans cette thèse nous proposons des mesures de confiance capables de faire cette estimation dans le cas d'applications nécessitant une reconnaissance "grand vocabulaire" en flux continu comme l'indexation en mots clés ou la transcription en ligne d'émissions radiophoniques et télévisuelles, ou bien encore la transcription du cours d'un enseignant dans une salle de classe pour des élèves malentendants.

Dans ce cadre, nous avons défini deux types de mesure de confiance. Les premières, fondées sur des rapports de vraisemblance, sont des mesures trame-synchrones qui peuvent être calculées au fur et à mesure de la progression du moteur de reconnaissance au sein de la phrase à reconnaître. Les secondes, fondées sur une estimation de la probabilité a posteriori limité à un voisinage local du mot considéré, nécessitent seulement un court délai avant de pouvoir être calculées.

Ces mesures ont été évaluées et comparées à une mesure de l'état de l'art également fondée sur la probabilité a posteriori mais nécessitant la reconnaissance de toute la phrase. Cette évaluation a été faite d'une part dans une tâche de transcription automatique d'un corpus réel d'émissions radiophoniques issu de la campagne ESTER et en utilisant le critère d'évaluation EER (Equal Error Rate); d'autre part dans une tâche de détection de mots clés sur le même corpus. Des performances très proches de celles de la mesure de l'état de l'art ont été obtenues par nos mesures locales avec un délai de moins d'une seconde.

Nous avons également intégré l'une de nos mesures trame-synchrones dans le processus de décodage du moteur de reconnaissance afin d'améliorer la solution proposée par le système et ainsi diminuer le taux d'erreur en mots d'environ 6% en relatif.

Enfin, une de nos mesures de confiance a permis par la mise en valeur de mots de faible confiance d'améliorer la compréhension de malentendants.

Composition du jury de thèse

Jean-François Bonastre - Pr. Université d'Avignon et des Pays de Vaucluse - LIA/CERI
Gérard Chollet - DR CNRS - ENST/TSI Paris
Laurant Besacier - Université Joseph Fourier - CLIPS Grenoble
René Schott - Pr. Université Henri Poincaré Nancy I - LORIA/IECN
Jean-Paul Haton - Pr. Université Henri Poincaré Nancy I - LORIA
Odile Mella - Université Henri Poincaré Nancy I - LORIA

Laboratoire d'accueil

Equipe PAROLE (http://parole.loria.fr) - LORIA INRIA Lorraine) - Nancy université I, France

"Logo de la région Lorraine"

1.3 DEA

Titre

Segmentation Parole/Musique pour les émissions radiophoniques.

Responsable

Nathalie Parlangeau-Vallès

Laboratoire d'accueil

Equipe PAROLE (http://parole.loria.fr) - LORIA ( INRIA Lorraine) - Nancy université I, France