Ancrages et modèles dynamiques de la prosodie : application à la reconnaissance des émotions actées et spontanées

2011 
La reconnaissance de l’etat emotionnel d’un locuteur est une etape importante pour rendre la communication Homme-machine plus naturelle et conviviale. Nous etudions dans cette these la problematique du traitement automatique de la parole (TAP) oriente emotion sur des donnees actees et naturelles. L’etude des emotions spontanees a ete effectuee en parallele avec celles des troubles de la communication (TC), puisque ces troubles limitent les capacites d’interaction de l’enfant. Les techniques incluses dans les systemes de TAP oriente emotion doivent reposer sur des parametres robustes dans la description des correlats de l’affect, mais aussi face aux contraintes liees au changement de locuteur et de contexte semantique. Dans cet esprit, nos travaux ont exploite un ensemble de traitements automatiques pour effectuer la reconnaissance des emotions. Nous avons notamment identifie des points d’ancrage complementaires de la parole (e. G. , pseudo-phonemes) pour extraire plusieurs types de parametres (e. G. , acoustique et prosodique) sur le signal. Des techniques de fusion ont aussi ete employees pour estimer la con-tribution de ces approches dans la tâche de reconnaissance. De plus, un effort a ete tout specia-lement porte sur le developpement de modeles non-convent-ionnels du rythme, puisque cette composante apparait clairement comme etant sous modelisee dans les systemes etat-de-l’art. Les experiences effectuees dans cette these visent a demontrer la pertinence des points d’ancrage de la parole et des modeles du rythme pour identifier les parametres correles aux emotions. L’etude des emotions prototypiques (i. E. , actees) par les modeles non-conventionnels du rythme a, par exemple, permis de definir un continuum de valeurs representant alors les classes d’emotions qui apparaissent selon la roue de Plutchik. Les analyses portant sur les TC ont ete effectuees en etroite collaboration avec des equipes de cliniciens et de chercheurs en TAP oriente emotion. Ces travaux ont eu pour but d’employer des methodes automatiques (i. E. , identification des points d’ancrage de la parole et extraction de parametres prosodiques) pour caracteriser les particularites associees aux types de TC etu-dies, i. E. , autisme, dysphasie et troubles envahissants du developpement non-specifies (TED-NOS). Un groupe controle compose d’enfants a developpement typique a aussi ete etudie pour comparer les capacites prosodiques des sujets TC. Les resultats de cette etude sont prometteurs puisqu’ils ont montre que l’ensemble des sujets pathologiques pouvait etre discrimine significa-tivement des typiques, tout comme les differents groupes de TC, selon deux types d’epreuves distinctes : (i) imitation de contours intonatifs (tâche contrainte) et (ii) production de parole affective spontanee (tâche non-contrainte). De plus, les resultats fournis par une analyse auto-matique des donnees ont permis de retrouver les caracteristiques cliniques des groupes de TC. Les techniques actuelles en TAP oriente emotion sont donc suffisamment matures pour s’affranchir des difficultes creees par l’etude de corpus contenant de la parole spontanee et/ou produite par des voix d’enfants. Par consequent, la difficile mais au combien importante tâche « d’humanisation » des systemes communicants peut etre envisagee, puisque les machines peuvent avoir la capacite de percevoir de facon robuste l’affect dans des situations naturelles
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    1
    Citations
    NaN
    KQI
    []