Étude comparative des paramètres d’entrée pour la synthèse expressive audiovisuelle de la parole par DNNs (Comparative study of input parameters for DNN-based expressive audiovisual speech synthesis )

2020 
Dans le passe, les descripteurs contextuels pour la synthese de la parole acoustique ont ete etudies pour l’entrainement des systemes bases sur des HMMs. Dans ce travail, nous etudions l’impact de ces facteurs pour la synthese de la parole audiovisuelle par DNNs. Nous analysons cet impact pour les trois aspects de la parole : la modalite acoustique, la modalite visuelle et les durees des phonemes. Nous etudions egalement l’apport d’un entrainement joint et separe des deux modalites acoustique et visuelle sur la qualite de la parole synthetique generee. Finalement, nous procedons a une validation croisee entre les resultats de la synthese des differentes emotions. Cette validation croisee, nous a permis de verifier la capacite des DNNs a apprendre des caracteristiques specifiques a chaque emotion.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []