Informations segmentales pour la caractérisation phonétique du locuteur : variabilité inter- et intra-locuteurs (An automatic classification task involving 44 speakers was performed using convolutional neural networks (CNN) on broadband spectrograms extracted from 2-second sequences of a spontaneous speech corpus (NCCFr))

Cédric Gendrot,Emmanuel Ferragne,Thomas Pellegrini

Informations segmentales pour la caractérisation phonétique du locuteur : variabilité inter- et intra-locuteurs (An automatic classification task involving 44 speakers was performed using convolutional neural networks (CNN) on broadband spectrograms extracted from 2-second sequences of a spontaneous speech corpus (NCCFr))

2020

Nous avons effectue une classification automatique de 44 locuteurs a partir de reseaux de neurones convolutifs (CNN) sur la base de spectrogrammes a bandes larges calcules sur des sequences de 2 secondes extraites d’un corpus de parole spontanee (NCCFr). Apres obtention d’un taux de classification moyen de 93,7 %, les differentes classes phonemiques composant chaque sequence ont ete masquees afin de tester leur impact sur le modele. Les resultats montrent que les voyelles orales influent avant toute autre classe sur le taux de classification, suivies ensuite par les occlusives orales. Ces resultats sont expliques principalement par la representation temporelle predominante des voyelles orales. Une variabilite inter-locuteurs se manifeste par l’existence de locuteurs attracteurs qui attirent un grand nombre de faux positifs et qui ne sont pas sensibles au masquage effectue. Nous mettons en avant dans la discussion des realisations acoustiques qui pourraient expliquer les specificites de ces locuteurs.

Keywords:

Correction
Cite
Save
Machine Reading By IdeaReader

References

Citations