This paper describes the design of an out-of-vocabulary words (OOV) detector. Such a system is assumed to detect segments that correspond to OOV words (words that are not included in the lexicon) in the output of a LVCSR system. The OOV detector uses acoustic confidence measures that are derived from several systems: a word recognizer constrained by a lexicon, a phone recognizer constrained by a grammar and a phone recognizer without constraints. On top of that it also uses some linguistic features. The experimental results on a French broadcast news transcription task showed that for our approach precision equals recall at 35%.
Malgre les avances spectaculaires ces dernieres annees, les systemes de Reconnaissance Automatique de Parole (RAP) commettent encore des erreurs, surtout dans des environnements bruites. Pour ameliorer la RAP, nous proposons de se diriger vers une contextualisation d’un systeme RAP, car les informations semantiques sont importantes pour la performance de la RAP. Les systemes RAP actuels ne prennent en compte principalement que les informations lexicales et syntaxiques. Pour modeliser les informations semantiques, nous proposons de detecter les mots de la phrase traitee qui pourraient avoir ete mal reconnus et de proposer des mots correspondant mieux au contexte. Cette analyse semantique permettra de reevaluer les N meilleures hypotheses de transcription (N-best). Nous utilisons les embeddings Word2Vec et BERT. Nous avons evalue notre methodologie sur le corpus des conferences TED (TED-LIUM). Les resultats montrent une amelioration significative du taux d’erreur mots en utilisant la methodologie proposee.
Les systemes automatiques d’identification de la langue subissent une degradation importante de leurs performances quand les caracteristiques acoustiques des signaux de test different fortement des caracteristiques des donnees d’entrainement. Dans cet article, nous etudions l’adaptation de domaine non supervisee d’un systeme entraine sur des conversations telephoniques a des transmissions radio. Nous presentons une methode de regularisation d’un reseau de neurones consistant a ajouter a la fonction de cout un terme mesurant la divergence entre les deux domaines. Des experiences sur le corpus OpenSAD15 nous permettent de selectionner la Maximum Mean Discrepancy pour realiser cette mesure. Cette approche est ensuite appliquee a un systeme moderne d’identification de la langue reposant sur des x-vectors. Sur le corpus RATS, pour sept des huit canaux radio etudies, l’approche permet, sans utiliser de donnees annotees du domaine cible, de surpasser la performance d’un systeme entraine de facon supervisee avec des donnees annotees de ce domaine.
Internet est devenu un vecteur important de la communication. Il permet la diffusion et l'echange d'un volume croissant de donnees. Il ne s'agit donc plus seulement de collecter des masses importantes d'informations electroniques , mais surtout de les repertorier, de les classer pour faciliter l'acces a l'information utile. Une information, aussi importante soit-elle, sur un site non repertorie, est meconnue. Il ne faut donc pas negliger la part du Web invisible . Le Web invisible peut se definir comme l'ensemble des informations non indexees, soit parce qu'elles ne sont pas repertoriees, soit parce que les pages les contenant sont dynamiques, soit encore parce que leur nature n'est pas ou difficilement indexable. En effet, la plupart des moteurs de recherche se basent sur une analyse textuelle du contenu des pages, mais ne peuvent prendre en compte le contenu des documents sonores ou visuels. Il faut donc fournir un ensemble d'elements descripteurs du contenu pour structurer les documents afin que l'information soit accessible aux moteurs de recherche. S'agissant de documents sonores, le but de notre projet est donc, d'une part, d'extraire ces informations et, d'autre part, de fournir une structuration des documents afin de faciliter l'acces au contenu. L'indexation par le contenu de documents sonores s'appuie sur des techniques utilisees en traitement automatique de la parole, mais doit etre distinguee de l'alignement automatique d'un texte sur un flux sonore ou encore de la reconnaissance automatique de la parole. Ce serait alors reduire le contenu d'un document sonore a sa seule composante verbale. Or, la composante non-verbale d'un document sonore est importante et correspond souvent a une structuration particuliere du document. Par exemple, dans le cas de documents radiophoniques, on voit l'alternance de parole et de musique, plus particulierement de jingles, pour annoncer les informations. Ainsi, nous pouvons considerer un ensemble de descripteurs du contenu d'un document radiophonique : segments de Parole/Musique, sons cles , langue, changements de locuteurs associes a une eventuelle identification de ces locuteurs, mots cles et themes. Cet ensemble peut etre bien entendu enrichi. Extraire l'ensemble des descripteurs est sans doute suffisant pour referencer un document sur Internet. Mais il est interessant d'aller plus loin et de donner acces a des parties precises du document. Chaque descripteur doit etre associe a un marqueur temporel qui donne acces directement a l'information. Cependant, l'ensemble des descripteurs appartenant a des niveaux de description differents, leur organisation n'est pas lineaire dans le temps : un meme locuteur peut parler en deux langues sur un meme segment de parole, ou encore sur un segment de parole dans une langue donnee, plusieurs locuteurs peuvent intervenir. Il faut donc aussi etre capable de fournir une structuration de l'information sur differents niveaux de representation.
Les noms propres sont souvent indispensables pour comprendre l’information contenue dans un document. Notre travail se concentre sur l’augmentation automatique du vocabulaire d’un systeme de transcription automatique de la parole (RAP) a partir d’un corpus diachronique. Nous faisons l’hypothese que certains noms propres apparaissent dans des documents relatifs a la meme periode temporelle et dans des contextes lexicaux similaires. Trois methodes de selection de noms propres sont proposees pour augmenter de facon dynamique le vocabulaire en utilisant des informations lexicales et temporelles. Les methodes sont fondees sur des statistiques de cooccurrences dans des fenetres de taille fixe, sur l’information mutuelle et sur le modele vectoriel. Differents parametres de selection de noms propres sont egalement etudies afin de limiter l’augmentation du vocabulaire. Les resultats de reconnaissance montrent une reduction significative du taux d’erreur de noms propres en utilisant un vocabulaire augmente.