Etude probabiliste et statistique des grandes bases de données.

Cécile Low-Kam

Etude probabiliste et statistique des grandes bases de données.

2010

Cécile Low-Kam

Cette these se situe a l'interface de la statistique et de la fouille de donnees. Elle est composee de trois parties independantes. Dans la premiere, nous cherchons a estimer l'ordre (le nombre d'Etats caches) d'un modele de Markov cache dont la distribution d'emission appartient a la famille exponentielle. Nous nous placons dans le cas ou aucune borne superieure sur cet ordre n'est connue a priori. Nous definissons deux estimateurs penalises pour cet ordre, l'un base sur le maximum de vraisemblance et l'autre sur une statistique de melange bayesien. Nous montrons la consistance forte de ces estimateurs. Dans la deuxieme partie, nous extrayons des motifs sequentiels dont la frequence est exceptionnellement elevee par rapport a un modele de Markov. L'approche consiste a denombrer dynamiquement toutes les positions possibles d'un motif au sein d'une sequence. Puis la frequence observee est comparee a la frequence attendue a l'aide d'un test binomial. Une procedure est utilisee pour tenir compte des tests multiples. Des experimentations sont menees sur des bases synthetiques et des sequences de proteines. Enfin, dans la troisieme partie, nous nous interessons au calcul de l'estimateur a noyau de la densite. Les observations sont regroupees dans des structures hierarchiques d'arbres binaires. Les calculs sont realises sur les nœuds, plutot que sur les points, pour une plus grande efficacite. Nous effectuons le calcul sur un Echantillon de points de chaque nœud, au lieu de sa totalite, en utilisant des inegalites de concentration non-parametriques pour controler l'erreur. Puis, nous proposons un nouveau parcours de l'arbre pour effectuer ces echantillonnages sur un nombre reduit de nœuds. Nous testons notre approche sur des jeux de donnees synthetiques.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations