Recherche de domaines protéiques divergents à l'aide de modèles de Markov cachés : application à Plasmodium falciparum

2010 
Les modeles de Markov caches (MMC) - par exemple ceux de la librairie Pfam - sont des outils tres populaires pour l'annotation des domaines proteiques. Cependaqnt, ils ne sont pas toujours adaptes aux proteines les plus divergentes. C'est notamment le cas avec Plasmodium falciparum (principal agent du paludisme chez l'Homme), ou les MMC de Pfam identifient peu de familles distinctes de domaines, et couvrent moins de 50% des proteines de l'organisme. L'objectif de cette these est d'apporter des methodes nouvelles pour affiner la detection de domaines dans les proteines divergentes. Le premier axe developpe est une approche d'identification de domaines utilisant leurs proprietes de co- occurrence. Differentes etudes ont montre que la majorite des domaines apparaissent dans les proteines avec un ensemble tres reduits d'autres domaines favoris. Notre methode exploite cette propriete pour detecter des domaines trop divergents pour etre identifies par l'approche classique. Cette detection s'accompagne d'une estimation du taux d'erreur par une procedure de re-echantillonnage. Chez P. falciparum, elle permet d'identifier, avec un taux d'erreur estime inferieur a 20%, 585 nouveaux domaines - dont 159 familles etaient inedites dans cet organisme -, ce qui represente 16% du nombre de domaines connus. Le second axe de mes recherches presente plusieurs methodes de corrections statistiques et evolutives des MMC pour l'annotation d'organismes divergents. Deux types d'approches ont ete proposees. D'un cote, nous integrons aux alignements d'apprentissage des MMC les sequences precedemment identifies dans l'organisme cible ou ses proches relatifs. La limitation de cette solution est que seules des familles de domaines deja connues dans le taxon peuvent ainsi etre identifiees. Le deuxieme type d'approches contourne cette limitation en corrigeant tous les modeles par une prise en compte de l'evolution des sequences d'apprentissage. Pour cela, nous faisons appel a des techniques classiques de la bioinformatique et de l'apprentissage statistique. Les resultats obtenus offrent un ensemble de predictions complementaires totalisant 663 nouveaux domaines supplementaires - dont 504 familles inedites -, soit une augmentation de 18% a ajouter aux precedents resultats.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    1
    Citations
    NaN
    KQI
    []