Algorithms for ab initio identification and classification of ncRNAs

2019 
L'identification des ARN non codants (ARNncs) permet d'ameliorer notre comprehension de la biologie.Actuellement, les fonctions biologiques d'une grande partie des ARNncs sont connues.Mais il reste d'autre classes a decouvrir.L'identification et la classification des ARNncs n'est pas une tâche triviale.Elle depend de plusieurs types de donnees heterogenes (sequence, structure secondaire, interaction avec d'autres composants biologiques, etc.) et necessite l'utilisation de methode appropriees.Durant cette these, nous avons developpe des methodes basees sur les cartes auto-organisatrice (SOM).Les SOMs nous permettent analyser et de representer les ARNncs par une carte ou la topologie des donnees est conservee.Nous avons propose un nouvel algorithme de SOM qui permet d'integrer plusieurs sources de donnees sous forme numerique ou sous forme complexe (represente par des noyaux).Ce nouvel algorithm que nous appelons MSSOM calcule une SOM pour chaque source de donnees et les combine a l'aide d'une SOM finale.MSSOM calcule pour chaque cluster la meilleur combinaison de sources.Nous avons par ailleurs developper une variante supervisee de SOM qui s'appelle SLSOM.SLSOM classifie les classes connues a l'aide d'un perceptron multicouche et de la sortie d'une SOM.SLSOM integre egalement une option de rejet qui lui permet de rejeter les predictions incertaines et d’identifier de nouvelles classes.Ces methodes nous ont permis de developper deux nouveaux outils bioinformatique.Le premier est l'application d'une variante de SLSOM pour la discrimination entre les ARNs codants et non-codants.Cet outil que nous appelons IRSOM a ete teste sur plusieurs espece venant de differents regnes (plantes, animales, bacteries et champignons).A l'aide de caracteristique simples, nous avons montre que IRSOM permet de separer les ARNs codants des non-codants.De plus, avec la visualisation de SOM et l'option de rejet nous avons pu identifier les ARNs ambigue chez l'humain.Le second s'appelle CRSOM et permet de classifier les ARNncs en differentes sous-classes.CRSOM est une combinaison de MSSOM et SLSOM et utilise deux sources de donnees qui sont la frequence des k-mers de sequence et un noyau Gaussien de structure secondaire utilisant la distance d'edition.Nous avons montrer que CRSOM obtient des performances comparable a l'outil de reference (nRC) sans rejet, et de meilleur resultats avec le rejet.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []