Méthodes pour la découverte de nouveaux domaines dans les séquences biologiques : application à Plasmodium falciparum

2019 
Identifier les differentes parties d'une sequence biologique (sequence nucleique, ou sequence d'acides amines) constitue un premier pas vers la comprehension de la biologie de l'organisme dont elle est issue. Etant donne un ensemble de sequences biologiques d'un organisme, nous nous interessons dans cette these a la decouverte de «domaines», c-a-d de sous-sequences relativement grandes (plusieurs dizaines de nucleotides ou d'acides amines) que l'on retrouve dans un nombre important de sequences. Cette these est decomposee en deux axes correspondant a la decouverte de domaines dans les sequences proteiques et dans les sequences nucleiques. Dans chaque axe, les methodes developpees sont appliquees a Plasmodium falciparum, le pathogene responsable du paludisme chez l'Homme, et pour lequel les methodes bioinformatiques classiques peinent a produire des annotations satisfaisantes. Le premier axe developpe porte sur la decouverte de domaines dans les sequences proteiques. Une approche commune pour identifier les domaines d'une proteine consiste a executer des comparaisons de paires de sequences avec des outils d'alignements locaux comme BLAST. Cependant, ces approches manquent parfois de sensibilite, en particulier pour les especes phylogenetiquement eloignees des organismes de reference classiques. Nous proposons ici une approche pour augmenter la sensibilite des comparaisons de paires de sequences. Cette nouvelle approche utilise le fait que les domaines proteiques ont tendance a apparaitre avec un nombre limite d'autres domaines sur une meme proteine. Chez Plasmodium falciparum, cette methode permet ladecouverte de 2 240 nouveaux domaines pour lesquels, dans la majorite des cas, il n'existe pas de modele semblable dans les bases de donnees de domaines. Le deuxieme axe developpe porte sur la decouverte de domaines dans les sequences regulatrices (sequences ADN). Plusieurs etudes ont montre qu'il existe un lien fort entre la composition nucleotidique de regions particulieres (sequences promotrices notamment) et l'expression des genes. Nous proposons ici une nouvelle approche permettant de decouvrir de maniere automatique ces regions, que l'on nomme domaines de regulation. Plus precisement notre approche est basee sur une strategie d'exploration iterative des compositions nucleotidiques, des plus simples (dinucleotides) aux plus complexes (k-mers), ainsi qu'une strategie de segmentation supervisee pour decouvrir les compositions et les regions d'interet. En utilisant les domaines ainsi identifies, nous montrons que l'on peut predire l'expression des genes de Plasmodium falciparum avec une etonnante precision. Appliquee a differentes autres especes eucaryotes, cette approche montre des resultats tres differents suivant les especes (entre 40 et 70% de correlation) ce qui laisse entrevoir un mecanisme de regulation sans doute partage par toutes les especes eucaryotes mais dont l'importance varie d'une espece a l'autre.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []