Style du génome exploré par analyse textuelle de l'ADN

2006 
Les sequences d'ADN peuvent etre considerees comme des textes ecrits dans un alphabet de 4 lettres. Des techniques inspirees de l'analyse textuelle permettent donc de les caracteriser, entre autres a partir de frequences d'apparition de courtes suites de caracteres (les oligonucleotides ou mots). L'ensemble des frequences des mots d'une longueur donnee est appele « signature genomique » (cet ensemble est specifique de l'espece, ce qui justifie le terme de « signature »). La signature d'espece est observable sur la plupart des courts fragments d'ADN, ce qui donne a penser qu'elle resulte d'un « style d'ecriture ». De plus, la proximite entre especes du point de vue de la signature genomique correspond bien souvent a une proximite en terme taxonomique. Pourtant, l'analyse des signatures genomiques se confronte rapidement a des limitations dues a la malediction de la dimension. En effet, les donnees de grande dimension (la signature genomique a generalement 256 dimensions) montrent des proprietes qui mettent en defaut l'intuition. Par exemple, le phenomene de concentration des distances euclidiennes est bien connu. Partant de ces constatations, nous avons mis en place des procedures d'evaluation des distances entre signatures de facon a rendre plus manifeste les informations biologiques sur lesquelles s'appuient nos analyses. Une methode de projection non-lineaire des voisinages y est associee ce qui permet de s'affranchir des problemes de grande dimension et de visualiser l'espace occupe par les donnees. L'analyse des relations entre les signatures pose le probleme de la contribution de chaque variable (les mots) a la distance entre les signatures. Un Z-score original base sur la variation de la frequence des mots le long des genomes a permis de quantifier ces contributions. L'etude des variations de l'ensemble des frequences le long d'un genomes permet d'extraire des segments originaux. Une methode basee sur l'analyse du signal permet d'ailleurs de segmenter precisement ces zones originales. Grâce a cet ensemble de methodes, nous proposons des resultats biologiques. En particulier, nous mettons en evidence une organisation de l'espace des signatures genomiques coherente avec la taxonomie des especes. De plus, nous constatons la presence d'une syntaxe de l'ADN : il existe des « mots a caractere syntaxique » et des « mots a caractere semantique », la signature s'appuyant surtout sur les mots a caractere syntaxique. Enfin, l'analyse des signatures le long du genome permet une detection et une segmentation precise des ARN et de probables transferts horizontaux. Une convergence du style des transferts horizontaux vers la signature de l'hote a d'ailleurs pu etre observee. Des resultats varies ont ete obtenus par analyse des signatures. Ainsi, la simplicite d'utilisation et la rapidite de l'analyse des sequences par signatures en font un outil puissant pour extraire de l'information biologique a partir des genomes.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    6
    Citations
    NaN
    KQI
    []