Détection de zones parallèles à l’intérieur de multi-documents pour l’alignement multilingue

2013 
Cet article aborde une question centrale de l’alignement automatique, celle du diagnostic de parallelisme des documents a aligner. Les recherches en la matiere se sont jusqu’alors concentrees sur l’analyse de documents paralleles par nature : corpus de textes reglementaires, documents techniques ou phrases isolees. Les phenomenes d’inversions et de suppressions/ajouts pouvant exister entre les differentes versions d’un document sont ainsi souvent ignorees. Nous proposons donc une methode pour diagnostiquer en contexte des zones paralleles a l’interieur des documents. Cette methode permet la detection d’inversions ou de suppressions entre les documents a aligner. Elle repose sur l’affranchissement de la notion de mot et de phrase, ainsi que sur la prise en compte de la Mise en Forme Materielle du texte (MFM). Sa mise en oeuvre est basee sur des similitudes de repartition de chaines de caracteres repetees dans les differents documents. Ces repartitions sont representees sous forme de matrices et l’identification des zones paralleles est effectuee a l’aide de methodes de traitement d’image.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []