Détection de zones parallèles à l’intérieur de multi-documents pour l’alignement multilingue
2013
Cet article aborde une question centrale de l’alignement automatique, celle du diagnostic
de parallelisme des documents a aligner. Les recherches en la matiere se sont jusqu’alors
concentrees sur l’analyse de documents paralleles par nature : corpus de textes reglementaires,
documents techniques ou phrases isolees. Les phenomenes d’inversions et de suppressions/ajouts
pouvant exister entre les differentes versions d’un document sont ainsi souvent ignorees. Nous
proposons donc une methode pour diagnostiquer en contexte des zones paralleles a l’interieur
des documents. Cette methode permet la detection d’inversions ou de suppressions entre les
documents a aligner. Elle repose sur l’affranchissement de la notion de mot et de phrase, ainsi
que sur la prise en compte de la Mise en Forme Materielle du texte (MFM). Sa mise en oeuvre est
basee sur des similitudes de repartition de chaines de caracteres repetees dans les differents
documents. Ces repartitions sont representees sous forme de matrices et l’identification des
zones paralleles est effectuee a l’aide de methodes de traitement d’image.
- Correction
- Source
- Cite
- Save
- Machine Reading By IdeaReader
0
References
0
Citations
NaN
KQI