TTC TermSuite : une chaîne de traitement pour la fouille terminologique multilingue.

Béatrice Daille,Christine Jacquin,Laura Monceaux,Emmanuel Morin,Jérôme Rocheteau

TTC TermSuite : une chaîne de traitement pour la fouille terminologique multilingue.

2011

Le projet europeen TTC vise a exploiter les possibilites offertes par les corpus comparables pour ameliorer les performances des outils informatiques de traduction. Il s'agit de traiter des domaines techniques dans un contexte massivement multilingue ou il est necessaire de traduire un meme document dans plusieurs langues. TTC Term-Suite est un ensemble de composants logiciels pour l'extraction et l'alignement terminologique multilingue a partir de corpus comparables dans 5 langues europeennes - Anglais, Francais, Allemand, Espagnol et une langue peu dotee, le Letton, ainsi qu'en Chinois et en Russe. TTC TermSuite adopte la plate-forme Apache UIMA concue pour faciliter l'assemblage de composants, leur integration au sein d'une chaine de traitement ainsi que le passage a l'echelle dans un contexte industriel. TTC TermSuite procede a une extraction terminologique monolingue pour les 7 langues, puis a son alignement par paire de langues. En entree, sont fournis plusieurs corpus comparables dont les documents sont composes de deux types de fichiers: le texte du document et les metadonnees associees au format Dublin Core. Ces metadonnees recensent la langue, la source du document, la date d'extraction s'il s'agit d'un fichier extrait du web, le format (.txt, .html, .pdf, etc.), le sujet. Seule la langue est une metadonnee obligatoire. En sortie, sont produites des listes terminologiques monolingues et bilingues sous la forme d'une fichier XML au format TermBase eXchange. TTC TermSuite effectue les traitements informatiques dedies a l'acquisition terminologique en 4 phases: * Traitements preliminaires: identification et conversion des encodages de caracteres, detection de la langue; * Analyses linguistiques decoupage du texte en mots, analyse morphosyntaxique et lemmatisation et conversion au format Multext; * Extraction terminologique monolingue detection d'occurrences de termes simples et complexes, normalisation et regroupement des termes en fonction de leurs variations, filtrage statistique; * Alignement terminologique bilingue alignement contextuel par paires de langues. Chacune des unites fonctionnelles qui composent les 4 phases de cette architecture logicielle est realisee par un composant UIMA dedie. Chacun de ces composants gere le multilinguisme et, au besoin, repartit le document en cours de traitement a un sous-composant dedie au traitement de la langue de ce document.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations