Problèmes de tokénisation pour deux langues régionales de France, l’alsacien et le picard

Delphine Bernhard,Amalia Todirascu,Fanny Martin,Pascale Erhart,Lucie Steiblé,Dominique Huck,Christophe Rey

Problèmes de tokénisation pour deux langues régionales de France, l’alsacien et le picard

2017

Delphine Bernhard
Amalia Todirascu
Fanny Martin
Pascale Erhart
Lucie Steiblé
Dominique Huck
Christophe Rey

La tokenisation est une etape essentielle dans tout systeme de traitement automatique des langues, d’autant plus que de nombreux outils dependent du decoupage obtenu. La tâche est particulierement ardue pour les textes qui ne respectent pas les conventions orthotypographiques ou les langues pour lesquelles ces conventions ne sont pas stabilisees. Nous nous interessons ici aux cas de deux langues regionales de France, l’alsacien et le picard. Nous presentons les defis poses par ces deux langues, et proposons des criteres de decoupage implementes dans des tokeniseurs.

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations