Problèmes de tokénisation pour deux langues régionales de France, l’alsacien et le picard

2017 
La tokenisation est une etape essentielle dans tout systeme de traitement automatique des langues, d’autant plus que de nombreux outils dependent du decoupage obtenu. La tâche est particulierement ardue pour les textes qui ne respectent pas les conventions orthotypographiques ou les langues pour lesquelles ces conventions ne sont pas stabilisees. Nous nous interessons ici aux cas de deux langues regionales de France, l’alsacien et le picard. Nous presentons les defis poses par ces deux langues, et proposons des criteres de decoupage implementes dans des tokeniseurs.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    1
    Citations
    NaN
    KQI
    []