RFreeStem : Une méthode de racinisation indépendante de la langue et sans règle

2021 
La racinisation est un pre-traitement essentiel dans de nombreuses tâches de fouille de texte. Les algorithmes les plus utilises sont bases sur l'application successive de regles specifiques a la langue. Cette construction les rend fortement dependants de la langue d'application. Par opposition, les raciniseurs bases sur des corpus presentent souvent une importante complexite algorithmique, les rendant peu efficaces. Ils ne mettent pas non plus necessairement a disposition les racines extraites, pourtant requises pour certaines tâches de traitement de texte. Nous proposons ici une nouvelle approche, appelee RFreeStem, qui se base sur l'etude d'un corpus et peut etre appliquee a differentes langues. L'implementation de notre methode est flexible et efficace, car basee sur un unique parcours des n-grammes. Nous detaillons egalement une methode d'extraction des racines. Nos experiences montrent que RFreeStem ameliore les resultats des tâches de traitement de texte, plus encore que la reference de l'etat de l'art, Porter, tout en proposant une racinisation sur des langues peu dotees, ou aucune version de Porter n'est implementee.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []