RFreeStem un raciniseur pour le malgache

2021 
La racinisation est une etape dans le pre-traitement des textes qui regroupe des mots qui sont morphologiquement differents mais semantiquement similaires, et qui donc, utilises dans une requete, devraient correspondre a des resultats d'un moteur de recherche similaires voire identiques. Pour de nombreuses langues, les raciniseurs sont a base de regles. Pour des langues non outillees, le probleme de racinisation demeure non resolu. C'est le cas du malgache. Cet article analyse l'efficacite d'un raciniseur, RFreeStem, base sur l'analyse statistique des textes et sans regle. Nous etudions les hyperparametres de ce raciniseur et leur influence sur l'efficacite du raciniseur pour le malgache en se comparant a une collection de test existante et contenant des racines obtenues manuellement.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []