Rapport technique Projet Gramlab : livrable SP5.1 Use Case Eptica/Lingway : identification d'amorces de reprises

2014 
Avec une prevision pour 2015 de 4,1 milliards de comptes de messagerie electronique, le developpement de solutions d'aide au traitement des courriels est devenu un reel enjeu industriel. Pour la plupart, ces traitement necessitent de separer le nouveau contenu des reprises de messages precedents. Cette segmentation doit prendre en compte un large eventail de situations, dues a la variete des langues, aux comportements des clients de messagerie, aux actions effectuees par l'utilisateur et a ses comportements epistolaires. Elle peut etre effectuee par des grammaires locales de reconnaissance des amorces de reprises} . Le temps, donc le cout, de developpement de telles grammaires est susceptible d'etre diminue par l'induction automatique de regles a partir d'exemples. Nous avons dans cette experience evalue l'apport qualitatif d'un generateur automatique de graphes pour la creation de grammaires locales de reconnaissance des amorces de reprise. Apres un rappel sur la segmentation de courriels, nous presentons d'abord l'outil Auto-graph d'induction automatique de grammaires locales, developpe dans le cadre du projet GramLab, les corpus utilises pour cette evaluation, le protocole mis en place et enfin les resultats obtenus
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []