Etude comparée de classifications sur matrices très creuses et de grandes dimentions

2010 
Les methodes de classification non supervisee ont pour but de reveler une structure entre des elements, selon les associations qu'on peut y detecter par leurs valeurs sur un ensemble de variables. Lorsque l'on s'interesse a des grands ensembles d'unites, il est necessaire d'en reduire la dimensionnalite avant le processus de classification. Quand les variables presentent des liens non lineaires, les approches classiques sont inoperantes. Les classifications de variables qualitatives soulevent dans ce sens de nombreux problemes ; les associations sont en general non lineaires. Avec un recodage binaire de l'ensemble des modalites des variables, on obtient le plus souvent des matrices tres creuses et de grande dimension. Pour contourner la situation, quand le nombre de variables est important, l'approche plus utilisee est de transformer les variables qualitatives en variables continues, puis de faire la classification sur les valeurs de ces dernieres. Notre travail s'attache a classifier de facon non supervisee des variables qualitatives dans le contexte general suivant : il n'y a pas de liens lineaires entre les variables et elles sont en grand nombre. Nous proposons une approche en plusieurs etapes: Analyse factorielle, redeploiement des coordonnees des premiers axes factoriel dans un espace de dimension superieure, construction des classes dans ce dernier espace, enfin visualisation des classes obtenues dans l'espace des facteurs. On appliquera cette approche sur les donnees epub" du "eCRAN-R", et nous nous interesserons sur cet exemple a la comparaison entre l'approche par le detour des vecteurs de support et celle classique d'un arbre hierarchique."
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []