MR-Part : Minimizing Data Transfers Between Mappers and Reducers in MapReduce

2013 
La reduction du transfert des donnees dans la phase "Shuf?e" de MapReduce est tres importante, car elle augmente la localite des donnees, et diminue le cout total des executions des jobs MapReduce. Dans la litterature, plusieurs optimisations ont ete proposees pour reduire le transfert de donnees entre les mappers et les reducers. Neanmoins, toutes ces approches sont limitees par la facon dont les cle-valeurs intermediaires sont reparties sur les mappers. Dans cet article, nous proposons une technique qui repartitionne les tuples dans le ?chier d'entree, avec l'objectif d'optimiser la distribution des cles-valeurs sur les mappers. Notre approche detecte les relations entre les tuples d'entree et les cle-valeurs intermediaires en surveillant l'execution d'un ensemble de tâches MapReduce qui est representatif du workload. Puis, a partir des relations detectees, il affecte les tuples d'entree aux mappers, et augmente la localite des donnees lors des futures executions. Nous avons implemente notre approche dans Hadoop, et l'avons evaluee par experimentation dans Grid5000. Les resultats montrent une grande reduction dans le transfert de donnees pendant la phase "Shuf?e" par rapport a Hadoop.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    13
    References
    0
    Citations
    NaN
    KQI
    []