Análise de cluster não supervisionado em R: agrupamento hierárquico.

2020 
Ao analisar uma base de dados, um dos principais desafios do analista e resumir a informacao coletada. Em muitos casos, quando contamos com um grande numero de observacoes, pode ser de interesse criar grupos. Dentro de cada grupo os elementos devem ser semelhantes entre si e diferentes dos elementos dentro dos outros grupos. A analise de clusters e um procedimento da estatistica multivariada que tenta agrupar um conjunto de dados em subgrupos homogeneos, chamados de agrupamentos. E uma tecnica matematica que tem como finalidade revelar estruturas de classificacao nos dados do mundo real. Os metodos hierarquicos da analise de cluster tem como principal caracteristica um algoritmo capaz de fornecer mais de um tipo de particao dos dados. Ele gera varios agrupamentos possiveis, e um cluster pode ser mesclado a outro em determinado passo do algoritmo. A maioria dos ambientes e softwares de analise estatistica dispoem de opcoes para fazer analise de cluster e construcao de dendrogramas. O software R conta com uma grande quantidade de funcoes e pacotes de trabalho para analise de agrupamento. E nesse contexto que esta publicacao se insere, ao descrever os principais conceitos para a aplicacao de procedimentos estatisticos de analise nao supervisionada que objetivam produzir agrupamentos hierarquicos com base na semelhanca ou dissemelhanca entre os objetos de estudo. O leitor percebera a dificuldade associada ao processo e entendera os usos principais da tecnica.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []