O que é Análise de Cluster?

Ao se analisar uma base de dados, um dos principais desafios do analista pode ser resumir a informação coletada. Em muitos casos, quando se conta com um grande número de observações, pode ser de interesse criar grupos em que os elementos dentro de um mesmo grupo sejam semelhantes, e os elementos em grupos diferentes sejam heterogêneos.

Por exemplo, suponha que você queira analisar o desempenho do comércio varejista em determinado ano. É sabido que podem existir inúmeros comércios diferentes, mas também sabemos que cada um deles pertence a um segmento específico (vestuário, artigos farmacêuticos, papelaria, etc). É natural pensar que os comércios de segmentos iguais possam ter semelhanças no desempenho, uma vez que atendem a mesma demanda.

Como usar essa importante informação na análise? Uma dos métodos estatísticos que existem para isso é a análise de cluster.

A Análise de Cluster

A análise de cluster é uma técnica estatística usada para classificar elementos em grupos, de uma forma em que elementos dentro de um mesmo cluster sejam muito parecidos, e elementos em clusters diferentes sejam distintos entre si.

Para definir a semelhança – ou diferença – entre os elementos é usada uma função de distância, que precisa ser definida considerando o contexto do problema em questão.

Podemos dividir a análise de cluster em dois grandes tipos de métodos: hierárquicos e não hierárquicos.

Análise de Cluster – Métodos Hierárquicos

Os métodos hierárquicos da análise de cluster tem como principal característica um algoritmo em que não são fornecidos uma única partição do conjunto de dados, mas sim os vários agrupamentos possíveis, onde um cluster pode ser mesclado a outro em determinado passo do algoritmo.

Esses métodos não exigem que já se tenha um número inicial de clusters, entretanto são considerados inflexíveis uma vez que não se pode trocar um elemento de grupo. Eles podem ser classificados em dois tipos: Aglomerativos e Divisivos.

  • Métodos Aglomerativos – Nesse caso, todos os elementos começam separados e vão sendo agrupados em etapas, um a um, até que tenhamos um único cluster com todos os elementos. O número ideal de clusters é escolhido dentre todas as opções.
  • Métodos Divisivos – No método divisivo todos os elementos começam juntos em um único cluster, e vão sendo separados um a um, até que cada elemento seja seu próprio cluster. Assim como no método aglomerativo, escolhemos o número ótimo de clusters dentre todas as possíveis combinações.

Análise de Cluster – Métodos Não Hierárquicos

Os métodos não-hierárquicos da análise de cluster são caracterizados pela necessidade de que se defina uma partição inicial, e também pela flexibilidade, uma vez que os elementos podem ser trocados de grupo durante a execução do algoritmo.

O procedimento geral adotado para os métodos não hierárquicos é o de escolher uma partição inicial (baseada em conhecimentos anteriores do problema), realizar o deslocamento do objeto de seu grupo para outros grupos e verificar o valor do critério utilizado, decidindo pela clusterização que apresentar melhoria.

Esse processo é repetido até que não se obtenha mais nenhuma melhoria com os deslocamentos. Os métodos das k-médias e o Fuzzy c-Médias são alguns exemplos conhecidos desses métodos, que tem como vantagem permitir que se mova um elemento de um cluster para o outro, o que não é possível no método hierárquico.

Usualmente, os métodos não hierárquicos são mais eficientes na análise de bancos de dados com maior número de observações.

Aplicação da Análise de Cluster

Para exemplificar a análise de cluster, usaremos um banco de dados retirado da revista 1974 Motor Trend US magazine, que possui 10 variáveis referentes ao design e a performance de 32 automóveis. A fim de agrupar os carros que foram similares quanto ao desempenho e design, foi utilizada uma Análise Hierárquica de Cluster, utilizando o Método de Ward a partir da distância Euclidiana.

Dendograma – Visualizando a Análise de Cluster

Usa-se o dendograma para visualizar o processo de clusterização passo a passo, assim como analisar os níveis de distância dos clusters formados. Um bom ponto de decisão da clusterização final é onde os valores de distância mudam consideravelmente. Para a decisão do agrupamento final também devem ser avaliados se os clusters formados fazem sentido para o problema.

Análise de Cluster - Dendograma

Para a análise dos dados de automóveis, optou-se por um agrupamento final com 5 clusters, uma vez que observamos um salto considerável na distância do passo anterior para esse. Assim, ficamos com 5 grupos, cada um contendo de 4 a 12 carros.

Como fazer análise de Cluster?

A maioria dos ambientes e softwares de análise estatística possuem opções para realizar a análise de cluster e a construção de dendogramas. O software R possui uma grande quantidade de funções e pacotes para se trabalhar com análise de agrupamento.

Leia também: Uma breve introdução ao R

Em futuros artigos iremos apresentar métodos para definir o número de grupos em uma análise de cluster e para calcular o valor-p em cada etapa de um processo de agrupamento hierárquico. Por isso, não deixe de se inscrever em nosso blog para acompanhar nossas publicações. E caso tenha alguma dúvida sobre como aplicar a análise de cluster em seu projeto, entre em contato com nossos consultores.

Artigo desenvolvido com a colaboração de Camila Ribeiro.


Gostou deste conteúdo?
Inscreva-se para receber artigos, eBooks, planilhas, dicas e guias exclusivos.

Preencha seu melhor email!