O que a moda tem a ver com a distribuição dos dados?
Já te contamos em um post anterior aqui no blog que a MODA é uma medida de tendência central, assim como a média e a mediana (se você perdeu esse post, clique aqui). A moda corresponde ao valor mais frequente no conjunto de dados, é aquele dado que mais se repete. Nesse sentido, um conjunto de dados pode ter uma única moda (nesse caso ele é chamado de unimodal), duas modas (conjunto de dados bimodal), várias modas (conjunto de dados multimodal) ou mesmo não apresentar qualquer moda, nenhum valor se repete (sendo chamado de amodal).
Pois bem, por ser o valor mais frequente, cada moda é representada por um pico no gráfico de distribuição de frequências. Veja o exemplo a seguir.
Figura 1 – Dados de frequência mostrando o número de inscrições em um curso online ao longo de 24h, demonstrando uma distribuição bimodal (2 modas: 50 inscrições às 9h e às 19h).
A distribuição normal, tão falada na pesquisa quantitativa, apresenta uma única moda, sendo representada no gráfico de distribuição de frequências por um único pico ao centro.
Figura 2 – Dados de frequência mostrando o número de inscrições em um curso online ao longo de 24h, demonstrando uma distribuição normal, com 1 moda (55 inscrições, às 13h).
Nos casos em que temos distribuições bi ou multimodais, a média costuma não ser uma boa representação do conjunto de dados. Veja o gráfico da figura 1, para compreender melhor essa questão. O gráfico de distribuição de dados da figura 1 representa as quantidades de inscrições em um curso online ao longo de um dia inteiro. Como você pode observar, estamos tratando de uma distribuição bimodal. Temos duas modas, ou picos de horários de inscrições no curso online que são às 9h e às 19h, ambos com 50 inscrições.
Se tentássemos usar a média (36 inscrições) como representação desses dados, teríamos a impressão de que o horário das 17h seria o horário com maior número de inscrições. Embora este seja um horário que está entre os dois picos, ele está mais perto do horário com menor número de inscrições (28, às 4h) do que do maior (50, às 9h e às 19h). Então, a média não é uma boa representação para esses dados e para todos os conjuntos multimodais.
Podemos, dessa forma, perceber que conhecer a distribuição dos dados pode ser útil no planejamento da sua representação, de qual medida de tendência central você usará.
Conta pra gente, você tem o costume de analisar a distribuição dos seus dados através de gráficos de frequência?