Estatísticas Descritivas

Estatísticas de Localização

A média de um conjunto de dados é encontrada somando-se todos os números do conjunto de dados e então dividindo o resultado pelo número de valores do conjunto. A média é influenciada por todos os valores, inclusive os extremos.

A mediana é o valor do meio quando o conjunto de dados está ordenado do menor para o maior. É necessário ordenar os valores para reconhecer a mediana. A mediana ignora os outliers.

A moda é o número que aparece mais vezes em um conjunto de dados. Não há no R Base uma função específica para o cálculo da moda.

mean(c(1,7,3,2,4))

median(c(1,7,3,2,4))

Por que a mediana é uma estatística descritiva pouco sensível a valores extremos?

notas <- c(6.0, 7.1, 5.5, 3.0, 10.0, 100.0, 6.5, 8.2, 2.9, 3.5, 9.9, 
           9.1, 8.2, 7.6, 9.9, 10.0, 6.7, 4.9, 10.0, 6.8, 6.0)

mean(notas)

median(notas)

Para resumir algumas variáveis, há funções que descrevem o conjunto de valores.

summary(notas)

head(notas)

dplyr::glimpse(notas)

Para calcular a moda, é preciso utilizar um pacote adicional no R.

> DescTools::Mode(notas)

# O resultado indicará o valor de moda e a frequência desse valor na amostra.

Para calcular os quantis:

quantile(notas, na.rm = T, probs = c(0.01, 0.25, 0.5, 0.75, 0.99))

Estatísticas de Dispersão

Amplitude corresponde à diferença entre o valor máximo e o mínimo encontrados em nossa amostra.

min(notas)

max(notas)

Variância e Desvio Padrão correspondem à diferença entre valores observados e a estimativa de localização de um determinado dado.

var(notas)

sd(notas)

Com o pacote rstatix, é possível obter todas essas estatísticas descritivas de uma só vez:

notas <- as.data.frame(notas)

rstatix::get_summary_stats(notas)

Vamos agora conhecer um pouco mais sobre manipulação de bancos de dados?