Estatística descritiva para sumarização de dados com o R
Já apresentamos os operadores relativos às estatísticas descritivas básicas. Segue uma síntese:
Operadores aritméticos R
Operador | Descrição |
---|---|
x + y | Adição de x com y |
x - y | Subtração de y em x |
x * y | Multiplicação de x e y |
x / y | Divisão de x por y |
xy ou x**y | x elevado a y-ésima potência |
x%%y | Resto da divisão de x por y (módulo) |
x%/%y | Parte inteira da divisão de x por y |
Operadores de comparação no R
Operador | Significado |
---|---|
== | igual a |
!= | diferente de |
> | maior que |
< | menor que |
>= | maior ou igual a |
<= | menor ou igual a |
Os operadores de comparação sempre retornam um valor lógico TRUE ou FALSE.
Operadores lógicos no R
Operador | Descrição | Explicação |
---|---|---|
& | AND lógico | Versão vetorizada. Compara dois elementos do tipo vetor e retorna um vetor de TRUEs e FALSEs |
&& | AND lógico | Versão não-vetorizada. Compara apenas o primeiro valor de cada vetor, retornando um valor lógico. |
| | OR lógico | Versão vetorizada. Compara dois elementos do tipo vetor e retorna um vetor de TRUEs e FALSEs |
|| | OR lógico | Versão não-vetorizada. Compara apenas o primeiro valor de cada vetor, retornando um valor lógico. |
! | NOT lógico | Negação lógica. Retorna um valor lógico único ou um vetor de TRUE / FALSE. |
xor | XOR | Ou Exclusivo. Retorna valor lógico TRUE se ambos os valores de entrada forem diferentes entre si, e retorna FALSE se os valores forem iguais. |
Também conhecidos como operadores booleanos, permitem trabalhar com múltiplas condições relacionais na mesma expressão, e retornam valores lógicos verdadeiro ou falso.
Algumas funções estatísticas para sumarização de dados
Funções | Descrição |
---|---|
min() |
mínimo |
max() |
máximo |
range() |
amplitude |
mean() |
média |
sum() |
soma |
median() |
mediana |
sd() |
desvio-padrão |
IQR() |
intervalo interquantil |
quantile() |
quartis |
var() |
variância |
cor() |
correlação |
summary() |
métricas de sumarização |
rowMeans() |
média das linhas |
colMeans() |
média das colunas |
rowSums() |
soma das linhas |
colSums() |
soma das colunas |
Tratamento de dados omissos
O R permite que sejam armazenados, em vetores e data.frames, o valor NA
(Not Available), que representa dados que ainda não são conhecidos.
x == NA
trará sempre um resultado FALSE, mesmo quex
não seja conhecido.
Atividades de verificação de aprendizagem
Questão 1:
Abra o data.frame
“iris”.
a <- iris
class(iris)
a. Calcule estatísticas básicas de cada variável. Copie e cole no Canvas (código e resultado).
Veja o exemplo:
summary(iris$Sepal.Length)
b. Para que serve p símbolo $
após o nome do data.frame?
c. Por meio das funções hist()
e boxplot()
, respectivamente, gere um exemplo de cada gráfico para a variável que você escolher. Copie e cole no Canvas.