Apêndice A Conjunto de dados do R
Existe uma variedade de base de dados (datasets) incluídos com o R. Segue uma breve descrição de alguns destes datasets que serão utilizados neste curso.
A.1 gapminder
Este conjunto de dados contém um recorte dos dados do Instituto Gapminder. São 1704 linhas com 6 variáveis:
-
country
: país, com 142 níveis -
continent
: continente, com 5 níveis -
year
: ano, entre 1952 e 2007 com incremente de 5 anos -
lifeExp
: expectativa de vida ao nascer, em anos -
pop
: população -
gdpPercap
: PIB per capita, em US Dollar (ajustado para a inflação)
Para acessá-lo, antes é preciso instalar o pacote gapminder
e carregá-lo.
install.packages("gapminder")
library(gapminder)
A.2 mpg
Este conjunto de dados é parte do pacote ggplot2
e contém dados relacionados à economia de combustível (https://fueleconomy.gov/) de 38 modelos de carros nos anos de 1999 e 2008. São 234 linhas com 11 variáveis:
-
manufacturer
: nome da montadora -
model
: nome do modelo -
displ
: cilindrada do motor, em litros -
year
: ano de fabricação -
cyl
: número de cilindros -
trans
: tipo de transmissão -
drv
: tipo de tração, em que f = tração dianteira, r = tração traseira, 4 = tração 4x4 -
cty
: consumo na cidade em milhas por galão -
hwy
: consumo na rodovia milhas por galão -
fl
: tipo de combustível -
class
: categoria do carro
Para acessá-lo, é preciso ter o pacote ggplot2
instalado e carregado.
install.packages("ggplot2") #caso não esteja instalado
library(ggplot2)
A.3 ToothGrowth
Este conjunto contém dados de um experimento em que foi medido o comprimento de odontoblastos (células responsáveis pelo crescimento dos dentes) em 60 porquinhos da Índia 32. Cada animal recebeu uma dose diferente de vitamina C (0,5, 1,0 ou 2,0 mg/dia) por um tipo de suplemento: suco de laranja (OJ) ou ácido ascórbico (VC). São 60 linhas com 3 variáveis:
-
len
: comprimento de odontoblastos -
supp
: tipo de suplemento de vitamina C -
dose
: dose de vitamina C
A.4 economics
Este conjunto de dados traz uma série temporal de dados econômicos dos Estados Unidos 33. São 574 linhas com 6 variáveis
-
date
: Mês de aquisição dos dados -
pce
: despesas de consumo pessoal, em bilhões de dólares -
pop
: população total, em milhares -
psavert
: taxa de poupança pessoal -
uempmed
: duração mediana do desemprego, em semanas -
unemploy
: número de desempregados, em milhares
A.5 iris
Este dataset contém as medidas, em centímetros, do comprimento e largura das pétalas e sépalas de três espécies de plantas: Iris setosa, I. versicolor e I. virginica. São 150 linhas com 5 variáveis.
-
Sepal.Length
: comprimento das sépalas -
Sepal.Width
: largura das sépalas -
Petal.Length
: comprimento das pétalas -
Petal.Width
: largura das sépalas -
Species
: espécies de Iris
A.6 BOD
Este dataset contém a demanda bioquímica de oxigênio em função do tempo em uma avaliação da qualidade da água.
-
Time
: tempo em dias -
demand
: BOD em mg/L
A.7 diamonds
Este conjunto de dados contém atributos de aproximadamento 54.000 diamantes. As variáveis são:
-
price
: preço em dólares -
carat
: peso em quilates -
cut
: qualidade do corte (Razoável, Bom, Muito Bom, Premium, Ideal) -
color
: cor do diamante, de D (melhor) a J (pior) -
clarity
: uma medida de quão claro é o diamante (I1 (pior), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (melhor)) -
x
: comprimento em mm -
y
: largura em mm -
z
: profundidade em mm -
depth
: porcentagem de profundidade total = z / média (x, y) = 2 * z / (x + y) -
table
: largura do topo do diamante em relação ao ponto mais largo
## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html
A.8 faithful
Descreve o tempo entre erupções e duração das erupções do gêiser Old Faithful do Parque Yellowstone. São 272 observações de 2 variáveis.
-
eruptions
: duração da erupção, em minutos -
waiting
: tempo de epera até a próxima erupção, em minutos