Apêndice A Conjunto de dados do R

Existe uma variedade de base de dados (datasets) incluídos com o R. Segue uma breve descrição de alguns destes datasets que serão utilizados neste curso.

A.1 `gapminder`

Este conjunto de dados contém um recorte dos dados do Instituto Gapminder. São 1704 linhas com 6 variáveis:

country: país, com 142 níveis
continent: continente, com 5 níveis
year: ano, entre 1952 e 2007 com incremente de 5 anos
lifeExp: expectativa de vida ao nascer, em anos
pop: população
gdpPercap: PIB per capita, em US Dollar (ajustado para a inflação)

Para acessá-lo, antes é preciso instalar o pacote gapminder e carregá-lo.

install.packages("gapminder")
library(gapminder)

A.2 `mpg`

Este conjunto de dados é parte do pacote ggplot2 e contém dados relacionados à economia de combustível (https://fueleconomy.gov/) de 38 modelos de carros nos anos de 1999 e 2008. São 234 linhas com 11 variáveis:

manufacturer: nome da montadora
model: nome do modelo
displ: cilindrada do motor, em litros
year: ano de fabricação
cyl: número de cilindros
trans: tipo de transmissão
drv: tipo de tração, em que f = tração dianteira, r = tração traseira, 4 = tração 4x4
cty: consumo na cidade em milhas por galão
hwy: consumo na rodovia milhas por galão
fl: tipo de combustível
class: categoria do carro

Para acessá-lo, é preciso ter o pacote ggplot2 instalado e carregado.

install.packages("ggplot2") #caso não esteja instalado
library(ggplot2)

A.3 `ToothGrowth`

Este conjunto contém dados de um experimento em que foi medido o comprimento de odontoblastos (células responsáveis pelo crescimento dos dentes) em 60 porquinhos da Índia ³². Cada animal recebeu uma dose diferente de vitamina C (0,5, 1,0 ou 2,0 mg/dia) por um tipo de suplemento: suco de laranja (OJ) ou ácido ascórbico (VC). São 60 linhas com 3 variáveis:

len: comprimento de odontoblastos
supp: tipo de suplemento de vitamina C
dose: dose de vitamina C

A.4 `economics`

Este conjunto de dados traz uma série temporal de dados econômicos dos Estados Unidos ³³. São 574 linhas com 6 variáveis

date: Mês de aquisição dos dados
pce: despesas de consumo pessoal, em bilhões de dólares
pop: população total, em milhares
psavert: taxa de poupança pessoal
uempmed: duração mediana do desemprego, em semanas
unemploy: número de desempregados, em milhares

A.5 `iris`

Este dataset contém as medidas, em centímetros, do comprimento e largura das pétalas e sépalas de três espécies de plantas: Iris setosa, I. versicolor e I. virginica. São 150 linhas com 5 variáveis.

Sepal.Length: comprimento das sépalas
Sepal.Width: largura das sépalas
Petal.Length: comprimento das pétalas
Petal.Width: largura das sépalas
Species: espécies de Iris

A.6 `BOD`

Este dataset contém a demanda bioquímica de oxigênio em função do tempo em uma avaliação da qualidade da água.

Time: tempo em dias
demand: BOD em mg/L

A.7 `diamonds`

Este conjunto de dados contém atributos de aproximadamento 54.000 diamantes. As variáveis são:

price: preço em dólares
carat: peso em quilates
cut: qualidade do corte (Razoável, Bom, Muito Bom, Premium, Ideal)
color: cor do diamante, de D (melhor) a J (pior)
clarity: uma medida de quão claro é o diamante (I1 (pior), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (melhor))
x: comprimento em mm
y: largura em mm
z: profundidade em mm
depth: porcentagem de profundidade total = z / média (x, y) = 2 * z / (x + y)
table: largura do topo do diamante em relação ao ponto mais largo

## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html

A.8 `faithful`

Descreve o tempo entre erupções e duração das erupções do gêiser Old Faithful do Parque Yellowstone. São 272 observações de 2 variáveis.

eruptions: duração da erupção, em minutos
waiting: tempo de epera até a próxima erupção, em minutos

LAI, Jiangshan; LORTIE, Christopher J.; MUENCHEN, Robert A.; YANG, Jian; MA, Keping. Evaluating the popularity of r in ecology. Ecosphere, vol. 10, no. 1, p. e02567, 2019. DOI https://doi.org/10.1002/ecs2.2567. Available at: https://esajournals.onlinelibrary.wiley.com/doi/abs/10.1002/ecs2.2567.

WICKHAM, Hadley. Tidy data. The Journal of Statistical Software, vol. 59, 2014. Available at: http://www.jstatsoft.org/v59/i10/.

13 Dados categóricos

Apêndice A Conjunto de dados do R

A.1 gapminder

A.2 mpg

A.3 ToothGrowth

A.4 economics

A.5 iris

A.6 BOD

A.7 diamonds

A.8 faithful