Apêndice A Conjunto de dados do R

Existe uma variedade de base de dados (datasets) incluídos com o R. Segue uma breve descrição de alguns destes datasets que serão utilizados neste curso.

A.1 gapminder

Este conjunto de dados contém um recorte dos dados do Instituto Gapminder. São 1704 linhas com 6 variáveis:

  1. country: país, com 142 níveis
  2. continent: continente, com 5 níveis
  3. year: ano, entre 1952 e 2007 com incremente de 5 anos
  4. lifeExp: expectativa de vida ao nascer, em anos
  5. pop: população
  6. gdpPercap: PIB per capita, em US Dollar (ajustado para a inflação)

Para acessá-lo, antes é preciso instalar o pacote gapminder e carregá-lo.

A.2 mpg

Este conjunto de dados é parte do pacote ggplot2 e contém dados relacionados à economia de combustível (https://fueleconomy.gov/) de 38 modelos de carros nos anos de 1999 e 2008. São 234 linhas com 11 variáveis:

  1. manufacturer: nome da montadora
  2. model: nome do modelo
  3. displ: cilindrada do motor, em litros
  4. year: ano de fabricação
  5. cyl: número de cilindros
  6. trans: tipo de transmissão
  7. drv: tipo de tração, em que f = tração dianteira, r = tração traseira, 4 = tração 4x4
  8. cty: consumo na cidade em milhas por galão
  9. hwy: consumo na rodovia milhas por galão
  10. fl: tipo de combustível
  11. class: categoria do carro

Para acessá-lo, é preciso ter o pacote ggplot2 instalado e carregado.

install.packages("ggplot2") #caso não esteja instalado
library(ggplot2)

A.3 ToothGrowth

Este conjunto contém dados de um experimento em que foi medido o comprimento de odontoblastos (células responsáveis pelo crescimento dos dentes) em 60 porquinhos da Índia 32. Cada animal recebeu uma dose diferente de vitamina C (0,5, 1,0 ou 2,0 mg/dia) por um tipo de suplemento: suco de laranja (OJ) ou ácido ascórbico (VC). São 60 linhas com 3 variáveis:

  1. len: comprimento de odontoblastos
  2. supp: tipo de suplemento de vitamina C
  3. dose: dose de vitamina C

A.4 economics

Este conjunto de dados traz uma série temporal de dados econômicos dos Estados Unidos 33. São 574 linhas com 6 variáveis

  1. date: Mês de aquisição dos dados
  2. pce: despesas de consumo pessoal, em bilhões de dólares
  3. pop: população total, em milhares
  4. psavert: taxa de poupança pessoal
  5. uempmed: duração mediana do desemprego, em semanas
  6. unemploy: número de desempregados, em milhares

A.5 iris

Este dataset contém as medidas, em centímetros, do comprimento e largura das pétalas e sépalas de três espécies de plantas: Iris setosa, I. versicolor e I. virginica. São 150 linhas com 5 variáveis.

  1. Sepal.Length: comprimento das sépalas
  2. Sepal.Width: largura das sépalas
  3. Petal.Length: comprimento das pétalas
  4. Petal.Width: largura das sépalas
  5. Species: espécies de Iris

A.6 BOD

Este dataset contém a demanda bioquímica de oxigênio em função do tempo em uma avaliação da qualidade da água.

  1. Time: tempo em dias
  2. demand: BOD em mg/L

A.7 diamonds

Este conjunto de dados contém atributos de aproximadamento 54.000 diamantes. As variáveis são:

  1. price: preço em dólares
  2. carat: peso em quilates
  3. cut: qualidade do corte (Razoável, Bom, Muito Bom, Premium, Ideal)
  4. color: cor do diamante, de D (melhor) a J (pior)
  5. clarity: uma medida de quão claro é o diamante (I1 (pior), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (melhor))
  6. x: comprimento em mm
  7. y: largura em mm
  8. z: profundidade em mm
  9. depth: porcentagem de profundidade total = z / média (x, y) = 2 * z / (x + y)
  10. table: largura do topo do diamante em relação ao ponto mais largo
## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html