11a RepresentaçãodedadosMultidimensionais

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 26

Dados: xi, i = 1,...

,n, vetores p  1 (p  2) cujos componentes podem


ser p variáveis qualitativas, p variáveis quantitativas ou de ambos os
tipos.
Problema central. Existe algum tipo de relação entre as variáveis?
p variáveis quantitativas: matriz de gráficos de dispersão.
p variáveis qualitativas: tabelas de contingência multidimensionais e
gráficos de mosaico.
Utilizaremos os gráficos em grade (trellis plots) em R (pacote lattice).
Sintaxe baseada em fórmulas.
Exemplos. (1) var1 ~ var2 | var3 + var4 + var5
(2) ~ var1 | var2 + var3
A barra vertical (|) indica condicionamento. O sinal “+” não é adição.
Em (1), var1 é a variável dependente e var2 é a variável independente.
Todas as combinações de (var3, var4, var5) são consideradas na
relação var2  var1.
Em (2), não há variável dependente. Todas as combinações de (var2,
var3) são consideradas.
Variáveis quantitativas

Função splom (lattice): matriz de gráficos de dispersão (scatter plot matrix).


Dados USArrests (Seção 8.1).
> splom(USArrests, type
> library(lattice) = c("p", "smooth"))
> splom(USArrests)

Gráficos com pontos (p) e linhas de


tendência (smooth).
Variáveis quantitativas

> splom(USArrests, type = c("g", "p", "smooth"), col =


"black", xlab = "", varnames = c("Homicídio",
"Assalto", "População \n urbana (%)", "Estupro"))
30 40
40

30
Estupro
20

10 20 10

90
60 70 80 90
80
70
População
60 60
urbana (%)
50

30 40 50 60 40
30
350
300 200250 300 350

250
200 Assalto 200
150
100
50 100 150 200
50

15
10 15 Gráficos com
10
reticulados (g),
Homicídio
pontos (p) e linhas de
0 5
5
tendência (smooth).
0
Variáveis quantitativas

Gráficos condicionais (conditional plots): gráfico de dispersão de (x1, x2) para


faixas de valores de outras variáveis quantitativas.
Funções coplot (graphics) e xyplot (lattice).
> attach(USArrests) Por default, são criadas seis
> coplot(Murder ~ Assault | UrbanPop) faixas com aproximadamente o
mesmo número de observações
da variável condicionante e com
superposição (overlap) de 50%
(estes argumentos podem ser
mudados).

Ver
> co.intervals(UrbanPop,
number = 6, overlap = 0.5)

Os painéis são dispostos a partir


do canto inferior esquerdo.

Permite avaliar se a relação


entre x1e x2 depende de valores
de outra(s) variável(is).
Variáveis quantitativas

Duas variáveis condicionantes:


UrbanPop e Rape.
Número de intervalos (faixas) é
diferente para cada variável
condicionante.

> coplot(Murder ~ Assault |


UrbanPop * Rape, number =
c(2, 3), pch = 20, cex =
1.5, panel = panel.smooth)
Variáveis quantitativas

UrbanPop com três intervalos Gráfico com pontos (p) e linhas de


de igual comprimento. tendência (smooth)
> xyplot(Murder ~ Assault | > xyplot(Murder ~ Assault |
cut(UrbanPop, 3)) cut(UrbanPop, 3), type = c("p",
"smooth"), pch = 20)
(71.4,91.1]
(71.4,91.1]

15
15

10
10

5
5
Murder

Murder
(31.9,51.6] (51.6,71.4]
(31.9,51.6] (51.6,71.4]

15
15

10 10

5 5

50 100 150 200 250 300 350 50 100 150 200 250 300 350

Assault Assault
Variáveis quantitativas
Inclusão do nome da variável Duas variáveis dependentes, sem
condicionante nos painéis variável condicionante
> xyplot(Murder ~ Assault | > xyplot(Murder + Rape ~UrbanPop,
cut(UrbanPop, 3), type = c("p", type = c("p", "smooth"), pch =20)
"smooth"), pch = 20,
strip.custom(strip.names =
TRUE, var.name = "UrbanPop"))
40

30

Murder + Rape
20

10

30 40 50 60 70 80 90

UrbanPop

Obs. “+” não significa adição.


Exercício. Incluir uma legenda.
Variáveis quantitativas
Duas variáveis dependentes e uma Duas variáveis condicionantes
variável condicionante
> xyplot(Murder ~ UrbanPop |
> xyplot(Murder + Rape ~UrbanPop cut(Assault, 3) + cut(Rape, 2),
| cut(Assault, 3), type = c("p", pch = 20, strip =
"smooth"), pch = 20, strip = strip.custom(strip.names = TRUE,
strip.custom(strip.names = TRUE, var.name = c("Assault", "Rape")))
var.name = "Assault"))
Variáveis quantitativas
Duas variáveis dependentes, duas variáveis independentes e uma variável
condicionante (cinco variáveis)

Obs. (1) Quatro cores


correspondem aos
quatro pares de variáveis
(x, y).

Neste exemplo, em cada


painel podemos ter até
quatro gráficos de
dispersão.

(2) Em uma fórmula, se


quisermos somar
variáveis (e se fizer
sentido), utilizamos
I(x1 + x2) e/ou
I(y1 + y2).
Variáveis quantitativas

Função parallel (lattice): gráfico de coordenadas paralelas.


p – 1 segmentos de retas para cada observação unindo os valores
escalonados em [Min, Max] para cada variável.
> parallel(USArrests,
> parallel(USArrests) varnames = c("Homicídio",
"Assalto", "População \n
urbana (%)", "Estupro"))
Estupro

População
urbana (%)

Assalto

Podem ser úteis para identificar grupos


Homicídio
de observações (cluster analysis).
Min Max
Variáveis quantitativas

As variáveis x1 e x4
x3 separam as
observações em
dois grupos.
Em um dos
grupos os valores x3
de x1 são os
menores e os
valores de x3 são
os maiores.
No outro grupo há x2
uma inversão.

As variáveis x2 e
x4 não permitem
uma separação
tão nítida quanto x1
x 1 e x3 . Min Max
Variáveis qualitativas

Dados Ilocos da Seção 8.2.


> library(ineq)
> data(Ilocos)
> dados = Ilocos
> attach(dados)
> names(dados)

Função ftable: tabela de


contingências
multidimensional.
> (tab3 =
ftable(urbanity,
province, sex))

> tab3rel =
prop.table(tab3, margin
= 1)
> (tab3relp = tab3rel *
100)
Variáveis qualitativas

Gráfico de barras
> rownames(tab3relp) = paste(rep(levels(urbanity), each =
length(levels(province))), levels(province), sep = "\n")
> barplot(t(tab3relp), beside = TRUE, legend = levels(sex), density
= 15, ylab = "Percentagem")
> box()
female
male

80
Gráfico com as distribuições
condicionais de sex |
(urbanity, province).
60

Exercício. Apresentar os
Percentagem

rótulos e a legenda em
40

português.
20
0

rural rural rural rural urban urban urban urban


Ilocos Norte Ilocos Sur La Union Pangasinan Ilocos Norte Ilocos Sur La Union Pangasinan
Variáveis qualitativas

Função xtabs: tabelas multidimensionais


Tabela na forma de uma folha
utilizando uma formula.
de dados (data frame)
> (tab3var = xtabs(~ urbanity +
province + sex)) > as.data.frame(tab3var)
urbanity province sex Freq
1 rural Ilocos Norte female 5
2 urban Ilocos Norte female 3
3 rural Ilocos Sur female 9
4 urban Ilocos Sur female 9
5 rural La Union female 9
6 urban La Union female 9
7 rural Pangasinan female 18
8 urban Pangasinan female 52
9 rural Ilocos Norte male 42
10 urban Ilocos Norte male 15
11 rural Ilocos Sur male 36
As duas vírgulas indicam as outras 12 urban Ilocos Sur male 14
duas variáveis. 13 rural La Union male 62
14 urban La Union male 36
> class(tab3var)
15 rural Pangasinan male 120
[1] "xtabs" "table" 16 urban Pangasinan male 193
Variáveis qualitativas

Gráfico de barras de sex com


frequencias relativas ao par 0 20 40 60 80 100

La Union Pangasinan
(urbanity, province).
Função barchart (lattice).
urban
>
barchart(prop.table( tab3va
r, margin = c(1, 2)) * 100,
xlab ="Percentagem“, ylab =
"Localização") rural

Cada nível de sex com uma cor

Localização
diferente. Ilocos Norte Ilocos Sur

Exercícios.
1. Mudar as cores e adicionar urban

uma legenda.
2. Verificar o resultado da função
prop.table. rural

0 20 40 60 80 100

Percentagem
Variáveis qualitativas

Gráfico de barras de sex com Pangasinan


frequencias relativas ao par
urban
(urbanity, province).
Níveis de province rural

empilhados. La Union

> urban
barchart(prop.table( tab3va
r, margin = c(1, 2)) * 100,
xlab = Percentagem", ylab rural

Localização
= "Localização", layout =
c(1, 4)) Ilocos Sur

urban
Exercício. Compare com o
gráfico do slide anterior. rural

Ilocos Norte
O que pode ser afirmado sobre a
associação entre as variáveis? urban

rural

0 20 40 60 80 100

Percentagem
Variáveis quantitativas e qualitativas

Dados Ilocos
> names(dados)
Gráfico de pontos
Duas variáveis condicionantes e acréscimo
Função stripplot (lattice) de ruído
> stripplot(log(income / > stripplot(log(income / 1000, 10) ~
1000, 10) ~ sex | province, sex | province + urbanity, xlab =
xlab = "Sexo do responsável", "Sexo do responsável", ylab = "Log
ylab = "Log renda domiciliar renda domiciliar (1000 pesos)",
(1000 pesos)") jitter.data = TRUE)
urban urban urban urban
La Union Pangasinan Ilocos Norte Ilocos Sur La Union Pangasinan
3.0 3.0

2.5 2.5

L o g re n d a d o m ic ilia r (1 0 0 0 p e s o s )
L o g re n d a d o m icilia r (1 0 0 0 p e so s)

2.0 2.0

1.5 1.5

1.0 1.0

Ilocos Norte Ilocos Sur rural rural rural rural


3.0 3.0
Ilocos Norte Ilocos Sur La Union Pangasinan

2.5 2.5

2.0 2.0

1.5 1.5

1.0 1.0

female male female male female male female male female male female male
Sexo do responsável Sexo do responsável
Variáveis quantitativas e qualitativas

Gráfico de caixas
Função bwplot (lattice)
> bwplot(log(income / 1000, 10) ~ sex, xlab = "Sexo do
responsável", ylab = "Log renda domiciliar (1000
pesos)")
L o g re n d a d o m ic ilia r (1 0 0 0 p e s o s )

3.0

2.5

2.0

1.5

1.0

female male
Sexo do responsável
Variáveis quantitativas e qualitativas

Uma variável condicionante Duas variáveis condicionantes


> bwplot(log(income / 1000, 10) > bwplot(log(income / 1000, 10)
~ sex | province, xlab = "Sexo ~ sex | province + urbanity,
do responsável", ylab = "Log xlab = "Sexo do responsável",
renda domiciliar (1000 pesos)", ylab = "Log renda domiciliar
layout = c(4, 1)) (1000 pesos)")
urban urban urban urban
Ilocos Norte Ilocos Sur La Union Pangasinan
Ilocos Norte Ilocos Sur La Union Pangasinan 3.0
3.0

2.5

2.0
2.5
Log renda domiciliar (1000 pesos)

Log renda domiciliar (1000 pesos)


1.5

1.0

2.0
rural rural rural rural
Ilocos Norte Ilocos Sur La Union Pangasinan
3.0

1.5 2.5

2.0

1.0
1.5

1.0

female male female male female male female male female male female male female male female male
Sexo do responsável Sexo do responsável
Variáveis quantitativas e qualitativas

Histograma > histogram(~ log(income /


1000, 10) | province, type =
Função histogram (lattice) "density", layout = c(1,
length(levels(province))), ylab
> histogram(~ log(income / = "Densidade", xlab = "Log
1000, 10) | province, type = renda domiciliar (1000 pesos)",
"percent", ylab = col = "white")
"Percentagem", xlab = "Log
renda domiciliar (1000 pesos)", Pangasinan
col = "white") 1.0
1.0 1.5 2.0 2.5 3.0
0.5
La Union Pangasinan

30 0.0
La Union

20 1.0

0.5

Densidade
10
0.0
Ilocos Sur
Percentagem

0
Ilocos Norte Ilocos Sur 1.0

30
0.5

0.0
20 Ilocos Norte

1.0
10

0.5

0
0.0
1.0 1.5 2.0 2.5 3.0 1.0 1.5 2.0 2.5 3.0
Log renda domiciliar (1000 pesos)
Log renda domiciliar (1000 pesos)
Variáveis quantitativas e qualitativas

Gráfico de densidade Grupos em um só painel


Função densityplot (lattice) > densityplot(~ log(income /
1000, 10), groups = sex, ylab =
> densityplot(~ log(income / "Densidade", xlab = "Log renda
1000, 10) | province, ylab =
"Densidade", xlab = "Log renda domiciliar (1000 pesos)",
domiciliar (1000 pesos)") plot.points = FALSE, auto.key =
TRUE)
0.5 1.0 1.5 2.0 2.5 3.0
female
La Union Pangasinan male

1.0

0.5 1.0
Densidade

0.0

Densidade
Ilocos Norte Ilocos Sur

0.5
1.0

0.5

0.0
0.0

0.5 1.0 1.5 2.0 2.5 3.0 0.5 1.0 1.5 2.0 2.5 3.0

Log renda domiciliar (1000 pesos) Log renda domiciliar (1000 pesos)
Variáveis quantitativas e qualitativas

Histograma e função 1.0 1.5 2.0 2.5 3.0

densidade normal La Union Pangasinan

> histogram(~ log(income


/ 1000, 10) | province,
type = "density", 1.0

ylab = "Densidade",
xlab = "Log renda
domiciliar (1000
pesos)", col = "white", 0.5

panel =
function(x, ...)
{ panel.histogram(x, 0.0

Density
...) Ilocos Norte Ilocos Sur
panel.mathdensity(dmath
= dnorm, col = "blue",
args = list(mean =
mean(x),sd = sd(x))) })
1.0

Exercícios.
0.5
1. Substituir a função
densidade normal pela
densidade estimada. 0.0

2. Incluir os pontos no eixo 1.0 1.5 2.0 2.5 3.0

horizontal. Log renda domiciliar (1000 pesos)


Variáveis quantitativas e qualitativas

Gráfico de dispersão Gráfico com pontos (p) e reta ajustada (r)


Função xyplot (lattice) > xyplot(log(income / 1000, 10) ~
family.size | province, xlab =
> xyplot(log(income / 1000, 10) "Tamanho da família", ylab = "Log
~ family.size | province, xlab
= "Tamanho da família", ylab = renda domiciliar (1000 pesos)", pch
"Log renda domiciliar (1000 = 20, type = c("p", "r"))
pesos)")
2 4 6 8 10 12 2 4 6 8 10 12
La Union Pangasinan
3.0
La Union Pangasinan
3.0

2.5
2.5

2.0
Log renda domiciliar (1000 pesos)

2.0

Log renda domiciliar (1000 pesos)


1.5

1.5
1.0

1.0
Ilocos Norte Ilocos Sur
3.0
Ilocos Norte Ilocos Sur
3.0
2.5

2.0 2.5

1.5 2.0

1.0
1.5

2 4 6 8 10 12
1.0
Tamanho da família

Exercício. Substituir as retas ajustadas 2 4 6 8 10 12

por linhas de tendência. Tamanho da família


Variáveis quantitativas e qualitativas

Grupos de acordo com a variável sex Duas variáveis condicionantes


> xyplot(log(income / 1000, 10) ~ > xyplot(log(income / 1000, 10) ~
family.size | province, group = family.size | province + urbanity,
sex, auto.key = TRUE, xlab = group = sex, auto.key = TRUE, xlab
"Tamanho da família", ylab = "Log = "Tamanho da família", ylab =
renda domiciliar (1000 pesos)", pch "Log renda domiciliar (1000
= 20, type = c("p", "r")) pesos)", pch = 20, type = c("p",
female
"r")) female
male male
2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12

La Union Pangasinan urban urban urban urban


3.0
Ilocos Norte Ilocos Sur La Union Pangasinan
3.0
2.5
2.5
2.0
Log renda domiciliar (1000 pesos)

2.0

Log renda domiciliar (1000 pesos)


1.5
1.5

1.0
1.0
Ilocos Norte Ilocos Sur
3.0 rural rural rural rural
Ilocos Norte Ilocos Sur La Union Pangasinan
3.0
2.5

2.5
2.0

2.0
1.5

1.5
1.0

1.0
2 4 6 8 10 12

Tamanho da família 2 4 6 8 10 12 2 4 6 8 10 12

Tamanho da família
Variáveis quantitativas e qualitativas

Gráfico de coordenadas paralelas Duas variáveis condicionantes


Função parallel (lattice) > parallel(~ cbind(family.size,
income) | province + urbanity,
> parallel(~ cbind( family.size, varnames = c("Tamanho da \
income) | province, varnames = nfamília", "Renda domiciliar"))
c("Tamanho da \nfamília", "Renda\
n domiciliar")) Min Max Min Max
Min Max
urban urban urban urban
Renda La Union Pangasinan Renda Ilocos Norte Ilocos Sur La Union Pangasinan
domiciliar domiciliar

Tamanho da
Tamanho da
família
família rural rural rural rural
Renda Ilocos Norte Ilocos Sur
Renda Ilocos Norte Ilocos Sur La Union Pangasinan
domiciliar
domiciliar

Tamanho da Tamanho da
família família
Min Max Min Max Min Max

Você também pode gostar