11° Semana Analisis Multivariante

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 48

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

Universidad del Perú, DECANA DE AMERICA

FACULTAD DE CIENCIAS MATEMÁTICAS

11

ESCUELA PROFESIONAL DE ESTADÍSTICA


ANÁLISIS MULTIVARIANTE
Mg. María Estela Ponce Aruneri
[email protected]

SEMESTRE 2017 – II
Sesión 20 y 21
ANÁLISIS
FACTORIAL
EXPLORATORIO
continuación
MODELO FACTORIAL
X  ΛF  ε
Se le denomina modelo factorial con “ k” factores comunes
y con X centrado, donde :

F: vector de variables latentes (factores no observados) con


distribución (0, I); de orden kx1, matriz de factores
comunes.

: matriz de orden pxk, denominada matriz de cargas


factoriales.

 : vector de orden px1, perturbaciones no observadas con3


distribución (0, ). Matriz de factores específicos.
3
 x1    11  12 ..........  1k   f 1   1 
 x    22 .......... .  2k   f 2    2 
 2    21   
 .   . . .......... . .  .   . 
      
 x p   p1  p2 .......... .  pk   f k   p 

jk : cargas de los factores , muestra como cada xj depende de


factores comunes y se utiliza para interpretar los factores.

ψ1 0 .......... 0 
 0 ψ ........... 0 
 2 
. . ........... . 
 
 0 0 ..........
. ψp

Matriz de varianzas específicas.
4
HIPÓTESIS BÁSICAS

i)E(F)  0 y Cov(F)  E(FF T )  I  F  ( 0, I ).

ii )E(ε)  0 y Cov( εεT )  Ψ    ( 0,  )

iii) F y  son independientes

5
Estructura de la Matriz de Covarianzas de X

se le denomina ecuaciones del análisis por factores. De


ellas se obtiene:

Var(xj) = comunalidad + varianza específica

La comunalidad hj2 es la proporción de la varianza de la


j-ésima variable explicada por los factores comunes.

6
Las comunalidades tras la extracción, nos dan una idea de
la calidad de representación de las variables originales en
los factores retenidos en el análisis.

j :recoge la variabilidad no compartida con las otras


variables.

Cov  x j , Fk    jk   j kj
es la carga de la j-ésima variable sobre el k-ésimo factor.

Covarianza entre xi y xj, sólo depende de los factores


comunes

7
En la práctica se tienen que estimar los parámetros del
modelo a partir de una muestra, de modo que el problema se
centra en encontrar los valores de las comunalidades y
varianzas específicas tales que la matriz de covarianzas
muestral S es aproximadamente:

ˆ ˆ
S  ΛΛ  Ψ
' ˆ

8
Estructura de la matriz de Correlaciones de X

En este caso la matriz de cargas factoriales es la matriz


de correlaciones entre las variables estandarizadas y los
factores.
9
La matriz de correlaciones muéstrales es aproximadamente:

ˆ ˆ' Ψ
R*  ΛΛ ˆ
R* denominada también matriz de correlación reproducida

una vez que se ha determinado que el Análisis Factorial es


apropiado para analizar los datos, debe seleccionarse el
método adecuado para la extracción de los factores. Existen
diversos Métodos cada uno de ellos con sus ventajas e
inconvenientes.

En el modelo factorial, el problema consiste en cuantificar


la matriz de cargas factoriales  que explica X en función
de los factores. A partir de esta expresión se deduce la
llamada identidad fundamental del Análisis Factorial:
10
 =  ´ + ψ

Matriz de correlación poblacional de las p variables X.

11
LA ESTIMACIÓN DE LOS FACTORES
Existen varios métodos para estimar o extraer los factores
comunes:

1º Componentes principales

2º Ejes principales o factor principal, método utilizado para


casos de las Ciencias Sociales. Sólo analiza la Varianza
común. A partir de la matriz reducida se procede a extraer los
factores; la condición que se requiere es que sea máxima la
contribución de cada factor a la comunalidad total.

12
Este método tiene la ventaja de estar basado en el modelo del
Análisis Factorial por lo que suele proporcionar mejores
estimaciones que el método anterior.
Sin embargo, no está garantizada su convergencia, sobre todo
en muestras pequeñas.

R* = R-Ψ =  '

13
Ejemplo

Se dispone de la base de datos Indicadores del Progreso


Social 2016.

Objetivo: determinar los factores que caracterizan a los


países con respecto a su progreso social.

14
Variables:
x1 Nutrición y atención médica básica
x2 Agua y salubridad
x3 Abrigo
x4 Seguridad personal
x5 Acceso a los conocimientos básicos
x6 Acceso a la información y las comunicaciones
x7 Salud y bienestar
x8 Calidad del medio ambiente
x9 Derechos personales
x10 Libertad personal y de elección
x11 Tolerancia e inclusión
x12 Acceso a la educación superior
15
CRITERIOS PARA LA SELECCIÓN DEL NÚMERO DE
FACTORES

1º Autovalores o raíz latente, es la varianza total explicada por


cada factor (propuesto por Kayser en 1958), quien sugiere
incluir a todos los factores cuyos autovalores superen la
unidad. Este procedimiento es conservador si el número de
variables es inferior a 20. Este método es adecuado cuando el
número de variables en menor o igual a 40 y si el tamaño de la
muestra es grande.

16
2º Porcentaje de varianza total atribuible a cada factor, se
utiliza para obtener un porcentaje acumulado de varianza
mínima. No se ha establecido un punto de corte absoluto
que determine el número de factores a considerar. Por
ejemplo en las Ciencias Sociales se considera como
porcentaje mínimo el 60% de la varianza total debido a “la
menor precisión” de la información que se analiza en ese
sector.

3º Gráfico de sedimentación, fue propuesto por Catell en


1966. El número de factores está determinado por el punto
de inflexión de la trayectoria de la caída de la pendiente de
la curva.

17
4º Significatividad, se verifica mediante pruebas
estadísticas que se utilizan, cuando los factores son
extraídos mediante el método de máxima verosimilitud o
mínimos cuadrados.

5º Interpretabilidad, luego de determinar el número de


factores a considerar en nuestra investigación, se debe
comprobar si dichos factores tienen un significado
sustantivo. Se puede optar por rotar la matriz o excluir el
factor pobremente definido.

18
Z

7
6
5
Variances

4
3
2
1
0

Comp.1 Comp.3 Comp.5 Comp.7 Comp.9


19
CRITERIOS PARA EVALUAR LA
SIGNIFICACIÓN DE LAS CARGAS
FACTORIALES
Significancia práctica, basada en una regla empírica, consiste
en un análisis preliminar de la matriz de factores:

•Cargas factoriales de  0.30 están en el nivel mínimo.


•Cargas factoriales de  0.40 se pueden considerar como
importantes.
•Cargas factoriales mayores o iguales a  0.50 se pueden
considerar como significativas.
•Cargas factoriales que superen 0.80 no son normales.
Estos criterios son válidos cuando el tamaño de la muestra
supera a 100.
20
CARGAS
FACTORIALES

21
INTERPRETACIÓN DE LA MATRIZ DE
FACTORES
1. Matriz factorial o matriz de factoresΛ̂ , contiene los pesos,
coeficientes o cargas factoriales. Con los factores
ortogonales y los datos estandarizados, estas cargas son
equivalentes a las correlaciones entre variables y factor.
2. , indica la proporción de la varianza de la variable
explicada por el respectivo factor.
3. Los autovalores para cada factor se obtienen :

sumando los cuadrados de las cargas factoriales de cada


variable en el factor correspondiente.
22
Proporción de la varianza de la variable explicada
por el primer y segundo factor:
F1 F2
[1,] 0.3514978 1.174889e-01
[2,] 0.7645574 1.000699e-01
[3,] 0.7582360 8.513059e-02
[4,] 0.4916049 1.658249e-04
[5,] 0.6862410 1.535636e-01
[6,] 0.8076184 2.426787e-06
[7,] 0.1968270 3.370630e-01
[8,] 0.6767309 1.156684e-01
[9,] 0.4707551 1.750147e-01
[10,] 0.7645865 1.279340e-02
[11,] 0.5295744 1.541732e-01
[12,] 0.8017151 3.119520e-02
23
4. Porcentaje de la varianza explicada por cada factor, se
obtiene a partir de:

Si se trabaja con la matriz de correlación se divide entre el


número de variables.

5. La comunalidad:

La comunalidad para cada variable, es la suma de los cuadrados


de las cargas factoriales en todos los factores. Indica la
proporción de la varianza de cada variable que es explicada por
los factores comunes. Las comunalidades suelen estimarse
mediante procesos iterativos de ajuste continuo entre las matrices
de correlación observada y la reproducida.
24
Comunalidades Varianza específica
ˆ2
h j
ˆ j
[1,] 0.4689867 [1,] 0.5310133
[2,] 0.8646273 [2,] 0.1353727
[3,] 0.8433666 [3,] 0.1566334
[4,] 0.4917707 [4,] 0.5082293
[5,] 0.8398046 [5,] 0.1601954
[6,] 0.8076209 [6,] 0.1923791
[7,] 0.5338899 [7,] 0.4661101
[8,] 0.7923993 [8,] 0.2076007
[9,] 0.6457698 [9,] 0.3542302
[10,] 0.7773799 [10,] 0.2226201
[11,] 0.6837476 [11,] 0.3162524
[12,] 0.8329103 [12,] 0.1670897

25
Autovalores calculados a partir
de las Cargas factoriales
[1,] 7.29994461
[2,] 1.28232910
[3,] 0.75920805
[4,] 0.68831731
[5,] 0.54931080 12

[6,] 0.35764538  k 
ˆ  ˆ 2
i 1
ik
k  1, 2, .....,12
[7,] 0.29344236
[8,] 0.20604358
[9,] 0.18522755
[10,] 0.15520734
[11,] 0.12605753
[12,] 0.09726639

26
6.- La varianza específica estimada, indica la proporción de la
varianza de la variable que no es explicada por los factores
comunes.

7.- Matriz de correlación reproducida, en la diagonal


principal se ubican las comunalidades. Los residuales que
aparecen en esta matriz es la diferencia entre las
correlaciones estimadas y las observadas.

ˆi1ˆ j1  ˆi 2ˆ j 2  .........  ˆik ˆ jk


8.- Asignar un nombre a cada factor, esta tarea la realiza el
investigador, de acuerdo a las variables con mayores cargas
factoriales, de acuerdo a la conveniencia para representar las
dimensiones subyacentes de un factor concreto, entre otras.
27
CORRELACIONES REPRODUCIDAS

28
El modelo factorial estimado:

z1  ˆ11 F 1  ˆ12 F 2 .........  ˆ1k F k


z  ˆ F ˆ F .........  ˆ F
2 21 1 22 2 2k k

.
.
z p  ˆp1 F 1 ˆp 2 F 2 .........  ˆpk F k

29
Rotación de factores
Cuando no se puede interpretar con claridad los factores; la
rotación facilita la interpretación de la matriz factorial,
redistribuyendo la varianza de los primeros factores a los
últimos, para encontrar un patrón de factores más simple y
significativo.
Los métodos de rotación intentan aproximar la solución
obtenida al Principio de Estructura Simple (Thurstone,
1935) según el cual la matriz de cargas factoriales debe
reunir las siguientes características:

1) Cada factor debe tener unos pocos pesos altos y los otros
próximos a cero.
2) cada variable no debe estar saturada más que en un factor.
30
3) No deben existir factores con la misma distribución, es
decir, dos factores distintos deben presentar distribuciones
diferentes de cargas altas y bajas.

De esta forma, dado que hay más variables que factores


comunes, cada factor tendrá una correlación alta con un
grupo de variables y baja con el resto de variables.
Examinando las características de las variables de un grupo
asociado a un determinado factor se pueden encontrar rasgos
comunes que permitan identificar el factor y darle una
denominación que responda a esos rasgos comunes.

Las rotaciones no cambian el valor de las comunalidades y


por lo tanto no afectan las varianzas específicas de las
variables, aunque cambie la matriz factorial (cargas
factoriales).
31
Rotación ortogonal de los factores F1 y F2

 cos( ) sen( ) 
T 
 sen( cos( ) 
32
Varimax, minimiza el número de variables que tienen las
mayores cargas factoriales en cada factor, maximizando la
varianza de las cargas factoriales al cuadrado. Es el más
empleado. Simplifica la interpretación de los factores.
El método varimax determina la matriz  de forma que se
maximice la suma de las varianzas:

Para el caso de IPS 2016:


 cos(0.6534) sen(0.6534) 
T 
  sen(0.6534) cos(0.6534) 

33
CARGAS FACTORIALES ROTADOS
(VARIMAX)
RC1 RC2
x1 0.6790897333 0.08845269
x2 0.8864939538 0.28063463
x3 0.8686784237 0.29793358
x4 0.5487579561 0.43661819
x5 0.8959185074 0.19270354
 0.794 0.608 
x6 0.7143418862 0.54528573 T 
x7 -0.0008861803 0.73067719  0.608 0.794 
x8 0.4462028707 0.77026118
x9 0.2902437750 0.74935195
x10 0.6253429890 0.62155129
x11 0.3388975459 0.75425198
x12 0.8181934303 0.40431403
34
Indicadores de Progreso Social 2016

1.0
x7 x11x8
x9
0.5

x10
x6
x4 x12
x3
x2
x5
0.0
F2

x1
-0.5
-1.0

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

F1
35
PUNTUACIONES FACTORIALES
Son las proyecciones de cada individuo de la muestra
sobre cada uno de los factores elegidos. Para El Modelo
Factorial :

se requiere estimar F*. Existen diversos métodos de


estimación de la matriz F*. Se puede demostrar que los
factores no son, en general, combinación lineal de las
variables originales. Además, en la mayoría de las
situaciones, no existirá una solución exacta ni siquiera
será única.

Las posibilidades de analizar las puntuaciones factoriales


de los individuos son muy variadas dependerá de lo que
se desea investigar:
36
1° Conocer qué individuos son los más raros o extremos,
es decir, la representación gráfica de las puntuaciones
factoriales para cada par de ejes factoriales puede ayudar a
detectar casos atípicos.

2° Conocer dónde se ubican ciertos grupos o subcolectivos


de la muestra (los jóvenes frente a los mayores, los de
clase alta frente a los de baja, los más católicos frente a los
no católicos, los de una provincia frente a los de otras
provincias, etc).

3° Conocer en qué factor sobresalen unos sindividuos y en


qué factor no.

4° Explicar, analizando información anterior, por qué han


aparecido dichos factores en el análisis realizado.
37
El Análisis Factorial es en muchas ocasiones un paso
previo a otros análisis, como por ejemplo, Regresión
Múltiple o Análisis Cluster, en los que se sustituye el
conjunto de variables originales por los factores
obtenidos. Por ello, es necesario conocer los valores que
toman los factores en cada observación.

Todos los métodos de obtención de puntaciones


factoriales parten de la expresión:

Z = F**' +  con E[]=0, Var[ ] = 

a partir de la cual buscan estimar el valor de F*.

38
ESTIMACIÓN DE LOS COEFICIENTES DE LAS
PUNTUACIONES FACTORIALES
Regresión de Thompson.- Los coeficientes de las
puntuaciones factoriales en este caso tienen una media 0 y
una varianza igual al cuadrado de las correlaciones
múltiples entre las puntuaciones estimadas de los factores
y los valores verdaderos de los factores. Pueden estar
correlacionados incluso cuando se asume que los factores
son ortogonales.
Para datos normalmente distribuidos, se tiene que :

39
El vector estimado de las puntuaciones factoriales (método
MC), para el r-ésimo individuo es :

Algunos paquetes estadísticos reemplazan la matriz de


correlación muestral por la matriz de correlación reproducida:

40
El vector de ponderaciones estimado para obtener
las puntuaciones factoriales
ˆ [,1]
W ˆ [, 2]
W
x1 0.22702789 -0.16279948
x2 0.24510775 -0.12298642
x3 0.23306311 -0.10808007
x4 0.07013864 0.06638255
x5 0.27592793 -0.17357727
x6 0.09846481 0.07390228
x7 -0.22708997 0.39636344
x8 -0.07183483 0.27907197
x9 -0.12378910 0.31613765
x10 0.04144566 0.14286448
x11 -0.10707753 0.30369470
x12 0.18113061 -0.03474545
Fˆr  Zr W
ˆ
r r  1, 2, ...,160 41
ESTIMACIONES DE LAS PUNTUACIONES
FACTORIALES

Estos métodos proporcionan:

Valor estandarizado para la i-ésima variable en la j-


ésima observación.

Es el coeficiente de la puntuación factorial para la


i-ésima variable del k-ésimo factor.
42
Páises- IPS 2016

2
1
0
FR2

-1
-2

-2 -1 0 1

FR1

Correlaciones entre las puntuaciones:


RC1 RC2
RC1 1.000000e+00 -8.608183e-16
RC2 -8.608183e-16 1.000000e+00 43
Representación de Países -IPS 2016
-1.0 -0.5 0.0 0.5

2
153 67
51
14810 4
82
11
x7 17 12
9
13 x8
x11
x9 3
1416
15 x10
14924252118
29 20 x6

0.5
41
1 44 28 x4 x12
2726 19
117 49
48 32 x3
x2
136 70 22
112
139 100156
151
109
160 96 92 85
155
62 53 46 38 23 x5
115
123 107 97 9087 30
124 7864 152 40 33
138 31 x1
135

0.0
129 108105 159 60
68
72 51
0

131 128125 116


111 56 37
FR2

119
126 142 134 5952 42 39
140137 121 99 8174 157 34
36
35
146 82 15043
61 45
122
144 101
103 95 50
143114
102 86
80
141
133154 130 120
118 88 69 57
585447
113 55
-1

-0.5
94 83 65
147106 8471
110 98 7973
7767
127
132 93
145 8963
91 66
-2

104

-1.0
158 75
76

-2 -1 0 1 2

FR1
44
VALIDACIÓN DEL MODELO FACTORIAL

1.- Si se utilizó el método de máxima verosimilitud o


mínimos cuadrados generalizados para la extracción de
los factores, se pueden aplicar una variedad de pruebas
estadísticas (SAS) que permitan evaluar la adecuación
del modelo.

2.- En base a los residuos del modelo (R-RP), podemos


afirmar que el modelo es válido, si la mayoría de los
residuos son pequeños ( menor o igual a 0.05).

45
RESIDUOS DEL MODELO
FACTORIAL( 67%<0.05)

46
BIBLIOGRAFÍA

[1] MARDIA, KENT AND BIBBY. 1982. Multivariate


Analysis. Academic Press. London.

[2] MARTIN BILODAEU, DAVID BRENNER. 1999.


Theory of Multivariate Statistics. Springer Texts in
Statistics. Montreal. Canada.

[3]DANIEL PEÑA, 2002. Análisis de Datos


Multivariados. McGRAW-HILL/ Interamericana de
España.

[[4]JOHNSON, R.; WICHERN, D. 2014. Applied


Multivariate Statistical Analysis. Sixth Edition. Pearson
New International Edition.
[5]ALVIN C. RENCHER. 2012. Methods of Multivariate
Analysis. John Wiley & Sons, Inc. United States of
America.

[6]CHARLES M. CUADRAS, 2014. Nuevos Métodos de


Análisis Multivariante . CMC EDITIONS. España

También podría gustarte