Analisis Discriminante PDF
Analisis Discriminante PDF
Analisis Discriminante PDF
1
6.1.- PLANTEAMIENTO DEL PROBLEMA
2
Ejemplo 1: Discriminación con dos grupos
3
Ejemplo 2 Discriminación con 6 grupos
Se tiene los datos socioeconómicos de 109 países del mundo del año
1995. Dichos países están clasificados de acuerdo a 6 regiones
económicas: OCDE, Europa Oriental, Asia/Pacífico, Africa, Oriente Medio
y América Latina. Las variables analizadas son el porcentaje de habitantes
en ciudades (URBANA), el aumento de la población (INCR_POB), la tasa de
natalidad (TASA_NAT), la tasa de mortalidad (TASA_MOR) y las
transformaciones logarítmicas de la población (LOGPOB), la densidad
(LOGDENS), la esperanza de vida femenina (LOGESPF) y masculina
(LOGESPM), de la tasa de alfabetización (LOGALF), de la tasa de
mortalidad infantil (LOGMINF), del cociente nacimientos/muertes
(LOGNACDE), de la tasa de fertilidad (LOGFERT) y del PIB percápita
(LOGPIBCA).
En este caso se tiene, por lo tanto, que q=6, p=13 y n=109. Además,
n1=21, n2=14, n3=17, n4=19, n5=17 y n6=21.
4
6.2. CÁLCULO DE LAS FUNCIONES DISCRIMINANTES
∑ n g (d g − d )
q
2
g =1
g =1 k =1
n−q
donde dik, k=1,…,ni; i=1,…,q denota el valor de D en la k-ésima
observación del i-ésimo grupo y
5
nj
∑W
G G
∑ ∑ (y − y g )( y gk − y g )
'
• W= g
= gk =
g=1
g =1 k =1
G ng G ng
∑ ∑ (y − y1g ) ∑∑ ( y1gk − y1g )( y Kgk − yKg )
2
1gk ...
g =1 k =1 g =1 k =1
... ... ...
G ng G ng
∑ ∑ (y − y Kg )( y1gk − y1g ) ... ∑∑ ( y Kgk − yKg )
2
Kgk
g =1 k =1 g =1 k =1
es la matriz de suma de cuadrados intra-grupos.
( ) ∑ n g (y1g − y1 )(y Kg − y K )
G G
∑
2
n g y 1g − y 1 ...
G
∑
g =1' g =1
n g ( yg − y)(yg − y)
• B= ... ... ...
∑ n g (y Kg − y K )(y1g − y1 ) ... ∑ n g (y Kg − y K )
G G
=
g =1 2
g =1 g =1
6
OBSERVACIONES:
7
6.2.2 Lambda de Wilks
W 1
Λ = W + B= min (q −1,p ) ) ,
∏ (1 + λ i )
i =1
λi
CRi = i = 1,...,r
1 + λi
8
6.2.4 Determinación del número de funciones discriminantes
p + q min{q −1,p}
∑ log(1 + λ j )
n −1−
T= 2 j=k +1
Ejemplo1 (continuación)
Correlación
Función Autovalor % de varianza % acumulado canónica
1 2,046a 100,0 100,0 ,820
a. Se han empleado las 1 primeras funciones discriminantes
canónicas en el análisis.
9
Lambda de Wilks
Contraste de Lambda
las funciones de Wilks Chi-cuadrado gl Sig.
1 ,328 105,244 7 ,000
2.046
canónica 1 + 2.046 = 0.82 obtenidos mediante el programa SPSS.
Así mismo, se muestra el resultado obtenido al aplicar el test de
hipótesis secuencial utilizado para determinar el número de
funciones discriminantes significativas.
[ ]
igual a P χ 7 ≥ 105.244 =0.000 por lo que la función obtenida es
2
10
Ejemplo 2 (continuación)
Resumen de las funciones canónicas discriminantes
Autovalores
Correlación
Función Autovalor % de varianza % acumulado canónica
1 6,004a 65,7 65,7 ,926
2 1,182a 12,9 78,7 ,736
3 ,949a 10,4 89,1 ,698
4 ,610 a 6,7 95,7 ,616
5 ,390a 4,3 100,0 ,530
a. Se han empleado las 5 primeras funciones discriminantes
canónicas en el análisis.
Lambda de Wilks
Contraste de Lambda
las funciones de Wilks Chi-cuadrado gl Sig.
1 a la 5 ,015 396,850 65 ,000
2 a la 5 ,105 212,911 48 ,000
3 a la 5 ,229 139,173 33 ,000
4 a la 5 ,447 76,111 20 ,000
5 ,720 31,101 9 ,000
λi ∑λj
100 5 y 100 j=1
respectivamente.
5
∑λj ∑λj
j=1 j=1
11
determinación del número de funciones discriminantes
significativas. Así, por ejemplo, en el paso 3 se contrasta la
hipótesis nula:
Ho: λ3 = λ 4 = λ 5
[ ]
• En este caso Tobs = 139.173 y el p-valor P χ 33 ≥ 139.173 =0 y se
2
12
6.3.1 Matriz de Estructura
donde F = diag (s 1/ 2
jj
) siendo sjj elemento de la diagonal de la matriz
S =W
n -G . A partir de ellos se puede deducir la expresión matemática de
las funciones discriminantes en términos de las variables originales
estandarizadas. Estos coeficientes son poco fiables si existen problemas
de multicolinealidad entre las variables clasificadoras.
13
Ejemplo 1 (continuación)
Función
1
Velocidad de Entrega ,466
Nivel de Precios ,084
Flexibilidad de Precios ,538
Imagen de la Empresa -,068
Servicio -,093
Imagen de las Ventas ,295
Calidad del Producto -,684
Matriz de estructura
Función
1
Calidad del Producto -,656
Flexibilidad de Precios ,592
Velocidad de Entrega ,568
Nivel de Precios -,332
Servicio ,147
Imagen de las Ventas ,030
Imagen de la Empresa -,020
Correlaciones intra-grupo combinadas entre
las variables discriminantes y las funciones
discriminantes canónicas tipificadas
Variables ordenadas por el tamaño de la
correlación con la función.
14
Analizando la matriz de estructura de la función discriminante se observa
que dicha función realiza un contraste entre la Velocidad de Entrega y la
Flexibilidad de Precios, por un lado, y la Calidad del Producto y el Nivel
de Precios, por el otro, de forma que clientes con un valor de D positivo
serán clientes con una tendencia a valorar por encima de la media a la
labor de la empresa en aspectos más específicos como rapidez y
flexibilidad y a valorar por debajo aspectos más genéricos como son la
calidad del producto y el nivel de precios. Lo contrario ocurre con clientes
con valores de D negativos.
Función
Tamaño de la empresa 1
Pequeña 1,156
Grande -1,734
Funciones discriminantes canónicas no tipificadas
evaluadas en las medias de los grupos
15
6
Puntuaciones discriminantes de la función 1
4 97
98
-2
-4
N= 60 40
Pequeña Grande
Tamaño de la empresa
16
12
10
6 53
99
57
100
82
99
4
Velocidad de Entrega
2
Nivel de Precios
0 74
Flex. de Precios
Pequeña Grande
Tamaño de la empresa
Ejemplo 2 (continuación)
17
Matriz de estructura rotada
Función
1 2 3 4 5
LOGNACDE ,644* ,410 -,088 -,035 -,030
Tasa de mortalidad
-,566* ,251 ,480 -,154 -,112
(por 1.000 habitantes)
Tasa de natalidad
-,084 ,745* ,454 -,197 -,137
(por 1.000 habitantes)
Aumento de la
,190 ,738* ,124 ,046 -,115
población (% anual)
LOGFERT -,038 ,733* ,473 -,012 -,230
LOGALF -,008 ,602* ,420 -,322 ,051
LOGESPF -,128 ,291 ,890* -,021 ,032
LOGESPM -,197 ,158 ,846* ,035 -,014
LOGMINF -,036 ,337 ,786* -,082 -,009
LOGPIBCA ,040 -,146 -,709* ,447 -,097
Habitantes en
,320 -,261 -,545* ,359 -,256
ciudades (%)
LOGDENS ,053 -,112 ,024 ,085 ,616*
LOGPOB -,040 -,049 ,014 -,113 ,554*
Correlaciones intra-grupo combinadas y rotadas entre las variables discriminantes y las
funciones canónicas discriminantes estandarizadas.
Variables ordenadas por el tamaño de la correlación con la función.
*.
Mayor correlación absoluta entre cada variable y cualquier función discriminante.
18
6
4 Somalia
China Emiratos Árabes
Marruecos
2
0 Afganistán
Egipto
IslandiaZelanda
Nueva PuntuaciónD1
Países Bajos Bosnia Libia
-2 PuntuaciónD2
Israel
PuntuaciónD3
China
-4 Austria
Finlandia
Portugal Japón
PuntuaciónD4
-6 PuntuaciónD5
OCDE Asia / Pacífico Oriente Medio
Europa Oriental África América Latina
Región económica
19
La quinta función separa a los países asiáticos del resto debido a su
mayor población y su mayor densidad. Respecto a la cuarta no se ve un
patrón claro de separación.
1,00
0,50
OCDE
Europa Oriental
Asia / Pacífico
0,00
África
ad
ad
A
bl
PM
a
PF
E
B
T
Oriente Medio
an
AL
IN
R
EN
BC
PO
D
Po
id
lid
ES
FE
AC
ES
M
rb
G
al
cr
PI
D
ta
América Latina
G
U
LO
G
G
at
N
In
G
LO
or
G
LO
LO
LO
N
G
LO
LO
LO
M
LO
-0,50
-1,00
-1,50
20
6.4.- SELECCIÓN DE VARIABLES CLASIFICADORAS
21
seleccionado una variable introducida en el conjunto de discriminación en
un paso anterior del algoritmo, bien sea introduciendo en dicho conjunto
una variable eliminada con anterioridad.
Para determinar qué variables entran y salen en cada paso de este tipo
de algoritmos se utilizan diversos criterios de entrada y salida. Uno de los
más utilizados es el del Lambda de Wilks que es el que exponemos, a
continuación. Otros criterios pueden verse, por ejemplo, en el manual del
SPSS.
n − G − q Λ q − 1
F= ∼ FG-1, n-G-q
G −1 Λ
q +1
22
significativa/no significativa de información si la variable Yq+1 no es
incluida/es incluida en el conjunto de discriminación.
Ejemplo 1 (continuación)
23
Estadísticos por pasos
Variables introducidas/eliminadasa,b,c,d
Lambda de Wilks
F exacta
Paso Introducidas Estadístico gl1 gl2 gl3 Estadístico gl1 gl2 Sig.
1 Calidad del
,532 1 1 98,000 86,200 1 98,000 ,000
Producto
2 Flexibilidad
,388 2 1 98,000 76,552 2 97,000 ,000
de Precios
3 Velocidad
,341 3 1 98,000 61,879 3 96,000 ,000
de Entrega
En cada paso se introduce la variable que minimiza la lambda de Wilks global.
a. El número máximo de pasos es 14.
b. La significación máxima de F para entrar es .05.
c. La significación mínima de F para salir es .10.
d. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.
24
Variables en el análisis
Sig. de F Lambda
Paso Tolerancia que eliminar de Wilks
1 Calidad del Producto 1,000 ,000
2 Calidad del Producto 1,000 ,000 ,583
Flexibilidad de Precios 1,000 ,000 ,532
3 Calidad del Producto ,992 ,000 ,460
Flexibilidad de Precios ,970 ,000 ,414
Velocidad de Entrega ,963 ,000 ,388
25
Las tablas subsiguientes muestran los resultados obtenidos utilizando
las variables seleccionadas. Se observa que los resultados obtenidos son
esencialmente los mismos que los obtenidos utilizando todas las variables.
Correlación
Función Autovalor % de varianza % acumulado canónica
1 1,934a 100,0 100,0 ,812
a. Se han empleado las 1 primeras funciones discriminantes
canónicas en el análisis.
Lambda de Wilks
Contraste de Lambda
las funciones de Wilks Chi-cuadrado gl Sig.
1 ,341 103,860 3 ,000
Función
1
Velocidad de Entrega ,437
Flexibilidad de Precios ,526
Calidad del Producto -,629
Matriz de estructura
Función
1
Calidad del Producto -,674
Flexibilidad de Precios ,609
Velocidad de Entrega ,584
Nivel de Preciosa -,378
Imagen de las Ventasa -,193
Imagen de la Empresaa -,163
Servicioa ,120
Correlaciones intra-grupo combinadas entre las
variables discriminantes y las funciones
discriminantes canónicas tipificadas
Variables ordenadas por el tamaño de la
correlación con la función.
a. Esta variable no se emplea en el análisis.
26
6.4.2 Inconvenientes de los procedimientos de selección de variables
27
6.5.1 Discriminación de dos poblaciones normales homocedásticas
[ ]
PG y =
i
π f ( y)
i i
π f ( y) + π f ( y)
i=1,2
11 22
π2
⇔ y’Σ-1(µ2-µ1) < 0.5(µ1+µ2)’Σ-1(µ2-µ1) - log
π1
28
Observaciones
[
P χ 2k −1 ≥ D obs ]
donde se utiliza el hecho de que, bajo hipótesis de normalidad,
29
5) Si existe un coste asociado diferente a la asignación incorrecta a cada
uno de los grupos, de forma que la matriz de pérdidas viene dada por:
Asignado\Verdadero G1 G2
G1 0 c12
G2 c21 0
30
Conviene hacer notar, sin embargo, que el criterio lineal especificado
anteriormente es más robusto que el criterio cuadrático a la hipótesis de
normalidad y es el que se suele utilizar habitualmente.
31
Ejemplo 1 (continuación)
[ 2
]
0.279 y el p-valor P χ1 ≥ 0.279 =0.597 por lo que dicho caso no es
sospechoso de ser atípico.
32
Estadísticos de clasificación
Estadísticos por casos
Puntuacio
nes
discrimin
Grupo mayor Segundo grupo mayor antes
Distancia de Distancia de
Mahalanobis Mahalanobis
al cuadrado al cuadrado
Grupo P(D>d | G=g) hasta el hasta el
Número de casos Grupo real pronosticado p gl P(G=g | D=d) centroide Grupo P(G=g | D=d) centroide Función 1
Original 1 1 1 ,597 1 ,934 ,279 2 ,066 5,580 ,628
2 1 1 ,746 1 ,994 ,105 2 ,006 10,330 1,480
3 1 1 ,872 1 ,990 ,026 2 ,010 9,309 1,317
4 1 1 ,706 1 ,956 ,142 2 ,044 6,314 ,779
5 1 1 ,230 1 ,669 1,444 2 ,331 2,852 -,045
6 1 1 ,815 1 ,971 ,055 2 ,029 7,057 ,922
7 1 1 ,772 1 ,993 ,084 2 ,007 10,109 1,445
8 1 1 ,557 1 ,997 ,344 2 ,003 12,088 1,743
9 1 1 ,625 1 ,941 ,239 2 ,059 5,767 ,667
10 1 1 ,336 1 ,999 ,925 2 ,001 14,837 2,118
Validación cruzadaa 1 1 1 ,355 7 ,916 7,754 2 ,084 12,533
2 1 1 ,266 7 ,993 8,818 2 ,007 18,822
3 1 1 ,516 7 ,989 6,201 2 ,011 15,245
4 1 1 ,736 7 ,950 4,371 2 ,050 10,252
5 1 1 ,639 7 ,622 5,176 2 ,378 6,168
6 1 1 ,787 7 ,967 3,935 2 ,033 10,688
7 1 1 ,266 7 ,993 8,819 2 ,007 18,606
8 1 1 ,116 7 ,997 11,559 2 ,003 23,228
9 1 1 ,525 7 ,928 6,124 2 ,072 11,241
10 1 1 ,582 7 ,999 5,640 2 ,001 19,622
Para los datos originales, la distancia de Mahalanobis al cuadrado se basa en funciones canónicas.
Para los datos validados mediante validación cruzada, la distancia de Mahalanobis al cuadrado se basa en observaciones.
a. La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos.
33
6.5.4 Homocedasticidad
M=
∏S
g =1
g
2
n −q
S 2
q
Wg ∑W i
donde Sg = ;g = 1,…,q y S = i =1
ng −1 n−q
34
Observaciones
35
4) Una forma empirica de determinar el valor de p más apropiado son los
gráficos nivel-dispersión (Spread-versus-level plot). Dichos gráficos
representan en abscisas un estimador robusto del logaritmo del nivel
medio por grupos (en SPSS el logaritmo de la mediana) y en ordenadas
un estimador robusto de la dispersión (en SPSS el logaritmo del rango
intercuartílico) y estiman el coeficiente de regresión β mediante
regresión lineal. A partir de β es posible deducir cuál es el valor de p
más apropiado.
36
6.6.- EVALUACIÓN DEL PROCEDIMIENTO DE CLASIFICACIÓN
37
- Utilizando, para cada caso, las funciones discriminantes estimadas
mediante el resto de los casos
38
Así, en el caso de que el criterio utilizado sea el del mecanismo aleatorio
(o g − e g ) n g
Zg =
e g (n g − e g )
( o − e) n
Z= e ( n − e)
n g2
eg = n el número esperado de dichas clasificaciones
o=
∑ o
g =1
g
número de clasificaciones correctas
G
e=
∑e
g =1
g
el número de clasificaciones correctas esperadas
39
6.6.3 Significación práctica
og eg
Ig = − x 100
ng ng
e
1− g
ng
40
Ejemplo 1 (continuación)
51 + 38
100
ha funcionado correctamente en un 89% = 100 de los casos
50 + 37
100
originales y un 87%= 100 si el procedimiento seguido en la
evaluación de la eficiencia, ha sido el de validación cruzada.
Resultados de la clasificaciónb,c
Grupo de pertenencia
pronosticado
Tamaño de la empresa Pequeña Grande Total
Original Recuento Pequeña 51 9 60
Grande 2 38 40
% Pequeña 85,0 15,0 100,0
Grande 5,0 95,0 100,0
Validación cruzadaa Recuento Pequeña 50 10 60
Grande 3 37 40
% Pequeña 83,3 16,7 100,0
Grande 7,5 92,5 100,0
a. La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada,
cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos.
b. Clasificados correctamente el 89,0% de los casos agrupados originales.
c. Clasificados correctamente el 87,0% de los casos agrupados validados mediante
validación cruzada.
41
En la siguiente tabla se evalúa la significación estadística y la
significación práctica de los resultados obtenidos comparando el
procedimiento de clasificación con el mecanismo aleatorio proporcional.
Grupo eg Zg p-valor Ig
Pequeñas 36 3.69 0.00 41.67
Grandes 16 6.78 0.00 12.50
Global 52 7.01 0.00 27.08
60
60
Así, por ejemplo, e1 = 100 = 36 es el número esperado de éxitos
obtenidos en el grupo de empresas pequeñas mediante el mecanismo
(50 − 36) 60
aleatorio proporcional y Z1 = 36x 24 =3.69 y el p-valor es
60 − 50
100
P[Z≥3.69]=0.00. La significación práctica será igual a I1 = 60 − 36 =
41.67 por lo que nuestro mecanismo mejora al azar en un 41.67% en las
empresas pequeñas. Se observa que todos los resultados son significativos
aunque la mejora práctica, en cada uno de ellos no es excesivamente
alta.
42
Resumen
43
Bibliografía
44