Aplicacion ACP, AF y MDS

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 26

CASO: MÉTODOS ANTICONCEPTIVOS

CURSO: ESTADÍSTICA MULTIVARIADA


INTEGRANTES: VICTOR QUILCA

OSCAR ARLEON
CONTENIDO

 Introducción
 Caso de estudio
 Objetivos
 Exploración de datos
 Análisis de componentes principales
 Análisis factorial
 Escalamiento multidimensional
 Conclusiones
INTRODUCCIÓN

Los métodos anticonceptivos son aquellos


que impiden o reducen significativamente
las posibilidades de una fecundación o
embarazo en las relaciones sexuales.
Ningún método puede considerarse mejor
que otro ni es totalmente seguro, cada uno
tiene sus indicaciones de uso.
CASO DE ESTUDIO

Percepción sobre la efectividad, seguridad, disponibilidad y


conveniencia de 15 métodos anticonceptivos.
Las personas encuestadas manifestaron su opinión ranqueando cada uno de los métodos
con puntajes del 1 al 15. Con el fin de simplificar la presentación y el análisis las respuestas
han sido agregadas en grupos de 7 personas en cada una de las cuatro tareas de puntaje
con 2 grupos por género. Los encuestados pueden ser identificados por tareas, efectividad
(E), seguridad (S), disponibilidad (D), conveniencia (C) y genero, femenino (F1, F2) y
masculino (M1, M2) creando así 16 grupos de respuestas (EF1, EF2, EM1, EM2, SF1, SF2, etc).
OBJETIVOS

Objetivo general

 Realizar un análisis utilizando las técnicas de análisis de componentes principales, factorial


y escalamiento multidimensional.

Objetivos específicos
 Encontrar un número óptimo de componentes principales.
 Analizar el gráfico biplot generado por el método de componentes principales
 Encontrar un número óptimo de los posibles factores latentes en el estudio.
 Representar nuestros datos en una menor dimensión.
EXPLORACIÓN DE DATOS

• Se tienen 15 observaciones y 4 variables


• Cada observación corresponde a un método
• No hay valores vacíos
Diagrama de cajas
Matriz de
correlaciones

• El color azul indica las


correlaciones positivas,
mientras que el rojo las
correlaciones negativas.

• Se observan correlaciones
altas tanto positivas como
negativas, también hay
correlaciones
aproximadamente cero.
Prueba de esfericidad 5.- Cálculos

de Bartlett

1.- Planteamiento de hipótesis


𝐻0 : 𝑅 = 𝐼 … variables no están 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑑𝑎𝑠
𝐻𝑎 : 𝑅 ≠ 𝐼 … 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑒𝑠𝑡á𝑛 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑑𝑎𝑠
Creamos una función un R y obtenemos un
2.- Nivel de significancia p-valor igual a 0
𝛼 = 5%
6.- Decisión
3.- Estadístico de prueba Rechazamos la hipótesis nula

2𝑝+5 2 7.- Conclusión


− 𝑛−1− ln 𝑅 ~𝒳(𝑝 2 −𝑝)/2
6 La matriz de correlación es diferente a la
identidad, por lo que hay evidencia estadística
4.- Criterio de decisión de que las variables están correlacionadas.
Rechazaremos la hipótesis nula si el p-valor
es menor al nivel de significancia
ANÁLISIS DE COMPONENTES PRINCIPALES
Definición
Es una técnica matemática con el objetivo de reducir la dimensionalidad de manera que
represente la mayor cantidad posible de la variación original presente en el conjunto de datos
multivariados obtenido de una población cuya distribución de probabilidades no necesita ser
conocida.

Definición operativa
Las componentes principales son combinaciones
lineales de p variables aleatorias 𝑋1 , 𝑋2 , … , 𝑋𝑝 las
cuales , geométricamente, representan un nuevo
sistema de coordenadas (obtenido por rotación)
cuya dirección es máxima variabilidad.

Estas componentes no están correlacionadas y


están ordenadas de manera que las primeras
explican la mayor parte de la variabilidad total.
Sea 𝑋 ′ = 𝑋1 , 𝑋2 , … , 𝑋𝑝 con matriz de covarianza Σ con pares de autovalores y autovectores
𝜆1 , 𝑒1 , 𝜆2 , 𝑒2 , … , 𝜆𝑝 , 𝑒𝑝 obtenidos de la descomposición espectral donde 𝜆1 ≥ 𝜆2 ≥ … ≥ 𝜆𝑝 ≥ 0.
La i-ésima componente principal esta dado por:

𝑌𝑖 = 𝑒𝑖′ 𝑋 = 𝑒𝑖1 𝑋1 + 𝑒𝑖2 𝑋2 + ⋯ + 𝑒𝑖𝑝 𝑋𝑝


También 𝑖 = 1,2, … , 𝑝
𝑉𝑎𝑟 𝑌𝑖 = 𝜆𝑖 𝑖 = 1,2, … , 𝑝
𝐶𝑜𝑣 𝑌𝑖 , 𝑌𝑘 = 0 𝑖≠𝑘
Adicionalmente
𝑝 𝑝

𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑡𝑜𝑡𝑎𝑙 = 𝑡𝑟 Σ = ෍ 𝜎𝑖𝑖 = ෍ 𝜆𝑖


𝑖=1 𝑖=1

𝜌 𝑒 𝜆𝑖
𝑌𝑖 ,𝑋𝑘 = 𝑖𝑘 𝑖, 𝑘 = 1,2, … , 𝑝
𝜎𝑘𝑘

Si nuestros datos están estandarizados, las componentes principales se obtendrán de la matriz


de correlaciones.
Selección de
componentes
Escogemos 2 componentes en base al valor promedio

Correlación de las
variables con las
componentes
ANÁLISIS FACTORIAL
A. F. Exploratorio
Selección del número de factores

Horn(1965) propusó el
análisis paralelo como una
alternativa de considerar
autovalores superiores a 1 y
como una forma de
objetivar el gráfico de
sedimentación
Primero se generan
conjuntos de datos
aleatorios, luego se realizan
PCA en cada uno. Se
calcula la media de los
autovalores en cada
conjunto para cada factor
y se compara con el
conjunto de datos original.
Estimación
M. Componentes principales M. Ejes principales M. Máxima Verosimilitud
Estimación – rotación
varimax
M. Componentes principales M. Ejes principales M. Máxima Verosimilitud
Indicador de ajuste
Utilizaremos la matriz residual de los 3 métodos anteriores el cual usan la rotación varimax. Esta
matriz sería la resta de la matriz original R y 𝐑∗ . Un indicador sencillo es utilizar RMSR(root mean
square of the residuals) el cual se aplica solo a los residuos fuera de la diagonal. Normalmente
RMSR inferiores a 0.08 se consideran adecuados.

M. Componentes principales M. Ejes principales M. Máxima Verosimilitud

RMSR 0.062 RMSR 0.001 RMSR 0.035


Matriz de cargas
Nos quedamos con el método de ejes principales y rotación varimax obteniendo así la
siguiente matriz de cargas
A. F. Confirmatorio

Esta parte del análisis está enmarcado en modelos de ecuaciones estructurales, y


previamente que el instrumento de medida para medir cada una de las variables
latentes es adecuado (fiabilidad, validez de contenido, etc)

Factor Variable
Disponibilidad
Fácil acceso y
Seguridad
seguro
Conveniencia
Efectivo Efectividad
ESCALAMIENTO MULTIDIMENSIONAL
Definición
EL análisis de escalamiento multidimensional (MDS) – multidimensional scaling - es una técnica
de reducción de datos con el objetivo de representar los datos originales en un sistema de baja
dimensión, de modo que se minimice cualquier distorsión causada por la reducción de la
dimensionalidad.

Indicador de esa
Distancias entre los
proximidad: stress
objetos representados
en el espacio q- Stress Bondad de ajuste
dimensional sea los más
parecido a las 0.200 Malo
distancias en el espacio 0.100 Mínimo razonable
original 0.050 Bueno
0.025 Excelente
0.000 Perfecto
Fuente: Kruskal(1964)
Nuevas coordenadas

Stress por variables

Stress: 0.052
CONCLUSIONES

 Se llegó a encontrar 2 componentes que explican el 91% de variabilidad total


 En base al biplot se podría considerar que los métodos convenientes son (Abstinencia,
Sexo Oral y Diafragma), efectivos (Pildora y DIU) y seguridad (Condón). Por la cercanía
Tubárico y Vasectomía , Ritmo e Interruptus son métodos muy parecidos
 En el análisis factorial exploratorio se encontraron 2 posibles factores latentes, uno agrupa
las variables disponibilidad, seguridad y conveniencias , mientras la otra efectividad.
 Se llegó a representar los datos en 2 dimensiones con un indicador de stress de 0.052
Personalizar esta plantilla

GRACIAS

También podría gustarte