Introducción Al Análisis Multivariante
Introducción Al Análisis Multivariante
Introducción Al Análisis Multivariante
1.1 Antecedentes
En los últimos años, la importancia del análisis multivariante se ha acrecentado en gran
medida debido a que se utiliza comúnmente en diversos campos como la industria, el
gobierno, centros universitarios y de investigación. El análisis multivariante permite la
resolución de problemas y la toma de decisiones con un enfoque analítico sobre todas las
variables que influyen en el o los problemas en cuestión.
Por otra parte, el análisis multivariante representa una herramienta que tendrá
gran trascendencia a futuro, ya que admite al análisis de datos en situaciones donde las
relaciones entre las variables son más complejas. Aunado a lo anterior, los avances tan
acelerados que día tras día se dan en el campo computacional facilitan cada vez más el
manejo de las técnicas multivariantes.
El término multivariate analysis se puede traducir en tres formas distintas y todas
son correctas, según el campo de conocimiento en el que se apliquen: análisis
multivariable se utiliza generalmente en psicología, sociología y economía; análisis
multivariante se emplea en estadística, biología y economía; por último, se maneja
análisis multivariado en psicología y educación.
Se usará el término análisis multivariante porqué proviene del área estadística;
antes de proporcionar su definición es importante establecer de forma clara que la
estadística es un conjunto de teorías y métodos que han sido desarrollados para
recolectar datos, manejarlos, analizarlos, encontrar medidas que permitan describir e
interpretar la información, con el fin de concluir y poder tomar decisiones.
A la información recabada se le llama dato; un dato es una colección de
observaciones numéricas o no numéricas con una característica en común. Ahora bien
una variable es un símbolo que puede tomar un valor cualquiera y representar a un
conjunto determinado de datos. Cuando se tiene una variable se busca información que
describa su comportamiento, el cual puede ser descrito por diferentes medidas:
Cuando se tienen dos variables, éstas se pueden manejar separadas y realizar con ellas
las mismas pruebas como si se tuviera una sola variable; también se podrían comparar
las dos, por ejemplo:
• Con pruebas de hipótesis (de dos medias, de dos proporciones y de
independencia).
• Encontrar si están relacionadas o correlacionadas.
Primarias Secundarias
Sí No
Efecto Causa
Identificar el tipo de escala de cada variable (para saber qué técnica se aplicará)
Formular el cuestionario
Cualitativas o no métricas
Variables
Cuantitativas o métricas
A continuación se describirán cuáles son las diferencias entre los dos tipos de variables.
Nominales o clasificatorias
Cualitativas o no métricas
Ordinales o rango
1. Nominal o clasificatoria. Se emplea para referirse a los datos que sólo pueden
clasificarse en categorías, cada una de éstas se considera como mutuamente excluyente
(dos o más observaciones no podrán pertenecer a varias categorías) y colectivamente
exhaustiva (todos los valores deberán estar contenidos en alguna categoría) con respecto
a las demás.
Con el fin de procesar datos de este tipo, con frecuencia las categorías se
codifican como 1, 2, 3, 4, etc. Esto facilita el conteo cuando se utiliza una computadora u
otro dispositivo. La estadística más apropiada para describir la tendencia central en este
tipo de escala es la moda. Las pruebas aplicadas a los datos en escala nominal no
implican ninguna consideración en lo que se refiere a la distribución básica de la
población a partir de la cual se seleccionó la muestro, por tanto, se les denomina pruebas
libres de distribución o no paramétricas.
Ejemplo
En el caso de la variable "género", los valores que se toman son cualitativos (femenino y
masculino) y se puede obtener por un conteo el porcentaje de mujeres y de hombres, la
moda, etcétera.
Para manejarlas se asigna un número, por ejemplo, el 1 a femenino y el 2 a
masculino. Se puede obtener la moda, que indica el valor más repetitivo; sin embargo,
obtener algunas medidas como la media de los datos en las variables medidas en escala
nominal no tendría sentido; por ejemplo, una media de 1.5 indica algo ilógico acerca del
género de los entrevistados, lo único que se podría concluir de este valor es que existen
igual número de mujeres como de hombres, información que se puede encontrar más
fácilmente con simples frecuencias.
A esta última se le denomina dicotómica dummy, con la que se mide la ausencia (con el
no) o la presencia (con el sí) del atributo y es el nivel más bajo de medición.
• ¿Qué marca de champú recuerda? Marque sólo una opción. K&Z❑ F&H❑
P&J❑ D&L Otro❑ Especifique
• Cuando se responde a la pregunta con una sola marca se le denomina top of mind, si
dicha pregunta se extiende a "¿recuerda alguna otra marca?" se le llama multirrespuesta,
a la primera mención se le conoce corno top of mind y a las restantes share of mind; se
codifican corno primera mención, segunda mención, etc. El único análisis que se les
puede hacer a este tipo de variables son las tablas de frecuencia de multirrespuestas, en
las que se obtiene una frecuencia múltiple; si se relaciona con otras variables, el análisis
permitido son las tablas cruzadas de multirrespuesta.
• Otro tipo sería cuando se tienen clases de igual o diferente amplitud, donde cada una se
codifica con un número dándole una etiqueta, pero al momento de interpretar se hace
como etiqueta; ejemplos de este tipo serían:
• ¿Cuál es su peso?
❑ De 45 a 55 kilos
❑ De 66 a 75 kilos
❑ De 56 a 65 kilos
❑ De 76 en adelante
Nota: Muchos autores no saben dónde poner la escala dicotómica, algunos de ellos la
dejan fuera de esta clasificación, otros la ponen aparte y la gran mayoría la clasifica en
nominales.
2. Ordinal o de rango. En este tipo de escala cada categoría es mayor que la siguiente;
sin embargo, no puede decirse qué tanto una categoría es mayor o menor que las demás.
La principal diferencia entre un nivel de medición nominal y uno ordinal es la relación
mayor que entre las categorías de nivel ordinal. Por otra parte, la escala de medición
ordinal tiene las mismas características que la escala nominal, es decir, las categorías son
mutuamente excluyentes y exhaustivas, además esta escala se puede convertir en la
anterior.
La estadística más apropiada para describir la tendencia central en este tipo de
escala es la mediana. Con el escalamiento ordinal las hipótesis pueden probarse con
numerosos recursos estadísticos no paramétricos.
Ejemplo
❑Café
❑Té
❑Leche
❑Limonada
❑Agua de frutas
❑Refresco
Nota: Es necesario recordar que la mente humana sólo puede jerarquizar cuando mucho
7 objetos, productos o servicios; si es necesario que se ordenen más categorías, pueden
ponerse en un círculo todos los objetos a clasificar para no sesgar la información.
Nota: Las opciones "siempre" y "nunca prefiero" obligan a las personas a realizar una
jerarquización mental, por eso son ordinales.
Nota: A estos últimos dos ejemplos se les conoce mejor como escala de Likert, y se le
puede considerar como ordinales cuando tenga menos de 5 categorías.
Intervalo
Cualitativas o métricas
Razón
Ejemplo
Nota: El lector se preguntará por qué este tipo de escala se repitió en las ordinales, a
estos últimos ejemplos se les conoce mejor como escala de Likert, como se había
indicado antes, y se le puede considerar como de intervalo cuando tenga de 5 a 7
categorías u ordinal, cuando tenga 4 o menos categorías. Es de intervalo porque al
comparar las respuestas de los encuestados se notará la diferencia mental entre ellas, por
lo que la escala viene siendo más que ordinal ya que se pueden encontrar distancias.
• En la siguiente tabla acomode las bebidas (agua, té, café, jugo, refresco y leche)
en cuanto a preferencia:
En este tipo de escala al momento de acomodar las bebidas y compararlas con las
respuestas de otras personas se nota la diferencia mental que los encuestados tienen en
cuanto a la preferencia.
¿Cree usted que el partido político ZWA tiene las reformas adecuadas?
Totalmente de acuerdo ❑ Totalmente en desacuerdo ❑
Otro tipo sería cuando el cero no tiene un significado de ausencia absoluta, por ejemplo:
La temperatura actual de la ciudad es ❑
Otro tipo sería cuando se tienen clases de igual o diferente amplitud, por ejemplo:
• ¿Qué ingreso percibe?
❑ Menos de $1 000
❑De $1 001 a $4 000
❑De $4 001 a $7 000
❑De $7 001 a $20 000
❑ De $20 001 a $40 000
En este tipo de escala, si su forma de codificar es una etiqueta entonces sería nominal,
pero para que se pueda manejar con técnicas que requieren información métrica se les
puede codificar a cada clase como una dummy; sin embargo, otros autores efectúan la
codificación en este tipo de intervalo poniendo el promedio de cada clase; por ejemplo, en
la primera clase se calcula el promedio de $0 y $1 000, el cual sería $500, ese valor de
500 es el que se almacena en el software; en la segunda se encuentra un promedio entre
$1 001 y $4 000, el cual sería $2 500.50 y ése es el número que se almacena; de igual
manera se procede en los siguientes ejemplos:
¿Cuál es su peso?
❑ De 45 a 55 kilos
❑ De 56 a 65 kilos
❑ De 66 a 75 kilos
❑ De 76 a 85 kilos
❑ De 86 en adelante
2. Razón. Es el nivel de medición más alto.1 Tiene todas las características del nivel de
intervalo: las distancias entre los valores son de un tamaño conocido y constante, las
categorías son mutuamente excluyentes y exhaustivas. Con este tipo de escala se
pueden obtener todas las estadísticas paramétricas comunes, así como las no
paramétricas, aunque no suelen sacar provecho de toda la información contenida en la
investigación. Las principales diferencias entre los niveles de intervalo y de razón son:
1
Es la escala mas precisa de todas.
• Los datos de nivel de razón tienen un punto cero significativo.
• La razón o cociente de dos números es significativo.
• Cuando se necesita un dato exacto hay que utilizar este tipo de escalas.
Ejemplo
• ¿Cuál es tu edad? ❑
• ¿Presión arterial? ❑
Niveles de medición
Nominal Ordinal Intervalo Razón
Asigna y clasifica los
✔ ✔ ✔ ✔
datos
Ordena los datos ✔ ✔ ✔
Marca distancia entre
✔ ✔
Propiedades
los datos
Tienen significado las
diferencias entre los ✔ ✔
valores
Tiene significado el
✔
cociente de los valores
Los datos tienen
origen (el cero tiene ✔
significado)
Tabla 1-3 Muestra las gráficas y estadísticas posibles en cada escala de medición
Niveles de medición
Nominal Ordinal Intervalo Razón
Pay ✔ ✔ ✔ ✔
Gráficas
Box plot ✔ ✔ ✔
Histograma ✔ ✔
Ojiva ✔ ✔
Tabla 1-3 Muestra las gráficas y estadísticas posibles en cada escala de medición
(continuación)
Niveles de medición
Nominal Ordinal Intervalo Razón
Frecuencia ✔ ✔ ✔ ✔
Conteo ✔ ✔ ✔ ✔
Mínimo ✔ ✔ ✔ ✔
Máximo ✔ ✔ ✔ ✔
Moda ✔ ✔ ✔ ✔
Propiedades
Mediana ✔ ✔ ✔
Media ✔ ✔
Rango ✔ ✔
Desviación estándar ✔ ✔
Varianza ✔ ✔
Cuantiles ✔ ✔ ✔
Sesgo ✔ ✔
Curtosis ✔ ✔
A grandes rasgos, éstas son las principales características y diferencias de las escalas de
medición, las cuales se necesita comprender para poder definir qué técnicas
multivariantes se van a aplicar a una investigación; a continuación se analizará su
clasificación, de acuerdo con ciertos factores y se explicarán a grandes rasgos con
ejemplos.
Funcionales o dependientes
Técnicas multivariantes
Funcionales o interdependientes
Efecto Causa
Donde a:
Y se le denomina variable dependiente.
X, se les denominan variables independientes con i = 1, 2, 3,..., K.
Regresión logística
Análisis de supervivencia