Lectura de Análisis de Datos Cuantitativos
Lectura de Análisis de Datos Cuantitativos
Lectura de Análisis de Datos Cuantitativos
Para ello es necesario que tengamos presente la estructura cuatripartita del dato científico, a saber: U.A
(unidad de análisis), V (variable), R (valor de la variable) e I (indicador). Es necesaria la comprensión
conceptual de lo que es una matriz de datos, a fin de que al ingresar la información no cometamos errores. Aun
en el caso de que trabajemos con algún software específico, como por ejemplo el Paquete Estadístico para
Ciencias Sociales –Statistical Package for Social Science (SPSS)-, el conocimiento de los conceptos que
desarrollaremos en este capítulo es fundamental. También podrá utilizarse una base de datos como Excel.
Observando la matriz podemos ver, en la primera columna, las unidades de análisis (U.A.) que se
corresponden con cada una de las encuestas numeradas. Procederemos a ingresar los datos de cada una de
las encuestas hasta completar toda la información, antes de continuar con la siguiente. El dato que
ingresaremos en cada espacio cuadrangular, de la columna respectiva, es el que corresponde a la marca que
el encuestado ha colocado en un casillero determinado, en la encuesta, correspondiente al indicador del valor
(R) que le corresponde en relación con cada una de las variables (V). Tendremos tantas filas numeradas como
el N de la muestra (número que corresponde a la totalidad de nuestra muestra.) y tantas columnas como
variables. Tengamos presente que el dato será el código correspondiente al casillero marcado. Por ejemplo:
Una vez que nuestra matriz de datos está completa, será el insumo imprescindible para comenzar a “resumir”
la información, mediante la construcción de tablas de frecuencias, a partir de las cuales comenzaremos la tarea
de “descripción” de nuestra población en estudio. Dichas tabulaciones, aportarán información sobre las
características de nuestras unidades de análisis, según los valores que asuman respecto de cada una de las
variables.
Esta fase de tratamiento y análisis de los datos, consiste en examinar minuciosamente cada uno de los tipos de
hipótesis, (véase parte II, capítulo IV); el examen de cada una, ilumina el examen de las restantes, y da como
resultado el plan de tratamiento y análisis. La función del mismo es explicitar los procedimientos que se le
aplicarán a la información producida, a fin de asimilar el dato obtenido al cuerpo teórico, sintetizando e
interpretando la información disponible.
a. La información obtenida (sea en forma de registros fotográficos, narraciones, estado de cosas, datos
numéricos, etc.) podrá ser traducida al lenguaje de las matrices de datos, es decir se podrá especificar: cuáles
son las U.A. sobre las que se informa, sus variables y valores.
b. Cada una de las variables incluidas en las matrices de datos deberá tener previsto un tratamiento específico
para resumir y caracterizar el comportamiento de los valores en el conjunto de las U.A.
c. Cada una de las U.A. deberá tener previsto un tratamiento para resumir y caracterizar las relaciones de las
variables entre sí.
d. Cada una de las matrices de datos deberá tener previsto un procedimiento de integración al sistema de
matrices de la investigación.
Hay algunos criterios que conviene tener presentes cuando realizamos el plan de análisis:
1) Análisis centrado en la variable o análisis vertical: las columnas se analizan separadamente; contienen
información sobre el comportamiento de nuestra población o muestra. En este caso, podremos realizar tablas
de distribuciones de frecuencias, y medidas de estadística descriptiva univariada (que serán analizadas más
adelante).
2) Análisis centrado en la unidad de análisis (análisis horizontal) en que se analizan las filas separadamente,
obteniéndose información sobre cada una de las U.A., en relación con el conjunto de variables. Ofrece la
posibilidad de establecer configuraciones de perfiles, tipologías y estructuras.
3) Análisis centrado en los valores (R): sintetiza información perteneciente a una única variable que está
desagregada en muchas dimensiones o subvariables, con el objetivo de construir pautas y tipologías. Es de
suma relevancia en los estudios cualitativos, pues permite idear criterios para clasificar información
exploratoria, y poner de relieve la heterogeneidad encontrada en la población, en relación con un atributo
determinado.
Ahora bien, para proceder al procesamiento, análisis e interpretación, es necesario que podamos distinguir los
diferentes niveles o escalas de medición de nuestras variables.
Escalas de medición
Medir significa asignar valores numéricos a una dimensión del objeto, siguiendo un determinado
procedimiento7. Podemos distinguir 4 (cuatro) escalas de medición: escala nominal, escala ordinal, escala de
intervalo y escala racional o proporcional.
Escala nominal: la medición a nivel nominal representa la forma más primitiva y se basa en la clasificación de
nuestras unidades de análisis con respecto a la posesión o no de una determinada característica o atributo. Por
ejemplo: género, religión, etc.
Nos permite afirmar si nuestras unidades de análisis, en relación con la variable estudiada, adoptan el mismo
valor o no.
Una escala nominal carece de orden, por lo cual, no es posible establecer ninguna relación métrica; la
consecuencia de ello es que solo pueden realizarse una pocas operaciones matemáticas: para cada clase de
atributo, se pueden calcular separadamente las frecuencias absolutas o relativas (porcentajes) que poseen;
podemos elaborar tablas de frecuencias absolutas y relativas, y medidas de posición o tendencia central.
Escala ordinal: las unidades de análisis pueden ser ordenadas de acuerdo a la intensidad, fuerza o tamaño de
la propiedad o variable de que se trate, según se presenta en cada U.A. Es decir, existe una graduación de los
atributos y por tanto puede considerarse que hay un aspecto cuantitativo. Aunque este nivel de medición
permite decir que una U.A posee un atributo en mayor grado que otra, sin embargo no es posible precisar en
qué medida es mayor. Solo podemos decir que es mayor. Tampoco aquí se pueden realizar operaciones
matemáticas de adición, sustracción, multiplicación o división.
Ejemplos de variables ordinales
Escala de intervalo (intervalar) y racional (de razón): se distingue de la escala ordinal en que es posible
indicar exactamente la separación entre dos puntos. Claro está, que es necesaria la existencia de una unidad
de medida que sirva para establecer la distancia entre dos puntos de la escala, lo cual hace posible ejecutar
operaciones de suma y resta.
Si además existe un punto natural “cero”, la escala será de razón, y en ese caso podrán realizarse todas las
operaciones estadísticas (además de las medidas de tendencia central), medidas de dispersión e inferencia.
Son las llamadas variables numéricas.
Ejemplos de variables numéricas
Edad
Ingresos
Calificaciones
Observemos que cuando nos referimos a operaciones matemáticas tales como sumar o restar, siempre lo
hacemos en relación con la variable, nos referimos a cómo medir diferentes tipos de variables. Por ejemplo, no
sería posible medir en términos numéricos el color de los ojos, a lo sumo podremos decir de una persona, que
los tiene de tal o cual color; en cambio, sí podremos medir matemáticamente la distancia que existe entre un
salario de 10.000 pesos y otro de 1.200 pesos. En el caso de variables construidas de forma ordenada de
mayor a menor, como por ejemplo, nivel social: alto-medio-bajo, podemos saber que existe una cantidad mayor
de ese atributo en algunas U.A., pero no podemos estimar en qué consiste esa cantidad. Tengamos presente
que variables de mayor nivel de medición, como las intervalares pueden ser construidas de forma ordinal, pero
no a la inversa.
En estos casos, la operación aritmética básica consiste en contar el número de casos al interior de cada
categoría y anotar sus tamaños relativos: por ejemplo, dentro de un grupo podemos hallar 25 mujeres, 34
varones. El objetivo, es poder establecer comparaciones entre diversos grupos. Para ello, se recurre a dos
medidas muy conocidas: proporciones y porcentajes.
La proporción
Los valores o categorías de las variables son mutuamente exclusivos y exhaustivos; en el caso de que
trabajemos con variables nominales, cada individuo puede ser puesto dentro de una categoría y solo una. La
proporción de casos en cualquier categoría está definida como el número de casos en la categoría dividido el
número total de casos. El valor de una proporción no puede ser mayor a la unidad (1).
Tomemos un ejemplo: si observamos el cuadro siguiente, vemos que los totales de unidades de análisis de
cada categoría, son diferentes, lo que dificulta su lectura. Si expresamos los datos en forma de proporciones,
podemos establecer una comparación directa.
Calculamos las proporciones, (redondeando) obteniendo el siguiente resultado, que nos permitirá ver
claramente si existen diferencias entre ambas escuelas, pues hemos normalizado la distribución:
Porcentajes
Los porcentajes pueden obtenerse directamente de las proporciones, multiplicando simplemente por 100.
Significa que calculamos el número de individuos que habría por categoría, si el total de los casos fuera 100,
permaneciendo inalterada la proporción en cada categoría: el total de los porcentajes sumará 100. Los
porcentajes son de empleo más frecuente que las proporciones. El segundo cuadro podría haber expresado lo
mismo en términos de porcentajes. Usualmente, los porcentajes se dan hasta el primer decimal, redondeando
hacia arriba a partir de 5.
A la izquierda tenemos las frecuencias absolutas y a la derecha los porcentajes; los porcentajes de cada
columna han sido calculados sobre el total de la misma, es decir el 100% está en la base de las columnas; las
últimas dos columnas son los totales de frecuencias absolutas de las filas y los porcentajes de la derecha, han
sido calculados sobre el total de casos, a saber 219 (el N o número total de casos que componen la muestra).
Podríamos encontrarnos con el caso siguiente: contar solamente con el total de cada columna y los
porcentajes, pero no con el número de casos de cada categoría. En tal caso: ¿sería posible calcularlos
realizando un promedio de los porcentajes de cada columna? La respuesta es no, pues los totales de
frecuencias de las columnas difieren. No lo sería, si los totales fueran la misma cantidad de casos, por ejemplo,
131 en cada columna.
El procedimiento correcto consiste en obtener las frecuencias absolutas multiplicando el número total de casos
de una columna por la proporción de cada categoría, por ejemplo: 131 x 0.367 = 48
Siempre que se realice la lectura de un cuadro, hay que examinarlo bien para ver en qué sentido se han
calculado los porcentajes. Por convención, se acostumbra a colocar la variable independiente en la horizontal y
la dependiente en la vertical por lo cual, en ese caso, los porcentajes sumarán 100 hacia abajo, y las
comparaciones se harán de izquierda a derecha. Al computar los porcentajes que suman 100 hacia abajo, en
realidad estamos normalizando los tamaños de los casos por columna, es decir estamos controlando aquellos
factores que afectan al tamaño de las muestras.
Razón
La razón de un número A con respecto a otro número B se define como A dividido B. A es el numerador, B el
denominador. Si tenemos 420 matriculados, 360 no matriculados, la razón de matriculados a no matriculados
es 420/360: 1,16
A diferencia de la proporción, la razón puede tener un valor superior a 1. Generalmente, la razón se reduce a
su expresión más simple eliminando en el numerador y el denominador los factores comunes, por ejemplo:
razón matriculados a no matriculados: 42:36. También se la suele expresar con el resultado de la división como
numerador, y la unidad como denominador, por ejemplo 1,16 a 1, resultado de dividir 42/36.
Las razones se usan para referirse a casos en que A y B son categorías separadas y distintas; la proporción
(que son un tipo especial de razón) representa cantidad de casos, según las categorías de una misma variable.
A los fines descriptivos existen otras mediciones como las medidas de tendencia central o medidas de posición:
la media (o promedio), la mediana y la moda.
Cuando nos encontramos con tablas de distribución de frecuencias de variables nominales, solo podrá
calcularse la moda; para obtener la mediana es imprescindible tener variables de nivel de medición ordinal, por
lo menos. En el caso de escalas de intervalo, conviene calcular la media o promedio antes que la mediana o la
moda. El lector podrá ir precisando estos conceptos, a medida que desarrollamos el capítulo.
Escalas de intervalo
En los casos de porcentajes, proporciones y razones, solo teníamos que contar la cantidad de casos de cada
categoría, y normalizar. Las categorías ya estaban definidas.
En el caso de los datos de una escala intervalar, hay que decidir cómo categorizar, ya que por lo general, los
datos están distribuidos de modo continuo, por ejemplo, edad: 15- 16- 16- 17- 15- 15- 15-15- 14- 16- y así
hasta completar las edades registradas por todos los sujetos de la muestra. El paso correspondiente, si fuese
necesario, es la construcción de categorías, es decir, establecer los intervalos en los que distribuiremos los
datos continuos.
Construcción de intervalos
Pese a que hay fórmulas matemáticas que pueden guiar decisiones respecto al número de intervalos a utilizar,
la mejor decisión se basará en el sentido común, es decir, en comprender los casos cuyos valores puedan
considerarse para fines prácticos, como semejantes. Si los intervalos son pocos, se pierde información, pero si
son demasiados, la misma se hace confusa. En ocasiones suele recurrirse a intervalos abiertos: por ejemplo, si
consideramos cantidades de alguna moneda, podríamos utilizar un intervalo abierto del tipo $50 o más. En ese
caso, se pierde información porque es imposible saber cuál es el límite superior, esto es, a qué corresponde
ese “más”. El investigador evaluará la pertinencia de usar intervalos abiertos, pues dependerá de cuán
necesario sea el dato completo para esa investigación en particular.
Los intervalos tienen límites verdaderos de manera que no se intercepten las distintas categorías: por ejemplo:
15 a 19,9 y 20 a 24,9. En la práctica, siguiendo las reglas del redondeo, cuando el porcentaje es ligeramente
superior a 19,95 se redondea a 20 y cuando no alcanza a 19,95 se redondea en 19,9.
La posición o tendencia central de una distribución de frecuencias se refiere al lugar donde se centra la
distribución. Si tenemos las siguientes distribuciones:
En el supuesto que se trataran de notas de respectivos grupos de estudiantes, la posición indicará un valor
típico de la distribución alrededor del cual, el resto de los valores tienden a agruparse, como es el caso de la
media.
La media aritmética
Hay dos medidas de tendencia central empleadas en el caso de las escalas intervalares: la media aritmética y
la mediana. La más común es la media (o promedio) que consiste en la suma de todos los datos dividida por el
número total de casos comprendidos. Para indicar la media, generalmente se usa el símbolo X:
La mediana
Esta medida localiza la posición del caso medio, cuando los datos se han ordenado de mayor a menor. Este
tipo de medida se suele llamar medida de posición, porque permite localizar un caso típico o atípico en relación
con los otros individuos.
La mediana divide habitualmente el total de los datos en dos mitades, una por encima del caso medio, y otra
por abajo del mismo. Si el número de los casos es impar, la mediana será simplemente el caso impar. Si es
par, no habrá caso central y cualquier número entre los valores de los dos casos centrales tendrá la propiedad
de dividir la muestra en dos grupos iguales. En función del ejemplo siguiente, tomaremos como valor único de
la mediana, la media aritmética de los dos datos centrales:
Si se diera el caso de que nuestra distribución fuese par y tuviéramos un valor más, por ejemplo, 55, las
marcas centrales serían: (69 + 72) % 2 = 70,5.
Observando el cuadro podemos ver en forma detallada el procedimiento para realizar dicho cálculo. Hemos
multiplicado la cantidad de casos de cada intervalo por los puntos medios de cada uno, obteniendo un subtotal
por fila, que equivale al total de ese intervalo. Esos subtotales deberán ser sumados y divididos por la suma de
todos los casos de todos los intervalos y se obtendrá la media de casos agrupados.
Este tipo de cálculo puede necesitarse en caso de datos de censos, en que generalmente podemos tener una
información como la siguiente: existe cierto número de personas que tienen entre 0 y 4 años, pero no sabemos
que edad tiene exactamente cada unidad de análisis.
Moda
La moda o modo de una distribución de números es aquel valor que se presenta u ocurre con la mayor
frecuencia. Es decir, la moda es el valor más común de la distribución. Puede no existir en una distribución o
bien puede no ser única. Cuando encontramos que existe más de un valor que aparece con mayor frecuencia,
nos hallamos ante una distribución.
Podemos establecer una diferencia central: la media resulta afectada por el cambio de los valores extremos, en
tanto que la mediana permanece inalterada, a menos que cambie el valor del caso medio. Esta diferencia hace
que la medida más usada en escalas intervalares, sea la media.
Las medidas de tendencia central concentran mayormente el resumen de los datos, ya que como hemos
mencionado, aportan una descripción del grado de tipicidad de nuestra muestra. No obstante, siempre que
estemos trabajando con escalas intervalares, podría resultarnos necesario obtener otro tipo de medidas que dé
cuenta de la heterogeneidad de la muestra; en este caso, existen medidas que dan cuenta de la “dispersión”
que existe en nuestras distribuciones9. Realizaremos un abordaje sintético de las siguientes medidas de
dispersión: recorrido, desvío medio y desvío estándar. El lector podrá profundizar, si así lo requiere, con el
recurso de las lecturas complementarias sugeridas.
Recorrido: se trata de la medida más simple y consiste en la diferencia entre la marca más alta y la más baja.
Por ejemplo: tomemos los datos ya trabajados 86-81-72-69-57. El recorrido se calcula mediante el cálculo de la
diferencia entre 86 y 57= 29.
Desvío medio: podría ser relevante tomar las desviaciones de cada dato con respecto a alguna medida de
tendencia central, y calcular luego una especie de promedio de dichas desviaciones, con el objeto de controlar
el número de casos comprendidos. Generalmente, se utiliza la media (aunque es posible también utilizar la
mediana o la moda. Si sumáramos simplemente las desviaciones respecto de la media, el resultado sería
siempre cero, ya que las diferencias positivas y negativas se compensan. Por este motivo, es necesario
deshacerse de los signos negativos. Podemos recurrir a dos métodos: 1) ignorar los signos y tomar los valores
absolutos de las diferencias; 2) cuadrar las diferencias.
Estos dos métodos, nos llevan a las dos medidas que estamos examinando: la desviación media y la estándar.
La desviación media se define como la media aritmética de las diferencias absolutas de cada marca con
respecto a la media. Por ejemplo: la media de 72, 81, 86, 69 y 57 es 73. Si sustraemos 73 de cada uno de
dichos números, ignorando los signos, y luego, adicionamos los resultados y dividimos por la cantidad de casos
(datos).
Podemos decir que, el promedio de los datos, difiere de la media en 8.4. No obstante, es más conveniente por
su utilidad, en cuanto a las posibilidades interpretativas, el uso de la Desviación estándar.
Desvío estándar: esta medida puede ser definida como la raíz cuadrada de la media aritmética de las
desviaciones cuadradas con respecto a la media: su símbolo es “s”.
El procedimiento consiste en tomar la desviación de cada marca con respecto a la media, elevamos al
cuadrado cada diferencia, sumamos los resultados, dividimos por el número de casos y extraemos la raíz
cuadrada. Siguiendo con el ejemplo anterior:
Este tipo de medida es de más difícil interpretación, no obstante, podemos decir que cuanto mayor es la
dispersión alrededor de la media, tanto mayor es la desviación estándar. Sirve para poner de manifiesto los
casos extremos muy frecuentes. Si estos fueran unos pocos, resultaría una medida engañosa.
Fundamentalmente, esta medida es útil cuando trabajamos con la curva normal
El científico social busca relaciones entre variables, es decir, entre distintos tipos de fenómenos. El tipo de
relación posible es en términos de incremento de la frecuencia de la presencia de uno de los fenómenos,
conjuntamente con el otro u otros.
En términos estadísticos, la presencia de las variables propuestas como explicativas, aumenta la probabilidad
de acaecimiento de aquello que se procura explicar.
La relación puede ser negativa, cuando al crecer una variable la otra decrece, o positiva, cuando crecen o
decrecen conjuntamente.
Una forma de expresar las hipótesis en forma estadística son los cuadros de contingencia, que muestran la
relación entre dos o más variables. Se aconseja no construir cuadros que superen la inclusión de tres o cuatro
variables. En estos dos últimos casos la tercera y cuarta variable entran como control.
El cuadro en tanto expresa una hipótesis, ha de reflejar la función que cada variable cumple en ella.
Convencionalmente la variable independiente (o más independiente) se coloca arriba. Cuando interviene
también una tercera variable de control, esta va colocada debajo de la Independiente; en el caso de una cuarta
variable de control, va al costado, abriéndose a partir con la dependiente.
Incluida una tercera variable de control el cuadro se “abre” del modo en que se ilustra.
Los cuadros suelen presentarse con las frecuencias absolutas y los porcentuales (frecuencias relativas) y con
un título suficientemente claro de manera que exprese la hipótesis que se contrasta.
Lectura de cuadros
ACTIVIDAD
ACTIVIDAD
En equipos colaborativos elaborar un esquema del procesamiento de los datos desde el
En equipos colaborativos elaborar un esquema del procesamiento de los datos desde el
enfoque cuantitativo.
enfoque cuantitativo.