Conceptos Generales Estadistica
Conceptos Generales Estadistica
Conceptos Generales Estadistica
1
Unidad 1. Conceptos Básicos de Estadística.
La Estadística es una ciencia que estudia las características de un conjunto de casos para hallar en ellos
regularidades en el comportamiento, que sirven para describir el conjunto y para efectuar predicciones.
La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un
conjunto de objetos, personas, procesos, etc. A través de la cuantificación y el ordenamiento de los datos
intenta explicar los fenómenos observados, por lo que resulta una herramienta de suma utilidad para la
toma de decisiones.
Bajo este contexto, la Estadística se divide en dos áreas: Estadística Descriptiva y Estadística
Inferencial.
Mucha gente piensa que la Estadística no tiene nada que ver con otras disciplinas que no sean las
ingenierías y economía. Otros nunca le encuentran aplicaciones útiles, y por eso tampoco les gusta.
Pero, en realidad tiene infinitas aplicaciones en todo el conocimiento adquirido por la humanidad,
partiendo ante todo, lo relacionado con las ingenierías, economía, las ciencias biológicas, ciencias
sociales e incluso en algunas ramas del área Jurídica. Y, en definitiva, casi todos los campos de las
2
ciencias emplean instrumentos estadísticos de importancia fundamental para el desarrollo de sus
modelos de trabajo.
En nuestros días, la estadística se ha convertido en un método efectivo para describir con exactitud los
valores de los datos económicos, políticos, sociales, psicológicos, biológicos y físicos, entre otros, y
sirven como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico no
consiste ya sólo en reunir y tabular los datos, sino el proceso de interpretación de esa información a
través de modelos estadísticos-matemáticos, aumentando el alcance de las aplicaciones de la estadística,
esto se ha logrado, gracias al desarrollo de la teoría de probabilidad.
1. La Estadística en el Periodismo
En general, los periodistas además de dedicarse al ámbito de la noticia, realizan crónicas y estudios de
investigación, que nos entregan preguntas y respuestas frente a determinados sucesos o situaciones de
interés público. Algunos de los estudios más frecuentes realizados por los periodistas son sobre
alcoholismo, enfermedades, sexualidad, delincuencia, política, etc. Para ello, hacen uso de las encuestas
u otros instrumentos técnicos de medición propios de la estadística, a través de dichos estudios es
posible conocer la opinión de la gente y con ello informar a la opinión pública, a través de los medios de
comunicación, desde donde las autoridades pertinentes e interesadas en estos estudios pueden adoptar
las medidas correctivas, si es el caso. Tal es así, que la estadística forma parte importante del periodismo
investigativo.
2. La Estadística en la Política
Conocidas son las famosas encuestas de tipo político, que entregan una orientación de la intención de
voto, de la aceptación de un candidato, del impacto de un programa o proyecto de estado, etc. de una
muestra estadística representativa, sobre la opinión de las personas en un tiempo determinado, teniendo
esta herramienta una gran confiabilidad. Así es que el uso de la estadística es imprescindible para
determinar caminos a seguir para los candidatos de elección popular.
3. La Estadística en la Publicidad
Cuando las grandes marcas trasnacionales y/o nacionales como Coca-cola, Pepsi, Nice, Adidas,
Laboratorios López, etc. nos llenan de slogans, música y colores en sus comerciales, lo único que buscan
es que la gente adquiera los productos y/o servicios que ofrecen.
Se dedican, entonces, a realizar las llamadas “campañas publicitarias”, y, antes de lanzar una campaña,
hacen un estudio de mercado para encontrar las mejores alternativas posibles a fin de lograr el éxito de
ventas deseado. Estos estudios son de carácter estadístico, es decir, hacen un diseño muestral y
seleccionan una muestra para inferir las características de la población.
3
4. La Estadística en la economía y las finanzas.
En la administración es una herramienta del control, como parte del proceso administrativo (o lo que es
lo mismo: planeación, organización, dirección y control) ya que la estadística ayuda a recolectar,
estudiar y al final interpretar los datos que obtienen al terminar el proceso administrativo, retroalimenta
con esta información y al final se observa en que pueden mejorar y que se está haciendo bien.
En la mercadotecnia es una herramienta muy importante cuando tienes la necesidad de trabajar con
datos de muestreo para conocer los gustos y preferencias de las personas. Igualmente en la auditoria
administrativa cuando recabas datos para conocer en que puede mejorar una organización. En pocas
palabras te puede servir en cualquier área de una organización debido a que muestra los resultados de las
actividades que bienes realizando.
El profesional del seguro de vida ha de ser capaz de asignar primas suficientes para cubrir las cantidades
que habrá de pagar la compañía en el caso de muerte del asegurado. En consecuencia, la predicción
adecuada de las probabilidades de muerte constituye uno de los ejes centrales de la reducción del riesgo
que se asume. Por ello, el objetivo de la Estadística de Seguros es una presentación exhaustiva de los
métodos disponibles para ajustar tablas de mortalidad y tablas de seguros no vida, ejemplo,
aseguramiento de vehículos, viviendas, etc.
Por otra parte, algunas de las aplicaciones concretas de la Estadística en el sistema bancario son las
siguientes:
Sistemas de concesión de tarjetas de crédito y fijación de su límite.
Sistemas de estimación del potencial económico de los clientes.
Definición de tipologías comerciales de clientes.
Determinación del público objetivo en campañas comerciales.
Modelización del riesgo según las características de los clientes.
Aplicación de la teoría de colas para brindar un servicio de calidad.
Finalmente, es de mucha utilidad la técnica de minería de datos para el análisis de bases de datos del
sistema bancario.
4
6. La estadística en ciencias humanas y sociales
La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias, en buena
medida se basa en el manejo de recursos estadísticos como elementos indispensables para llegar a
conclusiones aceptables por el resto de la comunidad científica. Dada la peculiaridad de su objeto de
estudio, inabordable en la mayoría de los casos sino es a través de perspectivas complejas de relación
entre variables, la atención de los investigadores en las ciencias humanas y sociales se concentra cada
vez más en la llamada Estadística Multivariante (Análisis Cluster, Factorial, Discriminante, etc.).
Las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos en
informática y aplicaciones estadísticas, por ejemplo, en El Salvador, se ha elaborado el Mapa de
Pobreza, donde se ha interrelacionado una gran variedad de variables de diferentes áreas: Educativas,
Económicas, Salud, entre otras. También, se ha hecho investigación sobre los factores que están
asociados al rendimiento académico de los estudiantes, finalmente, se han utilizado diferentes técnicas
para el análisis de los resultados académicos de los estudiantes.
Las ciencias sociales: es un pilar básico del desarrollo de la demografía y la sociología aplicada, lo que
conlleva a:
Definición de indicadores de fenómenos sociales.
Medición de constructos o variables no directamente observables (la satisfacción, la inteligencia,
...)
Medición de los efectos entre constructos no observables para establecer políticas sociales.
Estudio de la evolución de la demografía.
Estudios sociales sobre la integración de la población inmigrada.
Fenómenos sociales como las pandillas, criminalidad, delincuencia, contaminación, entre otros.
Por otra parte la producción química tiene su costo económico y financiero que también requiere mucho
uso de estadística, por ejemplo, si no se elabora un buen diseño experimental, se necesitarán muchas
réplicas para validar una formulación química.
5
8. La estadística en Ciencias biológicas.
En el área de las ciencias biológicas, interesa estudiar el comportamiento de ciertas plantas y sus cruces
a fin de determinar cómo se relacionan genéticamente los padres con los hijos, hablando de Genotipo y
Fenotipo. En esta categoría es también donde se realizan los mayores avances de la humanidad, en
descubrimientos. Cada año se descubren miles de fórmulas científicas que relacionan fenómenos de la
naturaleza con modelos matemáticos.
Los científicos se dedican a realizar estudios estadísticos, recogiendo datos y muestras, investigando el
tiempo de reproducción de un virus, el comportamiento migratorio de algunas aves o insectos, además
de factores de tamaño y volumen del crecimiento de ciertas especies de animales o vegetales. Todo esto
funciona con la idea de recopilar información, muestrear ciertas áreas para ver cómo se han comportado
algunas aves, por ejemplo, se pueden dibujar o simular curvas que se supone que son relativamente
parecidas al comportamiento migratorio de aves. Con esta herramienta se podrían determinar también
las épocas de mayor probabilidad de contagio, diseminación de algún virus o bien enfermedades
transmitidas por insectos.
Algunas aplicaciones concretas en esta área son: Determinación del tamaño de poblaciones naturales en
una región; efectividad de la utilización de barreras naturales (filas de árboles plantados en los límites
del terreno) como medio de prevenir las plagas de insectos o aves sobre las plantaciones y así disminuir
la utilización de pesticidas: y, determinación de los niveles óptimos de utilización de los fertilizantes.
Obviamente, en esta área es donde más se hace usos de la teoría de Diseños de Experimentos.
Permite establecer pautas sobre la evolución de las enfermedades y los enfermos, los índices de
mortalidad asociados a procesos morbosos, el grado de eficacia de un medicamento, etcétera.
Bajo este conjunto de ideas, se ha presentado un panorama de la utilidad de la estadística, haciendo un
recorrido por diversas áreas del conocimiento humano, con el fin, de conocer como se relacionan con las
diversas ciencias, formando una sola verdad. Evidentemente, existen, muchas disciplinas donde se aplica
la estadística, que no han sido consideradas en este apartado, por ejemplo, las ingenierías, la pintura, la
música, etc. Finalmente, es de resaltar que en todos los temas donde se analice información está presente
la estadística.
POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas características
comunes observables en un lugar y en un momento determinado. Cuando se vaya a llevar a cabo alguna
investigación debe de tenerse en cuenta algunas características esenciales al seleccionarse la población
bajo estudio. Entre éstas tenemos:
6
Homogeneidad - que todos los miembros de la población tengan las mismas características según las
variables que se vayan a considerar en el estudio o investigación. Por ejemplo, si se fuera a investigar la
incidencia de la drogadicción entre jóvenes mujeres adolescentes, entonces hay que definir claramente
las edades que comprenden la adolescencia y cuando se seleccione la población asegurarse de que todas
las personas entrevistadas sean de la edad determinada y del sexo femenino. (La adolescencia se define
operacionalmente como el periodo comprendido de edad que fluctúa entre 12 y 21 años.)
Tiempo - se refiere al período de tiempo donde se ubicaría la población de interés. Determinar si el
estudio es del momento presente o si se va a estudiar a una población de cinco años atrás o si se van a
entrevistar personas de diferentes generaciones.
Espacio - se refiere al lugar donde se ubica la población de interés. Un estudio no puede ser muy
abarcador y por falta de tiempo y recursos hay que limitarlo a un área o comunidad en específico.
Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y cuán
representativo se quiera que sea el estudio de la población, en este sentido, la muestra puede ser:
Aleatoria - cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser incluido.
Un procedimiento de extraer una muestra aleatoria de una población finita es: enumerar todos los
elementos que conforman la población, escribir esos números en papelitos y echarlos en una urna o
bolsa mezclarlos bien removiéndolos y sacar uno a uno tantos como lo indique el tamaño de la muestra.
En este caso los elementos de la muestra lo constituirán los elementos de la población cuyos números
coincidan con los extraídos de la bolsa o urna.
Al realizar un muestreo probabilística nos debemos preguntar ¿Cuál es el número mínimo de unidades
de análisis (personas, organizaciones, capitulo de telenovelas, etc), que se necesitan para conformar una
muestra n que me asegure un error estándar menor que 0.01 ( fijado por el muestrista o investigador),
dado que la población es aproximadamente de N elementos.
En el tamaño de una muestra de una población se debe tener presente la varianza poblacional, error
máximo permisible prefijado (diferencia del parámetro y estimador), con un nivel de confianza de 1 - a .
Simbólicamente se refiere a lo siguiente: P �
�
X - m < d �= 1 - a , bajo este contexto podemos utilizar la
�
fórmula:
7
Ejemplo. Se desea estimar la estatura promedio de los estudiantes de la asignatura de Tratamiento de la
Información Estadística. Se sabe que la estatura de un estudiante es una variable aleatoria con
distribución normal. Determine el tamaño de muestra aleatoria necesaria para garantizar una
probabilidad igual a 0.95 de que el estimador y el parámetro se diferencien en menos de 10cm.
Solución.
Datos conocidos.
d= 10cm
Calcular: s ,
Z a =1.96
1-
2
Determinar:
k
El número determinado de elementos muestrales es: n = �ni , donde ni es el número de elementos en el
i =1
estrato i=1, 2, …, k . No se entrará en detalle del cálculo del tamaño muestral, ya que supera el alcance
de esta asignatura.
El muestreo es indispensable para el investigador ya que es imposible entrevistar a todos los miembros
de una población debido a problemas de tiempo, recursos y esfuerzo. Al seleccionar una muestra lo que
se hace es estudiar una parte o un subconjunto de la población, pero que la misma sea lo suficientemente
representativa de ésta para que luego pueda generalizarse con seguridad de ellas a la población.
El tamaño de la muestra depende de la precisión con que el investigador desea llevar a cabo su estudio,
pero por regla general se debe usar una muestra tan grande como sea posible de acuerdo a los recursos
que haya disponibles. Es de especificar que para cada método de muestreo existen fórmulas para
determinar el tamaño de muestra.
8
1.3 Unidad de estudio y unidad de muestreo
Personas
Grupos humanos
Poblaciones completas
Unidades geográficas determinadas
Eventos o interacciones sociales (enfermedades, accidentes, casos de infecciones
intrahospitalarias, etc)
Entidades intangibles, susceptibles de medir (exámenes, días, camas)
El tipo de análisis al que se someterá la información es determinante para elegir la unidad de análisis.
Por ejemplo, si el objetivo es dar cuenta de la satisfacción del usuario de un servicio médico, la unidad
de análisis natural es el paciente atendido, o la persona que se atiende en ese servicio médico. Si el
objetivo es dar cuenta de la satisfacción del alumno sobre el desempeño docente, la unidad de análisis es
el alumno que recibe clases con el docente evaluado.
VARIABLES
Las variables son las características observables de un objeto, problema o evento que se puede describir
según un esquema de medición bien definido. Cada rasgo o aspecto de una población constituye una
variable. La edad de unas personas, su sexo, color de su piel, nacionalidad, su nivel de motivación,
niveles de ansiedad, el número de nacimientos, número de matrimonios, frecuencia de suicidios,
estatura, peso, niveles de inteligencia, actitudes, entre muchas otras.
Las variables pueden adquirir diferentes valores o clasificarse en diferentes categorías según la
naturaleza o tipo de estudio que se lleve a cabo. Entre éstas tenemos las siguientes clasificaciones:
9
VARIABLES CUALITATIVAS - son aquellas que se expresan en forma verbal como categorías o
atributos. Por ejemplo, el sexo, color, afiliación política, nacionalidad, motivación, área académica o
profesión de una persona.
VARIABLES CUANTITATIVAS - son las que varían en términos de cantidad y se registran o expresan
en forma numérica. Por ejemplo, edad, promedio académico, puntuaciones de exámenes, frecuencia de
delitos, temperatura, ingresos anuales o salarios por hora. Hay algunas características que pueden
clasificarse o expresarse como variable cuantitativa y transformarla a cualitativa o viceversa. Por
ejemplo, nivel de aprovechamiento académico estudiantes de 4:00 puntos, o estudiantes de 3:00 puntos y
así sucesivamente. El investigador puede expresar mediante una escala numérica el aprovechamiento
académico al clasificar a los estudiantes, como también puede clasificarlos como variable cualitativa en
las categorías de excelentes, buenos, regulares y deficientes.
VARIABLES DISCRETAS - son aquellas que sólo adquieren un valor absoluto o específico que nunca
cambian. Pueden ser cualitativas. Ejemplo: el sexo, nacionalidad, grupo étnico, entre otras.
VARIABLES CONTINUAS - que siempre son cuantitativas, son las que pueden asumir cualquier
valor. Por ejemplo, la edad, altura, peso, índice académico.
En el campo de la investigación, que se suele examinar las relaciones entre dos o más variables al
investigar un asunto o problema, se clasifican las variables como:
VARIABLES DEPENDIENTES - son las características o aspectos que se alteran por consecuencia del
control que ejerce el investigador sobre otras variables.
Estos dos últimos tipos de variables suelen darse más en estudios o investigaciones experimentales, pero
también podemos considerarlas en estudios descriptivos. Por ejemplo, en un estudio experimental se
investiga si un nuevo medicamento mejora las condiciones del sida. A tales efectos se seleccionaron 30
pacientes, de los cuáles 15 recibían el nuevo medicamento (grupo experimental) y otros 15 continuaban
con su tratamiento tradicional (grupo control). El nuevo medicamento viene a ser la variable
independiente porque es la que los investigadores controlan y que luego examinarán sus efectos en la
condición del sida, la cual viene a ser la variable dependiente, porque es la condición que se va alterar o
quedar afectada por el nuevo medicamento.
En un estudio descriptivo donde interesa saber si la clase social es factor determinante en el
aprovechamiento académico en las escuelas, entonces la clase social es la variable independiente y el
aprovechamiento académico la dependiente.
Una variable puede ser independiente en una investigación y dependiente en otra, todo dependerá de la
finalidad de la investigación. Por ejemplo, si se lleva a cabo un estudio para determinar cómo las
condiciones socio-económicas influyen a la drogadicción, en este caso, status socio- económico es una
variable independiente. Por el contrario, si se lleva a cabo una investigación para saber cómo la
drogadicción afecta las condiciones sociales y económicas, entonces, el status socio-económico
resultaría ser la variable independiente.
10
1.5. ESCALAS DE MEDICIÓN
Una escala es un esquema específico para asignar números o símbolos con el objeto de designar
características de una variable. Las escalas de medición comúnmente conocidas son: nominales,
ordinales, de intervalos y de razón. A continuación veamos los cuatro tipos de escalas de medición.
Las escalas nominales son aquellas donde se clasifican los objetos, personas o variables en categorías
cualitativamente distintas. Consiste simplemente en agrupar objetos en clases o asignar las personas de
acuerdo a alguna cualidad una vez que los objetos o personas posean características comunes que lo
hagan pertenecer a una categoría. Por ejemplo, todos los estudiantes que obtuvieron sobre 9 puntos
fueron clasificados como excelentes, los que obtuvieron menos de 8.9 pero más de 8.0 como muy
buenos y de 7.0 a 7.9 como buenos. En una redada de drogas se arrestaron 22 mareros, cuatro acusados
de homicidios, ocho acusados de violación y diez por extorciones.
Se pueden utilizar números en las escalas nominales, pero éstos no representan magnitudes absolutas.
Los números sólo se utilizan con el propósito de clasificarlos a determinada categoría. Por ejemplo, si
vas a comprar pintura azul en la ferretería te presentan una escala con diferentes tonalidades del color
azul y cada tonalidad posee un número, pero este número sólo es para facilitar al vendedor identificar el
color solicitado entre cientos de colores. De igual modo en muchas solicitudes se le asigna el número 1
al sexo masculino y número dos al femenino y esta clasificación sólo es para facilitar los cómputos y
manejos de información estadística, pero no quiere decir que los masculinos tengan más o menor valor
que las del sexo femenino. Los números que se utilizan para efectos de identificación en una escala
nominal nunca se utilizarán para llevar a cabo los procedimientos matemáticos de suma, resta,
multiplicación y división.
Las escalas ordinales son las que clasifican a las personas, eventos u objetos en una posición con
relación a cierto atributo, pero sin indicar la distancia que hay entre las posiciones. Cuando se asignan
números es sólo para indicar el orden de las posiciones de lo que se está clasificando. Por ejemplo, en un
determinado grupo escolar se decidió seleccionar los cinco estudiantes con el promedio más alto para
premiarlos con un viaje al Lago de Coatepeque y resultó que Esteban quedó tercero con un promedio de
8.90, seguido de Jorge con 8.88 y, luego Leticia con 8.75. Esteban como tercero se le asigna el número
tres, pero ésta designación numérica sólo indica su posición con relación a los otros cuatro alumnos.
Sabemos que Esteban tiene un mejor promedio que Jorge y que su promedio es superior que el de
Leticia. Sin embargo, no podremos saber hasta qué punto es mejor su promedio comparado con los
otros.
Con las escalas ordinales tampoco se pueden llevar a cabo las operaciones aritméticas de suma, resta,
multiplicación y división. La diferencia que puede haber entre unas personas u objetos en este tipo de
11
escala no necesariamente constituye unidades iguales o absolutas que puedan utilizarse para determinar
si el que tiene un segundo lugar posee el doble valor que el que queda en cuarta posición. Por ejemplo,
en un evento atlético de una carrera que no haya sido cronometrada, podemos saber quién llegó primero,
segundo y tercer lugar, pero no podemos saber con precisión la velocidad entre un corredor y otro. La
diferencia que hay entre el primero y el segundo no necesariamente es igual a la que hubo entre el
segundo y el tercero.
Una diferencia de cierta magnitud en una escala de intervalos significa lo mismo en todos los puntos de
la escala. Así por ejemplo, en los termómetros de grados Fahrenheit y centígrados que utilizan este tipo
de escalas, están divididos en unidades iguales, la diferencia en la temperatura entre 100 grados y 101
grados es equivalente a la diferencia entre 110 grados y 111 grados.
La numeración de los años en nuestro calendario utiliza también una escala de intervalos. Las
autoridades eclesiásticas y gubernamentales de la época decidieron arbitrariamente fijar como el año 1 el
del nacimiento de Cristo y como unidad de medida un lapso de 365 días. Por lo tanto, el lapso de tiempo
que estuvo Bill Clinton como presidente de los Estados Unidos desde 1993 – 2001 es igual al que
transcurrió George Bush desde 2001 – 2009.
La mayoría de las variables con las cuales se utiliza este tipo de escalas se refieren más a la ejecución de
tareas motoras, a las medidas de objetos y de aspectos fisiológicos.
Dos ejemplos de las escalas de razones y cocientes son: las medidas de la estatura y el peso. Si una
columna mide seis metros es el doble de alto de otra columna que mide tres metros. Si Enrique pesa 180
libras, entonces pesa el doble que María quién pesa 90 libras. Las razones de los números en estas
escalas tienen un determinado sentido, lo que hace posible que se interpreten los valores numéricos entre
las cantidades obtenidas de los objetos.
Además pueden llevarse a cabo las diferentes operaciones matemáticas.
12
RESUMEN: CARACTERÍSTICAS, EJEMPLOS Y LIMITACIONES
DE LAS ESCALAS DE MEDICIÓN
ESCALA LIMITACIONES
CARACTERÍSTICAS USOS/EJEMPLOS
Se clasifican las personas, eventos u Denominaciones religiosas, afiliación No se pueden precisar
Nominal objetos en categorías. político partidista, codificaciones en la diferencias cuantitativas entre
clasificación de objetos, pinturas, las categorías.
movimientos literarios.
Se clasifican u ordenan las personas, Orden de llegada de atletas en una Restringida para Identificar
Ordinal objetos y eventos en determinada carrera, puntuaciones de una prueba, diferencias relativas, pero no
posición. rangos militares, nivel de popularidad de precisa diferencias en cantidad
estudiantes en una escuela. absoluta entre personas u
objetos.
Escala que posee unidades de igual Temperaturas (Celsius y Fahrenheit), Razones no tienen sentido ya
Intervalo magnitud. El punto cero de la escala fechas del calendario, escala de que el punto cero es establecido
es arbitrario y no refleja la ausencia inteligencia. convencionalmente.
del atributo.
Escala que posee un punto Distancia, peso, estatura, tiempo Ninguna, excepto que su uso se
Razones cero absoluto e intervalos de igual requerido para realizar una tarea escolar. supedita mayormente a medir
magnitud. cualidades físicas más que para
la medición de aspectos
psicológicos.
El diseño de un experimento es la secuencia completa de los pasos que se deben tomar de antemano,
para planear y asegurar la obtención de toda la información relevante y adecuada al problema bajo
investigación, la cual será analizada estadísticamente para obtener conclusiones válidas y objetivas con
respecto a los objetivos planteados.
Un Diseño Experimental es una prueba o serie de pruebas en las cuales existen cambios deliberados en
las variables de entrada de un proceso o sistema, de tal manera que sea posible observar e identificar las
causas de los cambios que se producen en la respuesta de salida.
DISEÑO: Consiste en planificar la forma de hacer el experimento, materiales y métodos a usar, etc.
13
Guía de ejercicios N° 1. Conceptos básicos de estadística.
1. Contestar verdadero o falso y comentar su respuestas según sea el caso:
a) La Estadística es una ciencia que estudia y describe las características de un conjunto de casos.
b) La estadística inferencial generaliza los resultados de una muestra a los de la población total.
c) Durante los últimos dos días se ha informado de un total de cinco homicidios diarios en San
Salvador, este es un ejemplo de estadística inferencial.
d) A las medidas que se obtienen de una muestra se les da el nombre de parámetro.
e) En una muestra aleatoria ciertos elementos tienen mayor probabilidad que otros de ser
seleccionados.
2. Mediante ejemplos, explicar la diferencia entre la estadística descriptiva y estadística inferencial.
3. POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas
características comunes observables en un lugar y en un momento determinado. A partir de esta
definición enumere las características de una población.
4. Describir dos ejemplos de población.
5. Describir dos ejemplos de muestra de una población.
6. Definir al menos dos tipos de muestreo y dar ejemplos de aplicación de cada uno.
7. Se desea estimar la edad promedio de los estudiantes de la asignatura de Tratamiento de la
Información Estadística. Se sabe que la edad de un estudiante es una variable aleatoria con
distribución normal con desviación estándar de 6cm. Determine el tamaño de muestra aleatoria
necesaria para garantizar una probabilidad igual a 0.95 de que el estimador y el parámetro se
diferencien en menos de 5cm.
8. Establecer las diferencias entre la unidad de análisis y la unidad muestral.
9. Establecer las diferencias entre variables cualitativas y cuantitativas.
10. Definir al menos dos ejemplos de variables cualitativas y de variables cuantitativas.
11. Establecer las diferencias entre variables discretas y continuas.
12. Definir al menos dos ejemplos de variables discretas y de variables continuas.
13. Definir las siguientes escalas de Medición y presentar dos ejemplos de cada una de ellas:
Escala nominal
Escala ordinal
Escala de intervalo.
Escala de razón
14
Unidad 2. Distribuciones de frecuencias y sus representaciones
gráficas.
La estadística descriptiva permite organizar y presentar un conjunto de datos de manera que describan en
forma precisa las variables analizadas haciendo rápida su lectura e interpretación. Obviamente, la
materia prima de la Estadística Descriptiva la constituyen los datos, que son el resultado de las
observaciones y/o experimentos. Se denomina variable al carácter o fenómeno de la realidad objeto de
estudio. Las variables pueden ser de diferentes tipos, dependiendo de los datos que la forman.
Cualitativas o atributos
�
Variables �
Cuantitativas : Discretas o Continuas
�
Las variables cualitativas o atributos son aquellas que no toman valores numéricos. Describen diferentes
cualidades denominadas modalidades. Ejemplo: Sexo, estado civil, color de los ojos, etc. Las variables
cualitativas están formadas por datos que toman valores numéricos y pueden ser discretas, si sólo toman
un número entero de valores, y continuas, si pueden tomar cualquier valor real dentro de un intervalo.
Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribución de
frecuencias y b) la representación gráfica.
Supongamos que hemos recogido un conjunto de n datos englobados en una variable X. La tabla que
recoge de modo sistemático estos datos se denomina distribución de frecuencias. La Distribución de
Frecuencias (Simples o agrupadas en intervalos). Comúnmente llamada tabla de frecuencias, se utiliza
para hacer la presentación de datos provenientes de las observaciones realizadas en el estudio,
estableciendo un orden mediante la división en clases y registro de la cantidad de observaciones
correspondientes a cada clase. Lo anterior facilita la realización de un mejor análisis e interpretación de
las características que describen y que no son evidentes en el conjunto de datos brutos o sin procesar.
La siguiente tabla recoge las principales características de una distribución de frecuencias simple o no
agrupada.
15
Datos Frecuencias Absolutas Frecuencias Relativas
Simples Acumuladas Simples Acumuladas
x1 n1 N1 = n1 f1 = n1 / n F1 = N1 / n
x2 n2 N 2 = n1 + n2 f 2 = n2 / n F2 = N 2 / n
. . . . .
. . . . .
. . . . .
xk nk k
f k = nk / n Fk = N k / n
N k = �ni
i =1
Total k k
�ni = n
i =1
�f
i =1
i =1
La primera columna representa los distintos valores de esos datos y la segunda la frecuencia simple, es
decir, el número de veces que se ha observado el correspondiente valor; la tercera columna recoge la
frecuencia acumulada (número de veces que se han observado valores menores o iguales que el que
corresponde a dicha fila). Las frecuencias relativas se obtienen a partir de las frecuencias absolutas,
dividiendo por el tamaño de la muestra.
Cuando en la muestra existen muchos valores diferentes y mucha variabilidad se recomienda, aún a
costa de perder información, agrupar los datos en clases, en lo que se denomina distribución de
frecuencias agrupada en intervalos.
Total k k
�ni = n
i =1
�f
i =1
i =1
A cada uno de los intervalos se les denomina clase y al punto medio marca de clase. A efectos de cálculo
la marca de clase se elige como representante del intervalo. El número de clases en que se dividen los
datos no debe ser excesivo. A modo orientativo, el número de clases se puede obtener mediante la
siguiente fórmula empírica, llamada de Sturges:
�3 log( n) �
número de clases = �
�+
� (Tomar la parte entera)
�
�2 log(2) �
16
Ejemplo. Población de El Salvador, por sexo y edad.
Edad Hombre Mujer Total Edad Hombre Mujer Total Edad Hombre Mujer Total
< 1 51787 50097 101884 36 31398 40111 71509 72 8591 10717 19308
1 53230 51477 104707 37 31414 38801 70215 73 7461 9522 16983
2 55845 54261 110106 38 29639 37419 67058 74 8011 10030 18041
3 59752 57127 116879 39 29435 37454 66889 75 8067 9886 17953
4 62658 59659 122317 40 31769 39411 71180 76 7535 9745 17280
5 62274 59738 122012 41 24732 32964 57696 77 6897 8872 15769
6 69088 66249 135337 42 26840 34653 61493 78 5825 7123 12948
7 75310 72672 147982 43 24578 32639 57217 79 5334 6700 12034
8 71525 68511 140036 44 24299 31746 56045 80 5717 7089 12806
9 70953 68407 139360 45 24451 31422 55873 81 4124 5274 9398
10 74244 70664 144908 46 21989 29308 51297 82 3841 5220 9061
11 71744 69499 141243 47 22251 28713 50964 83 3438 4508 7946
12 74093 72835 146928 48 20682 26481 47163 84 3281 4378 7659
13 68251 66194 134445 49 20584 26241 46825 85 3263 4413 7676
14 71191 67632 138823 50 22897 28057 50954 86 3096 4286 7382
15 64523 63752 128275 51 17664 22874 40538 87 2750 3758 6508
16 61880 61630 123510 52 19081 24360 43441 88 1767 2358 4125
17 61255 61624 122879 53 17671 22344 40015 89 1595 2219 3814
18 57590 58584 116174 54 17962 22824 40786 90 1405 2091 3496
19 53136 56591 109727 55 17848 22561 40409 91 786 1143 1929
20 50243 55085 105328 56 17114 21361 38475 92 826 1206 2032
21 45994 51623 97617 57 16816 20974 37790 93 673 990 1663
22 46006 51429 97435 58 14462 17853 32315 94 559 869 1428
23 42864 49278 92142 59 15478 18608 34086 95 482 816 1298
24 42894 51126 94020 60 17461 19979 37440 96 416 674 1090
25 42616 50552 93168 61 12470 15424 27894 97 356 588 944
26 41993 50707 92700 62 13590 17093 30683 98 + 526 948 1474
27 43473 52214 95687 63 12274 15528 27802
28 39209 48076 87285 64 12412 15633 28045
29 39672 49378 89050 65 12802 15513 28315
30 41911 50744 92655 66 11774 14915 26689
31 33494 42933 76427 67 11864 14597 26461
32 35940 45312 81252 68 9694 12291 21985
33 33124 41990 75114 69 9647 12060 21707
34 33931 42870 76801 70 10861 13101 23962
35 34628 42848 77476 71 8525 10638 19163
Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.
Elabore una tabla de frecuencias agrupadas por edad.
17
1.1.2 Representación gráfica
Diagrama de Barras:
Para el caso de distribuciones de frecuencias no agrupadas en intervalos, el diagrama de barras es el
gráfico más empleado. Que se usa cuando se pretende resaltar la representación de porcentajes o
frecuencias de datos que componen un total. Una gráfica de barras contiene barras verticales que
representan valores numéricos. Las frecuencias están asociadas con categorías. Una gráfica de barras se
presenta de dos maneras: horizontal o vertical. El objetivo es poner una barra de largo (alto si es
horizontal) igual a la frecuencia. La gráfica de barras sirve para comparar y tener una representación
gráfica de la diferencia de frecuencias o de intensidad de la característica numérica de interés. Si en vez
de frecuencias simples utilizamos frecuencias acumuladas, tenemos el llamado diagrama de escalera.
Ejemplo.
La población según condición de ocupación del Municipio de Ayutuxtepeque se presenta en el siguiente
cuadro:
OCUPADOS DESOCUPADOS INACTIVOS Total
ÁREA URBANA 10966 2832 8531 22329
EL ZAPOTE 329 42 477 848
LOS LLANITOS 2410 227 2550 5187
Total 13705 3101 11558 28364
Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.
Elaborar un gráfico de barras para la población total de Ayutuxtepeque según su condición de ocupación.
Ejemplo. Con la información del VI Censo de Población y V de Vivienda, El Salvador, 2007, se han
clasificado las mujeres de El Salvador de 12 años y más, según el número de hijos varones, resultando
los siguientes datos.
18
N° Hijos Construir un gráfico de barras para el número de hijos varones de las mujeres
Varones Madres salvadoreñas.
0 278290
1 509469
2 339180
3 177050
4 92233
5 50916
6 27791
7 15004
8 7328
9+ 7366
Gráfico de sectores:
En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia. Consiste en
representar sobre un círculo los diferentes atributos, mediante un sector circular de ángulo proporcional
a la correspondiente frecuencia. El ángulo de cada sector circular se calcula multiplicando por 360º la
frecuencia relativa.
Los gráficos de sectores, también conocidos como diagramas de "tartas o pastel", se divide un círculo
en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de
círculo proporcional a su frecuencia absoluta o relativa. Si el número de categorías es excesivamente
grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto
la situación ideal es cuando hay alrededor de cuatro categorías. En este caso se pueden apreciar con
claridad dichos subgrupos.
En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia. Consiste en
representar sobre un círculo los diferentes atributos, mediante un sector circular de ángulo proporcional
a la correspondiente frecuencia. El ángulo de cada sector circular se calcula multiplicando por 360º la
frecuencia relativa.
Ejemplo.
La población según nivel de estudio del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro:
19
Histogramas y polígono de frecuencias.
El histograma y el polígono de frecuencias son las representaciones gráficas usadas para distribuciones
de frecuencias agrupadas en intervalos. El histograma se construye dibujando en cada clase un
rectángulo de base la amplitud del intervalo y de altura se representan las frecuencias. Si desde el
extremo superior de cada una de las barras que representan los intervalos de clase se hace una marca en
el punto medio y luego se unen los puntos por línea recta se obtiene el polígono de frecuencias.
El polígono de frecuencias se lleva hasta el eje horizontal en los extremos hasta los puntos que serían los
puntos medios si hubiera una clase adicional en cada extremo del histograma correspondiente. Esto
permite que el área total quede incluida. Es decir, el área total bajo el polígono de frecuencias equivale al
área bajo el histograma.
Ejemplo: Estatura de los estudiantes de clase (ejercicio práctico)
Ejemplo:
El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y 2008, para
los municipios de Soyapango, Ilopango y San Martín.
Grupos SOYAPANGO ILOPANGO SAN MARTÍN
de
edades Femenino Masculino Total Femenino Masculino Total Femenino Masculino Total
AÑO 2004
Total 15 167 182 12 78 90 11 42 53
AÑO 2005
Total 14 228 242 5 74 79 11 75 86
AÑO 2006
Total 16 246 262 15 69 84 6 48 54
AÑO 2007
Total 20 179 199 10 67 77 8 71 79
AÑO 2008
Total 10 128 138 9 66 75 7 54 61
Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo identificar el sexo,
no aparecen registrados en el cuadro anterior.
Utilizar la mejor representación gráfica para la información anterior (Diagrama de barras e histogramas)
20
Unidad 3. Medidas Características de una Distribución
Cuantitativa Empírica.
La media aritmética es la medida de posición más utilizada (esta muy influenciada por los valores
extremos de la variable). Viene definida como la suma de los datos divido por el número de ellos.
Dependiendo de la naturaleza de los datos que pretendemos promediar, será conveniente el uso de otro
tipo de medidas, como son la media geométrica (Todos los datos son positivos y hay mucha dispersión;
ejemplo: porcentajes, tasas de crecimiento, razones, números índices, interés anual, inflación, etc.) y la
media armónica (resulta poco influida por la existencia de determinados valores muy grandes que el
conjunto de los otros, siendo en cambio sensible a valores muy pequeños), cuyas fórmulas se presentan
en la siguiente tabla. Si a cada observación se le asigna un valor diferente, dado en forma de peso, y a
continuación se calcula la media, nos encontramos con una media ponderada. La moda de un conjunto
de valores es aquel valor que ocurre con más frecuencia. Si todos los valores son distintos, no hay
moda, por otra parte, un conjunto de datos puede tener más de una moda.
La G da una cifra de ganancia más conservadora porque no tiene una ponderación alta para la tasa de
7%.
21
La mediana.
La mediana de una distribución de frecuencia corresponde al valor, supuesto los datos ordenados de
menor a mayor, que deja a ambos lados el mismo número de observaciones. Para el caso de
distribuciones agrupadas en intervalos se utiliza una fórmula aproximada. Se comienza calculando el
intervalo donde se encuentra la mediana, para lo cual se calculan las frecuencias acumuladas, y se
escoge el primer intervalo cuya frecuencia acumulada sea igual o superior a n/2. A continuación se
aplica la fórmula:
n / 2 - N i -1
Mediana = Li -1 + Ci
ni
Dados una serie de valores X1,X2,X3...Xn ordenados en forma creciente, los cuartiles son los tres valores
que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El
primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de
la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres
cuartas partes (75%) de los datos.
Si se tiene una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:
El primer cuartil:
Quintiles
Se representan con la letra K. Su fórmula aproximada es i*n/5.
El primer quintil. Separa a la muestra dejando al 20 % de los datos a su izquierda.
El segundo quintil. Es el valor que indica que el 40 % de los datos son menores.
El tercer quintil. Indica que el 60 % de los datos son menores que él.
El cuarto quintil. Separa al 80 % de los datos inferiores del otro 20 %.
Deciles
22
Se representan con la letra D. Son 9 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de
los resultados. Su fórmula aproximada es i*n/10.
Es el decil i-ésimo, donde la i toma valores del 1 al 9. El (i*10) % de la muestra son valores
menores que él y el 100-(i*10) % restante son mayores.
Percentiles
Se representan con la letra C. Su fórmula aproximada es i*n/100.
Es el percentil i-ésimo, donde la i toma valores del 1 al 99. El i % de la muestra son valores
menores que él y el 100-i % restante son mayores.
Cuando los datos no están agrupados en intervalos los cuartiles, así como el resto de las medidas de
posición, tienen un valor claro, tal como se ha descrito anteriormente. Sin embargo, cuando tenemos una
agrupación de los datos ya no es tan sencillo realizar el cálculo. Sí que resulta claro ver en cuál de los
intervalos está el cuartil (quintil, decil o percentil) buscado, pero para calcular su valor aproximado
necesitaremos usar una fórmula. El cálculo es similar al de la mediana, hay que empezar calculando el
intervalo cuya frecuencia acumulada sea igual o mayor que el valor jn/k, para a continuación aplicar la
fórmula:
jn / k - N i -1
Q j ;k = Li -1 + Ci
ni
El rango estadístico, también llamado amplitud o recorrido, es la diferencia entre el valor máximo y el
valor mínimo en un grupo de números. Para averiguar el rango de un grupo de números:
Con el objeto de que no exista dependencia de los valores extremos, se introduce el recorrido
intercuartílico, que es la semidiferencia entre el tercer y el primer cuartil:
Q3 - Q1
R1 =
2
23
Se define también la desviación absoluta media como la media de los valores absolutos de las
diferencias de los datos a la media, es decir:
1 k
AM = �xi - x ni
n i =1
La varianza es una medida de dispersión que sirve para estudiar la representatividad de la media. Viene
definida como la media de las diferencias cuadráticas de las puntuaciones respecto a su media
aritmética:
1 k
( )
2
S X2 = � xi - x ni
n i =1
Una varianza “grande” es indicativa de que la media no es representativa, mientras que una varianza
“pequeña” indica que la media es un buen representante de los datos. Con el objeto de tener una medida
de dispersión similar a la varianza, pero que venga medida en las mismas unidades de la variable, se
define la desviación típica como la raíz cuadrada positiva de la varianza:
S X = Varianza
La relación entre la varianza de una variable X y la de una nueva variable definida como a+bX es:
S a2+bX = b 2 S X2
Por lo tanto, si a los datos de la distribución les sumamos una cantidad constante la varianza no se
modifica y si multiplicamos por una constante, la varianza queda multiplicada por el cuadrado de esa
constante.
En ocasiones puede interesar comparar la dispersión de dos muestras y la desviación típica no ser válida,
si las dos muestras tienen unidades diferentes. Para obviar este inconveniente se define el coeficiente de
variación:
Desviación Típica S
CV = = X
Media x
Este tipo de medidas permite conocer la forma de la distribución sin necesidad de recurrir a su
representación gráfica. Existen dos tipos de medidas de forma: Asimetría y curtosis. Para clasificar la
distribución según estas medidas, se establece en ambos casos una tipología de distribuciones. Una
variable se dice que es simétrica si al “doblar” la distribución respecto a un eje (centro de simetría), las
frecuencias coinciden. Caso contrario se dice que la distribución es asimétrica positiva o negativa,
24
dependiendo que la rama larga de la distribución se encuentra en el sentido positivo o negativo del eje de
las x. La medida más popular de asimetría es el coeficiente de asimetría de Fisher, que viene dado por:
1 k
( )
3
m �
n i =1
xi - x ni
g1 = 33 = 3/ 2
S � 1 k
( �
)
2
�
�
� xi - x ni �
n i =1 �
m � xi - x
n i =1
ni
g 2 = 44 - 3 = 2
-3
S �
1 k
( ) �
2
� � xi - x
n i =1
�
ni �
�
Que se interpreta del siguiente modo:
Si g2 = 0, la distribución es mesocúrtica o normal.
Si g2 > 0, la distribución es leptocúrtica o por encima de lo normal.
Si g2 < 0, la distribución es platicúrtica o por debajo de la normal.
1.1.6 Ejercicios.
1. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el nº de individuos que conviven en el
domicilio habitualmente. Las respuestas obtenidas han sido las siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5,
5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.
a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus
correspondientes acumuladas.
b) ¿Qué proporción de hogares está compuesto por tres o menos personas? ¿Qué proporción de individuos
vive en hogares con tres o menos miembros?
c) Dibuje el diagrama de barras de frecuencias y el diagrama en escalera.
25
2. Una entidad bancaria dispone de 50 sucursales en el territorio nacional y ha observado el número de
empleados que hay en cada una de ellas para un estudio posterior. Las observaciones obtenidas han sido: 12,
10, 9, 11, 15, 16, 9, 10, 10, 11, 12, 13,14,15, 11, 11, 12, 16, 17, 17,16,16, 15, 14, 12, 11, 11, 11, 12, 12, 12,
15, 13, 14, 16, 15, 18, 19, 18, 10, 11, 12, 12, 11, 13, 13, 15, 13, 11, 12.
a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus
correspondientes acumuladas.
b) ¿Qué proporción de sucursales tiene más de 15 empleados?
c) Dibuje el diagrama de barras y el diagrama en escalera correspondientes.
d) Agrupe en intervalos de amplitud 3 los valores de la variable, calcule su distribución de frecuencias y
represente su histograma y su polígono de frecuencias.
3. Los siguientes valores son los niveles de glucosa en sangre extraída a 100 niños en ayunas:
56 61 57 77 62 75 63 55 64 60
60 57 61 57 67 62 69 67 68 59
65 72 65 61 68 73 65 62 75 80
66 61 69 76 72 57 75 68 81 64
69 64 66 65 65 76 65 58 65 64
68 71 72 58 73 55 73 79 81 56
65 60 65 80 66 80 68 55 66 71
72 73 73 75 75 74 66 68 73 65
73 74 68 59 69 55 67 65 67 63
67 56 67 62 65 75 62 63 63 59
Marcas Ventas
Ducados 1,107
Fortuna 1,041
Marlboro 535
Winston (1) 333
Lucky Strike (1) 164
Chesterfiel 110
Otros marcas 725
5. Se ha realizado un estudio entre 100 mujeres mayores de 15 años y el número de hijos de las mismas. El
resultado ha sido:
26
Se pide:
a) Calcular el número medio de hijos, la mediana y la moda.
b) Calcular los cuartiles y el decil 7.
c) Analizar la dispersión de la distribución, interpretando los resultados.
d) Analizar la forma de la distribución calculando los coeficientes correspondientes. Comente los resultados.
6. La siguiente distribución expresa el número de vehículos vendidos durante un mes por cada uno de las 50
sucursales que una determinada firma tiene en El Salvador:
Se pide:
a) Media aritmética, mediana y moda. ¿Qué puede decir de la asimetría de la distribución con estos datos?
b) Desviación típica, Coeficientes de asimetría de Fisher y curtosis. Comente los resultados.
7. La siguiente tabla recoge la cifra de ventas (en miles de millones) y el número de empleados (en
miles) de las diez mayores empresas del sector de automóvil durante el año 1989:
8. Una empresa dedicada al cultivo y explotación de naranjos posee 5 fincas. La producción de naranjas
y el rendimiento medio por hectárea para cada una de las fincas están dados en la siguiente tabla.
Calcular el rendimiento medio por hectárea para el total de las 5 fincas.
Producción (Tm) Rendimiento (Tm/Ha)
Finca 1 15 9
Finca 2 5 2
Finca 3 20 10
Finca 4 8 4
27
Finca 5 30 20
Solución.
El rendimiento medio por hectárea en el total de la fincas vendrá dado por el cociente entre el total de la
producción y el total de hectáreas. Esta última cantidad la podemos calcular como cociente
producción/rendimiento en cada finca:
Total producción 15 + 5 + 20 + 8 + 30
RM = = = 8.07 Tm/hectárea.
Total hectárea 15 / 9 + 5 / 2 + 20 /10 + 8 / 4 + 30 / 20
Observe que la fórmula aplicada coincide con la media armónica de los rendimientos ponderados por la
producción de cada fila.
8. La primera etapa de un rally consta de 4 tramos cronometrados. En cada uno de los 4 tramos, un
determinado piloto ha alcanzado las siguientes velocidades medias:
Calcular la velocidad media total alcanzada por el piloto en la primera etapa del rally.
Solución.
La velocidad media total vendrá dada por el cociente entre el total de la distancia y el tota del tiempo:
Observe que la fórmula aplicada vuelve a ser la media armónica, de las velocidades ponderadas por la
distancia de cada tramo.
28
Unidad 4. Distribuciones Bivariadas
4.1 Distribuciones bidimensionales
Supongamos que en una población, y para un conjunto de n individuos, se miden dos caracteres X e Y:
( x1 , y1 ), ( x2 , y2 ),. . ., ( xn , yn )
En este caso tenemos una variable estadística bidimensional o distribución bidimensional de frecuencias,
la cual representaremos por (X, Y). Cuando se cuenta con una gran cantidad de datos, un modo de
presentar la distribución bidimensional es a través de una tabla de doble entrada de la forma:
Tabla de doble entrada
X/Y y1 y 2 ... yj ... yk Total
x1 n11 n12 . . . n1 j ... n1k n1+
x2 n21 n22 . . . n2 j ... n2 k n2 +
. . . . . .
. . . . . .
. . . . . .
xi ni 1 ni 2 . . . nij ... nik ni +
. . . . . .
. . . . . .
. . . . . .
xl nl 1 nl 2 . . . nlj ... nlk nl +
Total n+1 n+2 . . . n+ j ... n+ k n
Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de una dimensión.
En el caso de que las dos variables sean atributos, la tabla anterior recibe el nombre de tabla de
contingencia.
Distribuciones marginales de X e Y.
X ni + Y n+ j
x1 n1+ y1 n+1
x2 n2 + y2 n+2
. . . .
. . . .
. . . .
yk n+ k
29
xl nl +
Las distribuciones condicionadas permiten estudiar el comportamiento de una de las variables cuando la
otra permanece constante. Vienen dadas por:
Distribuciones condicionadas de X e Y.
X/Y= y j ni / j Y/X= xi n j /i
x1 n1 j y1 ni1
x2 n2 j y2 ni 2
. . . .
. . . .
. . . .
xl nlj yk nik
Ejemplo:
Se desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta
se presentan los resultados de un estudio de 100 explotaciones ganaderas, seleccionadas aleatoriamente
del censo agropecuario. Se proporcionan las frecuencias conjuntas del número de cabezas (en miles) de
cabras (X) y ovejas (Y) que poseen las explotaciones.
X\Y 0 1 2 3 4
0 4 6 9 4 1
1 5 10 7 4 2
2 7 8 5 3 1
3 5 5 3 2 1
4 2 3 2 1 0
a) Hallar las medias, varianzas y desviaciones típicas marginales.
b) Hallar el número medio de cabras condicionado a que en la explotación hay 2,000 ovejas.
c) Hallar el número medio de ovejas que tienen aquellas explotaciones que sabemos que no tienen
cabras.
d) Hallar la covarianza y el coeficiente de correlación entre ambas variables.
Solución:
X\Y 0 1 2 3 4 ni +
0 4 6 9 4 1 24
1 5 10 7 4 2 28
2 7 8 5 3 1 24
3 5 5 3 2 1 16
4 2 3 2 1 0 8
n+ j 23 32 26 14 5 100
30
a) La media de X es:
La varianza de X es:
S X = S X 2 =1.2355
Observe que la media muestral es un buen representante de los datos, ya que la desviación estándar no
es demasiado alta.
Para completar el literal a) debe obtenerse la media, varianza y desviación estándar para la variable Y.
b) El número medio de ovejas condicionado a que en la explotación hay 2,000 cabras, se obtiene
manteniendo fija la columna donde la variable Y es igual a 2. Esto es:
0*9 + 1*7 + 2*5 + 3*3 + 4* 2
(X /Y = 2 = ) 26
= 1.3077
1 n
S XY = �( xi - x )(y i - y ) =
n i =1
=-
(0 - 1.56)(0 - 1.46) * 4 + (0 - 1.56)(1 - 1.46) * 6 + . . . + (4 - 1.56)(3 - 1.46) * 1 + (4 - 1.56)(4 - 1.46) * 0
=
100
0.1876
Consideremos una variable estadística bidimensional (X, Y) donde X e Y son de tipo continuo y
suponemos que existe entre ellas algún tipo de relación, constatable mediante la correspondiente
representación gráfica. Pregunta: ¿Cómo de grande es la relación entre X e Y y cómo cuantificarla? El
coeficiente de correlación lineal es un valor que permite estudiar el grado de dependencia lineal
existente entre X e Y. Viene definido por:
31
1 n
S XY �( xi - x )( y i - y )
n i =1
r = =
S X SY 1 n 1 n
2
�
n i =1
( x i - x ) �
n i =1
( y i - y )2
-1 �r �1
De modo que valores de r cercanos a 1 indican una dependencia lineal y positiva entre las dos variables,
y valores de r cercanos a -1 indican dependencia lineal negativa. Cuando el valor de r está cercano a
cero, no existe dependencia lineal entre X e Y. Esto último puede ser, bien porque X e Y son variables
independientes, o bien porque la dependencia existente entre ambas variables es de otro tipo diferente al
lineal.
Los modelos de regresión lineal constituyen una poderosa herramienta para analizar la relación existente entre la pauta de
variabilidad de una variable aleatoria y los valores de una o más variables (aleatorias o no) de las que la primera depende o
puede depender. El modelo fundamental se esquematiza en la siguiente tabla.
32
Se trata en general de estudiar las posibles relaciones existentes entre la distribución de Y j y los valores de las X ij . A la
Y se le denomina generalmente la variable dependiente, mientras que frecuentemente a X i se les llama variables
independientes o exógenos del modelo, aunque se prefiere denominarlas variables explicativas.
Los gráficos de dispersión son útiles debido a que proporcionan información sobre la relación existente entre las variables,
permiten sugerir modelos posibles, pueden señalar la existencia de observaciones atípicas, etc.
EJEMPLO 1. Analicemos la relación que existe entre el peso y la estatura según el sexo en el siguiente diagrama de
dispersión. 1: Hombres, 2: Mujeres. ESTAPESO.xls
El diagrama presenta claramente, una relación positiva entre las dos variables estudiadas, que se refleja en una nube de
puntos cuyo eje principal tiene un sentido creciente, como consecuencia del hecho de que, en términos generales, los
individuos más altos pesan más que los más bajos. El diagrama también pone de manifiesto que las mujeres tienen en general
valores menores de ambas variables que los hombres, pero que la relación entre PESO Y ESTATURA es bastante similar en
ambos sexos.
33
Covarianza. Coeficiente de Correlación
Con el objetivo de dar una idea intuitiva del concepto de covarianza, razonemos el siguiente diagrama de dispersión,
correspondiente a las variables: TEMPERATURA-COSTO, en la que las rectas horizontal y vertical sobre el conjunto de
puntos corresponden a los valores medios (42.83, 79.25).
En este caso, existe claramente una fuerte relación negativa, la mayor parte de los puntos caen en los cuadrantes II Y IV.
Cuando la relación existente sea positiva la mayoría de los puntos caerán en los cuadrantes I y III
( )( )
Si consideramos para cada punto ( xi , y i ) del diagrama el signo que tiene el producto xi - x y i - y vemos que éste
resulta positivo en los cuadrantes I y III y negativo en los cuadrantes II Y IV. Por lo tanto el producto anterior será en
promedio positivo si existe una relación creciente entre las dos variables (es decir, si la Y tiende a crecer cuando lo hace la X)
y negativo si la relación existente es decreciente.
Por definición la covarianza entre dos variables no es más que el promedio de los productos de las desviaciones de ambas
variables respecto a sus medias respectivas. De forma similar a como se procedió a definir la varianza, el promedio se calcula
dividiendo por n-1 en vez de n.
(x )( ).
n
i - x yi - y
Cov xy = i =1
n -1
La covarianza presenta el inconveniente de que depende de las dimensiones en que se expresan las variables. Así la
covarianza entre TEMPERATURA y COSTO será mayor si se mide la temperatura en grados kelvin que si se mide en
Fahrenheit. Para obviar este problema se utiliza universalmente en Estadística, como grado de relación lineal entre dos
variables, el coeficiente de correlación lineal que no es más que la covarianza dividida por el producto de las desviaciones
34
Cov xy
típicas de las dos variables. rxy = . Se puede demostrar que el coeficiente de correlación lineal está siempre
SxSy
comprendido entre -1 y 1. Los valores extremos sólo los toma en el caso de que los puntos del diagrama de dispersión estén
alineados exactamente en línea recta. Cuanto más estrecho es el grado de relación lineal existente entre dos variables más
cercano a 1 es el valor de r (o a -1 si la relación es decreciente). Por el contrario un valor de r nulo o cercano a cero indicará
una relación lineal inexistente o nula.
OBSERVACIONES
En general cuanto más estrechamente se agrupen los puntos del diagrama de dispersión alrededor de una recta más
fuerte es el grado de relación lineal existente entre las dos variables consideradas.
Es importante resaltar que tanto la covarianza como el coeficiente de correlación miden sólo el grado de relación
lineal existente entre dos variables. Dos variables pueden tener una relación estrecha y sin embargo resultar r
cercano a cero por ser dicha relación no lineal.
EJERCICIO 1.
Dada una alta inflación, el señor Chávez ha cuidado mucho de su presupuesto. Como su casa tiene calefacción eléctrica, llevó
un registro de la cuenta del consumo mensual de energía eléctrica durante el año pasado y del promedio mensual de la
temperatura exterior. Los datos aparecen en la siguiente tabla. La temperatura está dada en grados Celsius y el costo de la
energía está en dólares. TEMPERACOSTO.xls.
Tabla2. Registro mensual: TEMPERATURA-COSTO.
Mes Temperatura Promedio costo de energía
Enero 10 120
Febrero 18 90
Marzo 35 118
Abril 39 60
Mayo 50 81
Junio 65 64
Julio 75 26
Agosto 84 38
Septiembre 52 50
Octubre 40 80
Noviembre 25 100
Diciembre 21 124
Identificar las variables, dependiente y explicativa. Hacer sus conjeturas de la relación entre las variables a partir del
35
Figura 2. Diagrama de dispersión TEMPERATURA- COSTO.
Descriptive Statistics
Mean Std. Deviation N
TEMPERATURA 42.83 23.218 12
COSTO 79.25 32.628 12
Correlations
TEMPERATURA COSTO
TEMPERATURA Pearson Correlation 1 -.863**
Sig. (2-tailed) .000
Sum of Squares and Cross-products 5929.667 -7188.500
Covariance 539.061 -653.500
N 12 12
**
COSTO Pearson Correlation -.863 1
Sig. (2-tailed) .000
Sum of Squares and Cross-products -7188.500 11710.250
Covariance -653.500 1064.568
N 12 12
**. Correlation is significant at the 0.01 level (2-tailed).
RUTA:Analyze>Correlate>Bivariate (En variables trasladar TEMPERATURA, COSTO)>Opciones (Seleccionar los
estadísticos, Exclude cases pairwise)>Continue>Ok
36
4.2.2. MODELO DE REGRESIÓN SIMPLE.
En este tipo de regresión se desea caracterizar el efecto lineal de una única variable explicativa sobre la variable respuesta.
Los pasos para efectuar un análisis son los siguientes (JURAN y GRYNA, 1997, cap. 23):
1. Representación gráfica de datos
2. Planteamiento del modelo
3. Estimación de la ecuación de predicción
4. Examen de la adecuación del modelo lineal
5. Intervalos de confianza para la estimación
En este apartado se explica el modelo de regresión lineal simple, un modelo con un solo regresor x que tiene una relación con
una respuesta y, donde la relación es una línea recta. Este modelo de regresión lineal simple es:
y = o + 1 x + (Modelo poblacional de regresión)
Donde la ordenada al origen o y la pendiente 1 son constantes desconocidas, y es una componente aleatorio del
error. Se supone que los errores tienen promedio cero y varianza s 2 desconocida. Además se suele suponer que los errores
no están correlacionados. Esto quiere decir que el valor de un error no depende del valor de cualquier otro error.
Los parámetros o y 1 son desconocidos, y se debe estimar con los datos de la muestra. Supongamos que hay n pares
especifica para recolectarlos, o en un estudio observacional, o a partir de registros históricos existentes (lo que se llama un
estudio retrospectivo).
Estimación de o y 1
Para estimar o y 1 se utiliza el método de mínimos cuadrados. Esto es, se estima o y 1 tales que la suma de los
cuadrados de las diferencias entre las observaciones yi y la línea recta sea mínima. La ecuación se puede escribir
i =1
1 , deben satisfacer
37
n
n
S S
0 ,
= -2
yi - 0
- 1
x
i = 0 y
1 ,
= -2
y i - 0
- 1
xi xi = 0 Simplificando estas
i =1 i =1
0 1 0 1
dos ecuaciones se obtiene:
n n n n
n + xi = yi ;
n
0 1 i=1 i =1
0 xi + 1 xi = xi yi
2
i =1
i =1 i =1
Que son las llamadas ecuaciones normales de mínimos cuadrados. Su solución es la siguiente:
0 = y - 1 x ;
n n
n
yi xi
yi xi - i =1 i =1
n
1 = i =1
2 , en donde y=
1 n
yi
n i =1
x=
1 n
xi
n i =1
son los promedios de y i y xi
n
n
xi
- i =1
2
i =1
xi
n
respectivamente. Por consiguiente,
0 y 1 , son los estimadores por mínimos cuadrados. El modelo ajustado de
regresión lineal simple es entonces:
y = 0 + 1 x .Esta ecuación produce un estimado puntual, de la media de y para
una determinada x.
S xy
Otra forma más compacta de escribir
1 = , donde:
S xx
2
n n n
x yi xi n
( ) ( )
n i n n
S xx = xi -
2 i =1 = xi - x ; S xy = yi xi - i =1 i =1 = yi xi - x
2
i =1 n i =1 i =1 n i =1
38
La diferencia entre el valor observado yi y el valor ajustado correspondiente
yi se llama residual, matemáticamente el
i-ésimo residual es: ei = yi - yi = yi - 0 + 1 xi i = 1,2,....n .
ei Tiene un papel importante para investigar la adecuación del modelo de regresión ajustado.
LOS SIGUIENTES APARTADOS SON OPCIONALES, NO SERÁN CONSIDERADOS EN LA EVALUACIÓN
4.2.2.2. Propiedades de los estimadores por mínimos cuadrados y el modelo
ajustado de regresión.
Tenemos que:
0 = y - 1 x
S xy y ( x )
n
i i -x
1 = = i =1
S xx
Son combinaciones lineales de yi , entonces se puede escribir,
S xx
n (x -x ) ; i = 1,2,...n
1 = C i y i ; C i = i
s xx
i =1
E 1 = E ci yi = c E ( y )
n n
i
n
i i Se supone: =0 , se demuestra:
i =1 i =1 i =1
n
ci = 0
i =1
n
ci x
i
=1
i =1
n
E 1 = ci ( 0 + 1 xi ) =
n n
0 ci + 1 ci xi = 1
i =1 i =1 i =1
E 1 = 1
E ( yi ) = 0 + 1 xi
39
n
i =1yi 1
0
E = E y - 1 x
= E n 1
- xE = n ( + 1 xi ) - x1
n
0
i =1
1
0
E = n n 0 + 1 x - x1 = 0
0
E = 0
(x )
Var 1 = Var ci yi = c
n n n n
-x
2
s2
i Var ( yi ) = s ci = s
2 2 2 2
i
=
i =1 i =1 i =1 i =1 s 2 xx s xx
s
2
Var 1 =
s xx
( )
2
Var
0 = Var
y - 1 x
= Var y - 2 xCov
y,
1 + x Var 1
s2 2
0
Var = n + x Var 1
s2 2 s 2
0
Var = n +x s
xx
1 x
2
=s n + s
0
Var 2
xx
Propiedades útiles.
n
n n n
1. y i - y i = ei = 0
i =1 i =1
2. y =y
i =1
i
i =1
i
3. La línea de regresión de mínimos cuadrados siempre pasa por el centroide de los datos que es el punto ( y, x )
n n
4. xi ei = 0
i =1
5. yi ei = 0
i =1
40
Estimación de s 2
i =1
n 2
= yi - yi
i =1
n 2
= y i - 0 - 1 xi
i =1
n 2
= y i - y + 1 x - 1 xi
i =1
( ) ( )( ) (x )
n n 2 n
= y i - y - 2 1 y i - y xi - x + 1
2 2
i -x
i =1 i =1 i =1
n
( )
= yi - 2 yi y + y - 2 1 xi yi + 2 1 yi x + 2 1 xi y - 2 1 x y + 1 s xx
i =1
2 2
n
i =1
n
i =1
n
i =1
n
i =1
2
n n
n y y i i n 1 n n
= y i - 2n + n y - 2 1 xi y i + 2 1 i yi
2 2
i =1 i =1
x
i =1 n n i =1 n i =1 i =1
n n n
1 1 1 n s
+ 2 1 i i 1 n
y
n i =1 i =1
x - 2 n
i =1
x i
n
i =1
y i + 1.
s
xx
.s xx
xx
n n
1 n n
= y i - 2 n y + n y - 2 1 xi y i + 2 1 xi yi + 1 S xy
2 2 2
i =1 i =1 n i =1 i =1
n 1 n n
n
= yi - n y - 2 1 xi yi - xi yi + 1 S xy
2 2
i =1 i =1 n i =1 i =1
n
= yi - n y - 2 1 S xy + 1 S xy
2 2
i =1
n
SCRe s = yi - n y - 1 S xy
2 2
i =1
( y ) =y
n n
2 2
Pero i -y i - n y = SCT
i =1 i =1
SCRe s = SCT - 1 S xy
E ( SCRe s ) = ( n - 2 )s 2
La suma de cuadrados residuales tiene n-2 grados de libertad, porque 2 grados de libertas se asocial con
los estimados
0 1 y que se usan para obtener
yi . El estimador insesgado de s 2
es:
2 SC Re s
s = = CM Re s (Cuadrado Medio Residual)
n-2
41
2
s : Error estándar de regresión.
2
s Es un estimado de s dependiente del modelo.
2
Uso de la prueba t
Supongamos que deseamos probar que la pendiente es igual a una constante.
H 0 : 1 = 10
H 1 : 1 10
ei son NID ( 0, s 2 )
1 Es una combinación lineal de las observaciones, y está distribuida normalmente.
s2
E 1 = 1 (Promedio de
1 ); Var 1 = (Varianza de 1 )
S xx
1 - 10
z0 = N ( 0,1)
Estadístico: s2
S xx
s
CM Re s y 1 Son independientes.
Estadístico t (Definición)
Si Z N ( 0,1)
V v2
Z y V Son independientes, entonces:
1 - 10
Z
s2
tv
V S xx 1 - 10
t0 = = con (n - 2 gl )
v ( n - 2) CM Re s CM Re s
s 2
S xx
( n - 2)
42
CM Re s
Denótese a Se 1 = : Como el error estándar estimado o error estándar de la pendiente,
S xx
1 - 10
entonces t 0 = . Se rechaza la hipótesis nula si t0 ta 2 , n-2 .
Se 1
También se puede usar el método del valor P para la toma de decisiones.
Hipótesis para la ordenada al origen.
0 - 00 -
H 0 : 0 = 00 t0 = = 0 00
; 1 x 2 Se
H 1 : 0 00 CM Re s + 0
n S xx
1 x2
Se 0 = CM Re s + Error estándar de la ordenada al origen.
n S xx
Método I. Estadístico t.
H 0 : 1 = 0 La hipótesis de la significancia de la regresión. Se rechazara si t0 ta 2 , n-2
1
t0 =
Se 1
43
Método II. Análisis de varianza.
También se puede usar un método de análisis de varianza para probar el significado de la regresión. Este
análisis se basa en una partición de la variabilidad total de la variable respuesta.
yi - y = y i - y + yi - y i
( )
2 2 2
n n n
n
yi - y = y i - y + yi - y i + 2 y i - y yi - y i
i =1 i =1 i =1 i =1
n
n
n
2 y i - y yi - y i = 2 y i yi - y i - 2 y yi - y i
i =1 i =1 i =1
n n
= 2 y i ei - 2 y ei = 0
i =1 i =1
( )
2 2 2
n
n
n
yi - y = y i - y + yi - y i
Luego, i =1 i =1 i =1
SCT = SCR + SC Re s
SCT : Suma de cuadrados totales con n-1 grados de libertad.
SCR : Suma de cuadrados de regresión con 1 grado de liberad
SC Re s : Suma de cuadrados de residuos con n-2 grados de libertad.
Como SC Re s = SCT - 1 S xy Y SCT = SCR + SC Re s = S yy , entonces
SCR = 1 S xy
La cantidad de grados de libertad se determina como sigue: la suma total de cuadrados SCT ,
tiene n-1 grados de libertad porque perdió un grado de libertad como resultado de la restricción
n
yi - y
i =1
( ) para las desviaciones y - y . i
por un parámetro, que es , por ello tiene un grado de libertad.
1
SC Re s tiene n-2 grados de libertad porque se imponen dos restricciones a las desviaciones
yi - yi como resultado de estimar 0 y 1 .
Se puede aplicar la prueba F normal del análisis de varianza para probar la hipótesis H 0 : 1 = 0
n-2
1) SC Re s = n2-2
CM Re s
44
3) SC Re s y SCR son independientes.
SCR
glR CMR
F0 = = F1,n-2 . Se rechaza H 0 : 1 = 0 si F0 Fa ,1,n-2 .
SC Re s CM Re s
gl Re s
4.2.2.4.
Intervalos de confianza
Intervalos de confianza de 0 , 1 y s
2
Si los errores se distribuyen en forma normal e independiente, entonces la distribución de muestreo tanto
1 - 1 0 - 0
de y es t con n-2 grados de libertad.
Se 1 Se 0
Un intervalo de confianza de 100(1 - a ) % para 1 es:
1 - ta 2 ,n - 2 Se 1 1 1 + ta 2 ,n -2 Se 1
45
( n - 2) CM Re s n2-2
s2
( n - 2) CM Re s s 2 ( n - 2) CM Re s
a2 2,n-2 12-a 2,n-2
Estimación de intervalos de la respuesta media.
Una aplicación importante de un modelo de regresión es estimar la respuesta media, E ( y ) , para
determinado valor de la variable regresora x.
Sea x 0 el valor o nivel de la variable regresora para el que se desea estimar la respuesta media, es decir,
E y . Se supone que x 0 es cualquier valor de la variable regresora dentro del intervalo de los
x0
Para obtener un intervalo de confianza de 100(1 - a ) % para E y , se debe notar primero que
x0
my x0
es una variable aleatoria normalmente distribuida, porque es una combinación lineal de las
observaciones y i . La varianza de m y x0
es:
s
( ) s2
( )
2
2
Var m y x0 = Var
0 + x
1 0 = Var y + 1 x 0 - x = + x0 - x
n S xx
1
Var m y x0 = s 2 + 0
(
x -x ) 2
n S xx
46
La distribución de muestreo de:
m y / x0 - E ( y / x0 )
m y / x0 - E ( y / x0 )
1 x -x 2
s + 0
2 ( )
Var m y / x0 n S xx
m y / x0 - E ( y / x 0 ) es una distribución t, con
= =
( n - 2)CM Re s CM Re s 1 x -x ( ) 2
CM Re s + 0
s 2
s 2
n S xx
n-2
n-2 grados de libertad.
Un intervalo de confianza de 100(1 - a ) % para la respuesta media en el punto x = x 0 es:
my
1 x -x
. CM Re s + 0
( ) 2
E y m
1 x -x
+ ta , n - 2 . CM Re s + 0
( ) 2
x0 - t a
2
,n - 2 n S xx x0
y x 0
2 n S xx
Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que correspondan
entonces: y 0 = 0 + 1 x 0 es un estimador puntual del nuevo valor de la respuesta y 0 .
Var ( ) = Var y 0 - y 0 = Var ( y 0 ) + Var y 0 - 2Cov y 0 , y 0
= Var ( y 0 ) + Var 0 + 1 x 0
1
= s 2 +s 2 + 0
x -x ( ) 2
n S xx
1 x -x
Var ( ) = s 2 1 + + 0
( ) 2
n S xx
47
1 x -x
y 0 ta , n - 2 . CM Re s1 + + 0
( ) 2
2 n S xx
Lo anteriormente expuesto se puede observar en el siguiente gráfico que muestra las bandas de confianza
y de predicción para un conjunto de datos.
Y su valor esperado: E( R ) = 2
1 2 S xx + s 2
( )
n 2
SCT = yi - y : es una medida de variabilidad de y sin considerar el efecto de la variable
i =1
regresora x.
2
n
SC Re s = yi - y i : es una medida de variabilidad de y que queda después de haber tenido en
i =1
consideración a x.
n
S ( 1 ) = ( y i - 1 xi )
2
la función de mínimos cuadrados es:
i =1
48
n
yi xi
i =1
Siguiendo el proceso por mínimos cuadrados: 1 =
n
x i2
i =1
EL modelo de regresión ajustado es: y = x .
1
n 2 n n
El estimador de s es:
2 2 y i - y i yi2 - 1 yi xi
s CM Re s = i =1 = i =1 i =1
n -1 n -1
Los intervalos de confianza son:
CM Re s
1 : 1 ta , n - 1
2 n
x i2
i =1
y x02 .CM Re s
E : m y x ta , n - 1
x0 n
xi2
0 2
i =1
x 02
Para una observación futura: y 0 ta , n - 1 CM Re s1 +
n
2
xi2
i =1
2
n
yi - y
2 i =1
Modelo con ordenada al origen R =
( yi - y)
n 2
i =1
n 2
yi
2 i =1
Modelo sin ordenada al origen: R =
n
y i2
i =1
A veces, el diagrama de dispersión proporciona una guía para decidir si se ajusta o no el modelo sin
ordenada al origen. También, se pueden ajustar ambos modelos y escoger entre ellos de acuerdo con la
calidad del ajuste obtenido. Si no se puede rechazar la hipótesis 0 = 0 en el modelo sin ordenada al
origen, quiere decir que se puede mejorar el ajuste si se usa es modelo.
El cuadrado medio de residuales es una forma útil de comparar la calidad del ajuste. El modelo que tenga
el cuadrado medio residual menor, es el mejor ajuste.
En general, R 2 no es un buen estadístico para comparar los dos modelos.
49
4.3. TRANSFORMACIONES PARA LINEALIZAR UN
MODELO.
A partir de un diagrama de dispersión o de la teoría sobre ciertas funciones, podemos conocer que la
relación entre las dos variables puede representarse adecuadamente solo por cierta función matemática
curvilínea (no lineal), por ejemplo la tendencia general del crecimiento poblacional sigue un modelo
exponencial positivo, el decaimiento radioactivo sigue un modelo exponencial negativo, etc. En algunos
casos una función no lineal se puede lineal izar con una transformación adecuada.
y = 0 e 1x y = ln y y = ln 0 + 1 x
y = 0 + 1 log x x = log x y = 0 + 1 x
1 1
y = 0 - 1 x
x
y =
0 x - 1
y = , x =
y x
EJEMPLO. Los datos siguientes se obtuvieron de observaciones periódicas hechas durante el crecimiento
de una población de células de levadura. Se efectuaron recuentos cada dos horas.
n Horas Número
(X) de células(Y)
1 2 19
2 4 37
3 6 72
4 8 142
5 10 295
6 12 584
7 14 995
El gráfico de dispersión muestra que los datos provienen de una función exponencial y = 0 e 1x Con el
fin de transformar la curva en recta conviene hacer la transformación, y = ln y tomamos los logaritmos
de las células.: RUTA: Transform>Compute Variable (LOGNATURAL)>
Como se esperaba, hoy los datos se ajustan a una línea recta. El proceso manual para obtener la ecuación
de predicción es el mismo que el de regresión simple. En SPSS se obtiene siguiendo la RUTA:
Analyze>Regression> Linear (Dependent: LOGNATURAL, Independent: Horas>Ok
ANOVAb
Model Sum of Squares Df Mean Square F Sig.
1 Regression 12.627 1 12.627 4936.297 .000a
Residual .013 5 .003
Total 12.640 6
a. Predictors: (Constant), Horas
b. Dependent Variable: LOGNATURAL
Coefficientsa
95% Confidence Interval for
Unstandardized Coefficients Standardized Coefficients B
Model B Std. Error Beta t Sig. Lower Bound Upper Bound
1 (Constant) 2.278 .043 53.287 .000 2.168 2.388
Horas .336 .005 .999 70.259 .000 .323 .348
a. Dependent Variable: LOGNATURAL
51
El modelo lineal encontrado es entonces: y = 2.278 + 0.336.Horas . Para determinar el modelo
En el análisis, éste caso se conoce el orden en que fueron recolectados los datos, y debe hacerse para
determinar si hay dependencia de los residuos con la secuencia del tiempo de recolección
Para realizar una regresión no lineal mediante SPSS tenemos que elegir los menús
Analize>Regression>Curve Estimation.
Este menú nos da la opción de calcular los siguientes modelos de regresión.
Lineal, Y = 0 + 1 X
Logarítmica, Y = 0 + 1 ln X
1
Inversa Y = 0 +
X
Cuadrático Y = 0 + 1 X + 2 X
2
Cubico. Y = 0 + 1 X + 2 X + 3 X
2 3
Potencia. Y = 0 X 1 o ln Y = ln 0 + 1 ln X
52
X
Compuesto Y = 0 1 o ln Y = ln 0 + X ln 1
1 1
o ln Y = 0 +
0
Curva S Y = e +
t t
Crecimiento Y = e 0 + 1 X o ln Y = 0 + 1 X
Exponencial Y = 0 e 1 X o ln Y = ln 0 + 1 X
Para el caso anterior, elegimos exponencial, y los resultados son los siguientes:
Model Summary
Adjusted R Std. Error of the
R R Square Square Estimate
.999 .999 .999 .051
The independent variable is Horas.
ANOVA
Sum of Squares df Mean Square F Sig.
Regression 12.627 1 12.627 4936.297 .000
Residual .013 5 .003
Total 12.640 6
The independent variable is Horas.
Coefficients
Standardized
Unstandardized Coefficients Coefficients
B Std. Error Beta t Sig.
Horas .336 .005 .999 70.259 .000
(Constant) 9.755 .417 23.394 .000
The dependent variable is ln(células).
53
54
Ejercicios.
1. Determine una ecuación que describa la relación entre la
frecuencia de accidentes y el nivel de educación preventiva
X Y XY X2
150 8.00 1200 22500
200 7.00 1400 40000
300 6.50 1950 90000
450 5.20 2340 202500
500 6.40 3200 250000
600 4.40 2640 360000
800 4.00 3200 640000
900 3.10 2790 810000
3900 44.60 18720 2415000
55
Ingreso Prima
X Y XY X2
13 5 65 169
16 15 240 256
17 20 340 289
18 10 180 324
20 10 200 400
25 12 300 625
26 15 390 676
32 30 960 1024
38 40 1520 1444
40 50 2000 1600
42 40 1680 1764
287 247 7875 8571
56
Unidad 5. Los Valores Relativos
Solución:
La razón o relación = 4200/2800 = 1.5, indica que las mujeres frecuentan ese
centro comercial en un 50% más que los hombres.
Proporciones:
Las proporciones se hacen para dar cuenta de la fracción que representa
cada uno de los subconjuntos que componen el conjunto total. Por ejemplo, los
subconjuntos formados por niños, jóvenes, adultos, y ancianos si,
respectivamente, los comparamos con la totalidad del conjunto daremos cuenta
de la proporción respectiva de cada uno de los subconjuntos. Si en una
localidad viven 2,000 niños, 3,000 jóvenes, 1,000 adultos y 300 ancianos, la
totalidad de la población sumarían 6,300 habitantes, y las proporciones de
niños sería 0.31, de jóvenes 0.47, de adultos 0.15 y de ancianos 0.04.
Sexo
Rango de edades Total
Hombre Mujer
Edad de 0 a 10 años 25,097 23,858 48,955
Edad de 11 a 15 años 12,849 12,490 25,339
Edad de 16 a 20 años 11,384 11,810 23,194
Edad de 21 a 30 años 19,587 23,372 42,959
Edad de 31 a 45 años 21,264 28,725 49,989
Edad de 46 a 65 años 16,219 21,645 37,864
Edad de 66 años ó más 4,834 8,269 13,103
Total 111,234 130,169 241,403
Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.
Obtener la proporción que representa cada grupo de edades.
57
Porcentajes:
Tasas:
Las tasas se hacen cuando el conjunto se fracciona en dos subconjuntos y se
quiere dar cuenta de la parte que representa uno de los subconjuntos sobre el
total del conjunto. Esta representación se suele expresar en base 100, pero se
pude hacer en base 10, 1000, etc. Por ejemplo, si el conjunto de la población
activa se divide en dos subconjuntos denominados desempleados y ocupados,
la tasa de desempleo sería el resultado de multiplicar por cien el número
resultante de dividir el número de desempleados por el total de activos
(ocupados y desocupados). Si de las 4,000 personas activas que hay en una
localidad, 3,600 están ocupadas y 400 están desempleadas, la tasa de
desempleo sería (400/ 4,000) X 100= 10%.
Ejercicio.
58
La población de 15 años o más según su condición de analfabetismo se
presenta en el siguiente cuadro.
Sabe leer y escribir
Sexo Total
Si No
Soyapango 161,155 10,801 171,956
Ilopango 66,240 5,420 71,660
San Martín 43,033 5,376 48,409
Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007
Obtener las tasas de analfabetismo de cada municipio y hacer un análisis
comparativo de los resultados.
X it - X i 0
La diferencia relativa está dada por: DFt (i ) =
0
*100
X i0
Ejemplo:
El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006,
2007 y 2008, para los municipios de Soyapango, Ilopango y San Martín.
Grupos SOYAPANGO ILOPANGO SAN MARTÍN
de
edades Femenino Masculino Total Femenino Masculino Total Femenino Masculino Total
AÑO 2004
Total 15 167 182 12 78 90 11 42 53
AÑO 2005
Total 14 228 242 5 74 79 11 75 86
AÑO 2006
Total 16 246 262 15 69 84 6 48 54
AÑO 2007
Total 20 179 199 10 67 77 8 71 79
AÑO 2008
Total 10 128 138 9 66 75 7 54 61
Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo
identificar el sexo, no aparecen registrados en el cuadro anterior.
Obtener la diferencia relativa del número de homicidios por año, sexo y municipio.
El área de medicina tiene gran aplicación de las diferencias relativas, también llamada
fracción atribuible, se calcula como el cociente entre la diferencia absoluta de riesgo y
el riesgo en el grupo control.
59
Placebo Tratamiento
Casos a0 a1
No casos b0 b1
Total n0 n1
a1
� = R1 =
RR
n1
R0 a0
n0
No tiene dimensiones.
Si RR=1 no hay asociación entre la presencia del factor (Tratamiento) y el
evento (Caso o No Caso).
Ejemplo:
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
307
RR = 3051 = 0.73
420
3054
Indica que en los pacientes que se aplica el tratamiento experimental tienen una tasa de
incidencia del 73% respecto a los pacientes tratados con placebo.
60
De modo similar se define, y se suele usar cuando el riesgo en el grupo expuesto (con el
factor) es menor que el riego del grupo control, la reducción relativa del riesgo como el
cociente entre la reducción absoluta de riesgo y el riesgo en el grupo control.
a0 a1 a0 a1
� - � -
� = R AR n n � =
� RRR R AR n n1 �
RRR = 0 1
= 1 - RR = 0
= 1 - RR
�
R0 a0 �
R0 a0
n0 n0
Ejemplo:
Para los datos del anterior calcular la reducción del riesgo relativo
Placebo Tratamiento
La RRR es:
El RRR indica que el riesgo del grupo tratado se reduce en un 26,8% del riesgo del
grupo control.
Los números índices no miden, tan solo sirven para indicar las variaciones en los
precios, cantidades y valores de un periodo con respecto a otro. Por lo tanto, debe
tenerse mucho cuidado con su uso. Los números índices son muy usados en el análisis
de las ventas, producción, precios, costos, beneficios, aumento de capital y en especial
cuando se quiere comparar dos series de datos.
61
Definición: Un índice es una medida estadística que tiene la propiedad de informar de los
cambios de valor que experimenta una variable o magnitud en dos situaciones, una de las cuales
se toma como referencia. La comparación suele hacerse por cociente.
A la situación inicial se le llama periodo base y a la situación que queremos comparar periodo
actual o corriente.
Índices simples: Se denomina así a los referidos a una única magnitud y se obtienen dividiendo
cada precio, cantidad o valor de un periodo (anual, mensual, semanal, etc.), por el precio,
cantidad o valor de un periodo fijo, considerado base, multiplicado luego por 100.
X it
El número índice simple es: I t0 (i) = *100
X i0
Mide la variación en tanto por uno o tanto por cien que ha sufrido la magnitud X entre los dos
periodos considerados y pueden ser:
X it
a) Valor: I t (i) =
0
*100
X i0
Pit
b) Precio: I t (i ) =
0
*100
Pi 0
qit
c) Cantidad: I t (i) =
0
*100
qi 0
Ejemplo 1. Con los datos de la serie 2001-2006 (referidos a los precios de un cierto
producto), calcular los índices de base fija 2001 y 2004; luego el índice de base
variable para esa misma serie.
62
2005 48 240 140 120 20 120 20
2006 70 350 250 175 75 145.83 45.83
Observe que tomando de base el año 2001, en el 2004 se tuvo un aumento del 100% y
en el 2006 se tuvo un aumento de precios del 250% con respecto al año 2001; si
tomamos de base el año 2004, en el 2006 se tuvo un aumento del 75%. Finalmente, si
tomamos Base Variable en el año 2006 hubo un aumento del 45.83% con respecto al
año 2005.
X h -1
Ejemplo: Se tiene la información del precio de un producto.
Se desea indicar la variación del precio en Base fija 2002
el 2006 respecto al precio de 2003. años Yi Índice
Solución: 2002 2,000 100
X 4800 2003 2,800 140
I 0306 = 06 *100 = *100 = 171.43
X 03 2800 2004 2,400 120
2005 4,000 200
2006 4,800 240
2007 6,000 300
63
Ahora, imaginemos que se tiene el índice de precios con base fija para 2003 y
2006 y se requiere la variación del precio en el 2006 respecto al precio de 2003.
Solución:
I 06 240
I 0306 = 0203 *100 = *100 = 171.43 . Observe que se tiene el mismo resultado si
I 02 140
se dispone de los precios o de los índices de base fija.
Ahora, suponer que se tienen únicamente los índices de base variable y se
requiere la variación del precio en el 2006 respecto al precio de 2003.
Solución:
06
I 03 = I 0303 * R03
04
* R0405 * R0506 = 100*0.8571*1.6666*1.2 = 171.43 .
Ejercicio. Un índice para 2006 revela un aumento del 20% respecto al año anterior. En
el 2007 alcanzó a 174, es decir, presenta un incremento anual del 18%. Calcular los
índices de base fija de los años 2005 y 2006.
Solución:
Se requiere encontrar: I 0 , I 0 = ?
05 06
La base o periodo de inicio no se conoce, por lo tanto puede ser cualquier año, así:
I 007 = 174 además sabemos que I 007 = I 006 * R0607 , reemplazando 174 en la última expresión
se obtiene:
174
I 006 = = 147.45 .
1.18
05
Para obtener I 0 , se realiza un procedimiento análogo al anterior.
I 006 = I 005 * R0506 , reemplazando 147.45 se tiene:
147.45
I 005 = = 122.87 .
1.2
Ejercicio. Se tienen tres índices de base variable, cuyas cifras son: Para 2005=107, para
2006=108, para 2007=104, es decir, que entre 2004 y 2007, hubo un aumento del 19%.
Decir si la afirmación anterior es cierta o falsa.
Solución:
Recordemos que I 04 = I 04 * R04 * R05 * R06 = 100*1.07 *1.08*1.04 = 120.18 , por lo tanto
07 04 05 06 07
la afirmación es falsa.
Estos índices se calculan teniendo en cuenta la suma de los precios, cantidades o valores
de un grupo de artículos para un periodo, divida por la suma de los precios cantidades o
valores para ese grupo de artículos en otro periodo, considerado como base.
Matemáticamente se expresan como:
64
n n n
Las expresiones anteriores son muy útiles cuando no existen variaciones significativas
entre productos, ya estos índices no se ven afectados por las variaciones en algún
producto. Para recoger las variaciones entre productos se recomienda calcular
primeramente los índices simples y luego sumarlos y finalmente dividirlos por el
número de productos. Esto es,
n
�I t
0 (i )
I =
t
0
i =1
*100
n
Ejemplo: Con los datos de la siguiente tabla, calcular el índice agregativo de las
Artículos medida Defectuosas cantidades que resultaron en mal estado de
mayo Junio conservación, en un grupo de artículos,
A Kg 12 18 comparados en el mes de junio de 2009,
B Lt 8 15 respecto a las cantidades comparadas, en mal
C Docena 20 8 estado de conservación, en el mes de mayo del
D Libras 14 20 mismo año.
E Unidad 50 70
Total 104 131
Solución:
Primer método.
n
�q (i) t
131
I =
t
0
i =1
n
*100 = *100 = 125.96 . Este método es poco usual, ya que no es
104
�q (i)
i =1
0
afectado por las variaciones grandes que puede presenta uno varios artículos.
Segundo método.
n
�I (i) t
150 + 187.5 + 40 + 142.8 + 140
0
I 0t = i =1
*100 = = 132.06
n 5
Este resultado es un poco mayor al obtenido por el primer método. Este aumento
se debe, a la variación que presenta el artículo B, durante ese periodo.
65
Este índice puede interpretarse, como la relación existente, al comparar los precios
actuales de un grupo de artículos, con los precios de esos mismos artículos considerados
en el periodo base, manteniéndose constante como ponderación las cantidades del
periodo base. La expresión es la siguiente:
I 0t
�P (i)q (i) t 0
L = i =1
n
*100
�P (i)q (i)
i =1
0 0
I 0t
�P (i)q (i)t t
P = i =1
n
*100
�P (i)q (i)
i =1
0 t
La diferencia entre las dos fórmulas anteriores, radica únicamente en la base tomada
para las ponderaciones, en la primera se refiere a las cantidades del periodo base y en la
segunda, las cantidades corresponden al periodo que se investiga.
Este índice es un promedio geométrico, que se define como la raíz cuadrada del
producto del índice de Laspeyres por el de Paasche, así:
n n
t t t
�P (i)q (i) �P (i )q (i)
t 0 t t
F I0 = LI 0 P I 0 = i =1
n
* i =1
n
*100
�P (i)q (i) �P (i)q (i)
i =1
0 0
i =1
0 t
n n
t
�P (i)q (i)0 t
t
�P (i)q (i)
t t
LI0 = i =1
n
*100 P I0 = i =1
n
*100
�P (i)q (i)
i =1
0 0 �P (i)q (i)
i =1
t 0
n n
I 0t I 0t I 0t
�P0 (i)qt (i ) �P (i)q (i)t t
F = L P = i =1
n
* i =1
n
*100
�P (i)q (i) �P (i)q (i)
i =1
0 0
i =1
t 0
66
Ejemplo: Con los siguientes datos referentes a los precios y cantidades para un grupo
de artículos dados para dos periodos.
Artículos Unidad 2006 2007
Precio Cantidad Precio Cantidad
A Kg 26 10 38 8
B Lt 6 5 10 7
C Lbs 1 2 4 5
D Docena 6 1 15 2
E Unidad 3.6 2 2 1
Calcular los índices de precios y de cantidad de las Laspeyres, Paasche y Fisher.
Solución:
Ordenando los datos de la tabla anterior:
Articulos P06 q06 P07 q07 P06 q06 P07q07 P07q06 P06q07
A 26 10 38 8 260 304 380 208
B 6 5 10 7 30 70 50 42
C 1 2 4 5 2 20 8 5
D 6 1 15 2 6 30 15 12
E 3.6 2 2 1 7.2 2 4 3.6
305.2 426 457 270.6
I 0t
�P (i)q (i) t 0
Laspeyres: L = i =1
n
*100 =(457/305.2)*100 = 149.34
�P (i)q (i)
i =1
0 0
I 0t
�P (i)q (i) t t
Paasche: P = i =1
n
*100 = (426/270.6)*100= 157.43
�P (i)q (i )
i =1
0 t
Laspeyres: (270.6/305.2)*100=88.66
Paasche: (426/457)*100= 93.22
Fisher: 90.91
67
Ejercicio. Una empresa espera aumentar sus ventas en el año próximo en un 50%. ¿En
qué porcentaje debería incrementar los precios para que el ingreso total se convierta en
un 250%?
Solución.
Se sabe que el índice de ingreso total es igual al índice de cantidad vendida por el índice
de precios.
250=150*ind. Precios, entonces Ind. Precios = (250/150)=166.66
Solución.
t t t
LI0 = (2 / 3) * P I0 = (2 / 3)(130) = 86.66 � F I0 = 86.66*130 = 106.14
Solución.
68
1600
Salario real= *100 = 1,303.67 , esto indica que el aumento fue demasiado bajo,
122.73
es decir, que a pesar de estar recibiendo más dinero que antes, este salario a penas
equivale a 1,303.67, el aumento esperado debió ser de $ 318.22 = 1400*0.2273, o sea
que su nuevo salario debería de ser de $1,718.22 en vez de $ 1,600.
Guía de ejercicios Nº 5.
Años Ventas a) Hallar los índices de ventas, tomando como base primero 2002 y
2002 18 luego 2005.
2003 18
2004 19 b) Hallar los índices de ventas con base variable
2005 15
2006 12
2007 16
2008 20
2009 24
2010 35
2. Un empleado ganaba $ 772 dólares mensuales en 2009 en el 2010 gana $ 912
mensuales, con lo cual mejora su ingreso real en 16%. Si el actual índice de
precios es de $ 560 ¿Cuál era el índice de precios del 2009?
c) Determine la tasa de crecimiento promedio (tcp) entre los años 1997 y 2007.
4. La entrada de turistas Alemanes a nuestro País durante los últimos 7 años según
SERNATUR viene dada por la tabla siguiente:
69
b) Con respecto al año 2003. Qué porcentaje de aumento o disminución se dio en los
años 2004 y 2005.
b) Determine el porcentaje de variación del consumo entre los años 2002 y 2006.
c) Determine la tasa de crecimiento promedio (tcp) entre los años 2002 y 2006.
Se Pide:
a) Hallar el índice de precios y de cantidad de LASPEYRE, con base el año 1998.
b) Hallar el índice de precios y de cantidad de PAASCHE, con base el año 1998.
c) Hallar el índice de FISHER para precio y cantidad, considerando el mismo año
base.
70