Conceptos Generales Estadistica

Universidad de El Salvador
Facultad de Ciencias Naturales y Matemática

Escuela de Matemática
Departamento de Estadística.
Profesor: Dr. José Nerys Funes Torres

Ciclo I-2010.
Asignatura: Tratamiento de la Información Estadística.
1
Unidad 1. Conceptos Básicos de Estadística.
1.1. La Estadística y sus aplicaciones
1.1.1. ¿Qué es la Estadística?
La Estadística es una ciencia que estudia las características de un conjunto de casos para hallar en ellos
regularidades en el comportamiento, que sirven para describir el conjunto y para efectuar predicciones.
La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un
conjunto de objetos, personas, procesos, etc. A través de la cuantificación y el ordenamiento de los datos
intenta explicar los fenómenos observados, por lo que resulta una herramienta de suma utilidad para la
toma de decisiones.
Bajo este contexto, la Estadística se divide en dos áreas: Estadística Descriptiva y Estadística
Inferencial.
ESTADÍSTICA DESCRIPTIVA: permite organizar y presentar un conjunto de datos de manera que

describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación.
Obviamente, la materia prima de la Estadística Descriptiva la constituyen los datos, que son el resultado
de las observaciones y/o experimentos.
Ejemplos:
1. Durante los últimos dos días se ha informado de un total de trece homicidios diarios.
2. La encuesta Gallup informa una ventaja de 25% para el candidato de izquierda.
ESTADÍSTICA INFERENCIAL: Generaliza los resultados de una muestra a los de una

población total, es cuando de los datos estadísticos obtenidos de una muestra se infiere o se deduce una
observación la cual se generaliza sobre la población en total. Para determinar la confiabilidad de la
inferencia de los datos estadísticos de una muestra, se hace necesario comprobar la misma para poder
asegurar que lo que se observa en una muestra se observará también en la población. Generalmente el
análisis estadístico inferencial se lleva a cabo para mostrar relaciones de causa y efecto, así como para
probar hipótesis y teorías científicas.
1.1.2. Aplicaciones de la Estadística.
Mucha gente piensa que la Estadística no tiene nada que ver con otras disciplinas que no sean las
ingenierías y economía. Otros nunca le encuentran aplicaciones útiles, y por eso tampoco les gusta.
Pero, en realidad tiene infinitas aplicaciones en todo el conocimiento adquirido por la humanidad,
partiendo ante todo, lo relacionado con las ingenierías, economía, las ciencias biológicas, ciencias
sociales e incluso en algunas ramas del área Jurídica. Y, en definitiva, casi todos los campos de las
2
ciencias emplean instrumentos estadísticos de importancia fundamental para el desarrollo de sus
modelos de trabajo.
En nuestros días, la estadística se ha convertido en un método efectivo para describir con exactitud los
valores de los datos económicos, políticos, sociales, psicológicos, biológicos y físicos, entre otros, y
sirven como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico no
consiste ya sólo en reunir y tabular los datos, sino el proceso de interpretación de esa información a
través de modelos estadísticos-matemáticos, aumentando el alcance de las aplicaciones de la estadística,
esto se ha logrado, gracias al desarrollo de la teoría de probabilidad.
Dentro de las Aplicaciones de la Estadística se destacan las siguientes:
1. La Estadística en el Periodismo
En general, los periodistas además de dedicarse al ámbito de la noticia, realizan crónicas y estudios de
investigación, que nos entregan preguntas y respuestas frente a determinados sucesos o situaciones de
interés público. Algunos de los estudios más frecuentes realizados por los periodistas son sobre
alcoholismo, enfermedades, sexualidad, delincuencia, política, etc. Para ello, hacen uso de las encuestas
u otros instrumentos técnicos de medición propios de la estadística, a través de dichos estudios es
posible conocer la opinión de la gente y con ello informar a la opinión pública, a través de los medios de
comunicación, desde donde las autoridades pertinentes e interesadas en estos estudios pueden adoptar
las medidas correctivas, si es el caso. Tal es así, que la estadística forma parte importante del periodismo
investigativo.
2. La Estadística en la Política
Conocidas son las famosas encuestas de tipo político, que entregan una orientación de la intención de
voto, de la aceptación de un candidato, del impacto de un programa o proyecto de estado, etc. de una
muestra estadística representativa, sobre la opinión de las personas en un tiempo determinado, teniendo
esta herramienta una gran confiabilidad. Así es que el uso de la estadística es imprescindible para
determinar caminos a seguir para los candidatos de elección popular.
3. La Estadística en la Publicidad
Cuando las grandes marcas trasnacionales y/o nacionales como Coca-cola, Pepsi, Nice, Adidas,
Laboratorios López, etc. nos llenan de slogans, música y colores en sus comerciales, lo único que buscan
es que la gente adquiera los productos y/o servicios que ofrecen.
Se dedican, entonces, a realizar las llamadas “campañas publicitarias”, y, antes de lanzar una campaña,
hacen un estudio de mercado para encontrar las mejores alternativas posibles a fin de lograr el éxito de
ventas deseado. Estos estudios son de carácter estadístico, es decir, hacen un diseño muestral y
seleccionan una muestra para inferir las características de la población.
3
4. La Estadística en la economía y las finanzas.
En la administración es una herramienta del control, como parte del proceso administrativo (o lo que es
lo mismo: planeación, organización, dirección y control) ya que la estadística ayuda a recolectar,
estudiar y al final interpretar los datos que obtienen al terminar el proceso administrativo, retroalimenta
con esta información y al final se observa en que pueden mejorar y que se está haciendo bien.
En la mercadotecnia es una herramienta muy importante cuando tienes la necesidad de trabajar con
datos de muestreo para conocer los gustos y preferencias de las personas. Igualmente en la auditoria
administrativa cuando recabas datos para conocer en que puede mejorar una organización. En pocas
palabras te puede servir en cualquier área de una organización debido a que muestra los resultados de las
actividades que bienes realizando.
En la economía se utiliza como una herramienta de predicción para pronosticar el comportamiento

futuro, por ejemplo, de los precios de los metales (oro, plata, cobre) tomando como base el
comportamiento pasado de los precios de los mismos. También puede servir para estudiar el
comportamiento de la bolsa de valores, de ciertos productos básicos, los economistas por lo regular se
sienten magos que creen predecir cosas. En general, la Estadística suministra los valores que ayudan a
descubrir interrelaciones entre múltiples parámetros macro y microeconómicos, a través de la evaluación
de modelos econométricos para el establecimiento de políticas económicas; análisis del costo de la
canasta básica, el poder adquisitivo de la población, etc.
5. La estadística en la Banca y Seguros
El profesional del seguro de vida ha de ser capaz de asignar primas suficientes para cubrir las cantidades
que habrá de pagar la compañía en el caso de muerte del asegurado. En consecuencia, la predicción
adecuada de las probabilidades de muerte constituye uno de los ejes centrales de la reducción del riesgo
que se asume. Por ello, el objetivo de la Estadística de Seguros es una presentación exhaustiva de los
métodos disponibles para ajustar tablas de mortalidad y tablas de seguros no vida, ejemplo,
aseguramiento de vehículos, viviendas, etc.
Por otra parte, algunas de las aplicaciones concretas de la Estadística en el sistema bancario son las
siguientes:
 Sistemas de concesión de tarjetas de crédito y fijación de su límite.
 Sistemas de estimación del potencial económico de los clientes.
 Definición de tipologías comerciales de clientes.
 Determinación del público objetivo en campañas comerciales.
 Modelización del riesgo según las características de los clientes.
 Aplicación de la teoría de colas para brindar un servicio de calidad.
 Finalmente, es de mucha utilidad la técnica de minería de datos para el análisis de bases de datos del
sistema bancario.
4
6. La estadística en ciencias humanas y sociales
La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias, en buena
medida se basa en el manejo de recursos estadísticos como elementos indispensables para llegar a
conclusiones aceptables por el resto de la comunidad científica. Dada la peculiaridad de su objeto de
estudio, inabordable en la mayoría de los casos sino es a través de perspectivas complejas de relación
entre variables, la atención de los investigadores en las ciencias humanas y sociales se concentra cada
vez más en la llamada Estadística Multivariante (Análisis Cluster, Factorial, Discriminante, etc.).
Las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos en
informática y aplicaciones estadísticas, por ejemplo, en El Salvador, se ha elaborado el Mapa de
Pobreza, donde se ha interrelacionado una gran variedad de variables de diferentes áreas: Educativas,
Económicas, Salud, entre otras. También, se ha hecho investigación sobre los factores que están
asociados al rendimiento académico de los estudiantes, finalmente, se han utilizado diferentes técnicas
para el análisis de los resultados académicos de los estudiantes.
Las ciencias sociales: es un pilar básico del desarrollo de la demografía y la sociología aplicada, lo que
conlleva a:
 Definición de indicadores de fenómenos sociales.
 Medición de constructos o variables no directamente observables (la satisfacción, la inteligencia,
...)
 Medición de los efectos entre constructos no observables para establecer políticas sociales.
 Estudio de la evolución de la demografía.
 Estudios sociales sobre la integración de la población inmigrada.
 Fenómenos sociales como las pandillas, criminalidad, delincuencia, contaminación, entre otros.
7. La estadística en las ciencias químicas.
En Química, la estadística se aplica en varias áreas: En el diseño de experimentos se usan métodos

estadísticos, en el control de procesos y control de calidad (o gerenciamiento de calidad) de procesos y
productos. En EEUU está muy de moda el sistema seis sigma, creado por general electric, que utiliza
algunos conceptos estadísticos para lograr el aseguramiento de la calidad.
Por otra parte la producción química tiene su costo económico y financiero que también requiere mucho
uso de estadística, por ejemplo, si no se elabora un buen diseño experimental, se necesitarán muchas
réplicas para validar una formulación química.
Algunas de las aplicaciones concretas que podemos mencionar:

 Utilización de diseños experimentales para optimizar la composición de productos alimenticios.
 Evaluación de la superficie de respuesta de una reacción química según determinados factores.
 Predicción del comportamiento de un componente no sintetizado a partir de las propiedades
moleculares de sus descriptores.
 Control de procesos de producción para detectar problemas evitando a su vez falsas alarmas.
5
8. La estadística en Ciencias biológicas.
En el área de las ciencias biológicas, interesa estudiar el comportamiento de ciertas plantas y sus cruces
a fin de determinar cómo se relacionan genéticamente los padres con los hijos, hablando de Genotipo y
Fenotipo. En esta categoría es también donde se realizan los mayores avances de la humanidad, en
descubrimientos. Cada año se descubren miles de fórmulas científicas que relacionan fenómenos de la
naturaleza con modelos matemáticos.
Los científicos se dedican a realizar estudios estadísticos, recogiendo datos y muestras, investigando el
tiempo de reproducción de un virus, el comportamiento migratorio de algunas aves o insectos, además
de factores de tamaño y volumen del crecimiento de ciertas especies de animales o vegetales. Todo esto
funciona con la idea de recopilar información, muestrear ciertas áreas para ver cómo se han comportado
algunas aves, por ejemplo, se pueden dibujar o simular curvas que se supone que son relativamente
parecidas al comportamiento migratorio de aves. Con esta herramienta se podrían determinar también
las épocas de mayor probabilidad de contagio, diseminación de algún virus o bien enfermedades
transmitidas por insectos.
Algunas aplicaciones concretas en esta área son: Determinación del tamaño de poblaciones naturales en
una región; efectividad de la utilización de barreras naturales (filas de árboles plantados en los límites
del terreno) como medio de prevenir las plagas de insectos o aves sobre las plantaciones y así disminuir
la utilización de pesticidas: y, determinación de los niveles óptimos de utilización de los fertilizantes.
Obviamente, en esta área es donde más se hace usos de la teoría de Diseños de Experimentos.
9. La estadística en las ciencias médicas.
Permite establecer pautas sobre la evolución de las enfermedades y los enfermos, los índices de
mortalidad asociados a procesos morbosos, el grado de eficacia de un medicamento, etcétera.
Bajo este conjunto de ideas, se ha presentado un panorama de la utilidad de la estadística, haciendo un
recorrido por diversas áreas del conocimiento humano, con el fin, de conocer como se relacionan con las
diversas ciencias, formando una sola verdad. Evidentemente, existen, muchas disciplinas donde se aplica
la estadística, que no han sido consideradas en este apartado, por ejemplo, las ingenierías, la pintura, la
música, etc. Finalmente, es de resaltar que en todos los temas donde se analice información está presente
la estadística.
1.2. Población, Muestra y técnicas de muestreo.

Las estadísticas de por sí no tienen sentido si no se considera o se relaciona dentro del contexto con que
se trabajan. Por lo tanto es necesario entender los conceptos de población y de muestra para lograr
comprender mejor su significado en la investigación educativa o social que se lleva a cabo.
POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas características
comunes observables en un lugar y en un momento determinado. Cuando se vaya a llevar a cabo alguna
investigación debe de tenerse en cuenta algunas características esenciales al seleccionarse la población
bajo estudio. Entre éstas tenemos:
6
Homogeneidad - que todos los miembros de la población tengan las mismas características según las
variables que se vayan a considerar en el estudio o investigación. Por ejemplo, si se fuera a investigar la
incidencia de la drogadicción entre jóvenes mujeres adolescentes, entonces hay que definir claramente
las edades que comprenden la adolescencia y cuando se seleccione la población asegurarse de que todas
las personas entrevistadas sean de la edad determinada y del sexo femenino. (La adolescencia se define
operacionalmente como el periodo comprendido de edad que fluctúa entre 12 y 21 años.)
Tiempo - se refiere al período de tiempo donde se ubicaría la población de interés. Determinar si el
estudio es del momento presente o si se va a estudiar a una población de cinco años atrás o si se van a
entrevistar personas de diferentes generaciones.
Espacio - se refiere al lugar donde se ubica la población de interés. Un estudio no puede ser muy
abarcador y por falta de tiempo y recursos hay que limitarlo a un área o comunidad en específico.
Cantidad - se refiere al tamaño de la población. El tamaño de la población es sumamente importante

porque ello determina o afecta al tamaño de la muestra que se vaya a seleccionar, además que la falta de
recursos y tiempo también nos limita la extensión de la población que se vaya a investigar.
MUESTRA - la muestra es un subconjunto fielmente representativo de la población.
Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y cuán
representativo se quiera que sea el estudio de la población, en este sentido, la muestra puede ser:
Aleatoria - cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser incluido.
Un procedimiento de extraer una muestra aleatoria de una población finita es: enumerar todos los
elementos que conforman la población, escribir esos números en papelitos y echarlos en una urna o
bolsa mezclarlos bien removiéndolos y sacar uno a uno tantos como lo indique el tamaño de la muestra.
En este caso los elementos de la muestra lo constituirán los elementos de la población cuyos números
coincidan con los extraídos de la bolsa o urna.
El tamaño de la muestra (MAS):
Al realizar un muestreo probabilística nos debemos preguntar ¿Cuál es el número mínimo de unidades
de análisis (personas, organizaciones, capitulo de telenovelas, etc), que se necesitan para conformar una
muestra n que me asegure un error estándar menor que 0.01 ( fijado por el muestrista o investigador),
dado que la población es aproximadamente de N elementos.
En el tamaño de una muestra de una población se debe tener presente la varianza poblacional, error
máximo permisible prefijado (diferencia del parámetro y estimador), con un nivel de confianza de 1 - a .
Simbólicamente se refiere a lo siguiente: P �
�
X - m < d �= 1 - a , bajo este contexto podemos utilizar la
�
fórmula:
7
Ejemplo. Se desea estimar la estatura promedio de los estudiantes de la asignatura de Tratamiento de la
Información Estadística. Se sabe que la estatura de un estudiante es una variable aleatoria con
distribución normal. Determine el tamaño de muestra aleatoria necesaria para garantizar una
probabilidad igual a 0.95 de que el estimador y el parámetro se diferencien en menos de 10cm.
Solución.
Datos conocidos.
d= 10cm
Calcular: s ,
Z a =1.96
1-
2
Determinar:
MUESTREO ESTRATIFICADO - cuando se subdivide en estratos o subgrupos según las

variables o características que se pretenden investigar. Cada estrato debe corresponder
proporcionalmente a la población.
k
El número determinado de elementos muestrales es: n = �ni , donde ni es el número de elementos en el
i =1
estrato i=1, 2, …, k . No se entrará en detalle del cálculo del tamaño muestral, ya que supera el alcance
de esta asignatura.
MUESTREO SISTEMÁTICO - cuando se establece un patrón o criterio al seleccionar la muestra.

Ejemplo: se entrevistará una familia por cada diez que se detecten.
El muestreo es indispensable para el investigador ya que es imposible entrevistar a todos los miembros
de una población debido a problemas de tiempo, recursos y esfuerzo. Al seleccionar una muestra lo que
se hace es estudiar una parte o un subconjunto de la población, pero que la misma sea lo suficientemente
representativa de ésta para que luego pueda generalizarse con seguridad de ellas a la población.
El tamaño de la muestra depende de la precisión con que el investigador desea llevar a cabo su estudio,
pero por regla general se debe usar una muestra tan grande como sea posible de acuerdo a los recursos
que haya disponibles. Es de especificar que para cada método de muestreo existen fórmulas para
determinar el tamaño de muestra.
8
1.3 Unidad de estudio y unidad de muestreo
La unidad de análisis o estudio corresponde a la entidad mayor, primaria o representativa de lo que va

a ser objeto específico de estudio en una medición y se refiere al qué o quién es objeto de interés en una
investigación. Por ejemplo: Condiciones de hacinamiento de las familias del Municipio de Soyapango,
San Salvador. Unidad de Análisis: Familias del Municipio de Soyapango.
Debe estar claramente definida en un protocolo de investigación y el investigador debe obtener la

información a partir de la unidad que haya sido definida como tal, aun cuando, para acceder a ella, haya
debido recorrer pasos intermedios. Las unidades de análisis pueden corresponder a las siguientes
categorías o entidades:
 Personas
 Grupos humanos
 Poblaciones completas
 Unidades geográficas determinadas
 Eventos o interacciones sociales (enfermedades, accidentes, casos de infecciones
intrahospitalarias, etc)
 Entidades intangibles, susceptibles de medir (exámenes, días, camas)
El tipo de análisis al que se someterá la información es determinante para elegir la unidad de análisis.
Por ejemplo, si el objetivo es dar cuenta de la satisfacción del usuario de un servicio médico, la unidad
de análisis natural es el paciente atendido, o la persona que se atiende en ese servicio médico. Si el
objetivo es dar cuenta de la satisfacción del alumno sobre el desempeño docente, la unidad de análisis es
el alumno que recibe clases con el docente evaluado.
La unidad de muestreo corresponde a la entidad básica mediante la cual se accederá a la unidad de

análisis. En algunos casos, ambas se corresponden. Por ejemplo, si se desea estimar la prevalencia de
daño auditivo en relación con niveles de ruido ambiental en una muestra de trabajadores de una fábrica,
la unidad de muestreo puede corresponder a la entidad "sujeto", si se dispone de un registro detallado de
cada sujeto. La unidad de análisis es por cierto el trabajador de la fábrica.
1.4 Variables y datos
VARIABLES
Las variables son las características observables de un objeto, problema o evento que se puede describir
según un esquema de medición bien definido. Cada rasgo o aspecto de una población constituye una
variable. La edad de unas personas, su sexo, color de su piel, nacionalidad, su nivel de motivación,
niveles de ansiedad, el número de nacimientos, número de matrimonios, frecuencia de suicidios,
estatura, peso, niveles de inteligencia, actitudes, entre muchas otras.
Las variables pueden adquirir diferentes valores o clasificarse en diferentes categorías según la
naturaleza o tipo de estudio que se lleve a cabo. Entre éstas tenemos las siguientes clasificaciones:
9
VARIABLES CUALITATIVAS - son aquellas que se expresan en forma verbal como categorías o
atributos. Por ejemplo, el sexo, color, afiliación política, nacionalidad, motivación, área académica o
profesión de una persona.
VARIABLES CUANTITATIVAS - son las que varían en términos de cantidad y se registran o expresan
en forma numérica. Por ejemplo, edad, promedio académico, puntuaciones de exámenes, frecuencia de
delitos, temperatura, ingresos anuales o salarios por hora. Hay algunas características que pueden
clasificarse o expresarse como variable cuantitativa y transformarla a cualitativa o viceversa. Por
ejemplo, nivel de aprovechamiento académico estudiantes de 4:00 puntos, o estudiantes de 3:00 puntos y
así sucesivamente. El investigador puede expresar mediante una escala numérica el aprovechamiento
académico al clasificar a los estudiantes, como también puede clasificarlos como variable cualitativa en
las categorías de excelentes, buenos, regulares y deficientes.
VARIABLES DISCRETAS - son aquellas que sólo adquieren un valor absoluto o específico que nunca
cambian. Pueden ser cualitativas. Ejemplo: el sexo, nacionalidad, grupo étnico, entre otras.
VARIABLES CONTINUAS - que siempre son cuantitativas, son las que pueden asumir cualquier
valor. Por ejemplo, la edad, altura, peso, índice académico.
En el campo de la investigación, que se suele examinar las relaciones entre dos o más variables al
investigar un asunto o problema, se clasifican las variables como:
VARIABLES INDEPENDIENTES - son las características controladas por el investigador y que se

supone tendrán efectos sobre otras variables.
VARIABLES DEPENDIENTES - son las características o aspectos que se alteran por consecuencia del
control que ejerce el investigador sobre otras variables.
Estos dos últimos tipos de variables suelen darse más en estudios o investigaciones experimentales, pero
también podemos considerarlas en estudios descriptivos. Por ejemplo, en un estudio experimental se
investiga si un nuevo medicamento mejora las condiciones del sida. A tales efectos se seleccionaron 30
pacientes, de los cuáles 15 recibían el nuevo medicamento (grupo experimental) y otros 15 continuaban
con su tratamiento tradicional (grupo control). El nuevo medicamento viene a ser la variable
independiente porque es la que los investigadores controlan y que luego examinarán sus efectos en la
condición del sida, la cual viene a ser la variable dependiente, porque es la condición que se va alterar o
quedar afectada por el nuevo medicamento.
En un estudio descriptivo donde interesa saber si la clase social es factor determinante en el
aprovechamiento académico en las escuelas, entonces la clase social es la variable independiente y el
aprovechamiento académico la dependiente.
Una variable puede ser independiente en una investigación y dependiente en otra, todo dependerá de la
finalidad de la investigación. Por ejemplo, si se lleva a cabo un estudio para determinar cómo las
condiciones socio-económicas influyen a la drogadicción, en este caso, status socio- económico es una
variable independiente. Por el contrario, si se lleva a cabo una investigación para saber cómo la
drogadicción afecta las condiciones sociales y económicas, entonces, el status socio-económico
resultaría ser la variable independiente.
DATOS: son los hechos que describen sucesos y entidades.
10
1.5. ESCALAS DE MEDICIÓN
Una escala es un esquema específico para asignar números o símbolos con el objeto de designar
características de una variable. Las escalas de medición comúnmente conocidas son: nominales,
ordinales, de intervalos y de razón. A continuación veamos los cuatro tipos de escalas de medición.
1.5.1. ESCALAS NOMINALES
Las escalas nominales son aquellas donde se clasifican los objetos, personas o variables en categorías
cualitativamente distintas. Consiste simplemente en agrupar objetos en clases o asignar las personas de
acuerdo a alguna cualidad una vez que los objetos o personas posean características comunes que lo
hagan pertenecer a una categoría. Por ejemplo, todos los estudiantes que obtuvieron sobre 9 puntos
fueron clasificados como excelentes, los que obtuvieron menos de 8.9 pero más de 8.0 como muy
buenos y de 7.0 a 7.9 como buenos. En una redada de drogas se arrestaron 22 mareros, cuatro acusados
de homicidios, ocho acusados de violación y diez por extorciones.
Se pueden utilizar números en las escalas nominales, pero éstos no representan magnitudes absolutas.
Los números sólo se utilizan con el propósito de clasificarlos a determinada categoría. Por ejemplo, si
vas a comprar pintura azul en la ferretería te presentan una escala con diferentes tonalidades del color
azul y cada tonalidad posee un número, pero este número sólo es para facilitar al vendedor identificar el
color solicitado entre cientos de colores. De igual modo en muchas solicitudes se le asigna el número 1
al sexo masculino y número dos al femenino y esta clasificación sólo es para facilitar los cómputos y
manejos de información estadística, pero no quiere decir que los masculinos tengan más o menor valor
que las del sexo femenino. Los números que se utilizan para efectos de identificación en una escala
nominal nunca se utilizarán para llevar a cabo los procedimientos matemáticos de suma, resta,
multiplicación y división.
1.5.2. ESCALAS ORDINALES
Las escalas ordinales son las que clasifican a las personas, eventos u objetos en una posición con
relación a cierto atributo, pero sin indicar la distancia que hay entre las posiciones. Cuando se asignan
números es sólo para indicar el orden de las posiciones de lo que se está clasificando. Por ejemplo, en un
determinado grupo escolar se decidió seleccionar los cinco estudiantes con el promedio más alto para
premiarlos con un viaje al Lago de Coatepeque y resultó que Esteban quedó tercero con un promedio de
8.90, seguido de Jorge con 8.88 y, luego Leticia con 8.75. Esteban como tercero se le asigna el número
tres, pero ésta designación numérica sólo indica su posición con relación a los otros cuatro alumnos.
Sabemos que Esteban tiene un mejor promedio que Jorge y que su promedio es superior que el de
Leticia. Sin embargo, no podremos saber hasta qué punto es mejor su promedio comparado con los
otros.
Con las escalas ordinales tampoco se pueden llevar a cabo las operaciones aritméticas de suma, resta,
multiplicación y división. La diferencia que puede haber entre unas personas u objetos en este tipo de
11
escala no necesariamente constituye unidades iguales o absolutas que puedan utilizarse para determinar
si el que tiene un segundo lugar posee el doble valor que el que queda en cuarta posición. Por ejemplo,
en un evento atlético de una carrera que no haya sido cronometrada, podemos saber quién llegó primero,
segundo y tercer lugar, pero no podemos saber con precisión la velocidad entre un corredor y otro. La
diferencia que hay entre el primero y el segundo no necesariamente es igual a la que hubo entre el
segundo y el tercero.
1.5.3. ESCALAS DE INTERVALOS

Las escalas de intervalos son aquellas que ordenan los objetos o eventos según la magnitud del atributo
que representan y proveen intervalos iguales entre las unidades de medida. Además, no poseen un punto
cero absoluto o verdadero ya que el mismo es establecido por convención de forma arbitraria por los
expertos en el área o materia de estudio y no implica la ausencia del atributo o la propiedad en cuestión.
Por ejemplo, la escala de inteligencia posee un punto cero, pero administrando cualquier tipo de prueba
que intente medir la inteligencia, nunca va a encontrar un ser humano con cero inteligencia. De igual
modo si el agua está en 0 grado °C, esto no quiere decir que carezca de temperatura, ya que en una
escala de intervalos, como se ha indicado, es una designación arbitraria y convencional.
Una diferencia de cierta magnitud en una escala de intervalos significa lo mismo en todos los puntos de
la escala. Así por ejemplo, en los termómetros de grados Fahrenheit y centígrados que utilizan este tipo
de escalas, están divididos en unidades iguales, la diferencia en la temperatura entre 100 grados y 101
grados es equivalente a la diferencia entre 110 grados y 111 grados.
La numeración de los años en nuestro calendario utiliza también una escala de intervalos. Las
autoridades eclesiásticas y gubernamentales de la época decidieron arbitrariamente fijar como el año 1 el
del nacimiento de Cristo y como unidad de medida un lapso de 365 días. Por lo tanto, el lapso de tiempo
que estuvo Bill Clinton como presidente de los Estados Unidos desde 1993 – 2001 es igual al que
transcurrió George Bush desde 2001 – 2009.
1.5.4. ESCALAS DE RAZONES O COCIENTES

Las escalas de razones o cocientes se diferencian de las de intervalos solamente en que la de razones el
punto cero no es arbitrario y corresponde a una total ausencia del asunto o propiedad estudiada. La
escala de una simple regla de 12 pulgadas posee una escala de razones la cual está dividida en 12
unidades cada una de igual magnitud y parte de un punto cero absoluto y verdadero.
La mayoría de las variables con las cuales se utiliza este tipo de escalas se refieren más a la ejecución de
tareas motoras, a las medidas de objetos y de aspectos fisiológicos.
Dos ejemplos de las escalas de razones y cocientes son: las medidas de la estatura y el peso. Si una
columna mide seis metros es el doble de alto de otra columna que mide tres metros. Si Enrique pesa 180
libras, entonces pesa el doble que María quién pesa 90 libras. Las razones de los números en estas
escalas tienen un determinado sentido, lo que hace posible que se interpreten los valores numéricos entre
las cantidades obtenidas de los objetos.
Además pueden llevarse a cabo las diferentes operaciones matemáticas.
12
RESUMEN: CARACTERÍSTICAS, EJEMPLOS Y LIMITACIONES
DE LAS ESCALAS DE MEDICIÓN
ESCALA LIMITACIONES
CARACTERÍSTICAS USOS/EJEMPLOS
Se clasifican las personas, eventos u Denominaciones religiosas, afiliación No se pueden precisar
Nominal objetos en categorías. político partidista, codificaciones en la diferencias cuantitativas entre
clasificación de objetos, pinturas, las categorías.
movimientos literarios.
Se clasifican u ordenan las personas, Orden de llegada de atletas en una Restringida para Identificar
Ordinal objetos y eventos en determinada carrera, puntuaciones de una prueba, diferencias relativas, pero no
posición. rangos militares, nivel de popularidad de precisa diferencias en cantidad
estudiantes en una escuela. absoluta entre personas u
objetos.
Escala que posee unidades de igual Temperaturas (Celsius y Fahrenheit), Razones no tienen sentido ya
Intervalo magnitud. El punto cero de la escala fechas del calendario, escala de que el punto cero es establecido
es arbitrario y no refleja la ausencia inteligencia. convencionalmente.
del atributo.
Escala que posee un punto Distancia, peso, estatura, tiempo Ninguna, excepto que su uso se
Razones cero absoluto e intervalos de igual requerido para realizar una tarea escolar. supedita mayormente a medir
magnitud. cualidades físicas más que para
la medición de aspectos
psicológicos.
1.6. Diseño de Experimentos estadísticos.
El diseño de un experimento es la secuencia completa de los pasos que se deben tomar de antemano,
para planear y asegurar la obtención de toda la información relevante y adecuada al problema bajo
investigación, la cual será analizada estadísticamente para obtener conclusiones válidas y objetivas con
respecto a los objetivos planteados.
Un Diseño Experimental es una prueba o serie de pruebas en las cuales existen cambios deliberados en
las variables de entrada de un proceso o sistema, de tal manera que sea posible observar e identificar las
causas de los cambios que se producen en la respuesta de salida.
El propósito de cualquier Diseño Experimental, es proporcionar una cantidad máxima de información

pertinente al problema que se está investigando. Y ajustar el diseño que sea lo más simple y efectivo;
para ahorrar dinero, tiempo, personal y material experimental que se va a utilizar. Es de acotar, que la
mayoría de los diseños estadísticos simples, no sólo son fáciles de analizar, sino también son eficientes
en el sentido económico y en el estadístico.
De lo anterior, se deduce que el diseño de un experimento es un proceso que explica tanto la
metodología estadística como el análisis económico.
DISEÑO: Consiste en planificar la forma de hacer el experimento, materiales y métodos a usar, etc.
EXPERIMENTO: Conjunto de pruebas o ensayos cuyo objetivo es obtener

información, que permita mejorar el producto o el proceso en estudio.
13
Guía de ejercicios N° 1. Conceptos básicos de estadística.
1. Contestar verdadero o falso y comentar su respuestas según sea el caso:
a) La Estadística es una ciencia que estudia y describe las características de un conjunto de casos.
b) La estadística inferencial generaliza los resultados de una muestra a los de la población total.
c) Durante los últimos dos días se ha informado de un total de cinco homicidios diarios en San
Salvador, este es un ejemplo de estadística inferencial.
d) A las medidas que se obtienen de una muestra se les da el nombre de parámetro.
e) En una muestra aleatoria ciertos elementos tienen mayor probabilidad que otros de ser
seleccionados.
2. Mediante ejemplos, explicar la diferencia entre la estadística descriptiva y estadística inferencial.
3. POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas
características comunes observables en un lugar y en un momento determinado. A partir de esta
definición enumere las características de una población.
4. Describir dos ejemplos de población.
5. Describir dos ejemplos de muestra de una población.
6. Definir al menos dos tipos de muestreo y dar ejemplos de aplicación de cada uno.
7. Se desea estimar la edad promedio de los estudiantes de la asignatura de Tratamiento de la
Información Estadística. Se sabe que la edad de un estudiante es una variable aleatoria con
distribución normal con desviación estándar de 6cm. Determine el tamaño de muestra aleatoria
necesaria para garantizar una probabilidad igual a 0.95 de que el estimador y el parámetro se
diferencien en menos de 5cm.
8. Establecer las diferencias entre la unidad de análisis y la unidad muestral.
9. Establecer las diferencias entre variables cualitativas y cuantitativas.
10. Definir al menos dos ejemplos de variables cualitativas y de variables cuantitativas.
11. Establecer las diferencias entre variables discretas y continuas.
12. Definir al menos dos ejemplos de variables discretas y de variables continuas.
13. Definir las siguientes escalas de Medición y presentar dos ejemplos de cada una de ellas:
 Escala nominal
 Escala ordinal
 Escala de intervalo.
 Escala de razón
14
Unidad 2. Distribuciones de frecuencias y sus representaciones
gráficas.
2.1 Estadística Descriptiva con una variable
La estadística descriptiva permite organizar y presentar un conjunto de datos de manera que describan en
forma precisa las variables analizadas haciendo rápida su lectura e interpretación. Obviamente, la
materia prima de la Estadística Descriptiva la constituyen los datos, que son el resultado de las
observaciones y/o experimentos. Se denomina variable al carácter o fenómeno de la realidad objeto de
estudio. Las variables pueden ser de diferentes tipos, dependiendo de los datos que la forman.
Cualitativas o atributos
�
Variables �
Cuantitativas : Discretas o Continuas
�
Las variables cualitativas o atributos son aquellas que no toman valores numéricos. Describen diferentes
cualidades denominadas modalidades. Ejemplo: Sexo, estado civil, color de los ojos, etc. Las variables
cualitativas están formadas por datos que toman valores numéricos y pueden ser discretas, si sólo toman
un número entero de valores, y continuas, si pueden tomar cualquier valor real dentro de un intervalo.
Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribución de
frecuencias y b) la representación gráfica.
1.1.1 Distribución de frecuencias
Supongamos que hemos recogido un conjunto de n datos englobados en una variable X. La tabla que
recoge de modo sistemático estos datos se denomina distribución de frecuencias. La Distribución de
Frecuencias (Simples o agrupadas en intervalos). Comúnmente llamada tabla de frecuencias, se utiliza
para hacer la presentación de datos provenientes de las observaciones realizadas en el estudio,
estableciendo un orden mediante la división en clases y registro de la cantidad de observaciones
correspondientes a cada clase. Lo anterior facilita la realización de un mejor análisis e interpretación de
las características que describen y que no son evidentes en el conjunto de datos brutos o sin procesar.
La siguiente tabla recoge las principales características de una distribución de frecuencias simple o no
agrupada.
15
Datos Frecuencias Absolutas Frecuencias Relativas
Simples Acumuladas Simples Acumuladas
x1 n1 N1 = n1 f1 = n1 / n F1 = N1 / n
x2 n2 N 2 = n1 + n2 f 2 = n2 / n F2 = N 2 / n
. . . . .
. . . . .
. . . . .
xk nk k
f k = nk / n Fk = N k / n
N k = �ni
i =1
Total k k
�ni = n
i =1
�f
i =1
i =1
La primera columna representa los distintos valores de esos datos y la segunda la frecuencia simple, es
decir, el número de veces que se ha observado el correspondiente valor; la tercera columna recoge la
frecuencia acumulada (número de veces que se han observado valores menores o iguales que el que
corresponde a dicha fila). Las frecuencias relativas se obtienen a partir de las frecuencias absolutas,
dividiendo por el tamaño de la muestra.
Cuando en la muestra existen muchos valores diferentes y mucha variabilidad se recomienda, aún a
costa de perder información, agrupar los datos en clases, en lo que se denomina distribución de
frecuencias agrupada en intervalos.
Clase Marca Frecuencias Absolutas Frecuencias Relativas

Clase Simples Acumuladas Simples Acumuladas
L0 - < L1 x1 n1 N1 = n1 f1 = n1 / n F1 = N1 / n
L1 - < L2 x2 n2 N 2 = n1 + n2 f 2 = n2 / n F2 = N 2 / n
. . . . . .
. . . . . .
. . . . . .
Lk -1 - < Lk xk nk k
f k = nk / n Fk = N k / n
N k = �ni
i =1
Total k k
�ni = n
i =1
�f
i =1
i =1
A cada uno de los intervalos se les denomina clase y al punto medio marca de clase. A efectos de cálculo
la marca de clase se elige como representante del intervalo. El número de clases en que se dividen los
datos no debe ser excesivo. A modo orientativo, el número de clases se puede obtener mediante la
siguiente fórmula empírica, llamada de Sturges:
�3 log( n) �
número de clases = �
�+
� (Tomar la parte entera)
�
�2 log(2) �
16
Ejemplo. Población de El Salvador, por sexo y edad.
Edad Hombre Mujer Total Edad Hombre Mujer Total Edad Hombre Mujer Total
< 1 51787 50097 101884 36 31398 40111 71509 72 8591 10717 19308
1 53230 51477 104707 37 31414 38801 70215 73 7461 9522 16983
2 55845 54261 110106 38 29639 37419 67058 74 8011 10030 18041
3 59752 57127 116879 39 29435 37454 66889 75 8067 9886 17953
4 62658 59659 122317 40 31769 39411 71180 76 7535 9745 17280
5 62274 59738 122012 41 24732 32964 57696 77 6897 8872 15769
6 69088 66249 135337 42 26840 34653 61493 78 5825 7123 12948
7 75310 72672 147982 43 24578 32639 57217 79 5334 6700 12034
8 71525 68511 140036 44 24299 31746 56045 80 5717 7089 12806
9 70953 68407 139360 45 24451 31422 55873 81 4124 5274 9398
10 74244 70664 144908 46 21989 29308 51297 82 3841 5220 9061
11 71744 69499 141243 47 22251 28713 50964 83 3438 4508 7946
12 74093 72835 146928 48 20682 26481 47163 84 3281 4378 7659
13 68251 66194 134445 49 20584 26241 46825 85 3263 4413 7676
14 71191 67632 138823 50 22897 28057 50954 86 3096 4286 7382
15 64523 63752 128275 51 17664 22874 40538 87 2750 3758 6508
16 61880 61630 123510 52 19081 24360 43441 88 1767 2358 4125
17 61255 61624 122879 53 17671 22344 40015 89 1595 2219 3814
18 57590 58584 116174 54 17962 22824 40786 90 1405 2091 3496
19 53136 56591 109727 55 17848 22561 40409 91 786 1143 1929
20 50243 55085 105328 56 17114 21361 38475 92 826 1206 2032
21 45994 51623 97617 57 16816 20974 37790 93 673 990 1663
22 46006 51429 97435 58 14462 17853 32315 94 559 869 1428
23 42864 49278 92142 59 15478 18608 34086 95 482 816 1298
24 42894 51126 94020 60 17461 19979 37440 96 416 674 1090
25 42616 50552 93168 61 12470 15424 27894 97 356 588 944
26 41993 50707 92700 62 13590 17093 30683 98 + 526 948 1474
27 43473 52214 95687 63 12274 15528 27802
28 39209 48076 87285 64 12412 15633 28045
29 39672 49378 89050 65 12802 15513 28315
30 41911 50744 92655 66 11774 14915 26689
31 33494 42933 76427 67 11864 14597 26461
32 35940 45312 81252 68 9694 12291 21985
33 33124 41990 75114 69 9647 12060 21707
34 33931 42870 76801 70 10861 13101 23962
35 34628 42848 77476 71 8525 10638 19163
Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.
Elabore una tabla de frecuencias agrupadas por edad.
17
1.1.2 Representación gráfica
Diagrama de Barras:
Para el caso de distribuciones de frecuencias no agrupadas en intervalos, el diagrama de barras es el
gráfico más empleado. Que se usa cuando se pretende resaltar la representación de porcentajes o
frecuencias de datos que componen un total. Una gráfica de barras contiene barras verticales que
representan valores numéricos. Las frecuencias están asociadas con categorías. Una gráfica de barras se
presenta de dos maneras: horizontal o vertical. El objetivo es poner una barra de largo (alto si es
horizontal) igual a la frecuencia. La gráfica de barras sirve para comparar y tener una representación
gráfica de la diferencia de frecuencias o de intensidad de la característica numérica de interés. Si en vez
de frecuencias simples utilizamos frecuencias acumuladas, tenemos el llamado diagrama de escalera.
Ejemplo.
La población según condición de ocupación del Municipio de Ayutuxtepeque se presenta en el siguiente
cuadro:
OCUPADOS DESOCUPADOS INACTIVOS Total
ÁREA URBANA 10966 2832 8531 22329
EL ZAPOTE 329 42 477 848
LOS LLANITOS 2410 227 2550 5187
Total 13705 3101 11558 28364
Elaborar un gráfico de barras para la población total de Ayutuxtepeque según su condición de ocupación.
Ejemplo. Con la información del VI Censo de Población y V de Vivienda, El Salvador, 2007, se han
clasificado las mujeres de El Salvador de 12 años y más, según el número de hijos varones, resultando
los siguientes datos.
18
N° Hijos Construir un gráfico de barras para el número de hijos varones de las mujeres
Varones Madres salvadoreñas.
0 278290
1 509469
2 339180
3 177050
4 92233
5 50916
6 27791
7 15004
8 7328
9+ 7366
Gráfico de sectores:
En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia. Consiste en
representar sobre un círculo los diferentes atributos, mediante un sector circular de ángulo proporcional
a la correspondiente frecuencia. El ángulo de cada sector circular se calcula multiplicando por 360º la
frecuencia relativa.
Los gráficos de sectores, también conocidos como diagramas de "tartas o pastel", se divide un círculo
en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de
círculo proporcional a su frecuencia absoluta o relativa. Si el número de categorías es excesivamente
grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto
la situación ideal es cuando hay alrededor de cuatro categorías. En este caso se pueden apreciar con
claridad dichos subgrupos.
En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia. Consiste en
representar sobre un círculo los diferentes atributos, mediante un sector circular de ángulo proporcional
a la correspondiente frecuencia. El ángulo de cada sector circular se calcula multiplicando por 360º la
frecuencia relativa.
Ejemplo.
La población según nivel de estudio del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro:
Primaria o Educación Superior no Técnico Superior

Parvularia básica media universitaria universitario universitaria Maestría Doctorado Total
1168 15895 6842 499 363 4556 70 7 29400
Elaborar un gráfico de sectores.
Figura 2. Nivel educativo de la población de Ayutuxtepeque, por ciento.
19
Histogramas y polígono de frecuencias.
El histograma y el polígono de frecuencias son las representaciones gráficas usadas para distribuciones
de frecuencias agrupadas en intervalos. El histograma se construye dibujando en cada clase un
rectángulo de base la amplitud del intervalo y de altura se representan las frecuencias. Si desde el
extremo superior de cada una de las barras que representan los intervalos de clase se hace una marca en
el punto medio y luego se unen los puntos por línea recta se obtiene el polígono de frecuencias.
El polígono de frecuencias se lleva hasta el eje horizontal en los extremos hasta los puntos que serían los
puntos medios si hubiera una clase adicional en cada extremo del histograma correspondiente. Esto
permite que el área total quede incluida. Es decir, el área total bajo el polígono de frecuencias equivale al
área bajo el histograma.
Ejemplo: Estatura de los estudiantes de clase (ejercicio práctico)
Ejemplo:
El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y 2008, para
los municipios de Soyapango, Ilopango y San Martín.
Grupos SOYAPANGO ILOPANGO SAN MARTÍN
de
edades Femenino Masculino Total Femenino Masculino Total Femenino Masculino Total
AÑO 2004
Total 15 167 182 12 78 90 11 42 53
AÑO 2005
Total 14 228 242 5 74 79 11 75 86
AÑO 2006
Total 16 246 262 15 69 84 6 48 54
AÑO 2007
Total 20 179 199 10 67 77 8 71 79
AÑO 2008
Total 10 128 138 9 66 75 7 54 61
Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo identificar el sexo,
no aparecen registrados en el cuadro anterior.
Utilizar la mejor representación gráfica para la información anterior (Diagrama de barras e histogramas)
20
Unidad 3. Medidas Características de una Distribución
Cuantitativa Empírica.
1.1.3 Medidas de posición
Los promedios o medidas de posición proporcionan valores típicos o representativos de la variable en

estudio. Podemos hablar de medidas de posición centrales, como la media (aritmética, geométrica y
armónica), la mediana y la moda y medidas de posiciones no centrales, como los cuartiles, quintiles,
deciles y percentiles.
La media aritmética es la medida de posición más utilizada (esta muy influenciada por los valores
extremos de la variable). Viene definida como la suma de los datos divido por el número de ellos.
Dependiendo de la naturaleza de los datos que pretendemos promediar, será conveniente el uso de otro
tipo de medidas, como son la media geométrica (Todos los datos son positivos y hay mucha dispersión;
ejemplo: porcentajes, tasas de crecimiento, razones, números índices, interés anual, inflación, etc.) y la
media armónica (resulta poco influida por la existencia de determinados valores muy grandes que el
conjunto de los otros, siendo en cambio sensible a valores muy pequeños), cuyas fórmulas se presentan
en la siguiente tabla. Si a cada observación se le asigna un valor diferente, dado en forma de peso, y a
continuación se calcula la media, nos encontramos con una media ponderada. La moda de un conjunto
de valores es aquel valor que ocurre con más frecuencia. Si todos los valores son distintos, no hay
moda, por otra parte, un conjunto de datos puede tener más de una moda.
Medidas de tendencia central

Media aritmética 1
x= ( x1n1 + x2 n2 + . . . + xk nk )
n
Media geométrica
( )
1/ n
G = x1n1 x2 n2 . . . xk nk
Media armónica n
H=
�n1 n2 nk �
� + +. . . + �
�x1 x2 xk �
Ejemplo (Media geométrica)
Las tasas de interés de tres bonos son 5%, 7% y 4%.
La media geométrica es: G = 3

7 x5 x 4 = 5.192
La G da una cifra de ganancia más conservadora porque no tiene una ponderación alta para la tasa de
7%.
21
La mediana.
La mediana de una distribución de frecuencia corresponde al valor, supuesto los datos ordenados de
menor a mayor, que deja a ambos lados el mismo número de observaciones. Para el caso de
distribuciones agrupadas en intervalos se utiliza una fórmula aproximada. Se comienza calculando el
intervalo donde se encuentra la mediana, para lo cual se calculan las frecuencias acumuladas, y se
escoge el primer intervalo cuya frecuencia acumulada sea igual o superior a n/2. A continuación se
aplica la fórmula:
n / 2 - N i -1
Mediana = Li -1 + Ci
ni
Cuartiles, Deciles y Percentiles
Dados una serie de valores X1,X2,X3...Xn ordenados en forma creciente, los cuartiles son los tres valores
que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El
primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de
la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres
cuartas partes (75%) de los datos.
Para Datos No Agrupados
Si se tiene una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:
El primer cuartil:
 Cuando n es par: 1*n/4

 Cuando n es impar: 1*(n+1)/4
Para el tercer cuartil
 Cuando n es par: 3*n/4

 Cuando n es impar: 3*(n+1)/4
Quintiles
Se representan con la letra K. Su fórmula aproximada es i*n/5.
 El primer quintil. Separa a la muestra dejando al 20 % de los datos a su izquierda.
 El segundo quintil. Es el valor que indica que el 40 % de los datos son menores.
 El tercer quintil. Indica que el 60 % de los datos son menores que él.
 El cuarto quintil. Separa al 80 % de los datos inferiores del otro 20 %.
Deciles
22
 Se representan con la letra D. Son 9 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de
los resultados. Su fórmula aproximada es i*n/10.
 Es el decil i-ésimo, donde la i toma valores del 1 al 9. El (i*10) % de la muestra son valores
menores que él y el 100-(i*10) % restante son mayores.
Percentiles
 Se representan con la letra C. Su fórmula aproximada es i*n/100.
 Es el percentil i-ésimo, donde la i toma valores del 1 al 99. El i % de la muestra son valores
menores que él y el 100-i % restante son mayores.
Para Datos Agrupados
Cuando los datos no están agrupados en intervalos los cuartiles, así como el resto de las medidas de
posición, tienen un valor claro, tal como se ha descrito anteriormente. Sin embargo, cuando tenemos una
agrupación de los datos ya no es tan sencillo realizar el cálculo. Sí que resulta claro ver en cuál de los
intervalos está el cuartil (quintil, decil o percentil) buscado, pero para calcular su valor aproximado
necesitaremos usar una fórmula. El cálculo es similar al de la mediana, hay que empezar calculando el
intervalo cuya frecuencia acumulada sea igual o mayor que el valor jn/k, para a continuación aplicar la
fórmula:
jn / k - N i -1
Q j ;k = Li -1 + Ci
ni
donde k = 4 (j = 1, 2, 3) para los cuartiles, k = 10 (j = 1, 2, . . . , 9) para los deciles, k=100 (j= 1, 2, . . . ,

99) para los percentiles.
1.1.4 Medidas de Dispersión

Las medidas de dispersión estudian la separación existente entre los diversos valores que toma la
variable. Se dividen en medidas de dispersión absoluta y relativa. Las absolutas suelen hacer referencia a
un promedio, y permiten estudiar su representatividad. Este tipo de medidas depende de las unidades, lo
que es un inconveniente para realizar comparaciones entre poblaciones. En este sentido, las medidas de
dispersión relativas no dependen de las unidades y permiten comparar variabilidad entre poblaciones.
El rango estadístico, también llamado amplitud o recorrido, es la diferencia entre el valor máximo y el
valor mínimo en un grupo de números. Para averiguar el rango de un grupo de números:
 Ordenamos los números según su tamaño.

 Restamos el valor mínimo del valor máximo.
Con el objeto de que no exista dependencia de los valores extremos, se introduce el recorrido
intercuartílico, que es la semidiferencia entre el tercer y el primer cuartil:
Q3 - Q1
R1 =
2
23
Se define también la desviación absoluta media como la media de los valores absolutos de las
diferencias de los datos a la media, es decir:
1 k
AM = �xi - x ni
n i =1
Varianza, desviación típica y coeficiente de variación
La varianza es una medida de dispersión que sirve para estudiar la representatividad de la media. Viene
definida como la media de las diferencias cuadráticas de las puntuaciones respecto a su media
aritmética:
1 k
( )
2
S X2 = � xi - x ni
n i =1
Una varianza “grande” es indicativa de que la media no es representativa, mientras que una varianza
“pequeña” indica que la media es un buen representante de los datos. Con el objeto de tener una medida
de dispersión similar a la varianza, pero que venga medida en las mismas unidades de la variable, se
define la desviación típica como la raíz cuadrada positiva de la varianza:
S X = Varianza
La relación entre la varianza de una variable X y la de una nueva variable definida como a+bX es:
S a2+bX = b 2 S X2
Por lo tanto, si a los datos de la distribución les sumamos una cantidad constante la varianza no se
modifica y si multiplicamos por una constante, la varianza queda multiplicada por el cuadrado de esa
constante.
En ocasiones puede interesar comparar la dispersión de dos muestras y la desviación típica no ser válida,
si las dos muestras tienen unidades diferentes. Para obviar este inconveniente se define el coeficiente de
variación:
Desviación Típica S
CV = = X
Media x
Que no depende de cambios de escala en la variable.
1.1.5 Medidas de forma
Este tipo de medidas permite conocer la forma de la distribución sin necesidad de recurrir a su
representación gráfica. Existen dos tipos de medidas de forma: Asimetría y curtosis. Para clasificar la
distribución según estas medidas, se establece en ambos casos una tipología de distribuciones. Una
variable se dice que es simétrica si al “doblar” la distribución respecto a un eje (centro de simetría), las
frecuencias coinciden. Caso contrario se dice que la distribución es asimétrica positiva o negativa,
24
dependiendo que la rama larga de la distribución se encuentra en el sentido positivo o negativo del eje de
las x. La medida más popular de asimetría es el coeficiente de asimetría de Fisher, que viene dado por:
1 k
( )
3
m �
n i =1
xi - x ni
g1 = 33 = 3/ 2
S � 1 k
( �
)
2
�
�
� xi - x ni �
n i =1 �
Este coeficiente es invariante frente a cambios de origen y de escala.
Cuya interpretación es:

 Si g1 = 0, la distribución es simétrica.
 Si g1 > 0, la distribución es asimétrica positiva
 Si g1 < 0, la distribución es asimétrica negativa.
El coeficiente de curtosis trata de estudiar la concentración de frecuencias en la zona central de la

variable, de modo que variables con curtosis alta (leptocúrticas) tienen forma alargada y variables con
curtosis baja tienen forma aplanada (platicúrticas). La comparación se realiza respecto a una distribución
“moderada” como es la distribución normal (mesocúrtica). El coeficiente de curtosis viene dado por:
1 k
( )
4
m � xi - x
n i =1
ni
g 2 = 44 - 3 = 2
-3
S �
1 k
( ) �
2
� � xi - x
n i =1
�
ni �
�
Que se interpreta del siguiente modo:
Si g2 = 0, la distribución es mesocúrtica o normal.
Si g2 > 0, la distribución es leptocúrtica o por encima de lo normal.
Si g2 < 0, la distribución es platicúrtica o por debajo de la normal.
Al igual que el coeficiente de asimetría de Fisher, el coeficiente de curtosis es invariante frente a

cambios de origen y de escala.
1.1.6 Ejercicios.
1. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el nº de individuos que conviven en el
domicilio habitualmente. Las respuestas obtenidas han sido las siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5,
5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.
a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus
correspondientes acumuladas.
b) ¿Qué proporción de hogares está compuesto por tres o menos personas? ¿Qué proporción de individuos
vive en hogares con tres o menos miembros?
c) Dibuje el diagrama de barras de frecuencias y el diagrama en escalera.
25
2. Una entidad bancaria dispone de 50 sucursales en el territorio nacional y ha observado el número de
empleados que hay en cada una de ellas para un estudio posterior. Las observaciones obtenidas han sido: 12,
10, 9, 11, 15, 16, 9, 10, 10, 11, 12, 13,14,15, 11, 11, 12, 16, 17, 17,16,16, 15, 14, 12, 11, 11, 11, 12, 12, 12,
15, 13, 14, 16, 15, 18, 19, 18, 10, 11, 12, 12, 11, 13, 13, 15, 13, 11, 12.
a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus
correspondientes acumuladas.
b) ¿Qué proporción de sucursales tiene más de 15 empleados?
c) Dibuje el diagrama de barras y el diagrama en escalera correspondientes.
d) Agrupe en intervalos de amplitud 3 los valores de la variable, calcule su distribución de frecuencias y
represente su histograma y su polígono de frecuencias.
3. Los siguientes valores son los niveles de glucosa en sangre extraída a 100 niños en ayunas:
56 61 57 77 62 75 63 55 64 60
60 57 61 57 67 62 69 67 68 59
65 72 65 61 68 73 65 62 75 80
66 61 69 76 72 57 75 68 81 64
69 64 66 65 65 76 65 58 65 64
68 71 72 58 73 55 73 79 81 56
65 60 65 80 66 80 68 55 66 71
72 73 73 75 75 74 66 68 73 65
73 74 68 59 69 55 67 65 67 63
67 56 67 62 65 75 62 63 63 59
a) Elabore una distribución de frecuencias

b) Un histograma y un polígono de frecuencias.
4. Los siguientes datos representan las ventas de tabaco en España durante el año 1992, en millones de cajetillas,
según marcas:
Marcas Ventas
Ducados 1,107
Fortuna 1,041
Marlboro 535
Winston (1) 333
Lucky Strike (1) 164
Chesterfiel 110
Otros marcas 725
a) Calcular el porcentaje de ventas de cada marca sobre el total.

b) Representar los datos anteriores mediante un diagrama circular
5. Se ha realizado un estudio entre 100 mujeres mayores de 15 años y el número de hijos de las mismas. El
resultado ha sido:
Xi: Nº hijos ni: Nº mujeres

0 13
1 20
2 25
3 20
4 11
5 7
6 4
26
Se pide:
a) Calcular el número medio de hijos, la mediana y la moda.
b) Calcular los cuartiles y el decil 7.
c) Analizar la dispersión de la distribución, interpretando los resultados.
d) Analizar la forma de la distribución calculando los coeficientes correspondientes. Comente los resultados.
6. La siguiente distribución expresa el número de vehículos vendidos durante un mes por cada uno de las 50
sucursales que una determinada firma tiene en El Salvador:
xi: número de ni: número

vehículos vendidos Sucursales
1 5
3 12
4 20
6 8
10 5
Se pide:
a) Media aritmética, mediana y moda. ¿Qué puede decir de la asimetría de la distribución con estos datos?
b) Desviación típica, Coeficientes de asimetría de Fisher y curtosis. Comente los resultados.
7. La siguiente tabla recoge la cifra de ventas (en miles de millones) y el número de empleados (en
miles) de las diez mayores empresas del sector de automóvil durante el año 1989:
Empresa Ventas Plantilla

SEAT 457.3 23.8
Fasa Renault 449.7 19.2
General Motors 372.7 9.4
Ford 356.1 9.5
Citroen 224.6 7.6
Peugeot 198.0 6.7
Nissan 161.1 6.6
Mercedes Benz 110.7 3.4
ENASA 97.3 5.5
a) Calcular las ventas medias y el número medio de empleados.

b) ¿Dónde existe mayor homogeneidad, en las ventas o en la plantilla?
c) Calcular las ventas medias por empleado.
8. Una empresa dedicada al cultivo y explotación de naranjos posee 5 fincas. La producción de naranjas
y el rendimiento medio por hectárea para cada una de las fincas están dados en la siguiente tabla.
Calcular el rendimiento medio por hectárea para el total de las 5 fincas.
Producción (Tm) Rendimiento (Tm/Ha)
Finca 1 15 9
Finca 2 5 2
Finca 3 20 10
Finca 4 8 4
27
Finca 5 30 20
Solución.
El rendimiento medio por hectárea en el total de la fincas vendrá dado por el cociente entre el total de la
producción y el total de hectáreas. Esta última cantidad la podemos calcular como cociente
producción/rendimiento en cada finca:
Total producción 15 + 5 + 20 + 8 + 30
RM = = = 8.07 Tm/hectárea.
Total hectárea 15 / 9 + 5 / 2 + 20 /10 + 8 / 4 + 30 / 20
Observe que la fórmula aplicada coincide con la media armónica de los rendimientos ponderados por la
producción de cada fila.
8. La primera etapa de un rally consta de 4 tramos cronometrados. En cada uno de los 4 tramos, un
determinado piloto ha alcanzado las siguientes velocidades medias:
Distancia (km) Velocidad media (km/h)

Tramo 1 20 120
Tramo 2 10 70
Tramo 3 15 80
Tramo 4 30 90
Calcular la velocidad media total alcanzada por el piloto en la primera etapa del rally.
Solución.
La velocidad media total vendrá dada por el cociente entre el total de la distancia y el tota del tiempo:
Total dis tan cia 20 + 10 + 15 + 30

VM = = = 90.32 Km/hora.
Total tiempo 20 /120 + 10 / 70 + 15 / 80 + 30 / 90
Observe que la fórmula aplicada vuelve a ser la media armónica, de las velocidades ponderadas por la
distancia de cada tramo.
28
Unidad 4. Distribuciones Bivariadas
4.1 Distribuciones bidimensionales
Supongamos que en una población, y para un conjunto de n individuos, se miden dos caracteres X e Y:
( x1 , y1 ), ( x2 , y2 ),. . ., ( xn , yn )
En este caso tenemos una variable estadística bidimensional o distribución bidimensional de frecuencias,
la cual representaremos por (X, Y). Cuando se cuenta con una gran cantidad de datos, un modo de
presentar la distribución bidimensional es a través de una tabla de doble entrada de la forma:
Tabla de doble entrada
X/Y y1 y 2 ... yj ... yk Total
x1 n11 n12 . . . n1 j ... n1k n1+
x2 n21 n22 . . . n2 j ... n2 k n2 +
. . . . . .
. . . . . .
. . . . . .
xi ni 1 ni 2 . . . nij ... nik ni +
. . . . . .
. . . . . .
. . . . . .
xl nl 1 nl 2 . . . nlj ... nlk nl +
Total n+1 n+2 . . . n+ j ... n+ k n
Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de una dimensión.
En el caso de que las dos variables sean atributos, la tabla anterior recibe el nombre de tabla de
contingencia.
La representación gráfica más utilizada en el caso bidimensional es la nube de puntos o diagrama de

dispersión. Consiste en representar cada pareja de datos como un punto sobre unos ejes cartesianos.
4.1.1. Distribuciones marginales y condicionales.

Dada una variable estadística bidimensional, las distribuciones marginales permiten estudiar de un modo
aislado cada una de las componentes. A partir de una tabla de doble entrada, las distribuciones de
frecuencias marginales se obtienen sumando las frecuencias de la tabla por filas y por columnas.
Distribuciones marginales de X e Y.
X ni + Y n+ j
x1 n1+ y1 n+1
x2 n2 + y2 n+2
. . . .
. . . .
. . . .
yk n+ k
29
xl nl +
Las distribuciones condicionadas permiten estudiar el comportamiento de una de las variables cuando la
otra permanece constante. Vienen dadas por:
Distribuciones condicionadas de X e Y.
X/Y= y j ni / j Y/X= xi n j /i
x1 n1 j y1 ni1
x2 n2 j y2 ni 2
. . . .
. . . .
. . . .
xl nlj yk nik
Ejemplo:
Se desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta
se presentan los resultados de un estudio de 100 explotaciones ganaderas, seleccionadas aleatoriamente
del censo agropecuario. Se proporcionan las frecuencias conjuntas del número de cabezas (en miles) de
cabras (X) y ovejas (Y) que poseen las explotaciones.
X\Y 0 1 2 3 4
0 4 6 9 4 1
1 5 10 7 4 2
2 7 8 5 3 1
3 5 5 3 2 1
4 2 3 2 1 0
a) Hallar las medias, varianzas y desviaciones típicas marginales.
b) Hallar el número medio de cabras condicionado a que en la explotación hay 2,000 ovejas.
c) Hallar el número medio de ovejas que tienen aquellas explotaciones que sabemos que no tienen
cabras.
d) Hallar la covarianza y el coeficiente de correlación entre ambas variables.
Solución:
Primero completar la tabla anterior con las distribuciones de frecuencias de X e Y.
X\Y 0 1 2 3 4 ni +
0 4 6 9 4 1 24
1 5 10 7 4 2 28
2 7 8 5 3 1 24
3 5 5 3 2 1 16
4 2 3 2 1 0 8
n+ j 23 32 26 14 5 100
30
a) La media de X es:
0* 24 + 1*28 + 2*24 + 3*16 + 4*8

X= = 156/100= 1.56
100
La varianza de X es:
(0 - 1.56)2 *24 + (1 - 1.56)2 * 28 + (2 - 1.56) 2 *24 + (3 - 1.56) 2 *16 + (4 - 1.56)2 *8

S 2X = = 1.5264
100
La desviación típica (Estándar) es la raíz cuadrada positiva de la varianza, es decir:
S X = S X 2 =1.2355
Observe que la media muestral es un buen representante de los datos, ya que la desviación estándar no
es demasiado alta.
Para completar el literal a) debe obtenerse la media, varianza y desviación estándar para la variable Y.
b) El número medio de ovejas condicionado a que en la explotación hay 2,000 cabras, se obtiene
manteniendo fija la columna donde la variable Y es igual a 2. Esto es:
0*9 + 1*7 + 2*5 + 3*3 + 4* 2
(X /Y = 2 = ) 26
= 1.3077
c) De forma análoga al literal b) (la media de Y es 1.46)
d) La covarianza entre X e Y está dada por:
1 n
S XY = �( xi - x )(y i - y ) =
n i =1
=-
(0 - 1.56)(0 - 1.46) * 4 + (0 - 1.56)(1 - 1.46) * 6 + . . . + (4 - 1.56)(3 - 1.46) * 1 + (4 - 1.56)(4 - 1.46) * 0
=
100
0.1876
4.1.2. Coeficiente de correlación lineal
Consideremos una variable estadística bidimensional (X, Y) donde X e Y son de tipo continuo y
suponemos que existe entre ellas algún tipo de relación, constatable mediante la correspondiente
representación gráfica. Pregunta: ¿Cómo de grande es la relación entre X e Y y cómo cuantificarla? El
coeficiente de correlación lineal es un valor que permite estudiar el grado de dependencia lineal
existente entre X e Y. Viene definido por:
31
1 n
S XY �( xi - x )( y i - y )
n i =1
r = =
S X SY 1 n 1 n
2
�
n i =1
( x i - x ) �
n i =1
( y i - y )2
El término S XY se denomina covarianza. Una propiedad importante del coeficiente de correlación es

que no depende de cambios de origen y escala, y su valor siempre está comprendido entre -1 y 1:
-1 �r �1
De modo que valores de r cercanos a 1 indican una dependencia lineal y positiva entre las dos variables,
y valores de r cercanos a -1 indican dependencia lineal negativa. Cuando el valor de r está cercano a
cero, no existe dependencia lineal entre X e Y. Esto último puede ser, bien porque X e Y son variables
independientes, o bien porque la dependencia existente entre ambas variables es de otro tipo diferente al
lineal.
4.2. Distribuciones Bivariadas de dos variables cuantitativas
4.2.1. INTRODUCCIÓN AL MODELOS DE REGRESIÓN LINEAL
Los modelos de regresión lineal constituyen una poderosa herramienta para analizar la relación existente entre la pauta de
variabilidad de una variable aleatoria y los valores de una o más variables (aleatorias o no) de las que la primera depende o
puede depender. El modelo fundamental se esquematiza en la siguiente tabla.
Tabla 1 Datos del problema

Variables a explicar Variables o factores explicativos
(aleatoria) (aleatorios o no)
Y1 X11 …Xi1….XIn
----
Yj X1i …Xii….Xin
Observaciones ----
Yn X1n …Xin….Xnn
32
Se trata en general de estudiar las posibles relaciones existentes entre la distribución de Y j y los valores de las X ij . A la
Y se le denomina generalmente la variable dependiente, mientras que frecuentemente a X i se les llama variables
independientes o exógenos del modelo, aunque se prefiere denominarlas variables explicativas.
Los gráficos de dispersión son útiles debido a que proporcionan información sobre la relación existente entre las variables,
permiten sugerir modelos posibles, pueden señalar la existencia de observaciones atípicas, etc.
EJEMPLO 1. Analicemos la relación que existe entre el peso y la estatura según el sexo en el siguiente diagrama de
dispersión. 1: Hombres, 2: Mujeres. ESTAPESO.xls
Figura1 Diagrama de dispersión ESTATURA-PESO.
El diagrama presenta claramente, una relación positiva entre las dos variables estudiadas, que se refleja en una nube de
puntos cuyo eje principal tiene un sentido creciente, como consecuencia del hecho de que, en términos generales, los
individuos más altos pesan más que los más bajos. El diagrama también pone de manifiesto que las mujeres tienen en general
valores menores de ambas variables que los hombres, pero que la relación entre PESO Y ESTATURA es bastante similar en
ambos sexos.
33
Covarianza. Coeficiente de Correlación
Con el objetivo de dar una idea intuitiva del concepto de covarianza, razonemos el siguiente diagrama de dispersión,
correspondiente a las variables: TEMPERATURA-COSTO, en la que las rectas horizontal y vertical sobre el conjunto de
puntos corresponden a los valores medios (42.83, 79.25).
En este caso, existe claramente una fuerte relación negativa, la mayor parte de los puntos caen en los cuadrantes II Y IV.
Cuando la relación existente sea positiva la mayoría de los puntos caerán en los cuadrantes I y III
( )( )
Si consideramos para cada punto ( xi , y i ) del diagrama el signo que tiene el producto xi - x y i - y vemos que éste
resulta positivo en los cuadrantes I y III y negativo en los cuadrantes II Y IV. Por lo tanto el producto anterior será en
promedio positivo si existe una relación creciente entre las dos variables (es decir, si la Y tiende a crecer cuando lo hace la X)
y negativo si la relación existente es decreciente.
Por definición la covarianza entre dos variables no es más que el promedio de los productos de las desviaciones de ambas
variables respecto a sus medias respectivas. De forma similar a como se procedió a definir la varianza, el promedio se calcula
dividiendo por n-1 en vez de n.
(x )( ).
n
i - x yi - y
Cov xy = i =1
n -1
La covarianza presenta el inconveniente de que depende de las dimensiones en que se expresan las variables. Así la
covarianza entre TEMPERATURA y COSTO será mayor si se mide la temperatura en grados kelvin que si se mide en
Fahrenheit. Para obviar este problema se utiliza universalmente en Estadística, como grado de relación lineal entre dos
variables, el coeficiente de correlación lineal que no es más que la covarianza dividida por el producto de las desviaciones
34
Cov xy
típicas de las dos variables. rxy = . Se puede demostrar que el coeficiente de correlación lineal está siempre
SxSy
comprendido entre -1 y 1. Los valores extremos sólo los toma en el caso de que los puntos del diagrama de dispersión estén
alineados exactamente en línea recta. Cuanto más estrecho es el grado de relación lineal existente entre dos variables más
cercano a 1 es el valor de r (o a -1 si la relación es decreciente). Por el contrario un valor de r nulo o cercano a cero indicará
una relación lineal inexistente o nula.
OBSERVACIONES
 En general cuanto más estrechamente se agrupen los puntos del diagrama de dispersión alrededor de una recta más
fuerte es el grado de relación lineal existente entre las dos variables consideradas.
 Es importante resaltar que tanto la covarianza como el coeficiente de correlación miden sólo el grado de relación
lineal existente entre dos variables. Dos variables pueden tener una relación estrecha y sin embargo resultar r
cercano a cero por ser dicha relación no lineal.
 Es importante del conocimiento no estadístico del problema al momento de hacer predicciones.
EJERCICIO 1.
Dada una alta inflación, el señor Chávez ha cuidado mucho de su presupuesto. Como su casa tiene calefacción eléctrica, llevó
un registro de la cuenta del consumo mensual de energía eléctrica durante el año pasado y del promedio mensual de la
temperatura exterior. Los datos aparecen en la siguiente tabla. La temperatura está dada en grados Celsius y el costo de la
energía está en dólares. TEMPERACOSTO.xls.
Tabla2. Registro mensual: TEMPERATURA-COSTO.
Mes Temperatura Promedio costo de energía
Enero 10 120
Febrero 18 90
Marzo 35 118
Abril 39 60
Mayo 50 81
Junio 65 64
Julio 75 26
Agosto 84 38
Septiembre 52 50
Octubre 40 80
Noviembre 25 100
Diciembre 21 124
Identificar las variables, dependiente y explicativa. Hacer sus conjeturas de la relación entre las variables a partir del
siguiente gráfico y calcular la Cov xy y rxy .
35
Figura 2. Diagrama de dispersión TEMPERATURA- COSTO.
Descriptive Statistics
Mean Std. Deviation N
TEMPERATURA 42.83 23.218 12
COSTO 79.25 32.628 12
Correlations
TEMPERATURA COSTO
TEMPERATURA Pearson Correlation 1 -.863**
Sig. (2-tailed) .000
Sum of Squares and Cross-products 5929.667 -7188.500
Covariance 539.061 -653.500
N 12 12
**
COSTO Pearson Correlation -.863 1
Sig. (2-tailed) .000
Sum of Squares and Cross-products -7188.500 11710.250
Covariance -653.500 1064.568
N 12 12
**. Correlation is significant at the 0.01 level (2-tailed).
RUTA:Analyze>Correlate>Bivariate (En variables trasladar TEMPERATURA, COSTO)>Opciones (Seleccionar los
estadísticos, Exclude cases pairwise)>Continue>Ok
36
4.2.2. MODELO DE REGRESIÓN SIMPLE.
En este tipo de regresión se desea caracterizar el efecto lineal de una única variable explicativa sobre la variable respuesta.
Los pasos para efectuar un análisis son los siguientes (JURAN y GRYNA, 1997, cap. 23):
1. Representación gráfica de datos
2. Planteamiento del modelo
3. Estimación de la ecuación de predicción
4. Examen de la adecuación del modelo lineal
5. Intervalos de confianza para la estimación
En este apartado se explica el modelo de regresión lineal simple, un modelo con un solo regresor x que tiene una relación con
una respuesta y, donde la relación es una línea recta. Este modelo de regresión lineal simple es:
y =  o + 1 x +  (Modelo poblacional de regresión)
Donde la ordenada al origen  o y la pendiente 1 son constantes desconocidas, y  es una componente aleatorio del
error. Se supone que los errores tienen promedio cero y varianza s 2 desconocida. Además se suele suponer que los errores
no están correlacionados. Esto quiere decir que el valor de un error no depende del valor de cualquier otro error.
4.2.2.1 Estimación de los parámetros por mínimos cuadrados
Los parámetros  o y 1 son desconocidos, y se debe estimar con los datos de la muestra. Supongamos que hay n pares
de datos: ( x1 , y1 ) , ( x2 , y2 ) , , ( xn , yn ) . Estos datos pueden obtenerse en un experimento controlado, diseñado en forma
especifica para recolectarlos, o en un estudio observacional, o a partir de registros históricos existentes (lo que se llama un
estudio retrospectivo).
 Estimación de  o y 1
Para estimar  o y 1 se utiliza el método de mínimos cuadrados. Esto es, se estima  o y 1 tales que la suma de los
cuadrados de las diferencias entre las observaciones yi y la línea recta sea mínima. La ecuación se puede escribir
yi =  o + 1 xi +  i i = 1, 2,..., n (Modelo muestral de regresión), escritos en términos de los n pares de datos ( yi , xi ) ,

i = 1, 2,..., n . Así el criterio de mínimos cuadrados es:
n 
S (  0 , 1 ) =  ( yi -  0 - 1 xi ) . Los estimadores por mínimos cuadrados de  o y 1 , que se designarán por 0 y
2
i =1
1 , deben satisfacer
37
n   
 n   

S S
 0  , 
 
= -2  
 yi -  0
-  1
x 
i = 0 y
1  ,
 
= -2  
 y i -  0
-  1
xi  xi = 0 Simplificando estas
i =1   i =1  
0 1 0 1
dos ecuaciones se obtiene:
  n n  n  n
n  +   xi =  yi ;
n
0 1 i=1 i =1
 0  xi + 1  xi =  xi yi
2
i =1
i =1 i =1
 
Que son las llamadas ecuaciones normales de mínimos cuadrados. Su solución es la siguiente:
 0 = y - 1 x ;
 n  n 
n
  yi   xi 
  yi xi -  i =1  i =1 
n
1 = i =1
2 , en donde y=
1 n
 yi
n i =1
x=
1 n
 xi
n i =1
son los promedios de y i y xi
 n 
n
  xi 
 -  i =1 
2
i =1
xi
n
 
respectivamente. Por consiguiente,
 0 y 1 , son los estimadores por mínimos cuadrados. El modelo ajustado de
  
regresión lineal simple es entonces:
y =  0 + 1 x .Esta ecuación produce un estimado puntual, de la media de y para
una determinada x.
 S xy
Otra forma más compacta de escribir
1 = , donde:
S xx
2
 n   n  n 
  x    yi   xi  n
( ) ( )
n i n n
S xx =  xi -
2  i =1  =  xi - x ; S xy =  yi xi -  i =1  i =1  =  yi xi - x
2
i =1 n i =1 i =1 n i =1
38

La diferencia entre el valor observado yi y el valor ajustado correspondiente
yi se llama residual, matemáticamente el
 
  
i-ésimo residual es: ei = yi - yi = yi -   0 + 1 xi  i = 1,2,....n .
 
ei Tiene un papel importante para investigar la adecuación del modelo de regresión ajustado.
LOS SIGUIENTES APARTADOS SON OPCIONALES, NO SERÁN CONSIDERADOS EN LA EVALUACIÓN
4.2.2.2. Propiedades de los estimadores por mínimos cuadrados y el modelo
ajustado de regresión.
Tenemos que:
 
 0 = y - 1 x
S xy  y ( x )
n
 i i -x
1 = = i =1
S xx
Son combinaciones lineales de yi , entonces se puede escribir,
S xx
 n (x -x ) ; i = 1,2,...n
1 =  C i y i ; C i = i
s xx
i =1
 
E 1  = E  ci yi  =  c E ( y )
 n n
 i
n
i i Se supone: =0 , se demuestra:
   i =1  i =1 i =1
n
 ci = 0
i =1
n
 ci x
i
=1
i =1
   n
E 1  =  ci (  0 + 1 xi ) = 
n n
0  ci + 1  ci xi = 1
  i =1 i =1 i =1
  
E 1  =  1
 
E ( yi ) =  0 +  1 xi
39
  n 
      i =1yi      1
 0 
E  = E y - 1 x 
 = E n  1 
 - xE   = n ( + 1 xi ) - x1
n
0
   
i =1
   
 
   1
 0 
E  = n n 0 + 1 x - x1 =  0
 
  
 0 
E  = 0
 
   (x )
Var  1  = Var   ci yi  =  c
n n n n
-x
2
s2
i Var ( yi ) = s  ci = s
2 2 2 2
 i
=
   i =1  i =1 i =1 i =1 s 2 xx s xx
   s
2
Var  1  =
  s xx
     
( )
   2   
Var  
 0  = Var 
 y - 1 x 
 = Var y - 2 xCov
 y,  
1 + x Var  1 
 
       
   s2 2   
 0 
Var   = n + x Var   1 

   
   s2 2 s 2
 0 
Var  = n +x s
  xx
   1 x
2 
 
 =s  n + s
 0 
Var  2
  xx

 
Propiedades útiles.
n
 n n n
  
1.   y i - y i  =  ei = 0
i =1   i =1
2. y =y
i =1
i
i =1
i
3. La línea de regresión de mínimos cuadrados siempre pasa por el centroide de los datos que es el punto ( y, x )
n n 
4.  xi ei = 0
i =1
5.  yi ei = 0
i =1
40
Estimación de s 2
Además de estimar  0 y  1 , se requiere estimar s . Se obtiene de la suma de cuadrados

2
residuales, o suma de cuadrados del error.

n
SCRe s =  ei
2
i =1
n 2
 

=   yi - yi 
i =1  
n 2
  

=   y i -  0 -  1 xi 
i =1  
n 2
  

=   y i - y +  1 x -  1 xi 
i =1  
( ) ( )( ) (x )
n  n  2 n
=  y i - y - 2  1  y i - y xi - x +  1
2 2
i -x
i =1 i =1 i =1
n
( ) 
=  yi - 2 yi y + y - 2 1  xi yi + 2 1  yi x + 2 1  xi y - 2 1  x y + 1 s xx
i =1
2 2
n
i =1
 n
i =1
 n
i =1
 n
i =1
 2
n n
n y y i i  n  1 n n
=  y i - 2n + n y - 2  1  xi y i + 2  1  i  yi
2 2
i =1 i =1
x
i =1 n n i =1 n i =1 i =1
n n n
 1 1 1 n  s 
+ 2 1  i i 1 n
y
n i =1 i =1
x - 2  n
i =1
x i
n

i =1
y i +  1.
s
xx
.s xx
xx
n n
  1 n n 
=  y i - 2 n y + n y - 2  1  xi y i + 2  1  xi  yi + 1 S xy
2 2 2
i =1 i =1 n i =1 i =1
n   1 n n
  n
=  yi - n y - 2 1  xi yi -  xi  yi  + 1 S xy
2 2
i =1  i =1 n i =1 i =1 
n  
=  yi - n y - 2 1 S xy + 1 S xy
2 2
i =1
n 
SCRe s =  yi - n y - 1 S xy
2 2
i =1
( y ) =y
n n
2 2
Pero i -y i - n y = SCT
i =1 i =1

SCRe s = SCT - 1 S xy
E ( SCRe s ) = ( n - 2 )s 2
La suma de cuadrados residuales tiene n-2 grados de libertad, porque 2 grados de libertas se asocial con
  
los estimados
 0 1 y que se usan para obtener
yi . El estimador insesgado de s 2
es:
2 SC Re s
s = = CM Re s (Cuadrado Medio Residual)
n-2
41
 2
s : Error estándar de regresión.
 2
s Es un estimado de s dependiente del modelo.
2
4.2.3. Prueba de hipótesis
4.2.2.3. Prueba de hipótesis de la pendiente y de la ordenada al origen.
Uso de la prueba t
Supongamos que deseamos probar que la pendiente es igual a una constante.
H 0 : 1 = 10
H 1 : 1  10
ei son NID ( 0, s 2 )

1 Es una combinación lineal de las observaciones, y está distribuida normalmente.
    
 s2
E  1  = 1 (Promedio de
 
1 ); Var  1  = (Varianza de 1 )
  S xx

1 - 10
z0 = N ( 0,1)
Estadístico: s2
S xx
Como s 2 se desconoce, CM Re s es un estimador insesgado de s 2 .
( n - 2) CM 2Re s Tiene una distribución  n - 2

2
s

CM Re s y 1 Son independientes.
Estadístico t (Definición)
Si Z  N ( 0,1)
V   v2
Z y V Son independientes, entonces:

1 - 10
Z
s2

 tv
V S xx 1 - 10
t0 = = con (n - 2 gl )
v ( n - 2) CM Re s CM Re s
s 2
S xx
( n - 2)
42
 
 CM Re s
Denótese a Se 1  = : Como el error estándar estimado o error estándar de la pendiente,
  S xx

1 - 10
entonces t 0 =    . Se rechaza la hipótesis nula si t0  ta 2 , n-2 .
Se 1 
 
También se puede usar el método del valor P para la toma de decisiones.
Hipótesis para la ordenada al origen.
 
 0 -  00  -
H 0 :  0 =  00 t0 = = 0  00
;  1 x 2  Se  
H 1 :  0   00 CM Re s  +  0
 
 n S xx 
 
    1 x2 
Se  0  = CM Re s  +  Error estándar de la ordenada al origen.
   n S xx 
 
Se rechaza la hipótesis nula sí t0  ta 2 , n-2 .

Nota: El que una variable no sea significativa no quiere decir que en realidad no lo es, es necesario el
conocimiento no estadístico del problema para determinar por ejemplo si los intervalos de los datos fue el
adecuado.
Prueba de significancia de la regresión.
H 0 : 1 = 0
H1 : 1  0
El no rechazar H 0 : 1 = 0 implica que no hay relación lineal entre x e y.

“X tiene muy poco valor para explicar la variación de Y, por lo tanto el mejor estimador para cualquier x

es y = y
“La verdadera relación entre x e y no es lineal”

Si se rechaza H 0 : 1 = 0 , explica que x tiene valor para explicar la variabilidad de y. Rechazar
H 0 : 1 = 0 podría equivaler a que:

“El modelo de línea recta es adecuado”
“Aunque hay un efecto lineal en x se podrían obtener mejores resultados agregando términos
polinomiales en x”.
El procedimiento de prueba para H 0 : 1 = 0 se puede establecer con dos métodos.
Método I. Estadístico t.
H 0 : 1 = 0 La hipótesis de la significancia de la regresión. Se rechazara si t0  ta 2 , n-2

1
t0 =
  
Se 1 
 
43
Método II. Análisis de varianza.
También se puede usar un método de análisis de varianza para probar el significado de la regresión. Este
análisis se basa en una partición de la variabilidad total de la variable respuesta.
   

yi - y =  y i - y  +  yi - y i 
   
( )
2 2 2
n n    n  
 n    

 yi - y =   y i - y  +   yi - y i  + 2  y i - y  yi - y i 
i =1 i =1   i =1   i =1   
n   
 n   
 n  

2  y i - y  yi - y i  = 2 y i  yi - y i  - 2 y   yi - y i 
i =1    i =1   i =1  
n  n
= 2 y i ei - 2 y  ei = 0
i =1 i =1
( )
2 2 2
n  
n
 n  

 yi - y =   y i - y  +   yi - y i 
Luego, i =1 i =1   i =1  
SCT = SCR + SC Re s
SCT : Suma de cuadrados totales con n-1 grados de libertad.
SCR : Suma de cuadrados de regresión con 1 grado de liberad
SC Re s : Suma de cuadrados de residuos con n-2 grados de libertad.

Como SC Re s = SCT - 1 S xy Y SCT = SCR + SC Re s = S yy , entonces

SCR = 1 S xy
 La cantidad de grados de libertad se determina como sigue: la suma total de cuadrados SCT ,
tiene n-1 grados de libertad porque perdió un grado de libertad como resultado de la restricción
n
 yi - y
i =1
( ) para las desviaciones y - y . i
 La suma de cuadrados del modelo, o de la regresión SCR queda completamente determinada

por un parámetro, que es  , por ello tiene un grado de libertad.
1
 SC Re s tiene n-2 grados de libertad porque se imponen dos restricciones a las desviaciones
  
yi - yi como resultado de estimar  0 y 1 .
Se puede aplicar la prueba F normal del análisis de varianza para probar la hipótesis H 0 : 1 = 0
n-2
1) SC Re s =   n2-2
CM Re s
2) Si H 0 : 1 = 0 es cierta, SCR   n2-2
44
3) SC Re s y SCR son independientes.
SCR
glR CMR
F0 = =  F1,n-2 . Se rechaza H 0 : 1 = 0 si F0  Fa ,1,n-2 .
SC Re s CM Re s
gl Re s
El análisis de varianza para probar el significado de la regresión se resume de la siguiente manera:
Fuente de Suma de Grados de Media de Fo

variación cuadrados libertad cuadrados
Regresión 
1 S xy
1 CMR CMR
CM Re s
Residual 
S yy - 1 S xy
n–2 CM Re s
Total S yy n -1
 
1 1
t = =
Viene de la prueba t; 0  CM Re s
Se 1 
  S xx
 2   
2  S   S 1 S xy CMR 2
t0 = F
t0 = 1 xx = 1 1 xx = =
CM Re s CM Re s CM Re s CM Re s
4.2.2.4.
Intervalos de confianza
Intervalos de confianza de  0 , 1 y s
2
Si los errores se distribuyen en forma normal e independiente, entonces la distribución de muestreo tanto
 
1 - 1 0 - 0
de   y    es t con n-2 grados de libertad.
Se 1  Se  0 
   
Un intervalo de confianza de 100(1 - a ) % para 1 es:

   
  
1 - ta 2 ,n - 2 Se 1   1  1 + ta 2 ,n -2 Se 1 
   
Un intervalo de confianza de 100(1 - a ) % para  0 es:


   
  
 0 - ta 2 ,n - 2 Se  0    0   0 + ta 2 ,n-2 Se  0 
   
45
( n - 2) CM Re s   n2-2
s2
( n - 2) CM Re s  s 2  ( n - 2) CM Re s
a2 2,n-2 12-a 2,n-2
Estimación de intervalos de la respuesta media.
Una aplicación importante de un modelo de regresión es estimar la respuesta media, E ( y ) , para
determinado valor de la variable regresora x.
Sea x 0 el valor o nivel de la variable regresora para el que se desea estimar la respuesta media, es decir,
E  y  . Se supone que x 0 es cualquier valor de la variable regresora dentro del intervalo de los
 x0 
datos originales de x que se usaron para ajustar el modelo. Un estimador insesgado de E  y  se

 x0 
determina a partir del modelo ajustado como sigue:
     
E  y  = m y x0 =  0 +  1 x 0
 x 0
 
Para obtener un intervalo de confianza de 100(1 - a ) % para E  y  , se debe notar primero que
 x0 

my x0
es una variable aleatoria normalmente distribuida, porque es una combinación lineal de las

observaciones y i . La varianza de m y x0
es:
 s
( ) s2
( )
2
     
   2
Var  m y x0  = Var 
 0 +  x
1 0 = Var  y +  1 x 0 - x  = + x0 - x
      n S xx
   1
Var  m y x0  = s 2  + 0
(
x -x ) 2


   n S xx 
46
La distribución de muestreo de:

 m y / x0 - E ( y / x0 )
m y / x0 - E ( y / x0 )
 
1 x -x 2 
s  + 0 
2 ( )
Var  m y / x0  n S xx 

    m y / x0 - E ( y / x 0 ) es una distribución t, con
= =
( n - 2)CM Re s CM Re s 1 x -x ( ) 2

CM Re s  + 0 
s 2
s 2
n S xx 
n-2  
n-2 grados de libertad.
Un intervalo de confianza de 100(1 - a ) % para la respuesta media en el punto x = x 0 es:
my
 1 x -x
. CM Re s + 0
( ) 2

  E  y   m
 1 x -x
+ ta , n - 2 . CM Re s + 0
( ) 2


x0 - t a
2
,n - 2 n S xx   x0 
y x 0
2 n S xx 
   
Nótese que el ancho del intervalo de confianza para E 

 y  es
 una función de x 0 . El ancho del
 x0 
intervalo es mínimo para x 0 = x , y crece a medida que aumenta x0 - x .
Las mejores estimaciones de y se hacen con valores de x cerca del centro de los datos.
4.2.2.5. Predicción de nuevas observaciones
Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que correspondan
a un nivel especificado de la variable regresora x. Si x 0 es el valor de interés de la variable regresora,
  
entonces: y 0 =  0 +  1 x 0 es un estimador puntual del nuevo valor de la respuesta y 0 .
A continuación se obtendrá un estimado del intervalo para esta observación futura y 0 .


Sea  = y 0 - y 0 , con distribución normal con media cero y varianza.
 
     

Var ( ) = Var  y 0 - y 0  = Var ( y 0 ) + Var  y 0  - 2Cov y 0 , y 0 
     
  

= Var ( y 0 ) + Var   0 +  1 x 0 
 
1
= s 2 +s 2 + 0
x -x ( ) 2


 n S xx 
 1 x -x
Var ( ) = s 2 1 + + 0
( ) 2


 n S xx 
El resultado de predicción de 100(1 - a ) % de confianza para una observación futura en x 0 es:
47
  1 x -x
y 0  ta , n - 2 . CM Re s1 + + 0
( ) 2


2  n S xx 
 
Lo anteriormente expuesto se puede observar en el siguiente gráfico que muestra las bandas de confianza
y de predicción para un conjunto de datos.
El intervalo de predicción en x 0 siempre es más ancho que el intervalo de confianza en x 0 , porque el

intervalo de predicción depende tanto del error del modelo ajustado como el error asociado con
observaciones futuras.
Coeficiente de determinación.
SCR SC Re s
La cantidad R = = 1-
2
. Se llama coeficiente de determinación.
SCT SCT

1 S xx
2
Y su valor esperado: E( R ) = 2

1 2 S xx + s 2
( )
n 2
SCT =  yi - y : es una medida de variabilidad de y sin considerar el efecto de la variable
i =1
regresora x.
2
n  

SC Re s =   yi - y i  : es una medida de variabilidad de y que queda después de haber tenido en
i =1  
consideración a x.
R 2 : Proporción de la variación explicada por el regresor x.

SCR
Ya que 0  SCR  SCT : 0   1; 0  R 2  1 .
SCT
Regresión por el origen
EL modelo sin ordenada al origen es: y =  1 x +  . Dadas las n observaciones ( x i , y i ) , i = 1,2,...n ,
n
S (  1 ) =  ( y i -  1 xi )
2
la función de mínimos cuadrados es:
i =1
48
n

 yi xi
i =1
Siguiendo el proceso por mínimos cuadrados:  1 =
n
 x i2
i =1
 
EL modelo de regresión ajustado es: y =  x .
1
n 2 n n
 
 
El estimador de s es: 
2 2   y i - y i   yi2 - 1  yi xi
s  CM Re s = i =1   = i =1 i =1
n -1 n -1
Los intervalos de confianza son:
  CM Re s
 1 :  1  ta , n - 1
2 n
 x i2
i =1
 y   x02 .CM Re s
E  : m y x  ta , n - 1
 x0  n
 xi2
0 2
i =1
 
 
 x 02 
Para una observación futura: y 0  ta , n - 1 CM Re s1 +
 n 

2
 xi2 
 i =1 
2
n  
  yi - y 
2 i =1  
 Modelo con ordenada al origen R =
 ( yi - y)
n 2
i =1
n 2
 yi
2 i =1
 Modelo sin ordenada al origen: R =
n
 y i2
i =1
A veces, el diagrama de dispersión proporciona una guía para decidir si se ajusta o no el modelo sin
ordenada al origen. También, se pueden ajustar ambos modelos y escoger entre ellos de acuerdo con la
calidad del ajuste obtenido. Si no se puede rechazar la hipótesis  0 = 0 en el modelo sin ordenada al
origen, quiere decir que se puede mejorar el ajuste si se usa es modelo.
El cuadrado medio de residuales es una forma útil de comparar la calidad del ajuste. El modelo que tenga
el cuadrado medio residual menor, es el mejor ajuste.
En general, R 2 no es un buen estadístico para comparar los dos modelos.
49
4.3. TRANSFORMACIONES PARA LINEALIZAR UN
MODELO.
A partir de un diagrama de dispersión o de la teoría sobre ciertas funciones, podemos conocer que la
relación entre las dos variables puede representarse adecuadamente solo por cierta función matemática
curvilínea (no lineal), por ejemplo la tendencia general del crecimiento poblacional sigue un modelo
exponencial positivo, el decaimiento radioactivo sigue un modelo exponencial negativo, etc. En algunos
casos una función no lineal se puede lineal izar con una transformación adecuada.
Función linealizable Transformación Forma lineal
y =  0 x 1 y = log y, x = log x y = log  0 + 1 x
y =  0 e 1x y = ln y y  = ln  0 + 1 x
y =  0 + 1 log x x = log x y  =  0 + 1 x 
1 1
y  =  0 - 1 x 
x
y =
 0 x - 1
y = , x =
y x
EJEMPLO. Los datos siguientes se obtuvieron de observaciones periódicas hechas durante el crecimiento
de una población de células de levadura. Se efectuaron recuentos cada dos horas.
n Horas Número
(X) de células(Y)
1 2 19
2 4 37
3 6 72
4 8 142
5 10 295
6 12 584
7 14 995
El gráfico de dispersión muestra que los datos provienen de una función exponencial y =  0 e 1x Con el
fin de transformar la curva en recta conviene hacer la transformación, y = ln y tomamos los logaritmos
de las células.: RUTA: Transform>Compute Variable (LOGNATURAL)>
n Horas Número de células Ln (Y)

(X) (Y)
1 2 19 2.944439
2 4 37 3.610918
3 6 72 4.276666
4 8 142 4.955827
5 10 295 5.686975 50
6 12 584 6.369901
7 14 995 6.902743
Seguidamente se verifica por medio de un gráfico de dispersión si la transformación es adecuada
RUTA:Graphs>Legacy Dialogs>Simple Scatter>Define (Y: LOGNATURAL;X: Horas>
Como se esperaba, hoy los datos se ajustan a una línea recta. El proceso manual para obtener la ecuación
de predicción es el mismo que el de regresión simple. En SPSS se obtiene siguiendo la RUTA:
Analyze>Regression> Linear (Dependent: LOGNATURAL, Independent: Horas>Ok
ANOVAb
Model Sum of Squares Df Mean Square F Sig.
1 Regression 12.627 1 12.627 4936.297 .000a
Residual .013 5 .003
Total 12.640 6
a. Predictors: (Constant), Horas
b. Dependent Variable: LOGNATURAL
Coefficientsa
95% Confidence Interval for
Unstandardized Coefficients Standardized Coefficients B
Model B Std. Error Beta t Sig. Lower Bound Upper Bound
1 (Constant) 2.278 .043 53.287 .000 2.168 2.388
Horas .336 .005 .999 70.259 .000 .323 .348
a. Dependent Variable: LOGNATURAL
51
El modelo lineal encontrado es entonces: y  = 2.278 + 0.336.Horas . Para determinar el modelo
ajustado a los datos originales, se debe considerar la transformación y = ln y y su modelo lineal:
y  = ln  0 + 1 x . Resolviendo: ln  0 = 2.278 , entonces  0 = 9.757 .

Finalmente, el modelo ajustado es: y = 9.757e 0.336. Horas .
Las pruebas de idoneidad para el modelo se discutirán posteriormente.
En el análisis, éste caso se conoce el orden en que fueron recolectados los datos, y debe hacerse para
determinar si hay dependencia de los residuos con la secuencia del tiempo de recolección
Para realizar una regresión no lineal mediante SPSS tenemos que elegir los menús
Analize>Regression>Curve Estimation.
Este menú nos da la opción de calcular los siguientes modelos de regresión.
 Lineal, Y =  0 +  1 X
 Logarítmica, Y =  0 +  1 ln X
1
 Inversa Y =  0 +
X
Cuadrático Y =  0 + 1 X +  2 X
2

Cubico. Y =  0 + 1 X +  2 X +  3 X
2 3

 Potencia. Y =  0 X 1 o ln Y = ln  0 + 1 ln X
52
X
 Compuesto Y =  0 1 o ln Y = ln  0 + X ln 1
1 1
o ln Y =  0 +
0
 Curva S Y = e +
t t
 Crecimiento Y = e  0 + 1 X o ln Y =  0 +  1 X
 Exponencial Y =  0 e 1 X o ln Y = ln  0 + 1 X
Para el caso anterior, elegimos exponencial, y los resultados son los siguientes:
Model Summary
Adjusted R Std. Error of the
R R Square Square Estimate
.999 .999 .999 .051
The independent variable is Horas.
ANOVA
Sum of Squares df Mean Square F Sig.
Regression 12.627 1 12.627 4936.297 .000
Residual .013 5 .003
Total 12.640 6
The independent variable is Horas.
Coefficients
Standardized
Unstandardized Coefficients Coefficients
B Std. Error Beta t Sig.
Horas .336 .005 .999 70.259 .000
(Constant) 9.755 .417 23.394 .000
The dependent variable is ln(células).
53
54
Ejercicios.
1. Determine una ecuación que describa la relación entre la
frecuencia de accidentes y el nivel de educación preventiva
X Y XY X2
150 8.00 1200 22500
200 7.00 1400 40000
300 6.50 1950 90000
450 5.20 2340 202500
500 6.40 3200 250000
600 4.40 2640 360000
800 4.00 3200 640000
900 3.10 2790 810000
3900 44.60 18720 2415000
2. Una compañía que tiene 15 tiendas ha recopilado datos en

relación con los metros cuadrados de área de ventas respecto a
los ingresos mensuales. Trace una gráfica de los datos, y si
parece apropiado un modelo lineal determine la ecuación de
regresión.
Tienda Metros 2 Ingreso

X Y XY X2
a 55 45 2475 3025
o 80 60 4800 6400
j 85 75 6375 7225
e 90 75 6750 8100
k 90 80 7200 8100
d 110 95 10450 12100
n 130 95 12350 16900
g 140 110 15400 19600
c 180 120 21600 32400
l 180 105 18900 32400
b 200 115 23000 40000
i 200 130 26000 40000
h 215 140 30100 46225
f 260 170 44200 67600
m 300 200 60000 90000
15 2315 1615 289600 430075
3. Determine una ecuación predictiva para calcular el monto del

seguro, en función del ingreso anual para los siguientes datos:
55
Ingreso Prima
X Y XY X2
13 5 65 169
16 15 240 256
17 20 340 289
18 10 180 324
20 10 200 400
25 12 300 625
26 15 390 676
32 30 960 1024
38 40 1520 1444
40 50 2000 1600
42 40 1680 1764
287 247 7875 8571
56
Unidad 5. Los Valores Relativos
5.1. Razones, Proporciones, Porcentajes y Tasas.
Razón: El valor considerado como numerador no debe estar considerado en el

denominador, en consecuencia la razón puede ser un número superior o
inferior a la unidad.
Ejemplo: Supongamos que el número de personas que visitan un centro

comercial, en un día cualquiera es 7,000, de las cuales 4,200 son mujeres y
2,800 son hombres. Obtener la razón de mujeres respecto a los hombres.
Solución:
La razón o relación = 4200/2800 = 1.5, indica que las mujeres frecuentan ese
centro comercial en un 50% más que los hombres.
Proporciones:
Las proporciones se hacen para dar cuenta de la fracción que representa
cada uno de los subconjuntos que componen el conjunto total. Por ejemplo, los
subconjuntos formados por niños, jóvenes, adultos, y ancianos si,
respectivamente, los comparamos con la totalidad del conjunto daremos cuenta
de la proporción respectiva de cada uno de los subconjuntos. Si en una
localidad viven 2,000 niños, 3,000 jóvenes, 1,000 adultos y 300 ancianos, la
totalidad de la población sumarían 6,300 habitantes, y las proporciones de
niños sería 0.31, de jóvenes 0.47, de adultos 0.15 y de ancianos 0.04.
Ejemplo: La población del municipio de Soyapango distribuida por rango de edades

se presenta en el siguiente cuadro.
Sexo
Rango de edades Total
Hombre Mujer
Edad de 0 a 10 años 25,097 23,858 48,955
Edad de 11 a 15 años 12,849 12,490 25,339
Edad de 16 a 20 años 11,384 11,810 23,194
Edad de 21 a 30 años 19,587 23,372 42,959
Edad de 31 a 45 años 21,264 28,725 49,989
Edad de 46 a 65 años 16,219 21,645 37,864
Edad de 66 años ó más 4,834 8,269 13,103
Total 111,234 130,169 241,403
Obtener la proporción que representa cada grupo de edades.
NOTA: Cuando el valor del numerador está incluido en el denominador se,

se establece una proporción.
57
Porcentajes:
Los porcentajes se hacen para expresar las proporciones en base 100. En el

ejemplo anterior, los niños representan el 31%, los jóvenes el 47%, los adultos
el 15% y los ancianos 4%.
Ejemplo: En el censo de población de El Salvador, 2007, se encuentra que en el

Municipio de Mejicanos, tiene los siguientes sobre la condición laboral, para la
población mayor de 10 años.
NOMBRE DEL LUGAR CONDICION LABORAL
Población ocupada Población que busca trabajo Inactivos Total
Zona Urbana 54295 5894 46288 106477
CANTÓN CHANCALA 286 52 335 673
CANTÓN SAN MIGUEL 467 32 478 977
CANTÓN SAN ROQUE 3739 494 3991 8224
Total 58787 6472 51092 116351
Obtener la proporción de la población según condición laboral por cantón y
municipio.
Tasas:
Las tasas se hacen cuando el conjunto se fracciona en dos subconjuntos y se
quiere dar cuenta de la parte que representa uno de los subconjuntos sobre el
total del conjunto. Esta representación se suele expresar en base 100, pero se
pude hacer en base 10, 1000, etc. Por ejemplo, si el conjunto de la población
activa se divide en dos subconjuntos denominados desempleados y ocupados,
la tasa de desempleo sería el resultado de multiplicar por cien el número
resultante de dividir el número de desempleados por el total de activos
(ocupados y desocupados). Si de las 4,000 personas activas que hay en una
localidad, 3,600 están ocupadas y 400 están desempleadas, la tasa de
desempleo sería (400/ 4,000) X 100= 10%.
Ejemplo: En el censo de población de El Salvador, 2007, se encuentra que en

el Municipio de Mejicanos, tiene los siguientes datos de analfabetismo, para la
población mayor de 5 años.
Sabe leer y escribir
LUGARES
Si No Total
Zona Urbana 109205 8872 118077
CANTÓN CHANCALA 672 123 795
CANTÓN SAN MIGUEL 916 221 1137
CANTÓN SAN ROQUE 8027 1343 9370
Total 118820 10559 129379
Obtener la tasa de analfabetismo por cantón y municipio.
Ejercicio.
58
La población de 15 años o más según su condición de analfabetismo se
presenta en el siguiente cuadro.
Sabe leer y escribir
Sexo Total
Si No
Soyapango 161,155 10,801 171,956
Ilopango 66,240 5,420 71,660
San Martín 43,033 5,376 48,409
Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007
Obtener las tasas de analfabetismo de cada municipio y hacer un análisis
comparativo de los resultados.
5.2. Diferencia Relativa
La diferencia relativa se calcula como el cociente entre la diferencia de dos cantidades,

precio absoluto y la cantidad, precio o valor del periodo de referencia. Supongamos que
X i es una magnitud simple, representamos por X i 0 el valor de la magnitud en el
periodo base y por X it el valor de la magnitud en el periodo que queremos estudiar
entonces:
X it - X i 0
La diferencia relativa está dada por: DFt (i ) =
0
*100
X i0
Ejemplo:
El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006,
2007 y 2008, para los municipios de Soyapango, Ilopango y San Martín.
Grupos SOYAPANGO ILOPANGO SAN MARTÍN
de
edades Femenino Masculino Total Femenino Masculino Total Femenino Masculino Total
AÑO 2004
Total 15 167 182 12 78 90 11 42 53
AÑO 2005
Total 14 228 242 5 74 79 11 75 86
AÑO 2006
Total 16 246 262 15 69 84 6 48 54
AÑO 2007
Total 20 179 199 10 67 77 8 71 79
AÑO 2008
Total 10 128 138 9 66 75 7 54 61
Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo
identificar el sexo, no aparecen registrados en el cuadro anterior.
Obtener la diferencia relativa del número de homicidios por año, sexo y municipio.
El área de medicina tiene gran aplicación de las diferencias relativas, también llamada
fracción atribuible, se calcula como el cociente entre la diferencia absoluta de riesgo y
el riesgo en el grupo control.
Supongamos que se tiene la siguiente tabla de datos:
59
Placebo Tratamiento
Casos a0 a1
No casos b0 b1
Total n0 n1
A partir de la tabla anterior se puede calcular el riesgo relativo:
a1
� = R1 =
RR
n1
R0 a0
n0
El RR tiene las siguientes características:
 No tiene dimensiones.
 Si RR=1 no hay asociación entre la presencia del factor (Tratamiento) y el
evento (Caso o No Caso).
 Si RR >1 la asociación es positiva, es decir la presencia del factor se asocia a

mayor ocurrencia del evento.
 Si RR<1 si la asociación es negativa, es decir la presencia del factor se asocia a

menor ocurrencia del evento.
Ejemplo:
Se realiza un ensayo clínico para investigar los efectos secundarios de un medicamento.

Al finalizar el estudio, se obtiene la siguiente información.
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
Obtener el riesgo relativo del tratamiento.
307
RR = 3051 = 0.73
420
3054
Indica que en los pacientes que se aplica el tratamiento experimental tienen una tasa de
incidencia del 73% respecto a los pacientes tratados con placebo.
Reducción relativa de riesgo
60
De modo similar se define, y se suele usar cuando el riesgo en el grupo expuesto (con el
factor) es menor que el riego del grupo control, la reducción relativa del riesgo como el
cociente entre la reducción absoluta de riesgo y el riesgo en el grupo control.
a0 a1 a0 a1
� - � -
� = R AR n n � =
� RRR R AR n n1 �
RRR = 0 1
= 1 - RR = 0
= 1 - RR
�
R0 a0 �
R0 a0
n0 n0
Ejemplo:
Para los datos del anterior calcular la reducción del riesgo relativo
Placebo Tratamiento
Casos 420 307
No casos 2634 2744
Total 3054 3051
La RRR es:
El RRR indica que el riesgo del grupo tratado se reduce en un 26,8% del riesgo del
grupo control.
5.3. LOS NUMEROS INDICES

El número índice es una cifra relativa, expresada en términos porcentuales o al tanto por
uno, que sirve para indicar las variaciones que sufre una variable con respecto a un
valor de la misma, la cual es tomada como punto de referencia, denominada base.
Los números índices no miden, tan solo sirven para indicar las variaciones en los
precios, cantidades y valores de un periodo con respecto a otro. Por lo tanto, debe
tenerse mucho cuidado con su uso. Los números índices son muy usados en el análisis
de las ventas, producción, precios, costos, beneficios, aumento de capital y en especial
cuando se quiere comparar dos series de datos.
61
Definición: Un índice es una medida estadística que tiene la propiedad de informar de los
cambios de valor que experimenta una variable o magnitud en dos situaciones, una de las cuales
se toma como referencia. La comparación suele hacerse por cociente.
A la situación inicial se le llama periodo base y a la situación que queremos comparar periodo
actual o corriente.
5.3.1 Índices simples
Índices simples: Se denomina así a los referidos a una única magnitud y se obtienen dividiendo
cada precio, cantidad o valor de un periodo (anual, mensual, semanal, etc.), por el precio,
cantidad o valor de un periodo fijo, considerado base, multiplicado luego por 100.
Si X i es una magnitud simple, representamos por X i 0 el valor de la magnitud en el periodo

base y por X it el valor de la magnitud en el periodo que queremos estudiar entonces:
X it
El número índice simple es: I t0 (i) = *100
X i0
Mide la variación en tanto por uno o tanto por cien que ha sufrido la magnitud X entre los dos
periodos considerados y pueden ser:
X it
a) Valor: I t (i) =
0
*100
X i0
Pit
b) Precio: I t (i ) =
0
*100
Pi 0
qit
c) Cantidad: I t (i) =
0
*100
qi 0
Se puede calcular manteniendo fijo o constante el periodo base, permaneciendo

inalterado durante el periodo que es objeto de análisis. También se puede calcular con
base variable, en este caso, la base es el periodo inmediatamente anterior, partiendo de
un índice igual a 100, bajo el supuesto del desconocimiento de información anterior a
ese periodo.
Ejemplo 1. Con los datos de la serie 2001-2006 (referidos a los precios de un cierto
producto), calcular los índices de base fija 2001 y 2004; luego el índice de base
variable para esa misma serie.
Base fija 2001, 2004. Base Variable

años Yi Índice % de Índice % de Índice % de
2001=100 Variación 2004=100 Variación Variable Variación
2001 20 100 0 50 -50 100 0
2002 28 140 40 70 -30 140 40
2003 24 120 20 60 -40 85.71 -14.29
2004 40 200 100 100 0 166.66 66.66
62
2005 48 240 140 120 20 120 20
2006 70 350 250 175 75 145.83 45.83
Observe que tomando de base el año 2001, en el 2004 se tuvo un aumento del 100% y
en el 2006 se tuvo un aumento de precios del 250% con respecto al año 2001; si
tomamos de base el año 2004, en el 2006 se tuvo un aumento del 75%. Finalmente, si
tomamos Base Variable en el año 2006 hubo un aumento del 45.83% con respecto al
año 2005.
EJERCICIO DE APLICACIÓN. En enero de 2006 una fábrica pagó un total de $

99,200,000.00 a 120 empleados en nómina. En julio del mismo año, la fábrica tuvo 30
empleados más en nómina y pagó $ 30,000,000 más que en enero. Tomando el mes de
enero como base, hallar e interpretar:
a) El índice de empleo (NIE)
b) El índice del costo de mano de obra (ICMD)
c) Precio relativo
Solución.
a) NIE= Nº de empleados en julio / Nº de empleados en enero
150
NIE = *100 = 125 . Durante los 6 meses hubo un incremento de empleados
120
del 25%
b) ICMD = Salarios pagados en Julio / Salarios pagados en enero

129, 200, 000
ICMD = *100 = 130.24 . Durante los 6 meses considerados en
99, 2000, 000
este estudio hubo un aumento de costo de mano de obra en la empresa de
30.24%, observe que no se ha considerado en aumento de empleados.
c) El precio relativo (PR) es equivalente al riesgo relativo utilizado en medicina
(RR), es decir,
129, 200, 000 129, 200, 000
PR = 150 = 1.04193 PR = 150 = 1.04193
99, 200, 000 99, 200, 000 . El
120 120
índice de costo medio por empleado aumentó en un 4.10% para el mes de julio
en relación con el mes de enero.
Relación entre índices de base fija y variable.
El índice de base variable puede transformarse en índice de base fija, utilizando

la siguiente relación:
Xt
I t0 = I 00 * R01 * R12 *...* Rtt-1 donde Rhh-1 es el índice relativo, es decir, Rh -1 =
h
X h -1
Ejemplo: Se tiene la información del precio de un producto.
 Se desea indicar la variación del precio en Base fija 2002
el 2006 respecto al precio de 2003. años Yi Índice
Solución: 2002 2,000 100
X 4800 2003 2,800 140
I 0306 = 06 *100 = *100 = 171.43
X 03 2800 2004 2,400 120
2005 4,000 200
2006 4,800 240
2007 6,000 300
63
 Ahora, imaginemos que se tiene el índice de precios con base fija para 2003 y
2006 y se requiere la variación del precio en el 2006 respecto al precio de 2003.
Solución:
I 06 240
I 0306 = 0203 *100 = *100 = 171.43 . Observe que se tiene el mismo resultado si
I 02 140
se dispone de los precios o de los índices de base fija.
 Ahora, suponer que se tienen únicamente los índices de base variable y se
requiere la variación del precio en el 2006 respecto al precio de 2003.
Solución:
06
I 03 = I 0303 * R03
04
* R0405 * R0506 = 100*0.8571*1.6666*1.2 = 171.43 .
Ejercicio. Un índice para 2006 revela un aumento del 20% respecto al año anterior. En
el 2007 alcanzó a 174, es decir, presenta un incremento anual del 18%. Calcular los
índices de base fija de los años 2005 y 2006.
Solución:
Se requiere encontrar: I 0 , I 0 = ?
05 06
Información disponible: I 05 = 120, I 06 = 118 .

06 07
La base o periodo de inicio no se conoce, por lo tanto puede ser cualquier año, así:
I 007 = 174 además sabemos que I 007 = I 006 * R0607 , reemplazando 174 en la última expresión
se obtiene:
174
I 006 = = 147.45 .
1.18
05
Para obtener I 0 , se realiza un procedimiento análogo al anterior.
I 006 = I 005 * R0506 , reemplazando 147.45 se tiene:
147.45
I 005 = = 122.87 .
1.2
Ejercicio. Se tienen tres índices de base variable, cuyas cifras son: Para 2005=107, para
2006=108, para 2007=104, es decir, que entre 2004 y 2007, hubo un aumento del 19%.
Decir si la afirmación anterior es cierta o falsa.
Solución:
Recordemos que I 04 = I 04 * R04 * R05 * R06 = 100*1.07 *1.08*1.04 = 120.18 , por lo tanto
07 04 05 06 07
la afirmación es falsa.
5.3.2 Índices agregativos simples

Cuando se dispone de una serie de precios de un grupo de artículos, dados en unidades
diferentes, los índices simples ya no son utilizables, en esta situación se requiere utilizar
los índices agregativos simples.
Estos índices se calculan teniendo en cuenta la suma de los precios, cantidades o valores
de un grupo de artículos para un periodo, divida por la suma de los precios cantidades o
valores para ese grupo de artículos en otro periodo, considerado como base.
Matemáticamente se expresan como:
64
n n n
�X t (i) �Pt (i ) �q (i) t

I =
t
0
i =1
n
*100 I =
t
0
i =1
n
*100 I = t
0
i =1
n
*100
�X
i =1
0 (i ) �P (i)
i =1
0 �q (i)
i =1
0
Las expresiones anteriores son muy útiles cuando no existen variaciones significativas
entre productos, ya estos índices no se ven afectados por las variaciones en algún
producto. Para recoger las variaciones entre productos se recomienda calcular
primeramente los índices simples y luego sumarlos y finalmente dividirlos por el
número de productos. Esto es,
n
�I t
0 (i )
I =
t
0
i =1
*100
n
Ejemplo: Con los datos de la siguiente tabla, calcular el índice agregativo de las
Artículos medida Defectuosas cantidades que resultaron en mal estado de
mayo Junio conservación, en un grupo de artículos,
A Kg 12 18 comparados en el mes de junio de 2009,
B Lt 8 15 respecto a las cantidades comparadas, en mal
C Docena 20 8 estado de conservación, en el mes de mayo del
D Libras 14 20 mismo año.
E Unidad 50 70
Total 104 131
Solución:
 Primer método.
n
�q (i) t
131
I =
t
0
i =1
n
*100 = *100 = 125.96 . Este método es poco usual, ya que no es
104
�q (i)
i =1
0
afectado por las variaciones grandes que puede presenta uno varios artículos.
 Segundo método.
n
�I (i) t
150 + 187.5 + 40 + 142.8 + 140
0
I 0t = i =1
*100 = = 132.06
n 5
Este resultado es un poco mayor al obtenido por el primer método. Este aumento
se debe, a la variación que presenta el artículo B, durante ese periodo.
5.3.3 Índices de precios

Existen gran cantidad de fórmulas para calcular índices de precios, cuyo empleo
dependerá de la naturaleza misma del problema. Generalmente, las ponderaciones en los
índices de precios son las cantidades y en el cálculo de los índices de cantidad las
ponderaciones son los precios.
5.3.3.1 Índice de Laspeyres de precios.
65
Este índice puede interpretarse, como la relación existente, al comparar los precios
actuales de un grupo de artículos, con los precios de esos mismos artículos considerados
en el periodo base, manteniéndose constante como ponderación las cantidades del
periodo base. La expresión es la siguiente:
I 0t
�P (i)q (i) t 0
L = i =1
n
*100
�P (i)q (i)
i =1
0 0
5.3.3.2 Índice de Paasche de precios.
Se interpreta como la relación existente entre los precios actuales de un grupo de

artículos, con los precios de esos mismos artículos en el periodo base, manteniéndose
constante las ponderaciones correspondientes a las cantidades de dichos artículos, dadas
por el periodo que se investiga, esto es:
n
I 0t
�P (i)q (i)t t
P = i =1
n
*100
�P (i)q (i)
i =1
0 t
La diferencia entre las dos fórmulas anteriores, radica únicamente en la base tomada
para las ponderaciones, en la primera se refiere a las cantidades del periodo base y en la
segunda, las cantidades corresponden al periodo que se investiga.
5.3.3.3 Índice de Fisher de precios.
Este índice es un promedio geométrico, que se define como la raíz cuadrada del
producto del índice de Laspeyres por el de Paasche, así:
n n
t t t
�P (i)q (i) �P (i )q (i)
t 0 t t
F I0 = LI 0 P I 0 = i =1
n
* i =1
n
*100
�P (i)q (i) �P (i)q (i)
i =1
0 0
i =1
0 t
5.3.3 Índices de cantidad.

Los índices de cantidad de Laspeyres, Paasche y Fisher son muy parecidos a los índices
de precios, con la diferencia de que las ponderaciones son los precios. Las fórmulas son
las siguientes:
n n
t
�P (i)q (i)0 t
t
�P (i)q (i)
t t
LI0 = i =1
n
*100 P I0 = i =1
n
*100
�P (i)q (i)
i =1
0 0 �P (i)q (i)
i =1
t 0
n n
I 0t I 0t I 0t
�P0 (i)qt (i ) �P (i)q (i)t t
F = L P = i =1
n
* i =1
n
*100
�P (i)q (i) �P (i)q (i)
i =1
0 0
i =1
t 0
66
Ejemplo: Con los siguientes datos referentes a los precios y cantidades para un grupo
de artículos dados para dos periodos.
Artículos Unidad 2006 2007
Precio Cantidad Precio Cantidad
A Kg 26 10 38 8
B Lt 6 5 10 7
C Lbs 1 2 4 5
D Docena 6 1 15 2
E Unidad 3.6 2 2 1
Calcular los índices de precios y de cantidad de las Laspeyres, Paasche y Fisher.
Solución:
Ordenando los datos de la tabla anterior:
Articulos P06 q06 P07 q07 P06 q06 P07q07 P07q06 P06q07
A 26 10 38 8 260 304 380 208
B 6 5 10 7 30 70 50 42
C 1 2 4 5 2 20 8 5
D 6 1 15 2 6 30 15 12
E 3.6 2 2 1 7.2 2 4 3.6
305.2 426 457 270.6
 Cálculo de los índices de precios

n
I 0t
�P (i)q (i) t 0
Laspeyres: L = i =1
n
*100 =(457/305.2)*100 = 149.34
�P (i)q (i)
i =1
0 0
I 0t
�P (i)q (i) t t
Paasche: P = i =1
n
*100 = (426/270.6)*100= 157.43
�P (i)q (i )
i =1
0 t
Fisher: F I0t = LI0t P I0t = 149.34*157.43 = 153.54
 Los índices de cantidad se calculan de forma análoga.
Laspeyres: (270.6/305.2)*100=88.66
Paasche: (426/457)*100= 93.22
Fisher: 90.91
Ejercicio. El índice de cantidad de un grupo de artículos es igual a 200, sí se usa la

fórmula de Fisher, y a 160 si se emplea la de Laspeyres. ¿Cuál es el índice de cantidad
usando la fórmula de Paasche?
Solución.
t t t t t 40, 000
F I0 = LI0 P I0 = 2002 = 160* P I0 � P I0 = = 250
160
67
Ejercicio. Una empresa espera aumentar sus ventas en el año próximo en un 50%. ¿En
qué porcentaje debería incrementar los precios para que el ingreso total se convierta en
un 250%?
Solución.
Se sabe que el índice de ingreso total es igual al índice de cantidad vendida por el índice
de precios.
250=150*ind. Precios, entonces Ind. Precios = (250/150)=166.66
Se debe aumentar los precios en un 66.67%.
Ejercicio. El índice de precios de Laspeyres es de 2/3 del de Paasche y éste asciende a

130. ¿Cuál es el índice de Fisher?
Solución.
t t t
LI0 = (2 / 3) * P I0 = (2 / 3)(130) = 86.66 � F I0 = 86.66*130 = 106.14
5.3.4 Cálculo del salario e ingreso real.
Los números índices tienen numerosas aplicaciones, especialmente en el área

económica, por ejemplo, para estimar el salario real o ingreso real, los cuales se
obtienen a través de las siguientes fórmulas:
Salario real: (salario nominal/ índice de precios al consumidor)*100

Ingreso real: (Ingreso nominal/índice de precios al consumidor)*100
Este proceso de convertir el salario o el ingreso nominal en real se conoce como

deflación o sea la transformación de valores expresados a precios corrientes en valores o
precios constantes, con respecto a un periodo.
Ejemplo: Un profesor Universitario III de la Universidad de El Salvador en junio de

2009 ganaba $ 1,400.00 dólares US y en el mes de enero de 2010, su salario fue
reajustado con un aumento de $ 200.00 dólares. Se sabe además que el precio de la
canasta básica para esos mismos meses y años fue de $550 y $675 respectivamente. Se
quiere saber si con el reajuste en el salario mejoró la situación económica de los
profesores universitarios.
Solución.
El índice de precios de la canasta básica es:

675
I 010 = *100 = 122.73
550
Los artículos de primera necesidad aumentaron de junio de 2009 a enero de 2010 en un
22.73%, por lo tanto, tuvo que haber un incremento igual a este porcentaje o mayor,
para que las condiciones económicas sean iguales o mejores en el año 2010.
68
1600
Salario real= *100 = 1,303.67 , esto indica que el aumento fue demasiado bajo,
122.73
es decir, que a pesar de estar recibiendo más dinero que antes, este salario a penas
equivale a 1,303.67, el aumento esperado debió ser de $ 318.22 = 1400*0.2273, o sea
que su nuevo salario debería de ser de $1,718.22 en vez de $ 1,600.
Guía de ejercicios Nº 5.
1. Las cifras de ventas en millones de $ (dólares) de unos granos básicos

almacenados desde 2002 hasta 2010 son los siguientes:
Años Ventas a) Hallar los índices de ventas, tomando como base primero 2002 y
2002 18 luego 2005.
2003 18
2004 19 b) Hallar los índices de ventas con base variable
2005 15
2006 12
2007 16
2008 20
2009 24
2010 35
2. Un empleado ganaba $ 772 dólares mensuales en 2009 en el 2010 gana $ 912
mensuales, con lo cual mejora su ingreso real en 16%. Si el actual índice de
precios es de $ 560 ¿Cuál era el índice de precios del 2009?
3. La producción de tomates (en toneladas) en la provincia de Valparaíso fue

durante los últimos 10 años:
AÑO PRODUCCION (ton)
1997 1300
1998 1280
Se Pide:
1999 1189
2000 1234 a) Establezca una serie de números índice,
2001 1100 que permita estudiar la evolución de dichas
2002 1250
2003 1310
producciones, considerando como base el
2004 1270 año 1997.
2005 1140
2006 1240 b) Determine el porcentaje de variación de
la producción entre los años 1997 y 2006.
c) Determine la tasa de crecimiento promedio (tcp) entre los años 1997 y 2007.
4. La entrada de turistas Alemanes a nuestro País durante los últimos 7 años según
SERNATUR viene dada por la tabla siguiente:
AÑO Número de Turistas Se Pide:

2000 12565
2001 13124
2002 11897 a) Establezca una serie de números índice, que permita
2003 14578 estudiar todos los datos, considerando como base el
2004 16243 año 2000.
2005 14890
2006 15321
69
b) Con respecto al año 2003. Qué porcentaje de aumento o disminución se dio en los
años 2004 y 2005.
5. La Municipalidad de San Antonio, ubicada en la V Región ha estudiado el

consumo de anual de agua por habitante durante los últimos 5 años, obteniendo:
AÑO Consumo agua por habitante (lt) Se Pide:
2002 345
2003 367
2004 354
a) Establezca una serie de números índice,
2005 389 que permita estudiar todos los
2006 325 consumos, considerando como base el
año 2002.
b) Determine el porcentaje de variación del consumo entre los años 2002 y 2006.
c) Determine la tasa de crecimiento promedio (tcp) entre los años 2002 y 2006.
6. Una fábrica de automóviles chinos produce cuatro modelos distintos, todos en

versión económica, cuyos precios expresados en millones de pesos y número de
unidades producidas en 1998 y 2000 son respectivamente:
Año 1998 Año 2000
Modelo Precio (M$) Nº de unidades Precio (M$) Nº de unidades
1 0.9 3200 1.2 5600
2 1.3 3200 1.5 4300
3 1.9 3200 2.1 2000
4 3.8 3200 4.3 1200
Se Pide:
a) Hallar el índice de precios y de cantidad de LASPEYRE, con base el año 1998.
b) Hallar el índice de precios y de cantidad de PAASCHE, con base el año 1998.
c) Hallar el índice de FISHER para precio y cantidad, considerando el mismo año
base.
7. Si, por ejemplo, el consumo final de un país, expresado en miles de dólares

corrientes de cada año, y el I.P.C. de los mismos años son los siguientes,
expresar en dólares. Constantes el consumo final de ese país:
Años Consumo final IPC
2000 17 100
2001 20 105
2002 22 110
2003 25 115
2004 30 118
70

Conceptos Generales Estadistica

Cargado por

Copyright:

Formatos disponibles

Conceptos Generales Estadistica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Conceptos Generales Estadistica

Cargado por

Copyright:

Formatos disponibles

Universidad de El Salvador

Facultad de Ciencias Naturales y Matemática

Profesor: Dr. José Nerys Funes Torres

Asignatura: Tratamiento de la Información Estadística.

1.1. La Estadística y sus aplicaciones

1.1.1. ¿Qué es la Estadística?

ESTADÍSTICA DESCRIPTIVA: permite organizar y presentar un conjunto de datos de manera que

ESTADÍSTICA INFERENCIAL: Generaliza los resultados de una muestra a los de una

1.1.2. Aplicaciones de la Estadística.

Dentro de las Aplicaciones de la Estadística se destacan las siguientes:

En la economía se utiliza como una herramienta de predicción para pronosticar el comportamiento

5. La estadística en la Banca y Seguros

7. La estadística en las ciencias químicas.

En Química, la estadística se aplica en varias áreas: En el diseño de experimentos se usan métodos

Algunas de las aplicaciones concretas que podemos mencionar:

9. La estadística en las ciencias médicas.

1.2. Población, Muestra y técnicas de muestreo.

Cantidad - se refiere al tamaño de la población. El tamaño de la población es sumamente importante

El tamaño de la muestra (MAS):

MUESTREO ESTRATIFICADO - cuando se subdivide en estratos o subgrupos según las

MUESTREO SISTEMÁTICO - cuando se establece un patrón o criterio al seleccionar la muestra.

La unidad de análisis o estudio corresponde a la entidad mayor, primaria o representativa de lo que va

Debe estar claramente definida en un protocolo de investigación y el investigador debe obtener la

La unidad de muestreo corresponde a la entidad básica mediante la cual se accederá a la unidad de

1.4 Variables y datos

VARIABLES INDEPENDIENTES - son las características controladas por el investigador y que se

DATOS: son los hechos que describen sucesos y entidades.

1.5.1. ESCALAS NOMINALES

1.5.2. ESCALAS ORDINALES

1.5.3. ESCALAS DE INTERVALOS

1.5.4. ESCALAS DE RAZONES O COCIENTES

1.6. Diseño de Experimentos estadísticos.

El propósito de cualquier Diseño Experimental, es proporcionar una cantidad máxima de información

EXPERIMENTO: Conjunto de pruebas o ensayos cuyo objetivo es obtener

2.1 Estadística Descriptiva con una variable

1.1.1 Distribución de frecuencias

Clase Marca Frecuencias Absolutas Frecuencias Relativas

Primaria o Educación Superior no Técnico Superior

Figura 2. Nivel educativo de la población de Ayutuxtepeque, por ciento.

1.1.3 Medidas de posición

Los promedios o medidas de posición proporcionan valores típicos o representativos de la variable en

Medidas de tendencia central

Ejemplo (Media geométrica)

Las tasas de interés de tres bonos son 5%, 7% y 4%.

La media geométrica es: G = 3

Cuartiles, Deciles y Percentiles

Para Datos No Agrupados

 Cuando n es par: 1*n/4

Para el tercer cuartil

 Cuando n es par: 3*n/4

Para Datos Agrupados

donde k = 4 (j = 1, 2, 3) para los cuartiles, k = 10 (j = 1, 2, . . . , 9) para los deciles, k=100 (j= 1, 2, . . . ,

1.1.4 Medidas de Dispersión

 Ordenamos los números según su tamaño.

Varianza, desviación típica y coeficiente de variación

Que no depende de cambios de escala en la variable.

1.1.5 Medidas de forma

Este coeficiente es invariante frente a cambios de origen y de escala.

Cuya interpretación es:

0* 24 + 128 + 224 + 316 + 48

(0 - 1.56)2 24 + (1 - 1.56)2 28 + (2 - 1.56) 2 24 + (3 - 1.56) 2 16 + (4 - 1.56)2 *8