Clase Estadística

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 126

Estadística

Introducción a la Estadística
¡La Estadística es una parte importante del proceso de
investigación!

Su función es el estudio de los datos cuantitativos


de una población o de una muestra.

Ejemplo: de los recursos naturales e industriales, del


tráfico, o de cualquier otra manifestación de las
sociedades humanas
Definición de Estadística
Rama de las matemáticas que aplica el análisis numérico a los
problemas y objetos de estudio de las ciencias fácticas, buscando
responder preguntas de investigación por medio de métodos
rigurosos y observaciones cuidadosas.

Las ciencias fácticas necesitan utilizar


técnicas estadísticas durante su proceso
de investigación, con el fin de obtener
nuevos conocimientos basados en la
experimentación y en la observación
Definición de Estadística
Se ocupa de la obtención, orden y análisis de un conjunto de datos con
el fin de obtener explicaciones y predicciones sobre los diversos
fenómenos observados.

Su principal objetivo es mejorar la


comprensión de los hechos a partir de la
información disponible
Tipos de Estudios Cuantitativos

• No hay interferencia de investigador


Descriptivos • Condiciones habituales
(Observacionales) • Asociaciones

Experimentales • Modificación de la variable independiente


(Intervención) • Relación causal (causa – efecto)
Encuestas Experimentos
/Observación

Datos

Información
Roles de la Estadística dentro del Proceso de
Investigación

Actividad de Investigación Necesidad de la Estadística


Pregunta de Investigación ----
Recolección de datos
Análisis de los datos
Conclusiones finales

La Estadística incluye: la recolección, el análisis y las


conclusiones
Aspectos Básicos de
los Datos
El primer paso en estadística:

• Presentar una descripción efectiva de los datos


Datos o Variables de acuerdo a su Naturaleza

Continuas
Numéricas o
Cuantitativas
Discretas
Datos o
Variables Nominales

Categóricas o
Ordinales
Cualitativas
Binarias o
dicotómicas
Video
Variables de acuerdo a su Relación

Variable Independiente
(x)

Variable Dependiente
(y)
Ejemplo
Defina el tipo de cada variable del Ejemplo
1
Ejemplo 1: Base de datos de carros
Descripción de la base de datos
Estadística
Principios para la recolección y presentación de datos
Divisiones de la Estadística

Descriptiva Inferencial

Los datos pueden ser Se usa para modelar


resumidos de forma patrones en los datos y
numérica o gráfica extraer inferencias

Se dedica a la descripción, Se dedica a la generación de


visualización y resumen de modelos, inferencias y
datos predicciones
Todo inicia con una pegunta de investigación

• Cada investigación tiene una o más preguntas


• En base a la pregunta se definen las variables de estudio
• También de la pregunta, se definen la población y la muestra
La Relación entre Población y Muestra
¡Cuidado con los datos anecdóticos!

• Conocí dos ecuatorianos que tardaron 8 años en terminar sus


estudios universitarios, por lo tanto los estudios en este país deben
tardar mucho tiempo.
Medidas de Tendencia
Central
Medidas de Tendencia Central

Son medidas estadísticas que


pretenden resumir en un solo
valor a un conjunto de datos

Representan a un centro, en
torno al cual, se encuentra
distribuido el conjunto de los datos
Estas medidas sirven para resumir los datos
numéricamente
Medidas de tendencia central
Video
Para variables simétricas, el promedio determina
el centro de la distribución de los datos de una
muestra
Ejemplo del uso de promedio:
Otro ejemplo del uso del promedio:
Ejemplo práctico
El promedio se usa únicamente cuando las
distribuciones son simétricas, en las distribuciones
asimétricas se prefieren la mediana y la moda
La mediana es un solo valor del conjunto de datos
que mide la posición central del conjunto
La moda es el valor que tiene la mayor
frecuencia absoluta en un conjunto de datos
Video
Teorema del Límite Central

Establece que, dada una muestra suficientemente grande de la población, su distribución se


agrupará alrededor de su promedio
Tablas y Gráficos
Tablas de Distribución de
Frecuencias (Datos Agrupados)
1. Las variables numéricas pueden categorizarse
para presentar los datos, pero siempre es preferible
usar medidas de tendencia central y medidas de
dispersión para representar una serie de datos
numéricos

2. Evite categorizar las variables numéricas

3. Recolecte datos numéricos siempre que sea


posible
Tabla de distribución de frecuencias de variables
numéricas discretas con pocos valores
Únicamente se calculan las frecuencias para cada categoría

Nro. Frecuencia Frecuencia Frecuencia Frecuencia acumulada


de absoluta relativa (%) acumulada relativa (%)
hijos
1 20 20/350*100% 20 20/350*100
2 120 120/350*100% 140 140/350*100
3 200 200/350*100% 340 340/350*100
4 10 10/350*100% 350 350/350*100
Total 350 100%    
Ejemplos

Excel
Gráficos para Variables Numéricas o
Cuantitativas
Histograma
Gráficos para Variables Categóricas
o Cualitativas
Gráfico de barras
Diagrama Circular o Pie
Medidas de Posición
Medidas de Posición

Son valores que permiten dividir


el conjunto de datos en partes
porcentuales iguales

Se usan para clasificar


observaciones dentro de una
serie de datos
Percentil es cada punto que divide al grupo
de datos en cien partes iguales

Indica el porcentaje de valores del conjunto


de datos que queda por debajo de un valor
particular

• Ej: el percentil 20 indica que el 20% de los datos están por


debajo del valor que corresponda al percentil 20 y que por
encima está el 80% restante
Representación del percentil 20
Cuartil es cada punto que divide al grupo de
datos en cuatro partes iguales
Video
Diagrama de cajas
Diagrama de cajas
Decil es cada punto que divide al grupo de
datos en diez partes iguales
Video (2)
Medidas de Dispersión
¿Es ésta diferencia real? Pregunta estadística

Cada vez que lanzamos una moneda, ¿cuáles son las posibilidades de
obtengamos cara?

¿Qué pasa si lanzamos la moneda 100 veces?

¿Es tan grande la diferencia como para rechazar la


idea de que sólo se debió al azar?
Medidas de Dispersión

Cuantifican la variabilidad de los datos en


relación a una medida de tendencia central
• Rango
• Rango Inter-cuartilar
• Desviación Estándar
Ejemplo de dos muestras con la misma media, pero diferente dispersión.
La muestra azul está mucho más dispersa que la muestra roja.
Rango (R)
•Indica la amplitud entre los valores extremos de una variable

•Se calcula como la diferencia entre el mayor y el menor valor de la


variable
R = x(n) - x(1)

Donde:
x(n): Es el mayor valor de la variable (max)
x(1): Es el menor valor de la variable (min)
Rango o amplitud, es la diferencia entre el mayor
y el menor valor observado de la variable

• Ejemplo:

- Calcular el rango del siguiente conjunto de datos:

2, 3, 5, 5, 8, 10, 12

El rango es 12-2 = 10

El rango es 10
Rango Inter-cuartilar (RQ)
•Indica la amplitud o diferencia entre el tercer y el primer cuartil de
una distribución

•Es una medida de variabilidad adecuada cuando la medida de


tendencia central empleada ha sido la mediana

RQ = Q3 - Q1
Donde:
Q3: tercer cuartil
Q1: primer cuartil
Rango inter-cuartilar es la diferencia entre
los valores del 1er y 3er cuartil
 
Desviación Estándar (σ)
La desviación estándar cuantifica la variabilidad de
una muestra midiendo su dispersión alrededor de
la media
Desviación Estándar (σ)

• Una desviación estándar baja indica que la mayor parte de


los datos de una muestra tienden a estar agrupados cerca de
su promedio.

• Mientras que una desviación estándar alta indica que los


datos se extienden sobre un rango de valores más amplio.
Para distribuciones normales (simétricas) resulta:
Para distribuciones normales (simétricas) resulta:
Video
Cálculo de la Desviación Estándar Paso a Paso:
Id Valor (X)
1 5
2 6
3 7
4 7
5 8
6 9
7 11
8 12
9 13
10 14
11 15
Paso 1 Calcular el promedio

• 
Paso 2: Restar cada dato del promedio
Id Valor (x) (x – Xm)

1 5 -4.72
2 6 -3.72
3 7 -2.72
4 7 -2.72
5 8 -1.72
6 9 -0.72
7 11 1.28
8 12 2.28
9 13 3.28
10 14 4.28
11 15 5.28
 
Id Valor (x) (x – Xm) (x – Xm)^2
1 5 -4.72 22.2784
2 6 -3.72 13.8384
3 7 -2.72 7.3984
4 7 -2.72 7.3984
5 8 -1.72 2.9584
6 9 -0.72 0.5184
7 11 1.28 1.6384
8 12 2.28 5.1984
9 13 3.28 10.7584
10 14 4.28 18.3184
11 15 5.28 27.8784
 
• 
Paso 5 dividir la sumatoria para n
118.1824/11 = 10.743
Paso 6 sacar la raíz cuadrada de la división
anterior
• 3.278
Ejemplo práctico
Ejemplo práctico
Ejemplo práctico
Ejemplo práctico
Ejemplos
Muestreo
Técnica para la selección de una muestra a partir de una población
estadística
Una población es la suma
de todos los elementos
que comparten algún
conjunto común de
características, y que
constituyen el universo
para los propósitos del
problema de la
investigación

Una muestra es un
subgrupo de la
población, que se
selecciona para participar
en el estudio
Al elegir una muestra, se
espera conseguir que sus
propiedades sean
extrapolables a la
población
Muestra
Representativa
Video
Técnicas de muestreo que
no usan procedimientos
de selección al azar, sino
que se basan en el juicio
personal del investigador
Procedimiento de muestreo
donde cada elemento de la
población tiene una
oportunidad probabilística fija
para ser elegido en la muestra
Técnicas de Muestreo No
Probabilístico
Técnica de muestreo no
probabilístico que busca
obtener una muestra de
elementos convenientes
Muestreo por
Juicio

Forma de muestreo por


conveniencia en que los
elementos de la población se
seleccionan de forma deliberada
con base en el juicio del
investigador
Muestreo por Cuotas

Técnica de muestreo no
probabilístico, que es un muestreo
por juicio compuesto de dos etapas:

1. La primera etapa consiste en


desarrollar categorías de control

2. En la segunda etapa, se
seleccionan los elementos de la
muestra con base en la
conveniencia o el juicio
Muestreo Bola de Nieve

Técnica de muestreo no probabilístico en la cual se selecciona al azar al grupo inicial de encuestados. Los
encuestados posteriores se seleccionan con base en las referencias o la información proporcionada por
los encuestados iniciales. Este proceso puede realizarse en olas para obtener referencias de las referencias
Técnicas de Muestreo
Probabilístico
Técnica de muestreo
probabilístico donde cada
elemento tiene una probabilidad de
selección equitativa y conocida.
La muestra se extrae mediante un
procedimiento aleatorio del
marco de muestreo
Técnica de muestreo
probabilístico en que la
muestra se elige seleccionando
un punto de inicio aleatorio, para
luego elegir cada n elemento
en sucesión del marco de
muestreo
Técnica de muestreo probabilístico que
usa un proceso de dos pasos para
dividir a la población en estratos. Los
elementos se seleccionan de cada estrato
mediante un procedimiento aleatorio
Forma común de muestreo
estratificado en que los
conglomerados están formados
por áreas geográficas como
condados, manzanas, u otras
descripciones
Tamaño de la Muestra
Objetivo: Definir el proceso necesario para determinar el tamaño de la
muestra
¿Qué tamaño
tendrá una
muestra
representativa?

Al elegir una muestra, se


espera conseguir que sus
propiedades sean
extrapolables a la
población
Muestra
Representativa
Tamaño de la Muestra

Número determinado de
sujetos que componen
la muestra extraída de
una población, necesarios
para que los datos
obtenidos sean
representativos de la
población
Permite
Se calcula
reducir costos
mediante la
o aumentar la
aplicación de
rapidez del
una fórmula
estudio
Fórmula

•Una fórmula muy extendida que orienta sobre el cálculo del tamaño de la
muestra para datos globales es la siguiente:

𝑁 ∗ 𝑍2 ∗ 𝑝 ∗ 𝑞
𝑛= 2 2
( 𝑁 − 1) ∗ 𝑒 + 𝑍 ∗ 𝑝 ∗ 𝑞
Símbolos y su Significado

Parámetro Estadístico
Error Muestreal (e)

Siempre se comete un
Es la diferencia entre un error, pero la naturaleza
estadístico y su parámetro de la investigación nos
correspondiente indicará hasta qué
medida podemos
cometerlo

Se expresa en
forma de porcentaje
(%)
Intervalo de Confianza (Z)

•Es una constante que depende del nivel de confianza que asignemos

•El nivel de confianza indica la probabilidad de que los resultados de


nuestra investigación sean ciertos:

Un 95,5 % de confianza es lo mismo que decir que nos podemos


equivocar con una probabilidad del 4,5%
Intervalo de Confianza (Z)

•Los valores de Z se obtienen de la tabla de la distribución normal:

Valor de Z 1.28 1.65 1.69 1.75 1.81 1.88 1.96


Nivel de
80% 90% 91% 92% 93% 94% 95%
confianza
Índices de Probabilidad (p y
q)

•p: proporción de individuos que poseen la característica de estudio


en la población

•q: proporción de individuos que no poseen esa característica, es


decir, es (1-p)

•Estos datos son generalmente desconocidos, y se suele suponer que:


p = q = 0,5
Fórmula

•Una fórmula muy extendida que orienta sobre el cálculo del tamaño de la
muestra para datos globales es la siguiente:

𝑁 ∗ 𝑍2 ∗ 𝑝 ∗ 𝑞
𝑛= 2 2
( 𝑁 − 1) ∗ 𝑒 + 𝑍 ∗ 𝑝 ∗ 𝑞
𝑁 ∗ 𝑍2 ∗ 𝑝 ∗ 𝑞
Fórmula 𝑛=
( 𝑁 − 1 ) ∗ 𝑒 2+ 𝑍 2 ∗ 𝑝 ∗ 𝑞

•Donde:

n: tamaño de la muestra
N: tamaño de la población
Z: valor correspondiente al intervalo de confianza
e: error
p: probabilidad de que un elemento sea incluido
q: probabilidad de que un elemento no sea incluido (1-p)
Ejemplo
Ejemplo Ilustrativo:

•Calcular el tamaño de la muestra de una población de 500 elementos


con un nivel de confianza del 95% y un error del 5%.

•Solución:
•Se tiene N = 500
•Para el 95% de confianza Z = 1.96
•como no se tienen los demás valores se usará p = q = 0,5 
•e = 5% = 0,05
Ejemplo Ilustrativo:

•Reemplazando valores en la fórmula se obtiene:

n=

Lo cual se aproxima a 218.

También podría gustarte