Clase1 PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 78

ROGER DURAND CHACON:

Contador Público Colegiado de la Universidad Inca Garcilaso


de la Vega.
Facultad de Ciencias Contables y Finanzas Corporativas
Egresado de la Universidad
. Nacional del Callao
. y Matemática
Facultad de Ciencias Naturales
Escuela Profesional de Matemática
Magister en Derecho Tributario de la Universidad Nacional
Federico Villarreal.
Docente en La Universidad Autónoma de Ica, Universidad
Privada de Iquitos, Universidad Nacional Mayor de San
Marcos, y Docente del Instituto Superior tecnológico CESCA,
ADDIS, TRENTINO, SAN SILVESTRE, ISEL.
Email: [email protected]
Estadística: conceptos básicos y
definiciones.
1
Conceptos básicos
. Población: es el conjunto sobre el que estamos
interesados en obtener conclusiones (hacer
inferencia).
 Normalmente es demasiado grande para
poder abarcarlo.

. Muestra: es un subconjunto de la población al


que tenemos acceso y sobre el que realmente
hacemos las observaciones (mediciones)
· Debería ser "representativo"
· Esta formado por miembros
"seleccionados" de la población
(individuos, unidades experimentales).

•2
Conceptos básicos cont.
•Muestra Aleatoria: es una muestra bien
representativa de la población. Se considera que cada
elemento de la población ha tenido la misma
oportunidad de formar parte de la muestra.
Las conclusiones basadas en una muestra aleatoria son
confiables.

fi: población
ikt: muestra
Conceptos básicos cont.
 Variable: una variable es una característica observable que
varía entr e los difer entes individuos de una población. La
información que disponemos de cada individuo es resumida
en variables.
 Dato: es un valor particular de la variable

 En los individuos de la población chilena, de uno a otro es variable:


— El grupo sanguíneo
 1,A, B, AB, O
Su nivel de felicidad "declarado"
 {Deprimido, , Muy Feliz
El número de hijos
 {0,1,2,3,...}
La altura
 11.62 , 1.74,
•4
Conceptos básicos cont.
 Parámetro: Es una cantidad numérica
•calculada sobre una población.
 La altura media de los individuos de un
país.
· La idea es resumir toda la información
que hay en la población en unos pocos
números (parámetros).

 Estadístico: Ídem (cambiar población por muestra).


La altura media de los que estamos en este aula.
*Somos una muestra G, representativa?) de la población.
· Si un estadístico se usa para aproximar un parámetro
también se le suele llamar estimador.
5
Conceptos básicos cont.
 Censo: es un listado de una o más
características de todos los elementos
de una población. Los censos
poblacionales se hacen cada 10 años a
nivel mundial.

 Encuesta: Es un listado de una o más


características de todos los elementos de una
muestra.
Definición de Estadística
La estadística es la Ciencia de la

7
División de la Estadística
 Estadistica fi escriptiva: Conjunto cíe
técnicas y métodos que son usados para
recolectar, organizar, y presentar en
forma de tablas y gráficas información
numérica. También se incluyen aquí el
cálculo de medidas estadísticas de
centralidad y de variabilidad.

 Estadistica Inferencia!: Conjunto de


técnicas y métodos que son usados para
sacar conclusiones generales acerca de
una población usando datos de una
muestra tomada de ella.
Gráfica del Análisis
Estadístico

9
Pasos en un estudio estadístico
Plantear hipótesis sobre una población:
 Los fumadores tienen "más ausencias" laborales
que los no fumadores.
 ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?

 Decidir qué datos recoger (diseño de


experimentos)
· Qué individuos pertenecerán al estudio (muestras).
 Fumadores y no fumadores en edad laboral.
 Criterios de exclusión: ¿Cómo se eligen?
•¿Descartamos los que padecen enfermedades crónicas?
· Qué datos recoger de los mismos (variables).
 Número de ausencias.
 Tiempo de duración de cada ausencia.
 ¿Sexo? ¿Sector laboral? ¿Otros factores? 10
Pasos en un estudio estadístico cont.
 Recoger los datos (muestreo):
De qué forma recolecto la información.

 Describir (resumir) los datos obtenidos:


 Tiempo medio de ausencia en fumadores y no fumadores
(estadísticos)
 % de ausencias por fumadores y sexo (frecuencias.), gráficos,...

 Realizar una inferencia sobre la población:


 Los fumadores están de ausencia al menos 10 días/año más de
inedia que los no fumadores.

 Cuantificar la confianza en la inferencia:


· Arivel de confianza del 95%
· Significación del contraste: valor-p = 2% ¿? 11
Técnicas de Muestreo
a. Muestreo Aleatorio. Se usa cuando a cada elemento de la población se
le quiere dar la misma oportunidad de ser elegido en la muestra.

a. Muestreo Estratificado. Se usa cuando se conoce de antemano que la


población está dividida en estratos, que son equivalentes a categorías y
los cuales por lo general no son de igual tamaño. Luego, de cada estrato
se saca una muestra aleatoria, usualmente proporcional al tamaño del
estrato.

c Muestreo por conglomerados ("Clusters"). En este caso la población


se divide en grupos llamados conglomerados. Luego se elige al azar un
cierto número de ellos y todos los elementos de los conglomerados
elegidos forman la muestra.

d) Muestreo Sistemático. Se usa cuando los datos de la población están


ordenados en forma numérica. La primera observación es elegida al azar
de entre los primeros elementos de la población y las siguientes
observaciones son elegidas guardando la misma distancia entre si.
12
Tipo de Variables
 Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un
•número (no se pueden hacer operaciones algebraicas con ellos)

· Nominales: Si sus valores no se pueden ordenar


 Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Si No)

· Ordinales: Si sus valores se pueden ordenar


 Mejoría a un tratamiento. Grado de satisfacción, Intensidad del dolor

.Si susCuantitativas o Numéricas


valores son numéricos (tiene sentido hacer operaciones algebraicas
con ellos)

•Discretas: Si toma valores enteros


 Número de hijos. Número de cigarrillos, Num. de "cumpleailos"

Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


 Altura, ingreso familiar, Dosis de medicamento administrado. edad
13
Tipo de variables cont.
Ejemplos:
 Es buena idea codificarlas variables como números para poder procesarlas
con facilidad en un computador.
 Es conveniente asignar “etiquetas” a los valores de las variables para
recordar qué significan los códigos numéricos.
–Género (Cualitativa : Códigos arbitrarios)
•1 : Hombre
•2 : Mujer
–Raza (Cualitativa: Códigos arbitrarios)
1 : Blanca
2 : Negra, ...
–Felicidad Ordinal: Respetar un orden al codificar.
1 : Muy feliz
2 : Bastante feliz
3 : No demasiado feliz
 Se pueden asignar códigos a respuestas especiales como
0 : No sabe
99 : No contesta...
14
Ejemplo: Tipo de variables cont.
En un programa para la detección de hipertensión en una muestra
de 30 hombres en edades entre 30 y 40 años, la distribución de la
presión diastólica (mínima) en mm Hg fue la siguiente:

70 85 85 75 65 90 110 95 90 70

60 75 SO 120 85 95 90 70 100 65

80 90 95 90 95 110 100 85 SO 75

La variable en estudio es

Presión diastólica (medida en rnrn de Hg)

una variable numérica continua. 5


Tabla de Frecuencias
Exponen la información recogida en la muestra de
manera inteligente:

· Frecuencias absolutas: Contabilizan el número de individuos


de cada modalidad.

· Frecuencias relativas (porcentajes unitarios): Ídem, pero


dividido por el total, normalizadas.

· Frecuencias acumuladas absolutas y relativas: Acumulan las


frecuencias absolutas y relativas. Son especialmente útiles
para calcular cuantiles (como veremos más adelante).

•1 6
Tabla de Frecuencias cont.
Ordenamos los datos en forma creciente:

La amplitud total A = 120 –60


Número de clases: K = 301/2 = 5.48. Aprox. 6 clases
Extensión del intervalo: H = A/ K = 60/6 = 10
En este caso, entonces, la tabla de frecuencias tendrá
aproximadamente 6 clases de amplitud 10 unidades en
cada clase. 17
Tabla de Frecuencias cont.
Histograma de la distribución de
presión diastólica en mm de Hg
según las frecuencias absolutas:

Gráficos para variables
cualitativas

 Diagramas de barras
- Alturas proporcionales a
las frecuencias (abs. o rel.)
- Se pueden aplicar también
a variables discretas

 Diagramas de sectores
(tartas, polares)
- El área de cada sector es
proporcional a su
frecuencia (abs. o rel.)
Gráficos para variables cualitativas cont.

21
Gráficos diferenciales para
variables numéricas

Son diferentes en función de que las


variables sean discretas o continuas.
Valen con free. absolutas o relativas.

· Diagramas barras para variables


discretas
 Se deja un espacio entre barras para
indicar los valores que no son posibles

· Histogramas para v. continuas


 El área que hay bajo del histograma
entre dos puntos cualesquiera indica la
cantidad (porcentaje o frecuencia) de
individuos en el intervalo.
Diagramas Integrales
 Cada uno de los anteriores diagramas tiene su correspondiente
diagrama integral. Se realizan a partir de las frecuencias acumuladas.
Indican, para cada valor de la variable, la cantidad (frecuencia) de
individuos que poseen un valor inferior o igual al mismo.

.
•n

•4 •6 0
•1
Estadísticos de forma intuitiva

24
Estadísticos
 Posición (Basados en el orden
Dividen un conjunto ordenado de datos en grupos con la misma
•cantidad de individuos.
 Cuantiles, percentiles, martiles, deciles,...

 Centralización
Indican valores con respecto a los que los datos parecen agruparse.
 Media, mediana y moda

 Dispersión
Indican la mayor o menor concentración de los datos con respecto
a las medidas de centralización.
 Desviación estándar, coeficiente de variación, rango, varianza

 Forma
· Asimetría
· Apuntamiento o curtosis
Centralización
 Añaden unos cuantos casos particulares a las
medidas de posición. Son medidas que buscan
posiciones (valores) con respecto a los que los
datos muestran tendencia a agruparse.

 Media: es la media aritmética (promedio) de los


valores de una variable. Suma de los valores
dividido por el tamaño muestral.
· Media de 12, 2, 3, 7} es (2+2+3+7)14 = 3.5
· Conveniente cuando los datos se concentran simétricamente
con respecto a ese valor. Muy
sensible a valores extremos.
· Centro de gravedad de los datos.
Centralización
 Mediana: es un valor que divide a las
observaciones en dos grupos con el mismo
número de individuos (percentil 50). Si el número
de datos es par, se elige la media de los dos datos
centrales.
· Mediana de 1 2 4, 5, 6, 6, 8 es 5
· Mediana de 1, 2 4, 5, 6, 6, 8, 9 es (5+6)12 = 5.5
· Es conveniente cuando los datos son
asimétricos. No es sensible a valores extremos.
Mediana de 1, 2 4, 5, 6, 6, 800 es 5. ¡La media es
117.7!

 Moda: es ellos valor/es donde la distribución de


frecuencia alcanza un máximo.
•1000
simetría o sesgo
 Una distribución es simétrica si la
mitad izquierda de su distribución es
la imagen especular de su mitad
derecha.

 En las distribuciones simétricas


media y mediana coinciden. Si sólo
hay una moda también coincide.

 La asimetría es positiva o negativa


en función de a qué lado se
encuentra la cola de la. distribución.

 La inedia tiende a desplazarse hacia


las valores extremos (colas).

 Las discrepancias entre las mecidas


de centralización son indicación de
asimetría.
Apuntamiento o curtosis (kurtosis)
 La curtosis nos indica el grado de apuntamiento (aplastamiento) de
una. distribución con respecto a la distribución normal o gaussiana.
Es adimensional.
 Platicúrtica: curtosis < O
 Mesocúrtica: curtosis = O
Los gráficos poseen la misma media y
 Leptocúrtica: curtosis >O
desviación típica, pero diferente grado
de apuntamiento o curtosis.
Medidas de dispersión

Miden el grado de dispersión (variabilidad)


de los datos, independientemente de su causa.

Amplitud o Rango (“erange”): _


La diferencia entre las
observaciones extremas.
- 2,1,4,3,8,4. El rango es 8-1=7
- Es muy sensible a los valores
extremos. ..
Rango intercuartilico einterquartile range'):
- Es la distancia entre el primer y tercer cuartil.
 Rango intercuartílico = P1 - P25
- Parecida al rango, pero eliminando las observaciones más extremas
inferiores y superiores.
- No es tan sensible a valores extremos.
31
Concepto de Variabilidad
 El concepto de variabilidad está instalado en el centro de
la estadística como disciplina, ya que a través de sus
herramientas podemos cuantificar, entender, y explicar las
diferentes fuentes de variabilidad en el problema que nos
hemos propuesto estudiar.

 Nada que no tenga variabilidad podría ser de interés en


este contexto, ya que el estudiar un solo objeto o un solo
individuo sería suficiente para dar respuesta a todas
nuestras preguntas.

 Variabilidad Entre-Sujetos:
Ejemplo: Los clientes tienen comportamientos, hábitos de compras,
características y gustos distintos. Una forma de visualizar la variabilidad es
observando corno se distribuyen los clientes en cuanto a comportamiento
hábitos de compras, características y gustos distintos.

33
Conceptos de Variabilidad cont.
 Variabilidad Intra-Sujetos:
 Ej.: Los mismos clientes pueden cambiar a través del tiempo. Los
ciudadanos con derecho a voto en un país, pueden cambiar sus
preferencias, especialmente a días de una elección. Esto puede ser
más intenso en aquellos individuos más indecisos.Tarnbién es
relevante mencionar que el instrumento mismo y cómo fue diseñado,
puede alterar las respuestas de los individuos. También es llamada
variabilidad por error de medición según, sea el caso.

 Variabilidad Muestra':
 Se introduce al estudiar una muestra de la población. En muchas
investigaciones de mercado al estudiar una población objetivo mediante
una encuesta, debemos hacerlo a través de una muestra.

34
Conceptos de Variabilidad cont.

35
Conceptos de Variabilidad cont.
 La media de estos 350 datos es 61.9, Ío que corresponde media poblacional

 SI calculamos el promedio be la muestra de tamaño 10, obtenemos


63.7

 Al repetir 40 veces el experimento se obtienen los siguientes


resultados:

63,7 62,4 56.5 66.9 61.7 55.7 87.4 58.9 62.7 59.1
61,6 70,1 58.8 59.6 57,3 59.3 59.0 60.6 61.6 65.8
65,2 57,9 53.6 65.0 59,5 571 66.3 57.2 66.2 57.7
68O 65,0 653 65.5 578 631 6O1 66O 598 6O5
Conceptos de Variabilidad cont.
Conceptos de Variabilidad cont.

40 muestras de tamaño 30
68

66 ••

64
•• ••
•• ••
••

ee
••

 • •• ••
••••
••
 •
••
60 ••
••
••
••
58

56
TIT1I
oT I T 1 I10 20 40
30
o
Muestra
Muestra
Conceptos de Variabilidad cont.
40 muestras de tamaño 100

40
Distribución de Frecuencias
Distribución de Frecuencias
Medidas de Resumen de Centralización

Conocida como promedio, se calcula


como:
xi +x2 +...+ x,
n

En datos agrupados en una tabla de distribución de


frecuencias la media se puede estimar como:
Medidas de Resumen de Centralización cont.
Mediana;
En datos agrupados la mediana puede ser estimada
como:
Me A
47 e ±
Donde:
Medidas de Resumen de Centralización cont.

46
Medidas de Resumen de Centralización cont.
 La media es sensible a la presencia de datos
extremos.
 La mediana es muy útil cuando la distribución de la
variable es poco simétrica.

47
•Medidas de Resumen de Centralización cont.

48
Medidas de Resumen de Dispersión
Medidas de Resumen de Dispersión cont.

Desviación Estándar

Es la raíz Cuadrada de la v arianza. Es la más


usada de las medidas de dispersión.
Medidas de Resumen de Dispersión cont.

En distribuciones relativamente simétricas parecidas a la


distribución normal, se Cumple que aproximadamente el
68% de los individuos de la población se sitúa entre
la media z una desviación estándar.
Medidas de Resumen de Dispersión cont.
Medidas de Resumen de Dispersión cont.
Medidas de Resumen de Dispersión cont.

54
Medidas de Resumen de Dispersión cont.

55
 Coeficiente de variación •

 Es la razón entre la desviación típica y la media.


CV
s
 Mide la desviación típica en forma de
x
•"qué tamaño tiene con respecto a la media"
 También se la denomina variabilidad relativa.
 Es frecuente mostrarla en porcentajes
 Si la media es 80 y la desviación típica 20 entonces CV=20/80=0.25=25%
(variabilidad relativa)

 Es una cantidad adimensional. Interesante para comparar la


variabilidad de diferentes variables.
 Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan
más dispersión en peso que en altura.

 No debe usarse cuando la variable presenta valores negativos o


donde el valor O sea una cantidad fijada arbitrariamente
- Por ejemplo 0°C 0°F"

s 56
Medidas basadas en el Orden (Posición)
Estadísticos de Posición

59
Estadísticos de Posición cont.
 Percentil de orden k = cuantil de orden kii100

- La mediana es el percentil 50.


- El percentil de orden 15 deja por debajo al 15% de
las observaciones. Por encima queda el 85%.

 Cuartiles: Dividen a la muestra en 4 grupos


con frecuencias similares.
 Primer cuarta = Percentil 25 = Cuantil 0.25.
 Segundo cuartil = Percentil 50 = Cuantil 0.5 =
mediana.
 Tercer cuartil = Percentil 75 = cuantil 0.75.
Estadísticos de Posición cont.
Ejemplos : El 5% de los recién nacidos tiene un peso
demasiado bajo. ¿Qué peso se considera "demasiado
bajo"?
 Percentil 5 o cuantil 0.05.
¿Qué peso es superado sólo por el 25% de los
individuos?
 Percentil. 75.
El colesterol se distribuye simétricamente en la
población. Se considera patológico los valores extremos.
El 90% de los individuos son normales. ¿Entre qué
valores se encuentran los individuos normales?
 Entre el percentil 5 y el 95.
¿Entre qué valores se encuentran la mitad de los
individuos "más normales" de una población?
 Entre el cuartil 1° y 3°. 61
Estadísticos de Posición cont.
Son valores de la variable que dividen a
la muestra en partes de igual porcentaje.
Los percentiles separan la muestra en
grupos de 1% cada uno (son 99).
 Cuartiles: agrupan 25% c/u (son 3).
 Quintiles: agrupan 20% c/u (son 4).
 Deciles: agrupan 10% c/u (son 9).
62
Estadísticos de Posición cont.
Se calculan de la siguiente forma:
Ordenar de menor a mayor los n datos.
Obtener D = n * k /100
a. Si D es entero, entonces el percentil k
corresponde al valor medio de las
observaciones ubicadas en las posiciones
D y D+1.
a. Si D no es un entero, el percentil k
corresponde a la observación ubicada en la
posición entera siguiente, es decir, [D+1]
•63
Estadísticos de Posición cont.
Ejemplo
Determinar los percentiles 25 y 60 de los
siguientes datos: 3, 5, 5, 8, 12, 15, 21, 23, 25, 26,
29, 35
P25 D= 12 x 25 /100 = 3
•resulta un entero, por tanto el P25 corresponde al
promedio de las observaciones en las posiciones
3Q y 4Q, es decir, P25= (5+8)/2 = 6.5
P60 D = 12 x 60 / 100 = 7.2
Dado que no es un entero, nos “movemos” al
entero siguiente.
Es decir, P60 = 23 (observación en la 8ª posición)
•6 4
Estadísticos de Posición cont.
En datos agrupados el K esinio percentil puede
ser estimado como:

65
Box-plot (Caja con bigotes)

•6 6
Box-plot cont.
Un gráfico asociado a los cuartiles es el box-plot: en un eje se
ubican los siguientes 5 números extraídos de una muestra:
mínimo, cuartil 1, cuartil 2, cuartil 3 y máximo.

Una regla para determinar si un dato es anómalo (outlier) es:

 Si un dato es < Q1 – 1.5(Q3-Q1)


 Si un dato es > Q3 + 1.5(Q3-Q1)
67
Niveles de Hb en 61 adultos normales
Box-plot comparación de grupos

69
Estadísticos de Forma: Asimetría y Curtosis
Momentos de una distribución
 Los momentos de una distribución son medidas obtenidas a partir de
todos sus datos y de sus frecuencias absolutas. Estas medidas
caracterizan de tal forma a las distribuciones que si los momentos de
dos distribuciones son iguales, diremos que las distribuciones son
iguales. Podemos decir que dos distribuciones son más semejantes
cuanto mayor sea el número de sus momentos que coinciden.
 Se define el momento de orden h respecto al origen de una
variable estadística como:

Es inmediato observar que, para h=1, a 1 es la media de la


•distribución.
70
Estadísticos de Forma cont.
 Se define el momento central de orden h o momento
respecto a la media aritmética de orden h como:

1. Los momentos respecto a la media se ven afectados por los


cambios de escala, pero no por los cambios de origen. El resto,
por ambos.

71
Estadísticos de Forma cont.
Forma de una distribución
Cuando dos distribuciones coinciden en sus medidas de
posición y dispersión, no tenemos datos analíticos para ver si
son distintas. Una forma de compararlas es mediante su forma.
Bastará con comparar la forma de sus histogramas o diagramas
de barras para ver si se distribuyen o no de igual manera.

Para efectuar este estudio de la forma en una sola variable,


hemos de tener como referencia una distribución modelo.
Como convenio, se toma para la comparación la distribución
n o r m a l d e m e d i a 0 y v a r i a n z a 1 . E n p a r t i c u l a r, e s
conveniente estudiar si la variable en cuestión está más o
menos apuntada que la Normal. Y si es más o menos simétrica
que ésta, para lo que se definen los conceptos de Asimetría y
Curtosis, y sus correspondientes formas de medida.

•7 2
La asimetría y su medida
 El objetivo de la medida de la asimetría es, sin
necesidad de dibujar la distribución de
frecuencias, estudiar la deformación horizontal de
los valores de la variable respecto al valor central
de la media. Las medidas de forma pretenden
estudiar la concentración de la variable hacia uno
de sus extremos.
 Una distribución es simétrica cuando a la derecha
y a la izquierda de la media existe el mismo
número de valores, equidistantes dos a dos de la
media, y además con la misma frecuencia.

73
La asimetría y su medida cont.

•7 4
•La asimetría y su medida cont.
•Coeficiente de asimetría de Fisher
 En una distribución simétrica los valores se sitúan en torno a
•la media aritmética de forma simétrica. El coeficiente de
•asimetría de Fisher se basa en la relación entre las distancias a
•la media y la desviación típica.

•75
La asimetría y su medida cont.
Coeficiente de asimetría de Pearson
 Se basa en el hecho de que en una distribución simétrica, la
media coincide con la moda. A partir de este dato se define el
coeficiente de asimetría de Pearson como:

76
La curtosis y su medida
 El concepto de curtosis o apuntamiento de una distribución
surge al comparar la forma de dicha distribución con la forma
de la distribución Normal. De esta forma, clasificaremos las
distribuciones según sean más o menos apuntadas que la
distribución Normal.
 Coeficiente de Curtosis de Fischer
El coeficiente de curtosis o apuntamiento de Fischer
pretende comparar la curva de una distribución con la curva de
la variable Normal, en función de la cantidad de valores
extremos e la distribución. Basándose en el dato de que en una
distribución normal se verifica que:

77
La curtosis y su medida cont.
•Se define el coeficiente de curtosis de Fisher
como:

 Si g2 = 0, la distribución es Mesocúrtica: Al igual que en la


asimetría es bastante difícil encontrar un coeficiente de curtosis
de cero, por lo que se suelen aceptar los valores cercanos ( 0.5
aprox.).
 Si g2 > 0, la distribución es Leptocúrtica
 Si g2 < 0, la distribución es Platicúrtica

78

También podría gustarte