Análisis de Datos Estadístico, Juan Guilarte

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 31

ANÁLISIS DE DATOS ESTADÍSTICOS

Una mirada simple

Juan Guilarte
NUESTRO OBJETIVO
Presentar las técnicas básicas
para el manejo de datos y su
posterior uso analítico.

2
OBJETIVOS ESPECÍFICOS

Dar a conocer los Explicar las Presentar los métodos Presentar el uso de Explorar sobre los
conceptos de la principales técnicas de organización y los diferentes tipos software actuales en
estadística, su función de recolección de correlación de datos gráficos estadísticos la análisis de datos
e importancia datos

Tengo mis resultados hace tiempo, pero no sé cómo llegar a ellos


C. F. Gauss 3
DEFINICIONES
Estadística
2 3
1
La estadística es la ciencia que estudia La estadística es la ciencia de los Es el arte de aprender a partir de los
cómo debe emplearse la información datos, la cual implica su recolección, datos. Está relacionada con la
y cómo dar una guía de acción en clasificación, síntesis, organización, recopilación de datos, su descripción
situaciones prácticas que entrañan análisis e interpretación, para la toma subsiguiente y su análisis, lo que nos
incertidumbre. (Gutiérrez, p. 23) de decisiones frente a la lleva a extraer conclusiones. (Ross, p. 3)
incertidumbre (Ángel, p. 28)

● Es una ciencia que facilita la toma de decisiones mediante la presentación ordenada


de los datos observados en tablas y gráficos estadísticos, reduciendo los datos
observados a un pequeño número de medidas estadísticas que permitirán la
comparación entre diferentes series de datos y estimando la probabilidad de éxito
que tiene cada una de las decisiones posibles. (Fernández et.al, p. 18) 4
DATOS
Son hechos / informaciones y cifras que se recogen, analizan y resumen para su presentación e
interpretación. A todos los datos reunidos para un determinado estudio se les llama conjunto de datos.
Pueden ser cualitativos o cuantitativos (Anderson, p. 5)

https://finance.yahoo.com/quote/AAPL?p=AAPL&.tsrc=fin-srch 5
DATOS
Escala: Cantidad de información
Elementos: Son las entidades de que se requiere analizar,
donde se obtienen los datos nominal, ordinal o de intervalo.
Variable: Es una
característica de los
elementos de interés

https://finance.yahoo.com/quote/AAPL?p=AAPL&.tsrc=fin-srch 6
DATOS
Datos de Sección transversal: Todas las variables de los elementos son en Veracidad de Data:
un punto del tiempo específico. Fuentes oficiales
internas o externas.
Datos de series de tiempo: Datos obtenidos a lo largo de varios períodos.

https://finance.yahoo.com/quote/AAPL?p=AAPL&.tsrc=fin-srch 7
OBJETIVIDAD
Debe ser válido, es decir, la fidelidad del universo o muestra que se medirá, es decir que
sea auténtico y mida lo que tenga que medir.

Debe ser confiable, es decir, tener la exactitud de los datos en el universo que se está
midiendo

8
FUNCIÓN E IMPORTANCIA
La función principal de la estadística es justamente la recolección y agrupamiento de datos de
diverso tipo para construir con ellos informes, desde un punto de vista cuantitativo / cualitativo.
28/07/2011.Autor:Cecilia Bembibre. URL: https://www.importancia.org/estadistica.php

ES IMPORTANTE PORQUE PERMITE TOMAR DECISIONES.

9
https://www.kdnuggets.com/2017/07/4-types-data-analytics.html
TIPOS DE ESTADÍSTICA
Deductiva

A partir del conocimiento universo / población se


caracteriza la muestra

Estadística descriptiva
Es un método para describir numéricamente conjuntos
numerosos. Por tratarse de un método de descripción
numérica, utiliza el número como medio para describir un
conjunto, que debe ser numeroso, ya que las
permanencias estadísticas no se dan en los casos raros.
No es posible sacar conclusiones concretas y precisas de
los datos estadísticos. (Vargas, p.33)

10
TIPOS DE ESTADÍSTICA
Inductiva
A partir del conocimiento de la muestra se caracteriza el
universo / población

Estadística inferencial, analítica o


deductiva
Estudia la probabilidad de éxito de las diferentes
soluciones posibles a un problema en las diferentes
ciencias en las que se aplica y para ello utiliza los datos
observados en una o varias muestras de la población.
Mediante la creación de un modelo matemático infiere el
comportamiento de la población total partiendo de los
resultados obtenidos en las observaciones de las
muestras. (Fernández et.al, p.17)
11
TIPOS DE ESTADÍSTICA

Estadística descriptiva Estadística inferencial

Métodos empleados para resumir Métodos que implican el uso de datos


Definición las características clave de datos muestrales para hacer generalizaciones
conocidos. o inferencias acerca de una población.
Examinar diferencias entre grupos.
Caracterizar un grupo de datos Examinar si las variables están
Objetivos Examinar tendencias o asociadas.
distribuciones Comparar promedios entre grupos.
Predecir una variable a partir de otra.
Áreas de
Ciencias naturales y sociales Ciencias sociales y naturales
aplicación
•Características de pacientes que
•Predecir la aparición de demencia en
son atendidos en un hospital.
personas según su estado cardiovascular.
Ejemplos
•Media y distribución de la edad,
•Probar que un medicamento sirve para
peso y altura de los estudiantes de
el tratamiento de una enfermedad.
un colegio.
12
https://www.diferenciador.com/estadistica-descriptiva-e-inferencial/
DISTRIBUCIÓN DE FRECUENCIA

En el análisis de datos conviene organizar


los datos de forma que se puedan analizar 𝑥1, 𝑥2, 𝑥3, … … , 𝑥𝑛,
para su posterior conclusión. Se puede
definir como un resumen tabular de datos
de una determinada muestra en donde se
puede clasificar.
En un conjunto de datos o universo en
estudio, se pueden tener datos que se
repiten o no, agrupados o desagrupados.

13
VEAMOS UN EJEMPLO
En la tabla se muestra un universo de estudio de las ventas de 5 marcas reconocidas de bebidas
carbonatadas en un establecimiento. (Anderson, p. 28)

El universo de en estudio, marca 50 mediciones,


puedo decir que se tienen
Universo (n) = 50
Número de valores elementos (k) =5

14
VEAMOS UN EJEMPLO
En la tabla se muestra un universo de estudio de las ventas de 5 marcas reconocidas de bebidas
carbonatadas en un establecimiento. (Anderson, p. 28)

El universo de en estudio, marca 50 mediciones,


puedo decir que se tienen 𝑥1, 𝑥2, 𝑥3, … … , 𝑥50,
Universo (n) = 50
Número de valores elementos (k) =5 k Bebida Ventas
1 Coke Classic 19
2 Diet Coke 8
3 Dr. Pepper 5
4 Pepsi 13
5 Sprite 5

5 Total 50
15
Bebidas
Sprite

ORGANIZACIÓN DE DATOS
10% Coke Classic
38%
Pepsi
26%

k Bebida Ventas
1 Coke Classic 19
2 Diet Coke 8 Dr. Pepper Diet Coke
10% 16%
3 Dr. Pepper 5
4 Pepsi 13 Bebidas
5 Sprite 5
Sprite 5

Pepsi 13
5 Total 50
Dr. Pepper 5

Diet Coke 8

Coke Classic 19
Valores (k) = 5 Universo (n) = 50
0 5 10 15 20 16
Frecuencia Absoluta:
ORGANIZACIÓN DE DATOS Es la cantidad de elementos de una muestra
𝑓𝑖
Frecuencia Frecuencia
k Bebida
(𝑓𝑖 ) Acumulada (𝐹𝑖 ) Frecuencia Acumulada:
1 Coke Classic 19 19 Suma acumulada de las frecuencias absolutas.
2 Diet Coke 8 27 𝑛
3 Dr. Pepper 5 32
𝐹𝑖 = ෍ 𝑓𝑖
4 Pepsi 13 45
5 Sprite 5 50 𝑖=1

5 Total 50

17
ORGANIZACIÓN DE DATOS
Frecuencia relativa:
Frecuencia Frecuencia Frecuencia
k Bebida
(𝑓𝑖 ) Acumulada (𝐹𝑖 ) Relativa (𝑓𝑟𝑖 )
Número porcentual de veces que se repite
una variable.
1 Coke Classic 19 19 0,38 𝑓𝑖
2 Diet Coke 8 27 0,16 𝑓𝑟𝑖 =
3 Dr. Pepper 5 32 0,1
𝑛
4 Pepsi 13 45 0,26 Sprite
10% Coke Classic
5 Sprite 5 50 0,1 38%
Pepsi
1 26%

5 Total 50

Dr. Pepper
Diet Coke
10%
16% 18
ORGANIZACIÓN DE DATOS
Frecuencia Frecuencia Frecuencia Frecuencia relativa
k Bebida
(𝑓𝑖 ) Acumulada (𝐹𝑖 ) Relativa (𝑓𝑟𝑖 ) Acum (𝐹𝑟𝑖 )
1 Coke Classic 19 19 0,38 0,38
2 Diet Coke 8 27 0,16 0,54
3 Dr. Pepper 5 32 0,1 0,64
4 Pepsi 13 45 0,26 0,9
5 Sprite 5 50 0,1 1
1
0,9 1
5 Total 50
0,64
0,54
Frecuencia relativa Acumulada: 0,38

Número porcentual de veces que se repite una


variable. 𝐹𝑖 σ𝑛𝑖=1 𝑓𝑖
𝐹𝑟𝑖 = =
𝑛 𝑛 Coke Diet Coke
Classic
Dr.
Pepper
Pepsi Sprite 19
HISTOGRAMAS
Es usado para el análisis de datos cuantitativos agrupados en un sub conjunto de datos mediante una
distribución de frecuencia relativa o porcentual.
Este tipo de gráficos muestra la tendencia o la dispersión de una muestra en estudio. En general se usa
con gran cantidad de datos.

Sem 1 Sem 2 Sem 3 Sem 4 Sem 5 Sem 6 Sem 7


Cantidad de Like´s de
427 289 361 370 380 257 376 una página
373 361 317 405 273 414 314

398 323 355 395 370 405 298

458 395 373 373 329 326 298

333 392 367 320 458 395 354

430 414 376 326 392 389 464

339 345 417 424 395 430 370


20
HISTOGRAMAS
Rango de Datos: Determina el ancho de la muestra, se calcula con diferencia entre valores extremos
de una variable. Máx-Mín

Números de Clústers: Determina el números de cada sub conjunto que queremos estudiar. En
general se usan dos métodos, Sturges (a) y método de la raíz (b)

𝑘 = 1 + log 2 𝑛 𝑘= 𝑛
Amplitud de Clúster: Determina el ancho de cada sub conjunto que queremos estudiar. Es la relación
entre el rango con la Clúster de estudio.

21
HISTOGRAMAS
Sem 1 Sem 2 Sem 3 Sem 4 Sem 5 Sem 6 Sem 7
427 289 361 370 380 257 376

373 361 317 405 273 414 314 Valor Máximo: 464
398 323 355 395 370 405 298 Valor Mínimo: 257
458 395 373 373 329 326 298 Muestra 7 semanas
333 392 367 320 458 395 354

430 414 376 326 392 389 464

339 345 417 424 395 430 370 207

Rango de Datos: 464 – 257= 207 257 464

1 2 9
Número de Clústers: 1 + Log 2 (207) = 8,69 = 9

Amplitud: 207 / 9 = 24 22
24
ORGANIZACIÓN DE DATOS

Frecuencia Frecuencia Frecuencia Frecuencia relativa


𝐿𝑖 𝐿𝑠
(𝑓𝑖 ) Acumulada (𝐹𝑖 ) Relativa (𝑓𝑟𝑖 ) Acum (𝐹𝑟𝑖 )
Clúster 1 257 281 2 2 4% 4%
Clúster 2 281 305 3 5 6% 10%
Clúster 3 305 329 3 8 6% 16%
Clúster 4 329 353 8 16 16% 33%
Clúster 5 353 377 12 28 24% 57%
Clúster 6 377 401 9 37 18% 76%
Clúster 7 401 425 6 43 12% 88%
Clúster 8 425 449 4 47 8% 96%
Clúster 9 449 473 2 49 4% 100%
Total 49 238 100%

23
Media 369,92
Error típico 6,68

ORGANIZACIÓN DE DATOS Mediana


Moda
373,00
395,00

Desviación estándar 46,76

Varianza de la muestra 2186,53


14 30%
Curtosis -0,14

Coeficiente de asimetría -0,34


Frecuencia Acumulada

Frecuencia Relativa
12 25%
Rango 207,00
Mínimo 257,00
Máximo 464,00
10 Suma 18126,00
Cuenta 49,00
20%
8 Nivel de confianza(95,0%) 13,43

15%
6
10%
4

2 5%

0 0%
Clúster 1 Clúster 2 Clúster 3 Clúster 4 Clúster 5 Clúster 6 Clúster 7 Clúster 8 Clúster 9 24
ANÁLISIS DEL CASO
14 30% • El 59% de información están en los clúster
12
4 al 6, por lo que se infiere que su
25%
contenido es el mas adecuado para los
10
20%
usuarios
8 • El 33% de la información se encuentra
susceptible de mejora
15%
6

4
10% • Los clúster 1 y 9 representan el 8% de la
información con lo cual es un contenido
que no se debe continuar enviando
5%
2

0 0%
Clúster 1 Clúster 2 Clúster 3 Clúster 4 Clúster 5 Clúster 6 Clúster 7 Clúster 8 Clúster 9

Tengo mis resultados hace tiempo, pero no sé cómo llegar a ellos


C. F. Gauss 25
TIPOS DE GRÁFICOS

26
https://infogram.com/es/pagina/elige-el-grafico-correcto-visualizacion-datos
TIPOS DE GRÁFICOS
Gráfico de Líneas Gráfico de Barras
El gráfico de línea se utiliza para mostrar cómo cambia Son muy valiosos para comparar magnitudes. En general
una variable con el correr del tiempo usa variables de tipo cualitativas, por lo general de nivel
nominal u ordinales

27
TIPOS DE GRÁFICOS
Gráfico Circular Gráfico Dispersión
También llamado gráfico de torta, muestra la distribución Muestra la relación que se establece entre las variables. La
de determinado total en diferentes partes. Puede ser variable independiente se ubica en el eje X y la
usado de forma cuantitativa o cualitativa cuando se dependiente en el eje Y
conoce el porcentaje total de la muestra.

28
TIPOS DE GRÁFICOS
Gráfico de áreas apiladas Gráfico de Cajas
Fácil para representar el total de los datos trazados. Muestra la magnitud de estudio, pero a su vez, muestra las
Analizar Datos Visualmente Gratis. Sirven para comparar variaciones que ha tenido y su eventual exposición a
múltiples variables que cambian a lo largo de un intervalo modificaciones. La extensión de la línea es lo que describe
esa fluctuación.

29
SOFTWAREY LOS ANÁLISIS DE DATOS
Son programas computacionales que usan tablas de datos para el modelado predictivo, la previsión, la simulación y la
optimización que le permite tomar decisiones correctas y disminuir los errores y riesgos.

30
https://www.panel.es/en/big-data-services/
GRACIAS
Ing. Juan Guilarte
[email protected]
+57.322.289.8801

También podría gustarte