Seminario de problemas 1
Clase 1
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
CUANDO NOS ENFRENTAMOS A DATOS ESTOS DEBEN
SER ANALIZADOS.
ESTO LO DENOMINAMOS TRATAMIENTO DE DATOS
ESTE PUEDE SER INTUITIVO (NOS FALTA ESTADÍSTICA Y
TIEMPO)
O
PRÁCTICO (QUEREMOS TRABAJAR EN EL
“LABORATORIO”)
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Comparar una cantidad con su
respectiva unidad, con el fin de
averiguar cuantas veces la
segunda está contenida en la
primera es unproblema
numrico , estiditico,
coputacional, denepdiendo del
problema y el insotrumetal del
matimatico.
Medimos es usual en la vida
real…
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
ASÍ
Si medimos el largo de una mesa ...
El resultado podría ser ?
125,434
125,434 cm
125,434 ± 17,287 cm
125 ± 17 cm
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
5
Conceptualizando es que en cada
medición se espera haya un error
Partes de una medida II
Al medir una mesa podemos obtener
valor
± 17
cm
unidades
±incertidumbre
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Presentación
125
6
Es decir, que si pensamos como
matemáticos diríamos que hay un modelo
Error e incertidumbre I
Muchas veces se cometen errores al medir.
Debemos corregirlos o al menos estimarlos
DX
Xreal
Xmedido
DX
8
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Podemos explicar al cliente en una forma quizás más clara
Error e incertidumbre II
Error = Xreal –Xmedido
Xreal Î(Xmedido -DX, Xmedido +DX)
DX
Xreal
Xmedido
DX
9
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Un
matemático
estadístico
formula el
problema
así
Nivel de Confianza
n
n
DX depende de lo seguros que queramos estar
Nivel de confianza = fracción de las veces que
quiero acertar. 99%, 95%...
Xreal
DX
Xmedido
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
DX
10
Vale clasificar las medidas. .. Eso es crucial para modelar
Tipos de medidas
n
Medidas directas
Las anoto de un instrumento
L1, L2
n
L2
Medidas indirectas
Provienen de aplicar
operaciones a medidas
directas
A = L1 x L2
L1
11
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Entonces podemos pensar en como se expresan los errores a partir del
tipo de medida
Tipos de errores
n
Medidas directas
• Sistemáticos
• Aleatorios
n
Medidas indirectas
• Derivados de los anteriores
12
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Errores
sistemáticos
nErrores
sistemáticos
Limitaciones de
los aparatos o
métodos
09/07/23
Debidos a Precisión o
Calibración
prof. Dr. Carlos N. Bouza-Herrera
Ejemplo
Usando una balanza se mide 5 veces la masa de una
esfera de radio r = 1.0 ±0.1 cm. Se pide calcular su
densidad.
n0
M (g)
1
2
3
4
5
14.3
14.5
14.7
14.4
14.1
1
3
M
r =
V
2
49
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Ejemplo
n
Me peso varios días seguidos en iguales condiciones
Día
Masa
(kg)
L
M
X
J
V
73
72
74
72
73
(73 + 72 + 74 + 72 + 73)
M=
= 72,8 kg
5
20
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
En la práctica es común
que los errores sean
impredecibles y no haya
forma de controlarles por
ser producido por la
interacción de múltiples
causas
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Errores aleatorios I
n
Factores que perturban nuestra medida.
•
•
•
•
•
Suma de muchas causas
Tienden a ser simétricos.
Se compensan parcialmente.
Repetir las medidas.
Estadística
Xreal
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
medidas
14
Conceptualizado en la estadística como
debidos a múltiples causas desconocidas y
no medibles
Errores aleatorios II
n
Distribuciones
n
Representamos la frecuencia de sucesos aleatorios.
Tienden a curvas típicas
x
xx x
x x x xx x x
x
Xreal
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
15
Repasemos lo visto en el pre de
estadística descriptiva
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
MEDIDA DE TENDENCIA CENTRAL
Definición: Son medidas estadísticas que pretenden
resumir en un solo valor a un conjunto de valores.
Representan un centro en torno al cual se encuentra
ubicado el conjunto de los datos.
MODA
Las
medidas
de
tendencia central más
utilizadas son:
MEDIA
MEDIANA
18
19
20
PROMEDIO O MEDIA ( )
(Datos no Agrupados)
Equivale al cálculo del promedio simple de un
conjunto de datos. Para diferenciar datos muestrales
de datos poblacionales.
Fórmula para Calcular la Media Aritmética
21
MEDIANA
En
el
ámbito
de
la estadística, la mediana (del
medio) representa el valor de
la variable de posición central
en un conjunto de datos
ordenados.
Se
le
denota mediana
22
La moda es
el valor o
valores màs
frecuentes
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Ejemplos de la media aritmética
Supongamos
que
nuestras
calificaciones en la escuela son:
Solución
N = número total de asignaturas = 4
Asignatura
Nota
Matemáticas
7
Educación Física
8
Biología
5
Economía
10
; Entonces aplicando la fórmula que acabamos de
exponer, el resultado sería
Nuestra nota media será de un 7,5.
24
Recuerdan?
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Ejemplo 01: Calcular la mediana de los siguientes precios de un kilo
de manzanas en diferentes supermercados: 9, 11, 8, 7, 13, 10, 12.
1. Ordenamos los valores de menor a mayor: 7, 8, 9, 10, 11, 12,13.
2. Al ser una serie de un número impar de valores (7), la mediana
sería el valor central: Me = 10.
Ejemplo 02: Calcular la mediana de las siguientes notas de exámenes:
8, 13, 12, 10.
1. Ordenamos los valores de menor a mayor: 8, 10, 12, 13
2. Al ser una serie de un número par de valores (4), la mediana sería
la media de los valores centrales: Me = (10 + 12) / 2 = 11
26
Medidas de
dispersión
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
La varianza mide la dispersión de los datos con
respecto a la media de ellos. Si trabajamos con
D esta es definida como
σ#" =
∑"
&'(
(x& − µ)#
N
Si trabajamos con jnametra de temño n<N esta
es
#
S"
=
09/07/23
∑0&'(
(x& − x1)#
n
prof. Dr. Carlos N. Bouza-Herrera
Se dice que la
primera es la
varianza
poblacional y
la segunda
varianza
muestral.
Las cuasi varianzas están
dadas por
#
.σ =
#
S =
09/07/23
6
∑345
(73 89):
,
"8(
;
∑345 (73 817):
.
08(
prof. Dr. Carlos N. Bouza-Herrera
De la varianza se deriva la desviación
estándar o típica. Esta es la raíz cuadrada
de la varianza. Expresa la dispersión de
la distribución y se expresa en las
mismas unidades de medida de la
variable. La desviación típica es la
medida de dispersión más utilizada en
estadística.
Definición: la desviación estándar o
típica es la raíz cuadrada de la varianza
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Definición: Son medidas de dispersión alternativas a la desviación típica:
La desviación absoluta media
•
(
1
DAM = ∑"
&'( x & − x
"
La desviación mediana absoluta
•
DMA = x& − x? : x& ∈ S o D
El recorrido
•
R = Min x( , … , x" − Max x( , … , x"
El recorrido inter-cuartìlico
•
R H = Q JK − Q #K .
R es una medida grosera del la dispersión y Rq da una idea de la variabilidad cerca del centro de
los datos.
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Recordaron?
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Así que si regresamos a la medición de la
mesa…y analizar los datos podríamos decir al
carpintero
Y no
resolvemos
el
problema
general en
la Mypimes
Al medir una mesa podemos obtener
valor
± 17
cm
unidades
±incertidumbre
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Presentación
125
17
Podemos ver
los errores
considerando la
incertidumbre
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Incertidumbre
n
Incertidumbre: Estimación del error no corregible
n
Se suele expresar como:
1. Absoluta: DX
2. Relativa:
n
DX
d X º Er =
X
DX
d X º Er en % = 100
X
Se suele descomponer para medidas directas en:
1. Incertidumbre factores sistemáticos: ES1,ES2...
Destaca la de precisión
2. Incertidumbre factores aleatorios: EA
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
21
Incertidumbre en medidas directas
1. Incertidumbre de precisión Es
n
En casos sencillos la estimaremos como:
La mitad de la (una) división menor de la escala
Ej: Balanza
n
A veces depende del experimentador
No hay reglas sencillas para estimarla
Ej: Cronómetros
n
No es fácil definir su intervalo de confianza
22
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Otra mirada con cifras
Incertidumbre en medidas directas
2. Incertidumbre Aleatoria EA
n
S: dispersión de los datos
X =4
3
4
5
Xreal
MM
¿¿
edir
edirlalaseparación
separacióncon
conrespecto
respectoalalvalor
valormedio
real ??
¿Cómo?
No conocemos
el valor real
s
09/07/23
2
(
n
) (
2
) (
2
)
2
x
(3
3å
-(xx
)+
+)2(44-x
(5
5-x
2
xx4 ))2++
+(5
xx+)(5 - 4
2
2
2
i - x+
2
(
)
)
3
+
4
4
s
=
=
0
2
s
=
i
1
=
=
= s=
=
n -1 =
3
3
3
3
3
n -1
3 -1
prof. Dr. Carlos N. Bouza-Herrera
=
2
=1
2
24
Una hipótesis usada con frecuencia es
Incertidumbre en medidas directas
2. Incertidumbre Aleatoria EA
n
S: Propiedades
n
Es la distancia del valor real a la que estará más
probablemente un nuevo dato
s ¾n¾
¾® cte
®¥
n
Tiene las mismas unidades que el resultado
25
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
En eso hicieron sus teorías sobre errores Gauss
y Laplace
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Johann Carl Friedrich
Gauss también
conocido como El
Príncipe de las
Matemáticas, fue un
matemático,
astrónomo, físico y
geodesta alemán. Es
considerado como el
matemático más
importante de la
historia.
09/07/23
Descubrió la ley de los mínimos
cuadrados.
.
Gauss desarrolló numerosas
herramientas para el tratamiento de
los datos observacionales. Entre ellas
destaca la curva de distribución de
errores que lleva su nombre,
conocida también con el apelativo de
distribución normal y que constituye
uno de los pilares de la estadística.
Demostró que un sistema de lentes
cualquiera es siempre reducible a una
sola lente con las características
adecuadas.
prof. Dr. Carlos N. Bouza-Herrera
𝑒𝑟𝑟𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑐𝑖ó𝑛 𝑖 = 𝑋X − 𝜇
#
𝑝𝑟𝑜𝑏𝑙𝑒𝑚𝑎 𝑑𝑒 𝑜𝑝𝑡𝑖𝑚𝑖𝑧𝑎𝑐𝑖𝑜𝑛
∶ 𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 𝑙𝑎 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑐𝑢𝑎𝑑𝑟á𝑡𝑖𝑐𝑜𝑠
𝑒𝑛 𝑢𝑛 𝑐𝑜𝑛𝑗𝑢𝑛𝑡𝑜 𝑑𝑒 𝑁 𝑚𝑒𝑑𝑖𝑐𝑖𝑜𝑛𝑒𝑠:
d
∑
𝑚𝑖𝑛𝑖𝑚𝑜 𝑑𝑒 X'(
𝑋X − 𝜇 #
d
𝐸𝑙 𝑚í𝑛𝑖𝑚𝑜 𝑑𝑒 g
X'(
𝑋X − 𝐴̅
k
1
= g 𝑋X = 𝑋1
𝑛
X'(
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
#
𝑠𝑒 𝑜𝑏𝑡𝑖𝑒𝑛𝑒 𝑠𝑖 𝐴
En estadística y probabilidad se llama distribución normal, distribución de Gauss,
distribución gaussiana, distribución de Laplace-Gauss o normalidad estadística a
una de las distribuciones de probabilidad de variable continua que con más
frecuencia aparece en estadística y en la teoría de probabilidades.1
La función de distribución de la distribución normal está
definida como sigue:
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Nacido en una humilde familia de
granjeros de la baja Normandía, se
marchó a estudiar a la Universidad de
Caen, donde fue recomendado a
D'Alembert, quien, impresionado por su
habilidad matemática, lo recomendó a su
vez para un puesto de profesor en la
Escuela Militar de París en 1767, en la que
tuvo entre sus discípulos a Napoleón
Bonaparte.2 En 1785 fue nombrado
miembro de la Academia de Ciencias y en
1795, miembro de la cátedra de
matemáticas del Nuevo Instituto de las
Ciencias y las Artes, que presidió en 1812.
En 1788 se casó con la joven MarieCharlotte de Courty de Romanges
En estadística y en teoría de la probabilidad la distribución de Laplace es una densidad de probabilidad continua, llamada
así en honor a Pierre-Simon Laplace. Es también conocida como distribución doble exponencial puesto que puede ser
considerada como la relación las densidades de dos distribuciones exponenciales adyacentes. La distribución de Laplace
resulta de la diferencia de dos variables exponenciales aleatorias, independientes e idénticamente distribuidas.
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
E𝑟𝑟𝑜𝑟
𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑐𝑖ó𝑛 𝑖 =
𝑋X − 𝜇
𝑝𝑟𝑜𝑏𝑙𝑒𝑚𝑎 𝑑𝑒 𝑜𝑝𝑡𝑖𝑚𝑖𝑧𝑎𝑐𝑖𝑜𝑛
∶ 𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 𝑙𝑎 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑐𝑢𝑎𝑑𝑟á𝑡𝑖𝑐𝑜𝑠
𝑒𝑛 𝑢𝑛 𝑐𝑜𝑛𝑗𝑢𝑛𝑡𝑜 𝑑𝑒 𝑁 𝑚𝑒𝑑𝑖𝑐𝑖𝑜𝑛𝑒𝑠:
d
𝑚𝑖𝑛𝑖𝑚𝑜 𝑑𝑒 g 𝑋X − 𝜇
X'(
d
𝑚í𝑛𝑖𝑚𝑜 𝑑𝑒 g
09/07/23
= Mediana
X'(
𝑋X − 𝐴
prof. Dr. Carlos N. Bouza-Herrera
𝑠𝑒 𝑜𝑏𝑡𝑖𝑒𝑛𝑒 𝑠𝑖 𝐴
Una variable aleatoria posee una distribución
de Laplace(μ, b) si su densidad de probabilidad
es
𝑥−𝜇
𝑒𝑥𝑝
𝑏
,𝑥 ∈ 𝑅
𝑓 𝑥 =
2𝑏
Siendo μ un parámetro de localización (lamedia) y b > 0 un
parámetro de escala. (la disviación estándar)
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
This distribution is often referred to as "Laplace's first law of
errors". He published it in 1774, modeling the frequency of an
error as an exponential function of its magnitude once its sign
was disregarded. Laplace would later replace this model with
his "second law of errors", based on the normal distribution,
after the discovery of the central limit theorem,[13][14]
Keynes published a paper in 1911 based on his earlier thesis
wherein he showed that the Laplace distribution minimised the
absolute deviation from the median.[15]
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
CHISME
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
La distribución normal fue presentada por primera vez por Abraham de Moivre en un artículo
del año 1733,5 que fue reimpreso en la segunda edición de su The Doctrine of Chances, de 1738,
en el contexto de cierta aproximación de la distribución binomial para grandes valores de n. Su
resultado fue ampliado por Laplace en su libro Teoría analítica de las probabilidades (1812), y en
la actualidad se llama Teorema de De Moivre-Laplace.
Laplace usó la distribución normal en el análisis de errores de experimentos. El importante
método de mínimos cuadrados fue introducido por Legendre en 1805. Gauss, que afirmaba
haber usado el método desde 1794, lo justificó rigurosamente en 1809 asumiendo una
distribución normal de los errores. El nombre de Gauss se ha asociado a esta distribución
porque la usó con profusión cuando analizaba datos astronómicos6 y algunos autores le
atribuyen un descubrimiento independiente del de De Moivre.7 Esta atribución del nombre de la
distribución a una persona distinta de su primer descubridor es un claro ejemplo de la ley de
Stigler.
El nombre de "campana" viene de Esprit Jouffret que usó el término "bell surface" (superficie
campana) por primera vez en 1872 para una distribución normal bivariante de componentes
independientes. El nombre de "distribución normal" fue otorgado independientemente por
Charles S. Peirce, Francis Galton y Wilhelm Lexis hacia 1875.[cita requerida] A pesar de esta
terminología, otras distribuciones de probabilidad podrían ser más apropiadas en determinados
contextos; véase la discusión
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Asi que los alemanes dicen que una Gaussiana, los franceses que es
la Moivre-Laplace y Legendre casi se vuelve loco
Lo más prudente es
llamarle distribución
Normal y a la de Laplace
Doble -exponencial
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
ES USUAL EN ESTADÍSTICA SE CONSIDERE COMO ERROR LA DESVIACIÓN TÍPICA D E LA
MUESTRA
Incertidumbre en medidas directas
2. Incertidumbre Aleatoria EA
n
Dispersión de la media
s
sX =
n
n
n
n
n
09/07/23
SI hicieramos muchos grupos de n medidas...
La media es más precisa que cualquier dato, los errores
aleatorios se compensan
Pero despacio ....
Los errores de precisión no se compensan
26
prof. Dr. Carlos N. Bouza-Herrera
Nacido en Canterbury, era hijo de Agnes Sealy Vidal y del
coronel Frederic Gosset. Asistió a la famosa escuela privada
Winchester College antes de estudiar química y matemática
en el New College de Oxford. Tras graduarse en 1899, se
incorporó a las destilerías Guinness en Dublín
Guinness prohibió a sus empleados la publicación
de artículos independientemente de la
información que contuviesen. Esto significaba
que Gosset no podía publicar su trabajo usando
su propio nombre. De ahí el uso de su
pseudónimo Student en sus publicaciones, para
evitar que su empleador lo detectara. Por tanto,
su logro más famoso se conoce ahora como la
distribución t de Student, que de otra manera
hubiera sido la distribución t de Gosset.
Gosset publicó El error
probable de una media y casi
todos sus artículos usando el
pseudónimo Student en la
publicación
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Incertidumbre en medidas directas
2. Incertidumbre Aleatoria EA
n
Factor de cobertura: t de Student
n
Ya tenemos X y s X pero el intervalo... DX = s X es
pequeño
y conlleva un nivel de confianza variable 4 multiplicamos por un
factor corrector.
tn
n
Si a es el nivel de confianza t n -1 = t
p=0.05.
n
Para pocas medidas s=s
para compensar.
n
¿Quien fue Student ?
n-1
n -1
(1 - a ) = t n -1 ( p )
a = 0,95
se estima mal y el factor es mayor
27
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Incertidumbr
e
2. Incertidum
bre
n
Coeficiente
M
tm
P=0.1
tm
P=0.05
tm
P=0.01
1
6,31
12,7
en medidas
directas
Aleatoria E
A
s tm (m gra
dos de libe
rtad)
2
2,92
4,30
63,6 9,92
3
4
5
10
20
40
¥
2,35 2,13
2,01
1,81 1,72
1,68 1,64
3,18 2,78
2,57
2,23 2,08
4,03
3,16 2,85
2,70 2,58
5,84 4,60
2,02 1,96
28
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Incertidumbre en medidas directas
2. Incertidumbre Aleatoria EA
n
Ejemplo:
Me peso varios días seguidos en iguales condiciones
M = 72,8 kg
Día
Masa (kg)
L
M
X
J
V
73
72
74
72
73
s n -1 = 0,837 kg
t n -1 = t 4 = 2,78
2
2
2 0, 837 2
2
s
s
n -,1
n
1+ (74 - 72,8) +
(
)
(
)
(
)
(
)
73
72
8
+
72
72
,
8
72
72
,
8
+
73
72
,
8
EsAn -1=
= t4
= 2, 78
= 1, 04 kg
= tn
n
5
5 -1
5
30
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Incertidumbre en medidas directas
3. Incertidumbre Total
Viendo el error con
integralidad este es
la suma del error
aleatoroi y el
sistemático!
n
Combinaremos las incertidumbres en cuadratura:
DX =
n
+ ES
2
Propiedades
E A , ES <
E A >> E S ,
09/07/23
EA
2
2
E A + ES
2
2
< E A + ES
E A + ES
prof. Dr. Carlos N. Bouza-Herrera
2
® EA
31
RESUMIENDO
Resumen medidas directas
X final = X
DX final =
s
1
n
EA = t
n -1
n
2
E A + ES
2
ES= (Media) división
mínima
32
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Representaciones Gráficas
Consideramos que un gráfico es un diagrama formado por líneas,
figuras, mapas. Estos son utilizados para representar, datos
estadísticos . Estos entre sus funciones tenemos:
• Hacer más visibles las características de los datos.
• Evidenciar las variaciones y evolución histórica o espacial de
los datos.
• Evidenciar las relaciones entre los diversos elementos o
variables.
• Aclarar y complementar las tablas y las exposiciones teóricas o
cuantitativas.
Evidenciar la existencia de relaciones que sugieren hipótesis
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Diagramas de barras: representamos en el eje de ordenadas las modalidades y en el de
abscisas las frecuencias absolutas, o las frecuencias relativas. Si, mediante el gráfico, se
intenta comparar varias poblaciones entre sí, existen otras modalidades. Cuando los
tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias
relativas, ya que en otro caso podrían resultar engañosas.
Ejemplo. Si la trabajamos con el estado civil de 16 personas de mas de 60 años y
observamos 3 solteros, 5 casados, 6 viudos y 2 divorciados los gráficos se presentan en
la figura siguiente en términos de la frecuencia absoluta
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Si queremos analizar el comportamiento de mayores de 60
años con otra muestra con edad entre 25 y 40 años se
presenta un gráfico con ambas distribuciones en términos
de la frecuencia relativa véase la figura siguiente
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Gráficos de puntos: Es una variación del diagrama lineal simple el cual está formado por líneas rectas o curvas,
que resultan de la representación, en un eje de coordenadas, de distribuciones de frecuencias, este construye
colocando en el eje x los valores correspondientes a la variable y en el eje de las ordenadas el valor
correspondiente a la frecuencia para este valor. Proporciona principalmente información con respecto a las
frecuencias. Este se usa cuando solo se necesita información sobre la frecuencia
Ejemplo. Se toman 30 proyectos de investigación y se toma el número de horas de uso de Internet en sus
presupuestos en miles d pesos. Los datos obtenidos se presentan en la siguiente tabla
Tabla. Número de horas de uso de Internet solicitados por proyectos de investigación
X=horas de uso
Marca de clase
Frecuencia
300-400
350
2
400-500
450
6
500-600
550
10
600-700
650
8
700-800
750
4
Total
09/07/23
30
prof. Dr. Carlos N. Bouza-Herrera
Figura. Grafico de puntos para el número de horas de uso de Internet solicitados por
proyectos de investigación
El gráfico de las frecuencias permite tener una visión rápida de la forma de la distribución.
Solo los entendidos obtienen mucha mas información de esta.
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Gráfico de puntos (dot plot)
Este agrupa los datos tratando de que los individuos pierdan poca
identificabilidad. Para ello cada observación de sitúa en el eje
horizontal indicando su valor. Si hay varios iguales o semejantes los
puntos se apilan.
Ejemplo. El análisis de los litros de leche producidos y enviados al
mercado por un hato de vacas fue medid y se obtuvo que estos fueron
49 47,5 30 35 34 38 58 40 34 47,5 35 40 46,5 47,5 48,3 35 46,5 39
40 47,5 48,3 36 46,5 47,5 37 47,5 49 54 54 48,3. El dot-plot de ellos
está en la próxima figura
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Gráfico de tallos y hojas (stem-andleaf )
Este tipo de gráfico brinda una forma rápida
de obtener una representación visual
ilustrativa del conjunto de datos. Se
selecciona uno ó más dígitos iniciales
determinando un “tallo”, el dígito o dígitos
finales se convierten en “hojas”. O sea cada
valor se divide en dos partes, los dígitos mas
informativos forman un tronco y se
representan los demás (hojas). Una lista de
valores de tallo se sitúa en el eje vertical. Se
registra cada hoja identificando cada
observación junto al valor correspondiente
de tallo. Este es útil cuando se trabaja con
listas grandes. Su desventaja es que no
brinda sino los datos, sin información sobre
frecuencias y otros elemento importantes.
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Gráficos de caja (box plot)
Estos gráficos son excelentes por dar información sobre
la localización y dispersión
de los datos. Al tener varios grupos de datos la comparación entre
ellos es ilustrada fácilmente.
En una versión del grafico las cajas se forman poniendo la variable
respuesta en el eje vertical y en el horizontal el factor de interés.
En la caja se señalan la mediana y los cuartiles así como el máximo y
el mínimo
Al hacer este grafico para varios juegos de datos y presentarlos
simultáneamente puede representarse el numero de observaciones
en el ancho de caja.
Estos permiten establecer que factor es significativo en el estudio, si
la localización y la Dispersión de los grupos es similar o no.
En algunos softwares se señalan los outliers también. En tal caso no
se señalan el mínimo y el máximo sino estos outliers.
Ejemplo. Se mide el tiempo de vida de dos tipos de máquina. Los
datos son
Tabla. Tiempo de vida de dos tipos de máquina
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Máquina tipo 1 Máquina
tipo 2
10,00
21,00
23,00
24,00
34,00
37,00
11,00
38,00
23,00
15,00
17,00
17,00
25,00
19,00
36,00
26,00
8,00
24,00
19,00
33,00
Los resultados de sus estadísticos fueron, en la salida del SPSS,
Tabla. Medidas estadísticas del tiempo de vida de dos tipos de máquina
N
Media
Mediana
Moda
Desv. típ.
Varianza
Asimetría
Error típ. de asimetría
Curtosis
Error típ. de curtosis
Percentiles
09/07/23
Válidos
Perdidos
,1
,9
25
50
75
prof. Dr. Carlos N. Bouza-Herrera
edadmaq1
10
0
20,6000
21,0000
23,00
9,58239
91,822
,323
,687
-,834
1,334
8,0000
8,0000
10,7500
21,0000
edadmaq2
10
0
25,4000
24,0000
24,00
8,12677
66,044
,499
,687
-1,068
1,334
15,0000
15,0000
18,5000
24,0000
Su gráfico de cajas es el dado en la siguiente figura
edadmaq1
edadmaq2
40
Se evidencia un
mayor tiempo
para la maquina 2
y una dispersión
similar entre ellas
30
20
10
0
1,00
VAR00003
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Deben ver en Excel el
módulo de estadística y
rehacer los ejemplos
trabajados
09/07/23
prof. Dr. Carlos N. Bouza-Herrera
Hasta
09/07/23
la próxima
prof. Dr. Carlos N. Bouza-Herrera
Como
en las
Películas de.
09/07/23
de superhéroes…
prof. Dr. Carlos N. Bouza-Herrera
La
saga
Bueno les dejo
un “chivo”
conque se
orienten como
hacerlo…
En los cursos de estadística
usarán softwares
especializados… el SPSS
generalmente09/07/23
prof. Dr. Carlos N. Bouza-Herrera