Distribuciones

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 63

Distribuciones

CONTENIDO

DISTRIBUCIÓN BINOMIAL

DISTRIBUCIÓN POISSON

DISTRIBUCIÓN NORMAL Y NORMAL ESTANDAR

DISTRIBUCIÓN EXPONENCIAL

REGRESIÓN LINEAL

COEFICIENTE DE CORRELACIÓN DE PEARSON


DISTRIBUCIÓN BINOMIAL

El modelo de distribución Binomial define experimentos consistentes en realizar ensayos repetidos e


independientes. Cada uno de estos experimentos presenta dos posibles resultados que denominamos éxito o
fracaso, cuya probabilidad se mantiene constante en las diferentes pruebas. La variable binomial es una
variable aleatoria discreta, sólo puede tomar los valores 0,1,2,3,4, … n suponiendo que se han realizado n
pruebas. La variable se define como X~ "n0 de veces que ocurre el suceso A en n experimentos”, y viene
determinada por dos parámetros:

• n = tamaño muestral, número de experimentos realizados.


• p = P(A) = probabilidad de que tenga lugar el suceso A. En consecuencia, la distribución Binomial se suele
representar por B (n, p) siendo n y p los parámetros característicos de dicha distribución.
El cálculo de la probabilidad de la distribución binomial requiere la utilización de los números combinatorios, y
aunque existe una tabla que proporciona los valores de probabilidad para diferentes valores de n y p, a veces el
proceso se hace bastante tedioso, especialmente cuando es necesario calcular probabilidades acumuladas. Por
ejemplo, 𝑝 𝑋 ≥ 3 = 1 − 𝑝 𝑋 < 3 = 1 − 𝑝 𝑋 ≤ 2 = 1 − 𝑝 𝑋 = 0 + 𝑝(𝑋 = 1 + 𝑝(𝑋 = 2)

En esas ocasiones, siempre que se cumpla n*p*(1‐p) ≥ 9, podemos aproximar la distribución binomial a una
distribución normal.
EJERCICIOS
DISTRIBUCIÓN BINOMIAL
Ejercicio 1.

La probabilidad de éxito de una determinada vacuna es 0.72 Calcular la


probabilidad de que una vez administrada a 15 pacientes:

a) Ninguno sufra la b) Todos sufran la c) Dos de ellos


enfermedad. enfermedad. contraigan la
enfermedad.
Solución.
Ninguno sufra la enfermedad.

Se trata de una distribución binomial de parámetros B(15, 0.72)


a) Si ninguno sufre una enfermedad, entonces en 15 pacientes
fueron exitosos.

Tenemos:
𝒏!
𝒑 𝑿=𝒌 = 𝑪𝒏𝒌 𝒑𝒌 𝒒𝒏−𝒌 = 𝒑𝒌 𝒒𝒏−𝒌
𝒌! 𝒏 − 𝒌 !
Sustituimos

𝟏𝟓
𝑷 𝒙 = 𝟏𝟓 = 𝟎. 𝟕𝟐𝟏𝟓 𝟎. 𝟐𝟖𝟎
𝟏𝟓
𝟏𝟓!
= 𝟎. 𝟎𝟎𝟕𝟐𝟒𝟒 𝟏 ≈ 𝟎. 𝟎𝟎𝟕𝟐𝟒𝟒 ≈ 𝟎. 𝟕𝟐𝟒𝟒%
𝟏𝟓 − 𝟏𝟓 ! 𝟏𝟓!

Resultado
𝟎. 𝟕𝟐𝟒𝟒%
Solución.
Todos sufran la enfermedad.

b) Que todos tengan la enfermedad, entonces 0 en pacientes fueron


exitosos:

Tenemos:
𝒏!
𝒑 𝑿=𝒌 = 𝑪𝒏𝒌 𝒑𝒌 𝒒𝒏−𝒌 = 𝒑𝒌 𝒒𝒏−𝒌
𝒌! 𝒏 − 𝒌 !
Sustituimos

15
𝑃 𝑥=0 = 0.720 0.2815
0
15!
= 1 5.0976 𝑥 10−9 ≈ 5.0976 𝑥 10−9
15 − 0 ! 0!

Resultado
5.0976 𝑥 10−9
Solución.
Dos de ellos contraigan la enfermedad.

c) Dos de ellos contraigan la enfermedad, entonces en 13


pacientes fueron exitosos:

Tenemos:
𝒏!
𝒑 𝑿=𝒌 = 𝑪𝒏𝒌 𝒑𝒌 𝒒𝒏−𝒌 = 𝒑𝒌 𝒒𝒏−𝒌
𝒌! 𝒏 − 𝒌 !
Sustituimos

15
𝑃 𝑥 = 13 = 0.7213 0. 282
13
15!
= (0.013974)(0.0784) ≈ 0.115034
15 − 13 ! 0.13!
≈ 11.50%

Resultado
11.50%
Ejercicio 2.

Una cadena grande de tiendas al detalle le compra cierto tipo de


dispositivo electrónico a un fabricante, el cual le indica que la tasa de
dispositivos defectuosos es de 3%.

a) El inspector de la cadena b) Suponga que el detallista recibe 10


elige 20 artículos al azar de cargamentos en un mes y que el
un cargamento. ¿Cuál es la inspector prueba aleatoriamente 20
probabilidad de que haya al dispositivos por cargamento. ¿Cuál es
menos un artículo defectuoso la probabilidad de que haya
entre estos 20? exactamente tres cargamentos que
contengan al menos un dispositivo
defectuoso de entre los 20
seleccionados y probados?
Solución.
El inspector de la cadena elige 20 artículos al azar de un cargamento. ¿Cuál es la probabilidad de
que haya al menos un artículo defectuoso entre estos 20?

a) Denote con X el número de dispositivos defectuosos de los 20. Entonces


X sigue una distribución b (x; 20, 0.03).

Tenemos:
𝒏 𝒙 𝒏−𝒙
𝒙; 𝒏, 𝒑 = 𝒑 𝟏−𝒑
𝒙
Sustituimos

𝑃 𝑋 ≥ = 1 − 𝑃 𝑋 = 0 = 1 − 𝑏 0; 20,0.03
= 1 − 0.03 0 1 − 0.03 20 −0 = 0.4562

Resultado
0.4562
Solución.
Suponga que el detallista recibe 10 cargamentos en un mes y que el inspector prueba aleatoriamente 20
dispositivos por cargamento. ¿Cuál es la probabilidad de que haya exactamente tres cargamentos que
contengan al menos un dispositivo defectuoso de entre los 20 seleccionados y probados?

b) En este caso cada cargamento puede o no contener al menos un


artículo defectuoso. Por lo tanto, el hecho de probar el resultado de
cada cargamento puede considerarse como un experimento de
Bernoulli con p = 0.4562 del inciso a). Si suponemos la independencia
de un cargamento a otro, y si se denotamos con X el número de
cargamentos que contienen al menos un artículo defectuoso, Y sigue
otra distribución binomial b(X; 10, 0.4562). Por lo tanto

𝑛 𝒙 𝒏−𝒙
𝑷 𝒙; 𝒏, 𝒑 = 𝒑 1−𝒑
𝑥
Sustituimos

10
𝑝 𝑋 = 3 = 3 0.45623 1 − 0.4562 7 = 0.1602

Resultado

0.1602
DISTRIBUCIÓN POISSON

La distribución de Poisson es una distribución de probabilidad discreta que expresa, a partir de una
frecuencia de ocurrencia media λ, la probabilidad que ocurra un determinado número de eventos 𝑘 ∈ 𝑋
durante un intervalo de tiempo dado o una región específica.

Sea X una variable aleatoria que representa el número de eventos aleatorios independientes que ocurren a
una rapidez constante sobre el tiempo o el espacio. Se dice entonces que la variable aleatoria X tiene una
distribución de Poisson con función de probabilidad

La distribución de Poisson tiene iguales la media y la varianza. Si la variación de los casos observados en
una población excede a la variación esperada por la Poisson, se está ante la presencia de un problema
conocido como sobre dispersión y, en tal caso, la distribución binomial negativa es más adecuada.

Para valores de  mayores de 20 la distribución de Poisson se aproxima a una distribución normal de media y
varianza iguales a . Por este motivo no se debe considerar una limitación la restricción que tiene de no
realizar el cálculo para valores de  superiores a 50.

• Valores: k: 0, 1, 2, ... Parámetros: : tasa de ocurrencia,  > 0


EJERCICIOS.
DISTRIBUCIÓN POISSON
Ejercicio 1.

Los clientes llegan a una tienda de acuerdo con un proceso de Poisson


de tasa λ = 4 por hora. Si la tienda abre a las 9 a.m.
¿Cuál es la probabilidad de que exactamente un cliente haya entrado
antes de las 9:30 a.m. y que un total de cinco hayan entrado antes de las
11:30 a.m.?
Solución.

Medimos el tiempo t en horas a partir de las 9 a.m. Queremos hallar


1 5
𝑃 𝑁 2 = 1, 𝑁 2 = 5 , y para esto usaremos la independencia de los

incrementos:
𝑘
ⅇ − 𝜆 𝜆𝑖
𝑃 𝑥 ≤ 𝑘 = 𝐹 𝑘, 𝜆 = ෎
𝑖!
𝑖=0

𝐹𝑥 𝑘 = 𝑃 𝑥 ≤ 𝑘 = 1 − ⅇ −𝜆𝑘 Para 𝑥 ≥ 0
Sustituimos

𝟏 𝟓 𝟏 𝟓 𝟏
𝑷 𝑵 = 𝟏, 𝑵 =𝟓 =𝑷 𝑵 = 𝟏, 𝑵 −𝑵 =𝟒
𝟐 𝟐 𝟐 𝟐 𝟐

𝟏 𝟏
−𝟒 𝟐
ⅇ 𝟒 ⅇ−𝟒 𝟐 𝟒 𝟐 𝟒 𝟓𝟏𝟐 −𝟖
= 𝟐 = 𝟐ⅇ−𝟐 ⅇ = 𝟎. 𝟎𝟎𝟏𝟓𝟓
𝟏! 𝟒! 𝟑

Resultado
𝟎. 𝟎𝟎𝟏𝟓𝟓
Ejercicio 2.

Durante un experimento de laboratorio el número promedio de


partículas radiactivas que pasan a través de un contador en un
milisegundo es 4. ¿Cuál es la probabilidad de que entren 6 partículas al
contador en un milisegundo dado?
Solución.

Al usar la distribución de Poisson con x = 6 y 𝜆𝑡 = 4, tenemos que

ⅇ −𝜆𝑡 𝜆𝑡 𝑥
𝑃 𝑥: 𝜆𝑡 = , 𝑥 = 0, 1, 2, . . . ,
𝑥!

𝑘
ⅇ − 𝜆 𝜆𝑖
= ෍
𝑖=0 𝑖!
Sustituimos

6 5
−4 6
ⅇ 4
𝑃 6; 4 = = ෍ 𝑃 𝑥; 4 = ෍ 𝑝 𝑥; 4 = 0.8893 − 0.7851 = 0.1042
6!
𝑥=0 𝑥=0

Resultado

0.1042
DISTRIBUCIÓN NORMAL.

La distribución normal es una distribución con forma de campana


donde las desviaciones estándar sucesivas con respecto a la
media establecen valores de referencia para estimar el porcentaje
de observaciones de los datos. Estos valores de referencia son la
base de muchas pruebas de hipótesis, como las pruebas 𝒁 y 𝒕.

La distribución normal adapta una variable aleatoria a una función


que depende de la media y la desviación típica. Es decir,
la función y la variable aleatoria tendrán la misma representación
pero con ligeras diferencias.
DISTRIBUCIÓN NORMAL ESTÁNDAR.

La distribución normal estándar o distribución normal tipificada es una distribución normal


singular cuya denominación es N(0, 1). Su variable, Z es el producto de una transformación
o cambio de variable de la variable aleatoria continua X que sigue una distribución
normal del tipo 𝑵(𝝁, 𝝈). Esta transformación se llama tipificación (también estandarización
o normalización). Dicha variable se puede transformar en una variable normal tipificada,
𝑵(𝟎, 𝟏)

La distribución normal que tiene de media 𝝁 = 𝟎, y 𝝈𝟐 = 𝟏 se denomina distribución


normal estándar, 𝑵(𝟎, 𝟏), o tipificada. Su función de distribución se encuentra tabulada,
siendo de gran utilidad para el cálculo de probabilidades de cualquier distribución 𝑵(𝝁, 𝝈𝟐 ).

Sea una variable 𝑿 que se distribuye como una normal con media 𝝁 y variancia 𝝈𝟐 .

Una variable aleatoria continua puede tomar cualquier número real. Por ejemplo, las
rentabilidades de las acciones, los resultados de un examen, el coeficiente de inteligencia
IQ y los errores estándar son variables aleatorias continuas.
EJERCICIOS.
DISTRIBUCIÓN NORMAL Y NORMAL ESTÁNDAR
Ejercicio .
DISTRIBUCIÓN NORMAL

El tiempo de espera para ser atendida en un cierto establecimiento


se puede aproximar por una variable aleatoria con distribución
normal de media μ desconocida y desviación típica igual a 3 minutos.
Se toma una muestra aleatoria simple de tamaño 121. Determinar un
intervalo de confianza con un nivel del 95% para μ, sabiendo que la
media de la muestra es igual a 7 minutos.
Solución.

x: variable aleatoria “tiempo de espera en minutos”

La distribución de la variable x es N(μ, 3)

MUESTRA de tamaño 121 POBLACIÓN

Media muestral: x = 7 minutos Se desconoce la media poblacional μ


Desviación típica de la muestra
Desviación típica de la población: σ
=3
𝜎 3
La muestra es 𝑁 𝜇, = 𝑁 7,
𝑛 121

𝛼
1 − 𝛼 = 0.95 → = 0.025 → 𝑧0.025 = 1.96
2

Intervalo de confianza para la media:

𝜎 𝜎 3 3
𝑥ҧ − 𝑧𝛼ൗ ⋅ ; 𝑥ҧ + 𝑧𝛼ൗ ⋅ = 7 − 1.96 . ; 7 + 1.96 .
2 𝑛 2 𝑛 121 121
= (6.5; 7.5)

Intervalo de confianza para la media: (6,5; 7,5)


Ejercicio 2.
DISTRIBUCIÓN NORMAL ESTÁNDAR

La temperatura durante setiembre está distribuida normalmente con


media 18,7ºC y desviación standard 5ºC. Calcule la probabilidad de
que la temperatura durante setiembre esté por debajo de 21ºC

Tenemos los siguientes datos:

𝝁 = 𝟏𝟖. 𝟕𝟎 𝑪 𝝈 = 𝟓°𝑪 𝑿 = 𝟐𝟏°𝑪

𝒙−𝝁
𝒁=
𝝈
Solución.

Sustituimos

𝟐𝟏 − 𝟏𝟖. 𝟕 𝟐. 𝟑
= = 𝟎. 𝟒𝟔
𝟓 𝟓

Resultado

𝟎. 𝟒𝟔
En la tabla para el valor de Z = 0,46 tenemos que la probabilidad es de
0,6772.
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359

0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5595 0,5636 0,5675 0,5714 0,5753

0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141

0,3 0.6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517

0,4 0,6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0 6879

0,5 0,6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0,7190 0.7224

La tabla nos proporciona la probabilidad desde que ocurran sucesos menores


que 𝒁 = 𝟎. 𝟒𝟔. Esto es, la probabilidad de que ocurran sucesos desde menos
infinito hasta el valor de Z de 0,46 es 0,6772. Esto es, un 67,72 %.
Sucesos menores que 𝒁 = 𝟎. 𝟒𝟔 es lo mismo que decir que la temperatura sea
menor que 21°C. Con la variable X hablamos de temperatura, con la variable
estándar hablamos de Z.
DISTRIBUCIÓN EXPONENCIAL.

Una variable aleatoria exponencial será siempre positiva. La distribución exponencial suele
describir situaciones como:

• Los tiempos de servicio en un sistema (𝒑. ⅇ., cuánto tiempo toma atender a un cliente).
• El tiempo entre “entradas” en un sitio web.
• El tiempo de vida de un componente eléctrico.
• El tiempo que transcurre hasta que la siguiente llamada telefónica llega a un centro de
servicio al cliente

La distribución de probabilidad exponencial tiene un sesgo positivo. En esta característica


difiere de las distribuciones uniforme y normal, que son simétricas. De hecho, la distribución
es descrita por un solo parámetro, que identificaremos como 𝝀. A menudo, nos referimos a 𝝀
como el parámetro de “ritmo”.
EJERCICIOS.
DISTRIBUCIÓN EXPONENCIAL
Ejercicio 1.

Las órdenes para pedidos de medicamentos por receta llegan a una


farmacia virtual de acuerdo con una distribución de probabilidad
exponencial, a una media de una cada 20 segundos. Encuentre la
probabilidad de que la siguiente orden llegue en menos de 5
segundos, en más de 40 segundos, o entre 5 y 40 segundos
Solución.

Para comenzar, se determina el parámetro de ritmo 𝜆, que en este caso es


1 1
. Para encontrar la probabilidad, se inserta en lugar de 𝜆 y 5 por 𝑥
20 20

𝑃(𝑇𝑖ⅇ𝑚𝑝𝑜 𝑑ⅇ 𝑙𝑙ⅇ𝑔𝑎𝑑𝑎 < 𝑥) = 1 − ⅇ −𝜆𝑥


Sustituimos

1
−20(5)
𝑃(𝑇𝑖ⅇ𝑚𝑝𝑜 𝑑ⅇ 𝑙𝑙ⅇ𝑔𝑎𝑑𝑎 < 5) = 1 − ⅇ = 1 − ⅇ −0.25 = 1 −
0.7788 = 0.2212

Resultado
0.2212

En consecuencia, se concluye que hay una probabilidad de 22% de que la


siguiente orden llegue en menos de cinco segundos. La región se identifica
como el área color marrón bajo la curva.
Los cálculos anteriores señalaron el área en la zona de la cola izquierda
1
de la distribución exponencial como 𝜆 = , y el área entre 0 y 5 (es
20
decir, el área que está por debajo de los 5 segundos).

Para encontrar la probabilidad de que la siguiente orden llegue en más


de 40 segundos, se debe hallar la probabilidad de que la orden llegue en
menos de 40 segundos y restar el resultado de 1.00. Los pasos son:

1. Encuentre la probabilidad de que una orden sea recibida en menos de


40 segundos.
1
− (40)
𝑃(𝑇𝑖ⅇ𝑚𝑝𝑜 𝑑ⅇ 𝑙𝑙ⅇ𝑔𝑎𝑑𝑎 < 40) = 1 − ⅇ 20 = 1 − 0.1353 = 0.8647
2. Encuentre la probabilidad de que una orden sea recibida en más de
40 segundos.
𝑃(𝑇𝑖ⅇ𝑚𝑝𝑜 𝑑ⅇ 𝑙𝑙ⅇ𝑔𝑎𝑑𝑎 > 40) = 1 − 𝑃(𝑙𝑙ⅇ𝑔𝑎𝑑𝑎 < 40) = 1 −
0.8647 = 0.1353

Se concluye que la probabilidad de que pasarán 40 segundos o más


antes de que se reciba la siguiente orden en la farmacia virtual es de
13.5%
Ejercicio 2.

Compton Computers desea establecer una garantía mínima de


tiempo de vida para su nueva unidad de fuente de poder. Las
pruebas de calidad muestran que el tiempo de falla sigue una
distribución exponencial con una media de 4 000 horas. Compton
quiere un periodo de garantía en cuyo transcurso sólo falle 5% de
las fuentes de poder. ¿Qué valor debe establecer para el periodo de
garantía?
Solución.
Observe que 4 000 horas es una media y no un ritmo. Por lo tanto, debemos establecer 𝜆 como
1
o 0.00025 fallas por hora. A continuación, se muestra un diagrama de la situación, donde 𝑥
4 000
representa el tiempo de vida mínimo garantizado.

En este caso, el parámetro de ritmo es 4 000 horas y queremos que dicha área sea 0.05, tal como
se muestra en el diagrama.
𝑷(𝑻𝒊ⅇ𝒎𝒑𝒐 𝒅ⅇ 𝒍𝒍ⅇ𝒈𝒂𝒅𝒂 < 𝒙) = 𝟏 − ⅇ−𝝀𝒙
En este caso, el parámetro de ritmo es 4 000 horas y queremos que dicha
área sea 0.05, tal como se muestra en el diagrama.
𝑃(𝑇𝑖ⅇ𝑚𝑝𝑜 𝑑ⅇ 𝑙𝑙ⅇ𝑔𝑎𝑑𝑎 < 𝑥) = 1 − ⅇ −𝜆𝑥
1
− (𝑥)
𝑃(𝑇𝑖ⅇ𝑚𝑝𝑜 𝑑ⅇ 𝑙𝑙ⅇ𝑔𝑎𝑑𝑎 < 0.5) = 1 − ⅇ 4 000

En seguida, resolvemos la ecuación para 𝑥. Por lo tanto, restamos 1 de


ambos lados de la ecuación y multiplicamos por –1 para simplificar los
signos.
1
− 4 000(𝑥)
𝑃(𝑇𝑖ⅇ𝑚𝑝𝑜 𝑑ⅇ 𝑙𝑙ⅇ𝑔𝑎𝑑𝑎 < 0.95) = ⅇ
El siguiente paso es tomar el logaritmo natural de ambos lados y lo
resolvemos para 𝑥:
1 1
𝑙𝑛 95 = − 𝑥 − 0.51293294 = − 𝑥
4000 4000

𝒙 = 𝟐𝟎𝟓. 𝟏𝟕

En este caso, x = 205.17. De esta forma, Compton puede establecer el


periodo de garantía en 205 horas, y esperar que alrededor de 5% de las
fuentes de poder será devuelto.
REGRESIÓN LINEAL.

El objetivo de un modelo de regresión es tratar de explicar la relación que existe entre


una variable dependiente (variable respuesta) Y un conjunto de variables
independientes (variables explicativas) 𝑿𝟏 ,..., 𝑿𝒏 .

• La regresión lineal permite predecir el comportamiento de una variable (dependiente


o predicha) a partir de otra (independiente o predictora).
• Tiene presunciones como la linealidad de la relación, la normalidad, la aleatoriedad
de la muestra y homogeneidad de las varianzas.
• La regresión no prueba causalidad.
• Un artículo que usa regresión debe mencionar o mostrar que se analizó la “nube de
puntos” y que se hizo un análisis de los residuales.
• La línea de regresión no debe extenderse más allá de los datos obtenidos.
EJERCICIOS.
REGRESIÓN LINEAL
Ejercicio 1.

Si representamos los datos como puntos de coordenadas (𝒙𝒊 , 𝒚𝒊 ) en el


plano vemos que, efectivamente, estos podrían ajustarse a una recta,
lo que nos indica que la velocidad de reacción aumenta “linealmente”
con la concentración de glucogenasa. Debemos elaborar una tabla
con los valores observados de las variables 𝒙 ⅇ 𝒚.

𝑥𝑖 𝑦𝑖 𝑥𝑖 2 𝑖 𝑦𝑖 2 𝑖 𝑥𝑖 𝑦𝑖
0.2 8 0.04 64 1.6
0.5 10 0.25 100 5
1 18 1 324 18
2 35 4 1225 70
3 60 9 3600 180
Suma 6.7 131 14.29 5313 274.6
Solución.

A partir de aquí, hacemos también el cálculo de los estadísticos


descriptivos más sencillos: medias, varianzas y covarianza.
6⋅7 131 274.6

𝑋= = 1 ⋅ 34 ത
𝑌= = 26 ⋅ 2 𝑆𝑥𝑦 = = 19.812
5 5 5

14.29 5313
𝑆𝑋2 = = 1.342 = 1.0624 𝑆𝑌2 = = 26.22 = 376.18
5 5
A continuación, calculamos los coeficientes a y b de la recta de
regresión 𝑦 = 𝑎 + 𝑏𝑥:
𝑠𝑋𝑌 19.812
𝑏= = = 18 ⋅ 648343
𝑠𝑥2 1.0624

𝑎 = 𝑌ത − 𝑏𝑋ത = 26.2 − 18.648343 (1.34) = 1.2112204


La recta de regresión es 𝑦 = 1,2112204 + 18,648343𝑥 . Para
calcular la velocidad de reacción a una concentración de 2,5
milimoles/litro, basta sustituir x por 2,5 en la recta de regresión:
𝑦(2,5) = 1,2112204 + 18,648343 · 2,5 = 47,832078
micromoles/minuto. Finalmente, vemos si el ajuste lineal es bueno
calculando el coeficiente de correlación lineal 𝑟
𝑠𝑋𝑌 19
𝑟= = ≈ 0.9910555 que es muy próximo a 1. Por
𝑠𝑋 𝑠𝑌 1.0624 376,18
tanto, la dependencia lineal es buena.
Ejercicio 2.

La siguiente tabla muestra el índice de mortalidad (Y) y el consumo


medio diario de cigarrillos (X) para poblaciones distintas:

Tabla de datos mortalidad por consumo tabaco.


N° cigarrillos (X) 3 5 6 15 20 40 45

Índice Mortalidad (Y) 0.2 0.3 0.3 0.5 0.7 1.4 1.5

¿Qué índice de mortalidad se podría predecir para una población que


consume una media de 32 cigarrillos diarios?
Solución.
Buscamos nuestra expresión, Y=b0 + b1X, para ello necesitaremos
calcular b0 y b1, para calcular nuestros coeficientes estadísticos obtendremos
las medias, varianzas y covarianzas muestrales:

𝜮𝒊 = 𝟏𝑿𝒊 𝜮𝒊 = 𝟏𝒀𝒊
ഥ=
𝑿 = 𝟏𝟗. 𝟏𝟒𝟑 ഥ=
𝒀 = 𝟎. 𝟕
𝒏 𝒏


𝑿𝒊 − 𝑿 𝟐 ഥ
𝒀𝒊 − 𝒀 𝟐
𝑺𝑿 = ෎ = 𝟏𝟓. 𝟖𝟑 𝑺𝒀 = ෎ = 𝟎. 𝟓
𝒏 𝒏
𝒊=𝟏 𝒊=𝟏

𝜮𝒊=𝟏 𝑿𝒊 − 𝑿 𝒀𝒊 − 𝒀
𝒔𝒙𝒚 = = 𝟕. 𝟖𝟕𝟏
𝒏

𝒔𝒙𝒚 𝟕. 𝟖𝟕𝟏
𝒃𝒊 = 𝟐 = = 𝟎. 𝟎𝟑𝟏
𝒔𝒙 𝟐𝟓𝟎. 𝟓𝟖𝟖𝟗

ഥ − 𝒃𝟏 𝑿
𝒃𝟎 = 𝒀 ഥ = 𝟎. 𝟕 − 𝟎. 𝟎𝟑𝟏 (𝟏𝟗. 𝟏𝟒𝟑) = 𝟎. 𝟏𝟎𝟔𝟓𝟔𝟕

Por lo tanto, nuestra recta de regresión queda determinada por la


siguiente ecuación:

𝑌 = 0.106567 + 0.031 (𝑋) Ecuación de la recta de regresión.


Veamos el coeficiente de correlación, para determinar la
“proximidad” de nuestra recta:

𝑺𝒙𝒚 𝟕𝟖𝟕𝟏
𝒓= = = 𝟎. 𝟗𝟗𝟒𝟒𝟒𝟏 Coeficiente de correlación.
𝑺𝒙 𝑺𝒚 𝟏𝟓.𝟖𝟕 𝟎.𝟓

Es un valor muy próximo a 1, por lo que la dependencia de las


variables es muy directa.

Por último, calculemos el índice mortal de nuestra población:

𝑌32 = 0.106567 + 0.031(32) = 1.0986 Índice de mortalidad.


COEFICIENTE DE CORRELACIÓN DE
PEARSON.

La distribución de Poisson es una distribución de probabilidad discreta


que se aplica a las ocurrencias de algún suceso durante un intervalo
determinado. Nuestra variable aleatoria x representará el número de
ocurrencias de un suceso en un intervalo determinado, el cual podrá ser
tiempo, distancia, área, volumen o alguna otra unidad similar o derivada
de éstas.
Esta distribución es una de las más importantes distribuciones
de variable discreta. Sus principales aplicaciones hacen referencia a la
modelización de situaciones en las que nos interesa determinar el número
de hechos de cierto tipo que se pueden producir en un intervalo de tiempo
o de espacio, bajo presupuestos de aleatoriedad y ciertas circunstancias
restrictivas. Otro de sus usos frecuentes es la consideración límite de
procesos dicotómicos reiterados un gran número de veces si la
probabilidad de obtener un éxito es muy pequeña .
EJERCICIOS.
COEFICIENTE DE CORRELACIÓN DE PEARSON
Ejercicio 1.
Una persona rellena semanalmente una quiniela y un boleto de lotería
primitiva, anotando el número de aciertos que tiene. Durante las 4
semanas del mes de febrero, los aciertos fueron :
Semana 1ª 2ª 3ª 4ª

Aciertos en la quiniela 6 8 6 8

Aciertos en la primitiva 1 2 2 1

Obtener el coeficiente de correlación lineal e interpretarlo.


¿Ofrecerían confianza las predicciones hechas con las rectas de
regresión?
Solución.

𝒙𝒊 𝒚𝒊 𝒙 𝒊𝟐 𝒚 𝒊𝟐 𝒙 𝒊 · 𝒚𝒊
6 1 36 1 6
8 2 64 4 16
6 2 36 4 12
8 1 64 1 8
28 6 200 10 42

𝟖 𝟔
ഥ= =𝟕
𝒙 ഥ = = 𝟏. 𝟓
𝒚
𝟒 𝟒

𝟐𝟎𝟎 𝟐 𝟏𝟎 𝟐
𝝈𝒙 = − 𝟕 = 𝟓𝟎 − 𝟒𝟗 = 𝟏 𝝈𝒚 = − 𝟏. 𝟓 = 𝟐. 𝟓 − 𝟐. 𝟐𝟓 = 𝟎. 𝟓
𝟒 𝟒
𝟒𝟐
𝝈𝒙𝒚 = − 𝟕 ⋅ 𝟏 ⋅ 𝟓 = 𝟏𝟎. 𝟓 − 𝟏𝟎. 𝟓 = 𝟎
𝟒

𝝈𝒙𝒚 𝟎
𝒓= = =𝟎
𝝈𝒙 ⋅ 𝝈𝒚 𝟏 𝟎. 𝟓

No existe correlación entre ambas variables, por lo que cualquier


predicción hecha no ofrecería confianza alguna.
Ejercicio 2.
En una empresa de transporte trabajan 4 conductores. Los años de
antigüedad de sus permisos de conducir y el número de infracciones
cometidas en el último año por cada uno de ellos son los siguientes :

X : años de antigüedad 3 4 5 6
Y : infracciones 4 3 2 1

a) Representar gráficamente los datos anteriores. Razonar si los datos


muestran una correlación positiva o negativa.
b) Calcular el coeficiente de correlación e interpretarlo en términos de la
situación real.
Solución.

a)

Al aumentar los valores de X los valores de Y disminuye, por lo que la


correlación de ambas variables es negativa.
𝐱𝐢 𝐲𝐢 𝐱 𝐢𝟐 𝐲𝐢𝟐 𝐱 𝐢 · 𝐲𝐢
3 4 9 16 12
4 3 16 9 12
5 2 25 4 10
6 1 36 1 6
18 10 86 30 40

b)
𝟏𝟖 𝟏𝟎
ഥ=
𝒙 = 𝟒. 𝟓 ഥ=
𝒚 = 𝟐. 𝟓
𝟒 𝟒

𝟖𝟔 𝟐
𝝈𝒙 = − 𝟒. 𝟓 = 𝟐𝟏. 𝟓 − 𝟐𝟎. 𝟐𝟓 = 𝟏. 𝟏𝟏𝟖
𝟒
𝟑𝟎 𝟐
𝝈𝒚 = − 𝟐. 𝟓 = 𝟕. 𝟓 − 𝟔. 𝟐𝟓 = 𝟏. 𝟏𝟏𝟖
𝟒

40
𝜎𝑥𝑦 = − 4.5 ⋅ 2 ⋅ 5 = −1.25
4

𝜎𝑥𝑦 −1.25
𝑟= = = −1
𝜎𝑥 ⋅ 𝜎𝑦 1.25

La correlación es perfecta o inversa

También podría gustarte