Formulario vs2014-1

Download as pdf or txt
Download as pdf or txt
You are on page 1of 7

FORMULARIO

Estadística - Grado en Ingeniaría Informática - DEIOAC

Parámetros muestrales
Media (Average): Mediana o C 2 (Median):
N

∑x Si N es impar ⇒ valor de la posición (N+1)/2


X= ⇒ media de los valores que ocupan las posiciones N/2 y (N/2+1)
i
i =1
Si N es par
N
Cuartiles:
C 1 (Lower quartile) es primer cuartil si: C 3 (Upper quartile)es tercer cuartil si:
Nº datos ≤ C 1 es mayor o igual que N/4 Nº datos ≤ C 3 es mayor o igual que 3N/4

Nº datos ≥ C 1 es mayor o igual que 3N/4 Nº datos≥ C 3 es mayor o igual que N/4

N
(xi − X)2
Varianza (Variance): S = ∑
2
Desviación típica (Standar deviation): S = S2
i =1 N −1
Recorrido (Range): Recorrido Intercuartílico Coeficiente de variación (Coeff. of variation):
(Interquartile range):
S
R = X max - X min RI = C 3 – C 1 CV =
X
Coeficiente de asimetría: Coef. asimetría estandarizado o Stnd. Skewness (CAE):
N Si CAE < -2 ⇒ distribución asimétrica negativa
∑ ( xi - x ) / (N - 1)
3
Si CAE ∈ [-2, 2] ⇒ distribución simétrica
CA = i=1
Si CAE > 2 ⇒ distribución asimétrica positiva
S3
Coeficiente de curtosis Coef. curtosis estandarizado o Stnd. kurtosis (CCE):
(apuntamiento):

∑ (x − x )
N
4 Si CCE < -2 ⇒ datos planicúrticos
i ( N − 1) Si CCE ∈ [-2, 2] ⇒ datos mesocúrticos (“normales”)
CC = i =1
−3 Si CCE > 2 ⇒ datos leptocúrticos
s4
Covarianza (Covariance): Coeficiente de correlación lineal (Correlation
N Coefficient):
∑ ( x - x )( y - y )
i i cov xy
cov xy = i=1
rxy = rxy ∈ [ -1, + 1]
N-1 Sx Sy

Probabilidad
Propiedades:
P(A) ≥ 0 P(E) = 1 Si A y B son excluyentes ⇒ P(A ∪ B)= P(A) + P(B) y P(A ∩ B) =

P(A)= 1 − P(A) P(A) ≤ 1 P(∅ ) =0

Regla de Laplace: Leyes de Morgan:


Casos favorables
P(A) = A B = A B A B = A B
Casos posibles

1
FORMULARIO
Estadística - Grado en Ingeniaría Informática - DEIOAC

Suma de sucesos:
P(A ∪ B)=P(A)+P(B)-P(A ∩ B)
P(A ∪ B ∪ C)=P(A)+P(B)+P(C)-P(A ∩ B)-P(A ∩ C)-P(B ∩ C)+P(A ∩ B ∩ C)

En general:
P(A1 ∪  ∪ An )=∑ (P(Ai ) ) − ∑ (P(Ai ∩ A j ) ) + ∑ (P(Ai ∩ A j ∩ Ak )) + + (-1)n+1 ( ∑ (P(A  A ))
1 n

Probabilidad condicional: Producto de sucesos: Si A y B son independientes ⇒


P(A ∩ B) P(A ∩ B) = P(A).P(B/A) P(A ∩ B) = P(A).P(B)
P(A/B) =
P(B) P(A ∩ B) = P(B).P(A/B)
Teorema de la probabilidad total: Teorema de Bayes
n P(Ai ∩ B) P(Ai )P(B/Ai )
P(B)= ∑ P(A j )P(B/A j ) = P(A1 )P(B/A1 ) +…+ P(A n )P(B/A n ) P(Ai /B) = = n
P(B)
j=1
∑ P(A j )P(B/A j )
j=1

Distribuciones de probabilidad
Función de distribución: F(x)=P(X ≤ x) Propiedad: P(a < X ≤ b)=F(b)-F(a)
Variables aleatorias discretas Variables aleatorias continuas
dF(x)
Función de probabilidad: P(X = x i ) Función de densidad: f(x)=
dx
Esperanza matemática y parámetros poblacionales
Media: m=E(X) Varianza: σ 2 = E ( X – m ) 2 Desviación típica: σ = σ2
Propiedades de la media:
Si Y= a 0 ± a 1 ·X 1 ± a 2 ·X 2 ± … ± a n ·X n ⇒ m Y = a 0 ± a 1 ·m X1 ± a 2 · m X2 ± … ± a n ·m n
Casos particulares:
Si Y= a + b·X ⇒ m Y = a + b·m X Si Y= a - b·X ⇒ m Y = a – b·m X
Si Y= X 1 + X 2 ⇒ m Y = m X1 + m X2 Si Y= X 1 - X 2 ⇒ m Y = m X1 - m X2

Propiedades de la varianza:
Si Y= a 0 ± a 1 ·X 1 ± a 2 ·X 2 ⇒ σ Y = a1 .σ X1 ± a2 .σ X2 ± 2.a1 .a2 .Cov X1X2
2 2 2 2 2

Casos particulares:
Si Y= a + b·X ⇒ σ Y = b .σ X σ Y2 = b2 .σ X2
2 2 2
Si Y= a - b·X ⇒
Y= X 1 ± X 2 ⇒ σ Y = σ X1 + σ X2
2 2 2
Si X 1 y X 2 son independientes:
Coeficiente de variación: σX Recorrido Intercuartílico: C 3 – C 1 Recorrido: X max - X min
CVX =
mX
Covarianza: ((
σ2X1X2 =E X1 - mX1 )( X2 - mX2 )) Coeficiente de correlación:
ρX X =
Cov X1X2
1 2
σ X .σ X
1 2

2
FORMULARIO
Estadística - Grado en Ingeniaría Informática - DEIOAC

Distribuciones más importantes


Binomial: X∼B(n, p) (X = 0, 1, ..., n)
Función de probabilidad: Media: Varianza:
n x mX = E ( X ) = n.p σ X2 = n.p.(1- p )
P ( X = x ) =  .px .(1- p )
n-x

x
 
P(X ≤ x)= ∑ P(X=xi )
xi =0

Propiedades:
X 1 ≈ B (n1 , p )
............... ⇒ Y = X 1 + ... + X N ≈ B(n1 + ... + nN , p )
X N ≈ B ( nN , p )

Poisson: X ∼ Ps (λ) (X = 0, 1, ..., ∞)


Función de probabilidad: x Media: Varianza:
-λ λ
x P(X ≤ x)= ∑ P(X=xi ) ⇒ mX = E ( X ) = λ σ2X =λ
P( X = x) = e . xi =0
x!
Ábaco de Poisson
Propiedades:
X 1 ≈ Ps(λ1 )
............... ⇒ Y = X 1 + ... + X N ≈ Ps(λ1 + ... + λN )
X N ≈ Ps(λN )
Uniforme: X ∼U (a,b) (0 ≤ X ≤ ∞)
x−a Media: Varianza:
P(X=
≤ x) a<x≤b a+b (b − a )
2
b−a mX = E ( X ) = σ =
2
2 X
12
Exponencial: X ∼ Exp (α) (0 ≤ X ≤ ∞)

P(X ≤ x) =1 − e −α x x≥0 ⇒ Media: Varianza:


1 1
mX = E ( X ) = σ2X = 2
α α
Normal: X ~ N(m, σ) (-∞ ≤ X ≤ ∞)
Z ~ Normal tipificada Media: Varianza:
mX = E ( X ) = m σ X2 = σ 2
P(Z ≤ z) ⇒ Tabla
X − mX
=
Normal tipificada: Z ~ N(m =
0, σ Z 1) Si X ~ N(m X , σ X ) ⇒ Z =
Z
σX
Propiedades:
(
X 1 ≈ N mX 1 , σ X 1 )
............... (
⇒ Y = X 1 + ... + X N ≈ N mY = mX 1 + ... + mX N ; σ Y = σ X2 1 + ... + σ X2 N )
(
X N ≈ N mX N , σ X N )
σ Y2 = σ X2 + ... + σ X2
1 N

Casos particulares
Si Y= a + b·X ⇒ Y ~ N(mY =
a + b.m X ; σ Y =
b2σ X2 ) Si X ∼ N(m x , σ x ) e Y ∼ N(m y , σ y ) independientes
Z = X  Y ∼ N (m z = m x  m y , σ z 2 = σ x 2 + σ y 2 )

3
FORMULARIO
Estadística - Grado en Ingeniaría Informática - DEIOAC

68,26% de los valores de X ∈ [m-σ, m+σ]


Si X ∼ N(m x , σ x ) ⇒ 95,44% de los valores de X ∈ [m-2·σ, m+2·σ]
99,73% de los valores de X ∈ [m-3·σ, m+3·σ]

Aproximaciones normales
Teorema Central del Límite:
X1 ~ g1(m X ,σ X2 )
1 1
Siendo:
 ⇒ Y = X1 +  + XN ~ N(mY = m X1 +  + m XN ; σ Y2 = σ X21 +  + σ X2N ) g → cualquier distribución
XN ~ gN (m XN ,σ X2N ) (Binomial, Poisson, etc.)
N → ∞ (N muy grande)
(m np,=
X∼B(n, p) Si σ2 ≥ 9 ⇒ X ~ N= σ 2 np(1 − p) ) X ∼ Ps (λ) Si σ2 ≥ 9 ⇒ X ~ N
= (m λ=
,σ 2 λ)

Distribuciones en el muestreo de poblaciones normales

X ~ N(m,σ2) y �
X es la media de una muestra de tamaño N x −m
~ N(0,1)
σ
N

s2
X ~ N(m,σ2) y S2 es la varianza de una muestra de tamaño N (N − 1) ~ χ N2 −1
σ 2

x −m
X ~ N(m,σ2) y �
X y S2 son la media y la varianza de una muestra de tamaño N t= ~ tN−1
s N

X 1 ~ N(m 1 ,σ2 1 ), X 2 ~ N(m 2 ,σ2 2 ) independientes. S2 1 y S2 2 son las varianzas s12 σ 12


~ FN1 −1,N2 −1
muestrales de X 1 y X 2 (tamaños N 1 y N 2 ) s22 σ 22

Inferencia en poblaciones normales


Test de hipótesis para la media (Test t)

X − m0 α
Si ≤ tN−21 ⇒ Aceptar H0 Si p-value ≥ α ⇒ Aceptar H 0
H0: m = m0 S
N
H1: m ≠ m0 X − m0 α
Si > tN−21 ⇒ Re chazar H0 Si p-value < α ⇒ Rechazar H 0
S
N

α
tN−21 ⇒ valor en t abla α = Riesgo de 1ª especie

Intervalo de confianza para la media (IC m )

 α S α S  α
ICm ⇒  x − tN−21 , x + tN−21  tN−21 ⇒ valor en t abla
 N N

4
FORMULARIO
Estadística - Grado en Ingeniaría Informática - DEIOAC

Test de hipótesis para la media mediante IC

H0: m = m0 Si m0 ∈ ICm ⇒ Aceptar H0

H1: m ≠ m0
Si m0 ∉ ICm ⇒ Re chazar H0

Intervalo de confianza para la varianza

g1 y g2 ⇒ valores en t abla
 (N − 1) S2 (N − 1) S2 
ICσ 2 ⇒ ,  α α
g1 / P( χN2−1 > g1 ) =−
1 y g2 / P( χN2−1 > g2 ) =
 g2 g1  2 2

Test de hipótesis para la varianza mediante IC

H 0 : σ2 = σ2 0 Si σ 02 ∈ ICσ 2 ⇒ Aceptar H0

H 1 : σ2 ≠ σ2 0 Si σ 02 ∉ ICσ 2 ⇒ Re chazar H0

Intervalo de confianza para el cociente de varianzas

f1 y f2 ⇒ valores en t abla
 S12 S12 
ICσ 2 /σ 2 ⇒ 2 , 2  f1 / P(F(N1 −1),(N2 −1) > f1) =1 −
α
y
α
f2 / P(F(N1 −1),(N2 −1) > f2 ) =
1 2
 S2 f2 S2 f1  2 2

Test de hipótesis para la comparación de varianzas mediante IC

H 0 : σ2 1 = σ2 2 Si 1∈ ICσ 2 / σ 2 ⇒ Aceptar H0
1 2

H 1 : σ2 1 ≠ σ2 2 Si 1∉ ICσ 2 / σ 2 ⇒ Re chazar H0
1 2

5
FORMULARIO
Estadística - Grado en Ingeniaría Informática - DEIOAC

Análisis de la Varianza (ANOVA)


Nomenclatura

F i = factor i
N = nº total de I = nº niveles/variantes factor F i SC = Suma de Cuadrados
F j = factor j
observaciones J = nº niveles/variantes factor F j gl = grados de libertad
F i x F j = interacción entre F j y F j

gl Tot = gl totales
SCT = SC total
SC Fi = SC factor i gl Fi = gl asociados a la SC del F i
SC Fj = SC factor j gl Fj = gl asociados a la SC del F j
SC FixFj = SC de la interacción F i x F j gl Fi = gl asociados a la SC de la interacción F i xF j
SCR = SC Residual
gl Res = gl residuales

gl Tot  (N-1) gl Fi  (I-1) gl Fj  (J-1) gl FjxFj  (I-1)x(J-1) glT − ( ∑ glFactores +


glRe s = ∑ gl Int eracciones )
∀Fact ∀Int

Ecuación fundamental del ANOVA

SCT =∑ SCFactores +
∀Fact
∑ SC
∀Int
Int eracciones + SCR
CM =SC/gl

Test de hipótesis para el ANOVA (Test F)

H0 : m
= m
=  mk  CMF CMF = Cuadrado medio asociado el efecto de un
1 2 Fratio = ~ Fgl ,gl
 CMR F Re s factor o interacción
H1 : ∃i, j i ≠ j / mi ≠ mj  CMR = Cuadrado medio residual

Si p-value ≥ α ⇒ Aceptar H 0
α
f / P(FglF ,glRe s > f) =
Si Fratio ≤ f ⇒ Aceptar H0
Si Fratio > f ⇒ Re chazar H0 Si p-value < α ⇒ Rechazar H 0 P − value / P (FglF ,glRe s > Fratio ) =
p − value

Introducción a los Modelos de Regresión Lineal


Nomenclatura
Modelo E(Y/X 1 =x 1t ,....,X I =x It ) es la media de la distribución
E(Y/X 1 =x 1t ,....,X I =x It ) = β 0 + β 1 x 1t +.... + β I x It condicional de Y cuando X 1 =x 1t ....y X I =x It

β i = parámetros del modelo


N = nº total de observaciones b i = estimadores de los parámetros SCT = SCE + SCR
I = nº variables explicativas

6
FORMULARIO
Estadística - Grado en Ingeniaría Informática - DEIOAC

SCT = SC total gl Tot = gl totales  (N-1)


SCE = SC Explicada CME = SCE / gl Exp
gl Exp = gl asociados a la SC Explicada  I
SCR = SC Residual CMR = SCR / gl Res
gl Res = gl residuales  (N-1)-I
Test de significación global del ajuste (ANOVA)

H0 : β=
1 β=2 βI =0 CME Si F-ratio ≤ F I,N-1-I α Aceptar H 0 Si p-value ≥ α ⇒ Aceptar H 0
 F -ratio =
H1 : ∃βi / βi ≠ 0  CMR Si F-ratio > F I,N-1-I α Rechazar H 0 Si p-value < α ⇒ Rechazar H 0

Coef. de determinación (R-squared): Varianza residual: Desv. típica residual (Standard Error of Est.):
2
R2 = SCE * 100 S R = CMR SR = CMR
SCT
Test de significación del efecto de una variable X i (Test t)

H0 : β i = 0 𝒃𝒊 Si t-calc ≤ t N-1-I α Aceptar H 0 Si p-value ≥ α ⇒ Aceptar H 0


 𝒕 − 𝒄𝒂𝒍𝒄 = � �
H1 : β i ≠ 0  𝒔𝒃𝒊 Si t-calc > t N-1-I α Rechazar H 0 Si p-value < α ⇒ Rechazar H 0

Predicciones

(Y/X 1 =x 1t ,....,X I =x It ) ~ Normal(m = E(Y/X 1 =x 1t ,....,X I =x It ) ; σ2 = σ2 R )

Modelos de Regresión Lineal Simple


Modelo
E(Y/X=x t ) = β 0 + β 1 x t E(Y/X=x t ) es la media de la distribución condicional de Y cuando X=x t

Estimación Recta de regresión: (Slope) (Intercept)


Y= a + bX Sy a = Y - b.X
b = rxy
Sx
Coeficiente de determinación: Varianza residual: Residuo:
R2 = (r xy )2 . 100 S2 residual = S2 y (1-r2 xy ) e i = y i – (a + bx i )

Material docente previo de R. Alcover (DEIOAC - UPV)

Esta obra está bajo una licencia Reconocimiento-No comercial-Compartir bajo la misma licencia 2.5 España de Creative Commons.
Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/es/

You might also like