Actividad 2 Proyecto Integrador

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 18

Unidad #1.

actividad #2:
Proyecto integrador Etapa 1.

Materia: análisis de datos

Profesor: Gregorio Zamora Mejia

Grupo: 5K2618-53XO04A1903

Alumno: José Luis Quiroz Gutiérrez.

Matricula: 840086364.

Fecha de entrega: 23/09/19

DESARROLLO:
1
José Luis Quiroz Guitiérrez Matricula: 840086364
Considerando la información revisada a lo largo del curso, desarrollarás un Proyecto
Integrador en el que deberás resumir y describir las principales herramientas estudiadas:
regresión simple, ANOVA, series de tiempo y estadística no paramétrica.

El proyecto se realizará en 4 etapas:

 Etapa 1. Regresión simple


 Etapa 2. ANOVA
 Etapa 3. Series de tiempo
 Etapa 4. Estadística no paramétrica

Instrucciones para la etapa 1:

1. Realiza una breve investigación sobre el análisis de regresión lineal y correlación.

2. Deberás considerar los siguientes elementos:

a) Teoría

Describir qué es un diagrama de dispersión, qué es la regresión lineal, el coeficiente de


determinación, el coeficiente de correlación y el error estándar.

b) Ejemplo

Analisis de Datos 2
Investigar un ejemplo en el que se aplique la teoría vista, además de incluir y describir
todos los pasos para llegar a la solución y explicar claramente lo que se desea obtener y la
interpretación de los resultados.

c) Aplicaciones

Investigar en diferentes fuentes alguna aplicación práctica en la que se utilice el análisis de


regresión lineal y describir brevemente la aplicación, así como los resultados obtenidos.

NOTA: Incluir el enlace de la fuente utilizada.

d) Herramientas de apoyo

Investigar de qué manera se puede llevar a cabo la regresión lineal utilizando alguna
herramienta de software, mencionando los pasos para llevarlo a cabo. Utiliza la herramienta
con un ejemplo sencillo y realiza una captura de pantalla con el resultado obtenido.

Analisis de Datos 3
ETAPA 1:

REGRESION LINEAL Y CORRELACION:


Introducción

La correlación lineal y la regresión lineal simple son métodos estadísticos que


estudian la relación lineal existente entre dos variables. Antes de profundizar en
cada uno de ellos, conviene destacar algunas diferencias:
 La correlación cuantifica como de relacionadas están dos variables, mientras que la
regresión lineal consiste en generar una ecuación (modelo) que, basándose en la
relación existente entre ambas variables, permita predecir el valor de una a partir de
la otra.
 El cálculo de la correlación entre dos variables es independiente del orden o
asignación de cada variable a XX e YY, mide únicamente la relación entre ambas
sin considerar dependencias. En el caso de la regresión lineal, el modelo varía según
qué variable se considere dependiente de la otra (lo cual no implica causa-efecto).
 A nivel experimental, la correlación se suele emplear cuando ninguna de las
variables se ha controlado, simplemente se han medido ambas y se desea saber si
están relacionadas. En el caso de estudios de regresión lineal, es más común que una
de las variables se controle (tiempo, concentración de reactivo, temperatura…) y se
mida la otra.
 Por norma general, los estudios de correlación lineal preceden a la generación de
modelos de regresión lineal. Primero se analiza si ambas variables están
correlacionadas y, en caso de estarlo, se procede a generar el modelo de regresión.

Correlación lineal
Analisis de Datos 4
Para estudiar la relación lineal existente entre dos variables continuas es necesario
disponer de parámetros que permitan cuantificar dicha relación. Uno de estos
parámetros es la covarianza, que indica el grado de variación conjunta de dos
variables aleatorias.

Covarianza muestral

siendo x¯¯¯x¯ e y¯¯¯y¯ la media de cada variable y xixi e yiyi el valor de las variables


para la observación ii.
La covarianza depende de las escalas en que se miden las variables estudiadas, por lo
tanto, no es comparable entre distintos pares de variables. Para poder hacer
comparaciones se estandariza la covarianza, generando lo que se conoce
como coeficientes de correlación. Existen diferentes tipos, de entre los que destacan
el coeficiente de Pearson, Rho de Spearman y Tau de Kendall.

 Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1
una correlación negativa perfecta.

 Se emplean como medida de fuerza de asociación (tamaño del efecto):


o 0: asociación nula.
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.

Las principales diferencias entre estos tres coeficientes de asociación son:

 La correlación de Pearson funciona bien con variables cuantitativas que tienen


una distribución normal. En el libro Handbook of Biological Statatistics se

Analisis de Datos 5
menciona que sigue siendo bastante robusto a pesar de la falta de normalidad . Es
más sensible a los valores extremos que las otras dos alternativas.

 La correlación de Spearman se emplea cuando los datos son ordinales, de


intervalo, o bien cuando no se satisface la condición de normalidad para variables
continuas y los datos se pueden transformar a rangos. Es un método no
paramétrico.

 La correlación de Kendall es otra alternativa no paramétrica para el estudio de la


correlación que trabaja con rangos. Se emplea cuando se dispone de pocos datos y
muchos de ellos ocupan la misma posición en el rango, es decir, cuando hay
muchas ligaduras.

Además del valor obtenido para el coeficiente de correlación, es necesario calcular su


significancia. Solo si el p-value es significativo se puede aceptar que existe correlación, y
esta será de la magnitud que indique el coeficiente. Por muy cercano que sea el valor del
coeficiente de correlación a +1+1 o −1−1, si no es significativo, se ha de interpretar que la
correlación de ambas variables es 0, ya que el valor observado puede deberse a simple
aleatoriedad.
El test paramétrico de significancia estadística empleado para el coeficiente de
correlación es el t-test. Al igual que ocurre siempre que se trabaja con muestras, por un
lado está el parámetro estimado (en este caso el coeficiente de correlación) y por otro su
significancia a la hora de considerar la población entera. Si se calcula el coeficiente de
correlación entre XX e YY en diferentes muestras de una misma población, el valor va a
variar dependiendo de las muestras utilizadas. Por esta razón se tiene que calcular la
significancia de la correlación obtenida y su intervalo de confianza.

La correlación lineal entre dos variables, además del valor del coeficiente de
correlación y de sus significancia, también tiene un tamaño de efecto asociado. Se

Analisis de Datos 6
conoce como coeficiente de determinación R2R2. Se interpreta como la cantidad
de varianza de YY explicada por XX. En el caso del coeficiente de Pearson y el
de Spearman, R2R2 se obtiene elevando al cuadrado el coeficiente de correlación.
En el caso de Kendall no se puede calcular de este modo.

Analisis de Datos 7
DIAGRAMA DE DISPERSION
El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos
asociados de datos que aparecen en pares (por ejemplo, (x,y), uno de cada
conjunto). El diagrama muestra estos pares como una nube de puntos.

Las relaciones entre los conjuntos asociados de datos se infieren a partir de la forma
de las nubes.

Una relación positiva entre x y y significa que los valores crecientes de x están
asociados con los valores crecientes de y.
Una relación negativa significa que los valores crecientes de x están asociados con
los valores decrecientes de y.
¿Para qué se usa un diagrama de dispersión?
Entre sus usos está descubrir y mostrar las relaciones entre dos conjuntos asociados
de datos y confirmar relaciones anticipadas entre dos conjuntos asociados de datos.

El diagrama de dispersión puede estudiar la relación entre:

Dos factores o causas relacionadas con la calidad.


Dos problemas de calidad.
Un problema de calidad y su posible causa.

Analisis de Datos 8
ANALISIS DE REGRESION LINEAL

El objeto de un análisis de regresión es investigar la relación estadística que existe entre


una variable dependiente (Y) y una o más variables independientes.

Para poder realizar esta investigación, se debe postular una relación funcional entre las
variables. Debido a su simplicidad analítica, la forma funcional que más se utiliza en la
práctica es la relación lineal.  Cuando solo existe una variable independiente, esto se reduce
a una línea recta

El modelo de regresión lineal La estructura del modelo de regresión lineal es la siguiente:

En esta expresión estamos admitiendo que todos los factores o causas que influyen en la
variable respuesta Y pueden dividirse en dos grupos: el primero contiene a una variable
explicativa X y el segundo incluye un conjunto amplio de factores no controlados que
englobaremos bajo el nombre de perturbación o error aleatorio, ε, que provoca que la
dependencia entre las variables dependiente e

independiente no sea perfecta, sino que esté sujeta a incertidumbre. Por ejemplo, en el
consumo de gasolina de un vehículo (Y ) influyen la velocidad (X) y una serie de factores
como el efecto conductor, el tipo de carretera, las condiciones ambientales, etc, que

Analisis de Datos 9
quedarían englobados en el error. Lo que en primer lugar sería deseable en un modelo de
regresión es que estos errores aleatorios sean en media cero para cualquier valor x de X, es
decir,

En dicha expresión se observa que: • La media de Y, para un valor fijo x, varía linealmente
con x. • Para un valor x se predice un valor en Y dado por

por lo que el modelo de predicción puede expresarse también como

COEFICIENTE DE DETERMINACION

El coeficiente de determinación es una medida estadística de la bondad del ajuste o


fiabilidad del modelo estimado a los datos. Se representa por R 2 e indica cuál es la
proporción de la variación total en la variable dependiente (Y), que es explicada por el
modelo de regresión estimado, es decir, mide la capacidad explicativa del modelo estimado.

Cálculo del coeficiente de determinación

En un modelo de regresión lineal el coeficiente de determinación es adimensional y se


calcula del siguiente modo:

Analisis de Datos 10
Donde la suma total es la varianza muestral de la variable endógena multiplicada por el
tamaño de la muestra; por lo tanto, mide las fluctuaciones de esta variable alrededor de su
media; y, la suma residual indica cuál es el nivel de error que se comete con el modelo
estimado al explicar la variable endógena.

El coeficiente de determinación siempre va a ser menor o igual que 1 (sería igual a 1 si el


modelo estimado puede explicar completamente la variable dependiente sin ningún error, lo
cual es muy improbable en la práctica) y si, además, el modelo tiene término independiente,
entonces el R2 es mayor o igual que cero.

Si el modelo tiene término independiente, existen diferentes expresiones que permiten el


cálculo del R2, tales como:

donde, la suma explicada es el grado de fluctuación de la variable dependiente que el


modelo de regresión estimado es capaz de explicar; es el vector de parámetros
estimados del modelo, X es la matriz de observaciones de las variables explicativas del
modelo, y es el vector de observaciones de la variable dependiente, T es el número de
observaciones de las variables del modelo, e es el cuadrado de la media de la variable
dependiente.

Analisis de Datos 11
El R2 también se puede calcular como el cuadrado del coeficiente de correlación

entre y (variable dependiente) e  (variable dependiente estimada a través del modelo de


regresión).

COEFICIENTE DE CORRELACIÓN

Frecuentemente denominado correlación. Una medida estadística ampliamente utilizada


que mide el grado de relación lineal entre dos variables aleatorias.

El coeficiente de correlación debe situarse en la banda de -1 a +1.

El coeficiente de correlación se calcula dividiendo la covarianza de las dos variables


aleatorias por el producto de las desviaciones típicas individuales de las dos variables
aleatorias.

Las correlaciones desempeñan un papel vital en la creación de carteras y la gestión de


riesgos. En realidad, la eficacia de una cobertura puede valorarse a partir del grado
de correlación entre el precio al contado de una posición en efectivo que se va a cubrir y
el precio del instrumento de cobertura. Cuanto mayor sea la correlación, más eficaz será
la cobertura.

Mide la interdependencia o grado de asociación entre dos variables. Se define como


la relación por cociente entre la covarianza de las dos variables y el producto de sus
desviaciones típicas. Su valor puede oscilar entre 0 y 1 y 0 y -1, según que
la correlación sea positiva o negativa. Un coeficiente de correlación igual a cero significa
ausencia de correlación.

El que representa el grado en el cual dos variables están relacionadas li-nealmente entre sí.
Medida estadística que analiza el grado de dependencia entre dos variables, es decir, cómo
se verá afectada una variable determinada, conociendo la variación de una
segunda variable. Este coeficiente toma valores entre -1 y 1, indicando si existe una

Analisis de Datos 12
dependencia directa (coeficiente positivo) o inversa (coeficiente negativo) siendo el 0
la independencia total. Es la raíz cuadrada del coeficiente de determinación.

Medida de la relación estadística entre dos o más variables.

 ¿Qué es el error estándar y cómo se lo utiliza en la práctica? 


R: Uno de los conceptos más útiles en la práctica estadística es justamente el de "error
estándar". Este término fue definido originalmente por el estadístico británico Udny Yule a
comienzos del siglo XX. La norma E2586 de ASTM, Práctica para calcular y usar
estadísticas básicas, define el error estándar como "la desviación estándar de la población
de valores de una estadística muestral en un muestreo repetido o su estimación". El término
incertidumbre está estrechamente relacionado con el error estándar y en las últimas décadas
se la he dedicado bastante atención. El error estándar mide el error aleatorio en un dato
estadístico informado: el tipo de error causado por la variación aleatoria del muestreo al
repetir una prueba en las mismas condiciones. La incertidumbre es un concepto más amplio
que incluye componentes adicionales de error potencial además del error aleatorio. La
norma E2655 de ASTM, Guía para informar la incertidumbre de los resultados de pruebas
y Uso del término incertidumbre de la medición en métodos de prueba de ASTM, describe
el uso del concepto de incertidumbre tal como se lo aplica al resultado de una prueba.  

Ejemplo:

Analisis de Datos 13
Analisis de Datos 14
Analisis de Datos 15
Aplicaciones:

El modelo de regresión lineal es aplicado en un gran número de campos, desde el ámbito


científico hasta el ámbito social, pasando por aplicaciones industriales ya que en multitud
de situaciones se encuentran comportamientos lineales. Estos son algunos ejemplos
aplicados a diversos campos:

Química

La concentración de un elemento es uno de los parámetros de mayor importancia en los


procesos químicos aplicados en la industria. Esta cuantificación se puede obtener mediante
un espectrofotómetro, dispositivo que requiere se calibrado. Para ello se elabora una recta
de calibración que se obtiene a partir de la correlación entre la absorbancia de un patrón y
la concentración de la sustancia a controlar.1

Mecánica

En esta rama se utiliza la Regresión Lineal entre otros para ajustar la recta de Paris , una
ecuación que sirve para estudiar elementos sometidos a fatiga en función del número de
ciclos a los que se somete un material. La bondad del ajuste se comprueba representando el
conjunto de valores discretos a-Nm obtenidos experimentalmente, frente a la curva
correspondiente a la recta de Paris definida por los valores “C” y “m”.2

Electricidad

En electricidad se puede obtener el valor de una resistencia en un circuito y su error


mediante un ajuste de regresión lineal de pares de datos experimentales de voltaje e
intensidad obtenidos mediante un voltímetro y un amperímetro.3

Sensores

Analisis de Datos 16
Calibración de un sensor de temperatura (termopar) en función de la caída de tensión y la
temperatura. Se estudia la forma en que varía la temperatura de un líquido al calentarlo. Se
calibra el sensor y simultáneamente se mide la variación de temperaturas en un líquido para
representar los datos obtenidos posteriormente mediante Regresión Lineal.4

Física

Determinación del coeficiente de rozamiento estático de forma experimental a partir de la


medición del ángulo de inclinación de una rampa. Se realiza un montaje ajustando un
circuito para medir el ángulo de inclinación, y se realizan mediciones variando dicho.
Mediante la regresión lineal de los datos obtenidos, se obtiene la ecuación y el índice de
correlación a fin de saber el error.5

Fabricación

Dos de los parámetros más importantes de una soldadura es la intensidad aplicada al hilo y
la velocidad de alimentación del mismo. Mediante técnicas de regresión lineal se elaboran
las rectas que relacionan estos parámetros con la separación entre el hilo y la zona a
soldar.6

Diseño de experimentos

Con la metodología 2k es posible mejorar un proceso mediante la realización de


experimentos, determinando qué variables tienen un efecto significativo. A partir de esas
variables se obtiene una recta de regresión que modeliza el efecto. Por ejemplo se podría
obtener la relación entre la temperatura y la presión en un proceso industrial.7

Construcción

Mediante técnicas de regresión lineal se caracterizarán diversas cualidades del hormigón. A


partir del módulo de elasticidad es posible predecir la resistencia a la compresión de una

Analisis de Datos 17
determinada composición de un hormigón. También se puede determinar la succión capilar
a partir del volumen absorbido por una muestra y el tiempo que ha durado la succión.8

http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.pdf

http://www4.ujaen.es/~dmontoro/Metodos/Tema%209.pdf

http://www.eumed.net/cursecon/medir/introd.htm

http://diccionarioempresarial.wolterskluwer.es/Content/Documento.aspx?
params=H4sIAAAAAAAEAMtMSbF1jTAAASMjM0sTtbLUouLM_DxbIwMDS0NDA1
OQQGZapUt-ckhlQaptWmJOcSoAQ9XlCzUAAAA=WKE

https://www.ucm.es/data/cont/docs/518-2013-11-13-Analisis%20de%20Regresion.pdf

Analisis de Datos 18

También podría gustarte