4 - Boletín Regresión

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 8

BOLETÍN REGRESIÓN

GITI/GIOI/GIQ

Problema 1

El departamento de Ciencia de Datos de la empresa "Wolframio" tiene como objetivo


evaluar su política salarial. Para lograr esto, recopila datos sobre los salarios de los
empleados (SAL), los años de servicio en la empresa (T), el número de proyectos
completados con éxito (P) y la tasa de absentismo (F), proponiéndose el siguiente modelo:

𝐸(𝑆𝐴𝐿) = β0 + β1⋅𝑇 + β2⋅𝑃 − β3⋅𝐹

Tras introducir los datos de 54 empleados en statgraphics, el modelo calculado es el


siguiente:

𝐸(𝑆𝐴𝐿) = 25000 + 3000⋅𝑇 + 2000⋅𝑃 − 500⋅𝐹

Donde las variables son:

SAL: Salario del empleado, en euros.


T: Años que el empleado ha estado en la empresa.
P: Número de proyectos que el empleado ha completado con éxito en la empresa.
F: Número de días que el empleado ha faltado al trabajo en la empresa.

a) Calcula el salario predicho por el modelo de un empleado que lleva 3 años en la


empresa, ha completado con éxito 2 proyectos y ha faltado 8 días al trabajo.
b) ¿Cuál es el residuo asociado a ese trabajador sabiendo que su salario es de
40.000€?
c) ¿Cuál es el salario medio de un empleado que acaba de entrar en la compañía?
d) Interpreta los coeficientes ß1, ß2 y ß3
e) Calcula e interpreta el coeficiente de determinación del modelo (R2), sabiendo que la
suma de cuadrados del modelo (SCM) es de 1600 y la suma de cuadrados residual
(SCR) es de 400.
f) En este caso, ¿coincidiría el valor del coeficiente de correlación con el de
determinación?
g) Realizar los contrastes de hipótesis correspondientes al modelo global y a cada uno
de los coeficientes utilizando un riesgo de primera especie de un 5%.

Fuente SC gl CM F-Ratio F-límite

Modelo 1600

Residuo 400

Total

1
Parámetro Estimación Err. Estándar T-stat T-límite

Constante 2500 100

T 3000 300

P 2000 250

F -500 350

Problema 2 [Junio 2020]

Una empresa farmacéutica desea determinar la relación entre el nivel de colesterol de una
persona (COL) y su sexo e índice de masa corporal (IMC).
Teniendo en cuenta que la variable IMC es cuantitativa se propone el siguiente modelo.

E(COL)= ß0+ß1x IMC + ß2 x (sexo=M) + ß3 x IMC x (sexo=M),

donde (sexo=M) es una variable que toma el valor 1 para las mujeres y 0 para los hombres.

a) Dar una interpretación de los parámetros asociados a las variables

Tras recoger datos de 67 personas, se obtiene mediante Statgraphics que el modelo más
apropiado es el siguiente:

b) Utilizando la ecuación del modelo escogido en el apartado anterior, calcula


aproximadamente qué porcentaje de mujeres con IMC igual a 26 tendrán un nivel de
colesterol superior a 200, sabiendo que el CMR es igual a 569,78
c) Si una mujer con IMC=22 tiene un residuo de -5, ¿qué nivel de colesterol ha
presentado?
d) ¿Cuál de las siguientes afirmaciones sobre los modelos de regresión lineal es falsa?

i) Un supuesto es la homocedasticidad, que significa que las pendientes de


todos los modelos son iguales.
ii) Un supuesto es la independencia.
iii) Un supuesto es la normalidad de las perturbaciones y residuos.
iv) Los modelos podrán presentar curvatura añadiendo términos explicativos al
cuadrado.

2
Problema 3 [Julio 2021]

Tras realizar un experimento para estudiar la influencia de la temperatura de operación (a


tres niveles: 100º, 200º y 300ºC) y de tres tipos de recubrimiento de cristal en la luminosidad
de un tubo de osciloscopio, se obtuvo el siguiente modelo de regresión:

Sabiendo que el experimento se replicó TRES VECES, a la vista de estos resultados, y


utilizando un riesgo de primera especie del 5%:

a) Plantear el modelo general que se ha hipotetizado (y a partir del cual se ha obtenido


el modelo estimado final de la tabla), dibujando la evolución de la luminosidad en
función de la temperatura para los tres tipos de cristal, A PARTIR DE LOS
RESULTADOS DE LA TABLA. (4 puntos).
b) Realizar el contraste global del ajuste, indicando los resultados obtenidos. (2,5
puntos)
c) ¿Entre qué valores centrales se moverá el 90% de los valores de luminosidad
cuando utilicemos un tipo de cristal 2 a 250ºC? Indicar las asunciones realizadas.
(3,5 puntos)

3
Problema 4 [Junio 2023]

En un estudio sobre la calidad de las aguas lacustres se ha obtenido un modelo de


regresión para medir el efecto de la temperatura en el contenido de oxígeno disuelto en las
aguas superficiales de 118 lagos. Los lagos han sido clasificados también en cuanto a su
contaminación en tipo A, con baja contaminación, y tipo B, con elevada contaminación a
causa de escorrentías ricas en nutrientes procedentes de cuencas de zonas desarrolladas.
Para el estudio se han realizado en cada lago mediciones de la temperatura superficial
media y contenido de oxígeno disuelto superficial (medido en ppm). A continuación, se
ofrecen los resultados obtenidos en el modelo de regresión para el contenido de oxígeno
disuelto y de un segundo modelo que se ha calculado utilizando como variable respuesta
los residuos obtenidos del primer modelo elevados al cuadrado.

4
a) ¿Qué es la homocedasticidad? Comprobar si existe en el caso estudiado a partir de
gráficos, significaciones y todo aquello que ayude a justificarla. Adicionalmente, trata
de acabar de validar justificadamente el modelo en la medida que sea posible:
normalidad, posible no linealidad de la relación entre temperatura y oxígeno disuelto,
independencia y la existencia de datos anómalos.
b) Obtener el gráfico del modelo para el oxígeno disuelto e interpretar sus parámetros.
c) ¿Cuál es el contenido de oxígeno disuelto previsto para un lago con baja
contaminación y una temperatura superficial media de 20ºC? Obtener un intervalo
centrado para dicho contenido con un nivel de confianza del 80%.

Problema 5 [Mayo 2022]

Al parecer, las escobas voladoras Nimbus 2022 fabricadas en Hogwarts tuvieron muchísimo
éxito y situó a Hogwarts en la élite. Sin embargo, con el precio del combustible, el negocio
empezó a fallar. Por ello, Dumbledore encomendó a Hermione Granger realizar un estudio
para determinar qué variables podrían estar relacionados con el consumo de combustible
de las escobas y, de esta forma, fabricar un prototipo que ahorrase más combustible.
Hermione eligió 32 escobas de forma aleatoria, y midió las siguientes variables:
● l100km: litros que consume una escoba a los 100km.
● pesog1000: peso de la escoba en gramos menos 1000 gramos (pesog – 1000). Esta
variable recoge los gramos en que una escoba supera los 1000 gramos.
● motor: tipo de motor que la escoba utiliza (0 si usa un motor en forma de V, o 1 si
usa un motor en línea).

Ayuda a Hermione a interpretar los resultados y a tomar las decisiones oportunas.

a) Escribe la ecuación del modelo propuesto interpretando cada uno de los parámetros.
Después, indica los valores de los parámetros estimados.
b) Supongamos que el proceso es homocedástico. Indica la estimación de la varianza
residual.
c) ¿Es el modelo globalmente significativo? Indica y resuelve el contraste de hipótesis
que utilizas para responder a esta pregunta.
d) Indica qué parámetros son significativos y cuáles no. Realiza los correspondientes
contrastes de hipótesis para ello.
e) ¿Cuál es la variabilidad explicada por el modelo? ¿Crees que es un buen ajuste?
f) Si el nuevo prototipo pesa 800 gramos y usa un motor en línea, ¿podrías decir cuál
sería el consumo esperado?

5
Problema 6 [Junio 2022]

Para predecir el rendimiento de un proceso químico (variable R) con la temperatura de la


reacción (variable T) y con el tipo de catalizador (variable cualitativa CAT con dos variantes:
A y B), se ha formulado el siguiente modelo de regresión:

E(R)=ß0 + ß1 · T+ ß2 · (CAT=”B”) + ß3 · T ·(CAT=”B”)

A partir de los datos registrados en 66 reacciones se ha ajustado el siguiente modelo de


regresión lineal:

a) Dibujar, a partir de los datos de la tabla, el modelo ajustado


b) ¿Qué interpretación tiene el parámetro ß3?
c) Sabiendo que la SCTotal = 620 y que el R2 = 0.9, calcular la probabilidad de que el
rendimiento del proceso operado usando el catalizador A y con una temperatura de
200ºC sea inferior a 50. (Nota: comprobar que los coeficientes del modelo son
estadísticamente significativos; alfa=0.05)
d) ¿A partir de qué valor de la temperatura el rendimiento medio de un catalizador es
mayor que el del otro?

El rendimiento observado en una reacción usando el catalizador B y con una temperatura


de 150ºC es de 57:

e) Dibujar el punto correspondiente a esta observación en el gráfico de residuos frente


a predicciones.
f) ¿Para qué se puede usar ese gráfico?

6
Problema 7 [Junio 2021]

Se ha realizado un estudio de regresión lineal múltiple para investigar el efecto del sexo
(variable SEXO codificada como 0 para mujer y 1 para hombre), la edad (variable EDAD en
años), la genética (variable GEN codificada como 0 si no tienes antecedentes familiares de
diabetes y 1 si sí los tiene), el índice de masa corporal (IMC), la alimentación ingerida
(variable KCAL medida como no de kilocalorías ingeridas al día) y la actividad física diaria
(variable FIS medida como no de horas al día en que se realiza cualquier ejercicio físico) en
el índice de glucosa en la sangre (variable GLUCOSA: mg/dl) de 49 personas.
Los resultados obtenidos con el STATGRAPHICS para el ajuste de diferentes modelos se
muestran a continuación (resultados incompletos):

a) Indica el modelo teórico planteado y el modelo estimado. ¿Es el modelo globalmente


significativo?
b) Estudiar si las variables son significativas y calcula la precisión del coeficiente
asociado a la variable IMC.
c) Interpreta el significado y el valor de los coeficientes asociados a las variables GEN,
IMC, KCAL*SEXO y FIS
d) El tercer individuo del análisis era un hombre de 53 años, que tuvo un índice de
masa corporal de 24.05, sin antecedentes familiares de diabetes, con una ingesta
diaria de 2000 kcal., una actividad física de 7.5 horas y un valor de glucosa en la
sangre de 85 mg/dl. Calcular el residuo correspondiente.
e) Estimar la probabilidad de que el valor de glucosa en la sangre de un individuo
similar al apartado anterior sea superior a 85 unidades.

7
Problema 8 [Junio 2020]

En la fabricación de una mermelada se quiere estudiar la respuesta del contenido en un


cierto microcomponente nutritivo (mg) a la cantidad utilizada de una de las materias primas
(MAT1) empleada en su fabricación que se puede aportar con 3 posibles formulados (A, B,
C) distintos que pueden tener influencia en la cantidad final del microcomponente nutritivo
incorporado. Para realizar el estudio se ha medido el contenido del microcomponente en 10
botes obtenidos con cada uno de los tres formulados (total 30 botes) en distintas
realizaciones del proceso donde se ha utilizado cantidades de materia prima MAT1 diversas
seleccionadas dentro del intervalo 0 gr a 100 gr. Con los datos obtenidos el mejor modelo
de regresión que se ha podido obtener es el siguiente:

E(CONTENIDO) = ß0+ß1FORB+ß2FORC+ß3MAT1*FORB+ß4MAT1*FORC

donde FORB y FORC son dos variables dummy para el factor cualitativo “Formulado” que
toman los siguientes valores:

y la salida de Statgraphics:

a) Dar una interpretación de los parámetros.


b) Obtener el gráfico de la relación entre contenido medio del microcomponente y la
cantidad de MAT1.
c) Calcular la probabilidad de que adicionando una cantidad de 30 gramos de MAT1 en
formulación C se obtenga un contenido de microcomponente nutritivo en los botes
de mermelada superior a 15 mg.
d) ¿Qué porcentaje de la variabilidad del contenido del micro componente NO sería
explicada por el modelo propuesto?
e) Un técnico de la empresa toma un bote al que se le ha añadido en su producción
una cantidad de 25 gr de MAT 1 empleando el formulado C y observa que el
contenido final de micro componente nutritivo incorporado es de 24 mg. ¿Cuál es el
residuo de observación?

También podría gustarte