Grupo 01 - Solución Tarea 01 - Semana 03

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 18

UNIVERSIDAD NACIONAL DE TRUJILLO

FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS


ESCUELA PROFESIONAL DE ESTADÍSTICA

SOLUCIÓN TAREA 1 y 2 – SEMANA 3

GRUPO 01

EXPERIENCIA CURRICULAR:
Análisis De Regresión II

DOCENTE:
Ipanaqué Centeno Enrique

ALUMNOS:
Centurión Salazar, Alexander
García Mori, Alex
Rodríguez Varas, Fernando
Llaury Miranda, Marcos

CICLO:
VIII ciclo

TRUJILLO – PERÚ

2024
TAREA 01
SEMANA 03
1. Use el link: Regresión segmentada. pág. 5-56. Explique:
http://eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto_1461.pdf
a) Los métodos de estimación de regresión segmentada:
• Mínimos cuadrados
Los estimadores de mínimos cuadrados buscan los parámetros que hagan mínima la
diferencia en distancia cuadrática entre las observaciones de la respuesta y las
esperadas por el modelo

Los parámetros estimados por esta vía son insesgados y tienen la menor varianza de
todos los posibles estimadores lineales; es decir, es el mejor estimador lineal insesgado,
es mejor porque maximiza la correlación entre el valor verdadero y el valor estimado de
los efectos, minimizando la varianza del error, es lineal debido a que los factores para
los que se requieren las estimaciones, son funciones lineales de las observaciones y
por último se dice que es insesgado porque las estimaciones, son funciones lineales de
los efectos fijos son tales que E (𝜷) = 𝜷, en donde 𝜷 es el vector de parámetros
desconocidos a estimar.
Por lo tanto, el estimador mínimo cuadrado minimiza la suma de cuadrados residual.

• Máxima verosimilitud

Los estimadores máximos verosímiles están sujetos a las hipótesis de


Homocedasticidad, normalidad e independencia. Sea {X1, …, Xn}.
El método de máxima verosimilitud consiste en utilizar como estimador de esos
parámetros el valor que haga más probable lo observado en la muestra. Método de
máxima verosimilitud, elige como estimaciones los valores de los parámetros que
maximizan la verosimilitud (función de probabilidad conjunta o la función de densidad
conjunta) de la muestra observada. Estos estimadores son consistentes y si se les
ajusta para que sean insesgados, a menudo proporcionan estimadores insesgados de
varianza mínima.
Dado que εi = yi − α1 − β1xi, el estimador de máxima verosimilitud de α1 y β1 será:
Debido a logaritmo que logra maximizar la ecuación se tiene una expresión máxima,
pero en donde se sabe que el producto final sería minimizar.

b) Los estimadores del punto de cambio.


El punto de cambio se va a encontrar entre dos valores consecutivos de la variable
explicativa en la muestra.
Asimismo, es razonable suponer que el punto de cambio se va a encontrar entre dos
valores consecutivos de la variable explicativa en la muestra. De lo contrario, el modelo
ajustado a partir de la misma sería lineal simple. Así pues, a partir de ahora se supondría
que x i≤ ψ < X(i + 1) para algún i ϵ {2, …, n – 1}. Una primera aproximación al problema
de estimar podría ser el proponer un candidato a estimador de en cada intervalo y
compararlos de acuerdo a algún criterio. En este caso, el valor elegido sería el que
maximice la función de verosimilitud asociada a los parámetros del modelo o, lo que es
lo mismo, el que minimice la suma cuadrática de residuos.

c) Método de Hudson
El autor distingue varios tipos de uniones entre los modelos antes y después del punto de
cambio ψ:
• La unión de tipo 1 se produce cuando el punto de cambio se encuentra en el
interior del intervalo (xt; xt + 1) para algún τ ϵ {2, …, n-1} y la función de regresión
no es diferenciable en x = ψ. El caso que se trata en este trabajo de fin de master
entra en esta categoría.
• La unión de tipo 2 supone que el cambio se produce en ψ = xt para algún τ ϵ {2, …,
n -1}, sea o no diferenciable la función de regresión en x =ψ. Este tipo de unión
también engloba al modelo.
• En la mayoría de los casos no se conoce a ciencia cierta el tipo de unión que se
debe producir, de modo que se analizarán los casos en que el tipo de unión sea
desconocida.
d) Método de Hinkley
Es un método similar al de Hudson.
El Algoritmo de Hinkley empleado para buscar el máximo de Z 2 τ (·) es análogo al
procedimiento de Hudson, salvo porque se usa una función diferente. Se presenta a
continuación:

e) Método de Muggeo
Propone una metodología distinta basada en la aproximación mediante un polinomio de
Taylor que se expondrá primero de un modo general.
Este procedimiento tiene la ventaja de que proporciona estimadores de máxima
verosimilitud para todos los parámetros que intervienen en el modelo en cada paso.
Consecuentemente, el límite también lo será. El inconveniente es que este algoritmo no
tiene asegurada la convergencia para un ψ (0) arbitrario, aunque rara vez se tomará como
semilla inicial un punto que diste mucho del verdadero valor de ψ.
Puesto que, en cada paso, el algoritmo de Muggeo ajusta un modelo de regresión
múltiple, una opción para averiguar cuándo no converge el algoritmo es intentar dar
alguna condición para la cual la minimización de su suma cuadrática de residuos no tenga
solución.
f) Estimación con varios puntos de cambio
Se ha supuesto que sólo existe un único punto de cambio de tendencia ψ en todo el
dominio. Esto deriva de que apenas hay ejemplos de situaciones en las que el efecto de
la explicativa cambie varias veces de tendencia y pueda ser modelizable por rectas en
todos los casos. No obstante, no hay nada que impida modelizar matemáticamente esta
situación.
g) Método de Hudson para varios puntos de cambio
El método consiste en calcular todos los posibles modelos con 0, 1 y hasta K puntos de
cambio calculados con los n datos de la muestra y escoger aquél con menor suma
cuadrática de residuos

h) Método de Muggeo para varios puntos de cambio


Cuando existen varios puntos de cambio es completamente análogo al mostrado para
un único punto de cambio, aunque exige saber cuántos cambios de tendencia presenta
la función de regresión de antemano y proporcionar un valor inicial para cada uno de
ellos. No obstante, una representación gráfica de la función de regresión puede
subsanar este problema
2. Explique los once escenarios de simulación, dados en la pág. 04 del módulo de
aprendizaje.
• Escenario 1: Punto de cambio en el medio del intervalo y cambio débil con misma
varianza a ambos lados.

• Escenario 2: Punto de cambio en el medio del intervalo y cambio fuerte con misma
varianza a ambos lados.

• Escenario 3: Punto de cambio en un extremo del intervalo y cambio débil con misma
varianza a ambos lados.
• Escenario 4: Punto de cambio en un extremo del intervalo y cambio fuerte con misma
varianza a ambos lados.

• Escenario 5: Punto de cambio en el medio del intervalo y cambio débil con distinta
varianza a ambos lados.

• Escenario 6: Punto de cambio en el medio del intervalo y cambio fuerte con distinta
varianza a ambos lados.

• Escenario 7: Punto de cambio en un extremo del intervalo y cambio débil con mayor
varianza en el lado corto.
• Escenario 8: Punto de cambio en un extremo del intervalo y cambio débil con mayor
varianza en el lado largo.

• Escenario 9: Punto de cambio en un extremo del intervalo y cambio fuerte con mayor
varianza en el lado corto.

• Escenario 10: Punto de cambio en un extremo del intervalo y cambio fuerte con
mayor varianza en el lado largo.

3. Explique y ejemplifique el nudo, llamado punto de quiebre.

Puede ser útil para cuantificar un cambio abrupto en la función de reacción de un factor de
interés a la variación de otro factor influencial. El punto de quiebra se interpreta como un valor
seguro, crítico o umbral cuando efectos (no) deseados suceden a uno de los dos lados. Estos
valores deben escogerse en un evento específico que muestren los datos, estos números
definirán los intervalos y a cada uno de estos intervalos se les crea una variable dummy.
Ejemplo:
Se desea explicar el salario medio mensual de los trabajadores de la empresa Camposol, según
el número de trabajadores, sabiendo que, si laboran horas extras, su salario aumentará
mensualmente. El modelo queda de la forma:

𝑌𝑡 = 201. 6 + 5. 28 0𝑋𝑖 + 18. 7(𝑋𝑖 − 𝑋 ∗ ) + 𝜀


Donde:
Yt: Salario medio mensual
Xi: Número de trabajadores
Xi: Umbral de trabajadores
D1: 1 = Si el número de trabajadores que reciben aumento por horas extras sobrepasan a 12

4. Use el link para analizar y explicar lo referido a la extensión de la SVM para regresión a
tramos de David Ramírez, Ignacio Santamaría. Ver el link dado en el aula virtual
https://www.researchgate.net/profile/David_Ramirez6/publication/267207906_Extension_
de_la_SVM_para_regresion_a_tramos/links/589986bb92851c8bb681abd8/Extension-de-la-
SVM-para-regresion-a-tramos.pdf

Análisis y explicación:
1) Máquinas de vectores de soporte (SVM):
Las SVM son un método general para resolver problemas de clasificación y regresión.
Este método se caracteriza por su capacidad de generalizar bien a partir de conjuntos de
datos de entrenamiento pequeños. En su formulación se utiliza el principio de
minimización del riesgo estructural (SRM), lo que lo diferencia de técnicas como las redes
neuronales que minimizan el riesgo empírico.

2) Regresión a tramos:
Este enfoque es útil cuando un modelo local ofrece mejores resultados que un modelo
global. En lugar de crear un modelo global para todos los datos, se generan modelos
locales (lineales o no lineales) en distintas regiones de los datos. El modelo lineal a tramos
(Piecewise-Linear o PWL) es un ejemplo claro que ofrece buenos resultados en
problemas de regresión lineal.

3) SVM con un punto de ruptura:


Se introduce un punto de ruptura en el espacio de entrada unidimensional, y se presenta
el método para regresión lineal y su extensión a no lineal. El modelo se divide en dos
partes lineales (una para cada lado del punto de ruptura) y se añaden restricciones para
asegurar la continuidad en dicho punto.

4) Extensión a regresión no lineal:


El enfoque se amplía a regresión no lineal utilizando el kernel trick. Esto permite
transformar los datos de entrada a un espacio de mayor dimensión y aplicar allí el modelo
lineal. La principal diferencia es que ahora los productos escalares en el espacio de
entrada se reemplazan por funciones de kernel.

5) Generalización a múltiples puntos de ruptura:


La técnica propuesta también se generaliza a casos con múltiples puntos de ruptura. Esto
implica añadir restricciones adicionales por cada nuevo punto de ruptura, lo que aumenta
la complejidad del modelo.

6) Resultados de simulación:
Igualación no ciega: La técnica se aplica a un problema de igualación no ciega en
sistemas SISO (Single-Input Single-Output). Los resultados muestran que la regresión
PWL-SVM aproxima bien la frontera de decisión óptima, logrando un rendimiento cercano
al del igualador bayesiano.
En la figura 1, se puede ver la frontera óptima de decisión, la frontera de PWL-SVM
(para su entrenamiento se han usado L = 50 puntos de la frontera ´optima), la frontera
del igualador MMSE y los estados del canal. Como se puede ver, la aproximación de la
frontera ´optima por la PWL-SVM es muy buena

En la figura 2, puede observar como la igualación mediante PWL-SVM presenta unos


resultados muy próximos al igualador Bayesiano y como el MMSE se queda lejos de
ambos. Es decir, que obtenemos unos resultados próximos al igualador óptimo con un
incremento computacional despreciable respecto al igualador MMSE, sólo es
necesario realizar una serie de comparaciones para ver en que tramo se encuentra

Modelado global vs. local: Se compara el rendimiento de la SVM no lineal a tramos


(PWNL-SVM) con una SVM no lineal global. El modelado local ofrece mejores
resultados y menor complejidad en problemas donde existen zonas con variaciones
bruscas y zonas más suaves.
7) Conclusiones:
La técnica de regresión a tramos mediante SVM es eficiente y permite la extensión a
regresión no lineal de manera directa. En las aplicaciones evaluadas (igualación no ciega
y modelado no lineal), la SVM a tramos muestra mejores resultados que los modelos
globales, siendo una opción adecuada cuando se requieren modelos locales en lugar de
globales.

Este enfoque es particularmente útil en problemas donde el comportamiento de los datos


varía significativamente en diferentes regiones del espacio de entrada, permitiendo una
mejor adaptabilidad y rendimiento en comparación con las técnicas globales.

5. Use el link dado en el aula virtual: Aproximación lineal por tramos a comportamientos
no lineales: estimación de señales de nivel y crecimiento. Analizar y explicar respecto lo
que se solicita.
https://e-archivo.uc3m.es/bitstream/handle/10016/3070/REE-1994-36-137-
espasa.pdf?sequence=1.

a) Determinación del punto de ruptura


Teniendo en cuenta que el punto de partida es el modelo ARIMA univariante para el logaritmo
de las importaciones no energéticas, conviene en primer lugar, analizar los residuos que se
derivan al estimar por máxima verosimilitud el modelo con la muestra hasta diciembre de
1990. (véase el cuadro 1). Así, en el gráfico de residuos que aparece en el cuadro y se
aprecia que los residuos muestran un conjunto de dieciséis valores negativos desde julio de
1989 al final de la muestra, con una media significativamente distinta de cero. EI estadístico
t de la media de este subconjunto de residuos alcanza un valor de -3,4, lo que implica que el
proceso que generaba la serie de importaciones ha dejado, localmente, de estar respaldado
por los datos.
Otra forma alternativa de confirmar si la serie mantiene una evolución estable o está sujeta
a variaciones importantes se deriva al analizar la tasa de crecimiento anual centrada sobre
la tendencia contemporánea. Así, en el gráfico 1 se observa que la serie de tasas centradas
contemporáneas (valor estimado en t para t) refleja un descenso sistemático a partir de julio
de 1989.

Ciñéndonos a correcciones deterministas de tipo escalón o rampa y experimentando con


fechas diferentes a lo largo del segundo semestre de 1989 para el comienzo de la
intervención, se concluye que la especificación que proporciona mejore resultados, en
términos de ajuste, es la que incorpora una rampa lineal a lo largo del periodo
comprendido entre julio de 1989 y diciembre de 1990. Este resultado refuerza la idea de
que el origen de la ruptura se sitúe a comienzos del segundo semestre de1989.
b) Extracción de señales de nivel y crecimiento tendencial con análisis de intervención

Para obtener la señal tendencial final, es preciso añadir los componentes deterministas con
efectos a largo plazo (por ejemplo, escalones o rampas), eliminados en la primera fase, a la
tendencia estocástica calculada sobre la serie corregida. Este procedimiento, a diferencia de
lo que sucedería si se aplicara un filtro invariante sobre la serie original, permite evitar
distorsiones. En concreto, se evita que la señal recoja los movimientos atípicos con
anterioridad al momento en que éstos, efectivamente, se producen (obsérvese que esta
situación es posible porque la señal óptima para un momento t depende de observaciones
futuras). El análisis de intervención con una tendencia truncada supone que la serie registra
una cierta recesión, pero ésta es meramente pasajera y no debilita en ningún momento el
crecimiento tendencial a medio plazo de la serie original.

c) Análisis por submuestras como aproximación a comportamientos no lineal.


El hecho de trabajar con el supuesto de procesos lineales por tramos no sólo es más simple
que el uso de modelos no lineales, sino que incluso puede ser más flexible. Por otro lado, ha
de tenerse en cuenta que existen pocos desarrollos teóricos en el campo de la extracción de
señales referidos a modelos no lineales

d) La aproximación lineal por tramos


Cuando existe un punto de ruptura, el análisis de coyuntura se ve afectado, como ya se ha
señalado, en dos direcciones complementarias:
• Las medidas de comportamiento tendencial (evolución subyacente) obtenidas a partir
de los procedimientos habituales sufren un adelantamiento de la ruptura, así como una
suavización de la misma.
• Las medidas de crecimiento, debidamente centradas, presentan un perfil distorsionado
alrededor del momento del cambio
6. Analice e interprete, introducción y objetivos, material y métodos, resultados y las
conclusiones, presentadas en el documento: series de tiempo interrumpido con
regresión segmentada para estimar los efectos de la introducción de ertapenem en la
sensibilidad de pseudomonas aeruginosa a imipenem. Abrir link:
https://sgapeio.gal/descargas/congresos_SGAPEIO/xsgapeio.uvigo.es/resumenes/62_19_pa
per.pdf

Introducción y objetivos:
El análisis de regresión segmentada de series de tiempo es un modelo robusto que permite
evaluar los cambios de nivel en una variable respuesta, antes y después de realizarse una
intervención. Se utiliza esta metodología para estimar los efectos de la introducción del
ertapenem en el hospital en el año 2005 sobre la aparición de resistencias antimicrobianas a los
carbapenémicos del grupo 2.
➢ Objetivo principal: Estimar el efecto de la introducción del uso de ertapenem en la
sensibilidad a imipenem de Pseudomonas aeruginosa.
➢ Objetivo secundario: Determinar el consumo de otros antimicrobianos:
carbapenémicos del grupo 2, quinolonas y cefalosporinas, durante el periodo de estudio
➢ Material y métodos:
- Diseño: Estudio observacional retrospectivo, de vigilancia hospitalaria, en el
Complexo Hospitalario Universitario A Coruña (CHUAC) durante el periodo enero
2002 a diciembre 2009.
- Mediciones: Consumo de antimicrobianos/mes, definiéndose en función de dosis
diarias definidas (DDD) /1000 pacientes-día, recopilándose las DDDs de
ertapenem, imipenem, meropenem, fluoroquinolonas y determinados
betalactámicos con intervalos mensuales, antes y después de la introducción de
ertapenem en el formulario del hospital.
- Justificación del tamaño muestral: Se estudian 96 datos (correspondientes a los
obtenidos mensualmente durante los 10 años del estudio) que permitirán evaluar
el impacto del uso de ertapenem sobre la sensibilidad de Pseudomonas aeruginosa
con una precisión de ±10% y una seguridad del 95%.
- Análisis estadístico: Se estudia la asociación entre el consumo de ertapenem y
la sensibilidad a imipenem de P. aeruginosa; así como, la asociación entre el
consumo de ertapenem y la utilización de otros antimicrobianos (variables
cuantitativas), mediante la correlación de Pearson o Spearman según proceda, tras
comprobar la normalidad con el test de Kolmogorov Smirnov.

➢ Resultado y conclusión:
- Resultado: Se objetiva un aumento del consumo de antimicrobianos, existiendo
una correlación positiva estadísticamente significativa entre el tiempo en meses y
el consumo de imipenem (r=0,719; p < 0.001) y de meropenem (r=0,805; p < 0.001);
así como con el consumo de ertapenem (r=0,899; p < 0.001). Tras la introducción
de ertapenem, se objetiva un aumento estadísticamente significativo de la
utilización de imipenem (23,2±5,2 vs. 34,4±7,9; p<0,001).
Tras ajustar la incidencia de sensibilidad de Pseudomonas aeruginosa a imipenem,
por un modelo de series de tiempo interrumpido con regresión segmentada, se
objetiva un efecto de la introducción del ertapenem significativo; observándose en
la incidencia preintervención un descenso vs. un aumento pos intervención
estadísticamente significativo.
- Conclusión: Tras la introducción del ertapenem, existe un efecto estadísticamente
significativo en la tendencia de la sensibilidad de P. aeruginosa, observándose un
cambio de un descenso a un aumento de los aislamientos sensibles a imipenem.

7. Analizar y explicar el estudio. La recuperación del consumo farmacéutico tras la


modificación del copago: evidencia de un servicio regional de salud.
Abrir link: La recuperación del consumo farmacéutico tras la modificación del copago:
evidencia de un servicio regional de salud
https://core.ac.uk/download/pdf/81155996.pdf

INTRODUCCIÓN:

En toda la Unión Europea encaminadas a un uso más racional del medicamento y a contener
el gasto farmacéutico. En este sentido, el 1 julio del 2012 entró en vigor el RDL 16/2012, de 20
de abril, por el que se establece un nuevo sistema de participación del usuario en el precio de
los medicamentos de dispensación ambulatoria. Hasta ahora, la aportación por parte de los
pacientes era del 5,8%, muy alejado de la media europea, que es del 16,5%. Con el nuevo
modelo, la aportación ascenderá al 10,6%. De tal forma, nos proponemos un análisis doble,
inicialmente de la variación del número de envases dispensados en las farmacias comunitarias
de forma agregada seguido del estudio del comportamiento de la tasa de consumo en 5 grupos
terapéuticos, para controlar el «efecto desfinanciación», con el objetivo de evaluar la influencia
de las políticas de copago de medicamentos en las tendencias de consumo de medicamentos.

MÉTODOS

➢ Diseño y muestra:
Estudio observacional longitudinal de tipo retrospectivo que analiza la dispensación de
medicamentos en las oficinas de farmacia de la Región de Murcia entre los meses de
enero del 2008 y diciembre del 2013, con una población de 1.482.777 habitantes al inicio
del estudio y de 1.463.935 en el último año, de los cuales alrededor del 20% tenía
derecho a farmacia gratuita (pensionistas) y el resto realizaba copago (trabajadores
activos y mutualistas) antes de la introducción de modificaciones en el sistema de
copago en julio del 2012.
➢ Análisis estadístico

Con el fin de evaluar el impacto de la modificación del copago sobre el consumo


farmacéutico, se diseñó un modelo de regresión lineal segmentada para series de
tiempo interrumpido8 según el siguiente modelo:

Yt = β0 + β1Tt + β2Dt + β3(Tt ∗ Dt) + β4Mt + et

Dado que el tiempo es una variable explicativa en el análisis de regresión de la ecuación,


los términos de error de aquellas observaciones que sean consecutivas probablemente
estén correlacionados, por lo que se aplicó el test de Durbin-Watson para controlar la
posible auto correlación serial en los términos de error del modelo de regresión,
estimando los parámetros del modelo utilizando mínimos cuadrados generalizados,
corrigiendo la posible correlación serial mediante el método de Prais-Winsten.
RESULTADOS

La figura 1 muestra la serie observada para la variable número de envases por habitante en
usuarios del SMS y mutualistas. Se puede comprobar una marcada estacionalidad con valores
mínimos en el mes de agosto y una ligera tendencia ascendente a lo largo de todo el periodo
descrito hasta junio del 2012. La tabla 1 recoge los estimadores de los parámetros obtenidos en
el modelo de regresión lineal segmentada para la variable número de envases por habitante. La
introducción de las modificaciones en el copago farmacéutico disminuyó significativamente el
número de envases por habitante, mientras que no se observó cambio significativo en la
tendencia de crecimiento después de la intervención, por lo que no se incluyó en el modelo.

TAREA 2

SEMANA 3

Solución en el archivo Excel

También podría gustarte