5.3. - AlgoritmoRegresion Pag. 11

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 8

Los ejemplos de regresión supervisados contienen regresiones lineales que pronostican la

relación lineal entre los atributos de entrada y salida, las regresiones de crestas que son una variación
más compleja de regresión lineal, los bosques aleatorios pronostica las relaciones del tipo no lineales
dadas entre las salidas y las entradas por medio del uso de árboles de decisión y redes neuronales, que
predicen relaciones no lineales con el uso de procesos mucho más complejos.

La Imagen siguiente representa las técnicas de clasificación donde se puede ver el resultado del
algoritmo y devuelve una estimación de un límite de decisión para dividir dos clases (se representan con
las X y los puntos azules), los ejes del gráfico representan los datos de entrada. Del lado derecho se
muestra la técnica de regresión que pronostica el total (eje x) como una función de entrada.

1.1.1.1 Regresión Lineal.


La Regresión lineal consiste en un modelo matemático basado en una línea recta, que describe
las relaciones que tienen las variables dependiente e independiente a través de una ecuación lineal
(Ecuación de la recta).

𝑌 = 𝑎 + 𝑏𝑥

Y = variable dependiente.

a = ordenada con el eje y.

b = Pendiente de la recta de regresión.

x = Variable independiente.

Para obtener los valores de la ordenada y la pendiente se necesitan las siguientes ecuaciones:

𝑎 = 𝑦̅ − 𝑏𝑥̅ ∑ 𝑥𝑦 − 𝑛𝑥𝑦
̅̅̅
𝑏=
∑ 𝑥 − 𝑛𝑥̅ 2
2

𝑥 = valores conocidos de la variable independiente.

𝑦 = valores conocidos de la variable dependiente.

𝑥̅ = promedio del valor de las x.

𝑦̅ = promedio del valor de las y.

𝑛 = número de datos puntuales u observaciones.


Ejemplo: Una empresa encargada de la reconstrucción de viviendas en mal estado en Caracas,
Venezuela, con el pasar de los años se percata que su flujo de dinero por trabajos de reconstrucción
depende de la nómina del área Caracas, es decir del ingreso monetario de los habitantes de la ciudad, a
continuación, se enumeran los ingresos de la empresa y el monto percibido por los trabajadores en
Caracas durante los últimos 6 años. Exigen

Venta. (y) Nómina. (x)


(Cientos de miles $) (Cientos de millones
$)
2 1
3 3
2.5 4
2 2
2 1
3.5 7
Tabla de valores.

Se puede identificar como variable dependiente a las ventas (y) ya que sin nómina no podría
existir las ventas, y cómo variable independiente a la nómina (x), luego de identificadas estas variables,
hay que verificar si existe una relación en línea recta o lineal entre las nóminas del área de Caracas y las
ventas de la empresa. Para ellos es necesario graficar los datos en un diagrama de dispersión.

4
3,5
3
2,5
Ventas

2
1,5
1
0,5
0
0 2 4 6 8
Nómina

Diagrama de Dispersión.

Se aprecia en el gráfico el aumento significativo de las ventas ligado en el incremento de la


nómina, a pesar que las ventas disminuyeron a 250.000 cuando la nómina estaba en 400.000.000, sin
embargo, se sigue manteniendo sobre el límite inferior, cuando la variable dependiente aumenta junto
con la variable dependiente, se le conoce como una correlación positiva. Es evidente que por medio del
gráfico no se aprecia la recta, para ello se tiene que determinar la que mejor se ajuste a los puntos
graficados, para ello es necesario implementar la ecuación de la recta 𝑌 = 𝑎 + 𝑏𝑥 donde la ordenada
viene dada por la ecuación 𝑎 = 𝑦̅ − 𝑏𝑥̅ y la pendiente por:

∑ 𝑥𝑦 − 𝑛𝑥𝑦
̅̅̅
𝑏=
∑ 𝑥 2 − 𝑛𝑥̅ 2

Analizando la ecuación de la pendiente, hay que calcular la sumatoria de la x por y (las nóminas
por las ventas, ∑ 𝑥𝑦, menos el número de observaciones 𝑛 = 𝑠𝑒𝑖𝑠 𝑎ñ𝑜𝑠, luego se va a multiplicar por el
promedio de las nóminas por el promedio de las ventas (𝑛𝑥𝑦 ̅̅̅), en la parte inferior de la división se tiene
la sumatoria de x al cuadrado (∑ 𝑥 2 ) menos n por la media de x elevada al cuadrado 𝑛𝑥̅ 2 .
Realizando los cálculos necesarios se construye la tabla a continuación con los siguientes
resultados.

y x 𝒙𝟐 xy
2 1 1 2
3 3 9 9
2.5 4 16 10
2 2 4 4
2 1 1 2
3.5 7 49 24.5
𝑦̅ = 2.5 𝑥̅ = 3 ∑ = 80 ∑ = 51.5
Cálculos de los datos necesarios para la pendiente.

Luego se sustituye los valores en la pendiente:

51,5 − (6)(3)(2,5)
𝑏=
80 − (6)(32 )

6.5
𝑏= = 0.25
26
Sustituyendo el valor de la pendiente 𝑏 = 0,25 en la ordenada,

𝑎 = 𝑦̅ − 𝑏𝑥̅

𝑎 = 2.5 − (0.25)(3)

𝑎 = 1.75

Ya conociendo el valor de la pendiente y el valor de la ordenada se sustituye en la ecuación de la


recta de la siguiente manera:

𝑌 = 𝑎 + 𝑏𝑥

𝑌 = 1.75 + 0.25𝑥

Con la ecuación resultante ya se puede comenzar hacer los pronósticos, como, por ejemplo: en
caso de que la cámara de comercio local predice que la nómina para el área de Caracas va a ser de 600
millones de dólares, para el año que viene, se estima las ventas de la empresa por medio de una ecuación
de regresión, donde x toma el valor de 600 millones, pero se va a manejar bajo el número 6 quedando de
la siguiente forma:

𝑌 = 1.75 + 0.25(6)

𝑌 = 3.25

La predicción sería que las ventas para el próximo año cuando la nómina sean de 600 millones,
las ventas equivalen a 3.25, como las ventas se manejan en base a cientos de miles equivale a $325.000.
Luego se tiene graficar el nuevo punto generado en el gráfico de dispersión donde x=6, y=3.25.
Gráfico de Predicción.

En la ecuación de la recta el primer valor es la ordenada al eje de las y que equivale a 1.75, se
grafica el punto en el eje de las y, se traza la línea recta desde el valor de la ordenada hasta la predicción,
la recta resultante será la que mejor se ajusta a los datos graficados, cabe destacar que si se siguen
haciendo predicciones con valores de la nómina superiores a los 600 millones, la línea recta seguirá
creciendo, y no se debe hacer predicciones con pocos datos y períodos no muy lejanos, ya que el mercado
es muy inestable y las condiciones podrían cambiar muy drásticamente, resultando predicciones muy lejos
de la realidad.

Los puntos alejados de la línea de pronóstico se les conoce como desviación o error, donde no
son considerados como un error, son simplemente la diferencia respecto a la recta de regresión que se le
conoce como error.

Luego se prosigue al cálculo del error estándar de la estimación, donde se le denomina cálculo
de la desviación estándar de la regresión y se encarga de medir el error desde la variable dependiente y
hasta la recta de regresión por medio de la fórmula:

∑ 𝑦 2 − 𝑎 ∑ 𝑦 − 𝑏 ∑ 𝑥𝑦
𝑠𝑥𝑦 = √
𝑛−2

La mayoría de los datos para esta fórmula ya han sido calculados, a excepción de 𝑦 2 , para ello se
presentan los resultados en la siguiente tabla:

y x 𝒙𝟐 xy 𝒚𝟐
2 1 1 2 4
3 3 9 9 9
2.5 4 16 10 6.25
2 2 4 4 4
2 1 1 2 4
3.5 7 49 24.5 12.25
∑ = 15 ∑ = 18 ∑ = 80 ∑ = 51.5 ∑ = 39.5
Tabla con los valores de Y.

Luego de haber calculado los valores de y, se sustituyen los valores en la fórmula y queda
de la siguiente forma:
39.5 − 1.75(15) − 0.25(51.5)
𝑠𝑥𝑦 = √
6−2

39.5 − 26.25 − 12.875


=√
4

0.375
=√ = 𝑠𝑥𝑦 = √0.09375 = 0.306.
4

El resultado de 0.306 va a corresponder a la desviación estándar de los valores de la variable


dependiente y la recta de regresión, es muy similar a una desviación estándar, pero la desviación estándar
se da respecto a un promedio, y esta se da respecto a la recta de regresión, multiplicando por 100.000
correspondiente al mejor de cientos, el error estándar de estimación es igual a $30.600.

Ahora se hace el cálculo del coeficiente de correlación para rectas de regresión. Que significa el
grado o fuerza que tiene la regresión lineal. Generalmente se identifica con r, y puede ser cualquier
número entre +1 y -1.

Correlación Positiva Perfecta r=+1.

El positivo para el caso anterior indica la dirección de la recta, dirigiéndola hacia arriba, cuando
una variable aumenta, la otra también lo va hacer.

Correlación Positiva 0<r<1.

En esta imagen los datos no se ajustan perfectamente a la recta de regresión, sin embargo, de
igual forma la correlación sigue siendo positiva, el valor de r se va a encontrar entre los valores 0 y 1,
mientras más cerca se encuentre la correlación del número 1, va a significar una fuerte correlación entre
las dos variables, de lo contrario si se aleja del q y se acerca al 0, la correlación tiende a ser más débil.
No Existe Correlación r=0.

Los puntos se encuentran totalmente dispersos, de manera que elimina la posibilidad de


existencia de una correlación, es decir, no hay relación entre una variable y la otra y el coeficiente de
correlación será igual a 0.

Correlación Negativa perfecta r=-1.

Esta imagen representa que, cuando una variable aumenta, la otra disminuye y la recta tiende a
ir hacia abajo, y los datos se ajustarán a la recta denominándose correlación negativa perfecta y su valor
va a ser igual a -1.

Para el cálculo de la correlación, se va hace por medio de la siguiente fórmula:

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 − ∑ 𝑦
𝑟=
√[𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 )][𝑛 ∑ 𝑦 2 − (∑ 𝑦)2 ]

Ya estos datos han sido calculados en la tabla anterior, ahora solo queda sustituir.

(6)(51.5) − (18)(15)
=
√[(6)(80) − (18)2 ][(6)(39.5) − (15)2 ]
309 − 270 39 39
= = = = 𝟎. 𝟗𝟎
√[156][12] √1872 43.2

La correlación que existe entre las ventas y las nóminas es de 0.90, lo que se puede observar es
que tiene más al número 1, la recta se dirige hacia arriba, lo que significa que cuando aumentan las
nóminas, las ventas también lo hacen, definiéndose como una correlación positiva muy fuerte.

Luego se tiene que calcular el coeficiente de determinación, definiéndose como el porcentaje de


variación en la variable dependiente y que define la ecuación de regresión.

𝑟 2 = (0.90)2 = 0.81.
EL valor de coeficiente de determinación debe ser manejado en porcentaje 0.81 = 81%. Lo que
va a indicar el porcentaje de predicción que tiene la ecuación de la recta para este ejemplo. De ser posible
hacer predicciones perfectas, el coeficiente de determinación sería igual a 100%, de manera que se
relaciona con el coeficiente de correlación de +1 o -1. De esta manera es evidente que los datos no van a
formar una línea, ya que estarían dispersados a los alrededores de la recta y se presentará un error en las
predicciones.

1.1.1.2 Regresión Logística.


También conocida como binaria, es uno de los algoritmos supervisados de común
implementación en las estadísticas, finanzas, ciencias políticas, modelos econométricos, entre otros.
Parte de la función logit, que significa una función alternativa que permite realizar el cálculo de una
variable que se encuentre entre los valores de 0 y 1.
𝑝
𝑙𝑜𝑔𝑖𝑡(𝑝) = ( )
1−𝑝

Sin embargo, esta función logit se encuentra en el eje de las x, para ello se tiene que calcular la
inversa de la fórmula, dando como resultado la función sigmoidal.

Función Sigmoidal.

1 𝑒𝑥
𝑙𝑜𝑔𝑖𝑡 −1 (𝑥) = =
1 + 𝑒 −𝑥 1 + 𝑒 𝑥
Se define como el inverso de logit del suceso x igual a la exponencial de un número elevado a la
x entre 1 más el exponencial del número elevado a la x

La variable x exponencial de la ecuación se iguala a la combinación lineal 𝑏0 + 𝑏1 𝑥1 originando la


ecuación siguiente.

𝑒 𝛽0+𝛽1 𝑥
𝑃(𝑦 = 1) = 𝑃 =
𝑒 𝛽0+𝛽1 𝑥 + 1
Definiéndose P como la probabilidad de un evento. Y junto con la implementación de la fórmula
de la combinación lineal, ayuda hacer una mejor predicción y tendrá como resultado un número que va a
tener como características, su definición entre 0 y 1.
Función Sigmoidal.

Para poder hacer los cálculos con una función lineal se hace una ligera transformación de manera
que el modelo de regresión logística quedaría de la siguiente manera:
1
𝑙𝑜𝑔 ( ) = 𝑏0 + 𝑏1 𝑥1
1−𝑝

Con el modelo algoritmo de regresión logística, se puede:

• Modelar la probabilidad de que un evento suceda, iniciando desde un grupo de variables (se
hallan los coeficientes y se construye la ecuación).
• Estimar la probabilidad que suceda un evento para una observación arbitraria y la probabilidad
de que no ocurra (Odds).
• Predecir el efecto de un grupo de variables en una variable categórica binaria.
• clasificar las observaciones de las estimaciones de la probabilidad que se encuentre en un grupo.

Proceso de regresión logística.

También podría gustarte