5.3. - AlgoritmoRegresion Pag. 11
5.3. - AlgoritmoRegresion Pag. 11
5.3. - AlgoritmoRegresion Pag. 11
relación lineal entre los atributos de entrada y salida, las regresiones de crestas que son una variación
más compleja de regresión lineal, los bosques aleatorios pronostica las relaciones del tipo no lineales
dadas entre las salidas y las entradas por medio del uso de árboles de decisión y redes neuronales, que
predicen relaciones no lineales con el uso de procesos mucho más complejos.
La Imagen siguiente representa las técnicas de clasificación donde se puede ver el resultado del
algoritmo y devuelve una estimación de un límite de decisión para dividir dos clases (se representan con
las X y los puntos azules), los ejes del gráfico representan los datos de entrada. Del lado derecho se
muestra la técnica de regresión que pronostica el total (eje x) como una función de entrada.
𝑌 = 𝑎 + 𝑏𝑥
Y = variable dependiente.
x = Variable independiente.
Para obtener los valores de la ordenada y la pendiente se necesitan las siguientes ecuaciones:
𝑎 = 𝑦̅ − 𝑏𝑥̅ ∑ 𝑥𝑦 − 𝑛𝑥𝑦
̅̅̅
𝑏=
∑ 𝑥 − 𝑛𝑥̅ 2
2
Se puede identificar como variable dependiente a las ventas (y) ya que sin nómina no podría
existir las ventas, y cómo variable independiente a la nómina (x), luego de identificadas estas variables,
hay que verificar si existe una relación en línea recta o lineal entre las nóminas del área de Caracas y las
ventas de la empresa. Para ellos es necesario graficar los datos en un diagrama de dispersión.
4
3,5
3
2,5
Ventas
2
1,5
1
0,5
0
0 2 4 6 8
Nómina
Diagrama de Dispersión.
∑ 𝑥𝑦 − 𝑛𝑥𝑦
̅̅̅
𝑏=
∑ 𝑥 2 − 𝑛𝑥̅ 2
Analizando la ecuación de la pendiente, hay que calcular la sumatoria de la x por y (las nóminas
por las ventas, ∑ 𝑥𝑦, menos el número de observaciones 𝑛 = 𝑠𝑒𝑖𝑠 𝑎ñ𝑜𝑠, luego se va a multiplicar por el
promedio de las nóminas por el promedio de las ventas (𝑛𝑥𝑦 ̅̅̅), en la parte inferior de la división se tiene
la sumatoria de x al cuadrado (∑ 𝑥 2 ) menos n por la media de x elevada al cuadrado 𝑛𝑥̅ 2 .
Realizando los cálculos necesarios se construye la tabla a continuación con los siguientes
resultados.
y x 𝒙𝟐 xy
2 1 1 2
3 3 9 9
2.5 4 16 10
2 2 4 4
2 1 1 2
3.5 7 49 24.5
𝑦̅ = 2.5 𝑥̅ = 3 ∑ = 80 ∑ = 51.5
Cálculos de los datos necesarios para la pendiente.
51,5 − (6)(3)(2,5)
𝑏=
80 − (6)(32 )
6.5
𝑏= = 0.25
26
Sustituyendo el valor de la pendiente 𝑏 = 0,25 en la ordenada,
𝑎 = 𝑦̅ − 𝑏𝑥̅
𝑎 = 2.5 − (0.25)(3)
𝑎 = 1.75
𝑌 = 𝑎 + 𝑏𝑥
𝑌 = 1.75 + 0.25𝑥
Con la ecuación resultante ya se puede comenzar hacer los pronósticos, como, por ejemplo: en
caso de que la cámara de comercio local predice que la nómina para el área de Caracas va a ser de 600
millones de dólares, para el año que viene, se estima las ventas de la empresa por medio de una ecuación
de regresión, donde x toma el valor de 600 millones, pero se va a manejar bajo el número 6 quedando de
la siguiente forma:
𝑌 = 1.75 + 0.25(6)
𝑌 = 3.25
La predicción sería que las ventas para el próximo año cuando la nómina sean de 600 millones,
las ventas equivalen a 3.25, como las ventas se manejan en base a cientos de miles equivale a $325.000.
Luego se tiene graficar el nuevo punto generado en el gráfico de dispersión donde x=6, y=3.25.
Gráfico de Predicción.
En la ecuación de la recta el primer valor es la ordenada al eje de las y que equivale a 1.75, se
grafica el punto en el eje de las y, se traza la línea recta desde el valor de la ordenada hasta la predicción,
la recta resultante será la que mejor se ajusta a los datos graficados, cabe destacar que si se siguen
haciendo predicciones con valores de la nómina superiores a los 600 millones, la línea recta seguirá
creciendo, y no se debe hacer predicciones con pocos datos y períodos no muy lejanos, ya que el mercado
es muy inestable y las condiciones podrían cambiar muy drásticamente, resultando predicciones muy lejos
de la realidad.
Los puntos alejados de la línea de pronóstico se les conoce como desviación o error, donde no
son considerados como un error, son simplemente la diferencia respecto a la recta de regresión que se le
conoce como error.
Luego se prosigue al cálculo del error estándar de la estimación, donde se le denomina cálculo
de la desviación estándar de la regresión y se encarga de medir el error desde la variable dependiente y
hasta la recta de regresión por medio de la fórmula:
∑ 𝑦 2 − 𝑎 ∑ 𝑦 − 𝑏 ∑ 𝑥𝑦
𝑠𝑥𝑦 = √
𝑛−2
La mayoría de los datos para esta fórmula ya han sido calculados, a excepción de 𝑦 2 , para ello se
presentan los resultados en la siguiente tabla:
y x 𝒙𝟐 xy 𝒚𝟐
2 1 1 2 4
3 3 9 9 9
2.5 4 16 10 6.25
2 2 4 4 4
2 1 1 2 4
3.5 7 49 24.5 12.25
∑ = 15 ∑ = 18 ∑ = 80 ∑ = 51.5 ∑ = 39.5
Tabla con los valores de Y.
Luego de haber calculado los valores de y, se sustituyen los valores en la fórmula y queda
de la siguiente forma:
39.5 − 1.75(15) − 0.25(51.5)
𝑠𝑥𝑦 = √
6−2
0.375
=√ = 𝑠𝑥𝑦 = √0.09375 = 0.306.
4
Ahora se hace el cálculo del coeficiente de correlación para rectas de regresión. Que significa el
grado o fuerza que tiene la regresión lineal. Generalmente se identifica con r, y puede ser cualquier
número entre +1 y -1.
El positivo para el caso anterior indica la dirección de la recta, dirigiéndola hacia arriba, cuando
una variable aumenta, la otra también lo va hacer.
En esta imagen los datos no se ajustan perfectamente a la recta de regresión, sin embargo, de
igual forma la correlación sigue siendo positiva, el valor de r se va a encontrar entre los valores 0 y 1,
mientras más cerca se encuentre la correlación del número 1, va a significar una fuerte correlación entre
las dos variables, de lo contrario si se aleja del q y se acerca al 0, la correlación tiende a ser más débil.
No Existe Correlación r=0.
Esta imagen representa que, cuando una variable aumenta, la otra disminuye y la recta tiende a
ir hacia abajo, y los datos se ajustarán a la recta denominándose correlación negativa perfecta y su valor
va a ser igual a -1.
𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 − ∑ 𝑦
𝑟=
√[𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 )][𝑛 ∑ 𝑦 2 − (∑ 𝑦)2 ]
Ya estos datos han sido calculados en la tabla anterior, ahora solo queda sustituir.
(6)(51.5) − (18)(15)
=
√[(6)(80) − (18)2 ][(6)(39.5) − (15)2 ]
309 − 270 39 39
= = = = 𝟎. 𝟗𝟎
√[156][12] √1872 43.2
La correlación que existe entre las ventas y las nóminas es de 0.90, lo que se puede observar es
que tiene más al número 1, la recta se dirige hacia arriba, lo que significa que cuando aumentan las
nóminas, las ventas también lo hacen, definiéndose como una correlación positiva muy fuerte.
𝑟 2 = (0.90)2 = 0.81.
EL valor de coeficiente de determinación debe ser manejado en porcentaje 0.81 = 81%. Lo que
va a indicar el porcentaje de predicción que tiene la ecuación de la recta para este ejemplo. De ser posible
hacer predicciones perfectas, el coeficiente de determinación sería igual a 100%, de manera que se
relaciona con el coeficiente de correlación de +1 o -1. De esta manera es evidente que los datos no van a
formar una línea, ya que estarían dispersados a los alrededores de la recta y se presentará un error en las
predicciones.
Sin embargo, esta función logit se encuentra en el eje de las x, para ello se tiene que calcular la
inversa de la fórmula, dando como resultado la función sigmoidal.
Función Sigmoidal.
1 𝑒𝑥
𝑙𝑜𝑔𝑖𝑡 −1 (𝑥) = =
1 + 𝑒 −𝑥 1 + 𝑒 𝑥
Se define como el inverso de logit del suceso x igual a la exponencial de un número elevado a la
x entre 1 más el exponencial del número elevado a la x
𝑒 𝛽0+𝛽1 𝑥
𝑃(𝑦 = 1) = 𝑃 =
𝑒 𝛽0+𝛽1 𝑥 + 1
Definiéndose P como la probabilidad de un evento. Y junto con la implementación de la fórmula
de la combinación lineal, ayuda hacer una mejor predicción y tendrá como resultado un número que va a
tener como características, su definición entre 0 y 1.
Función Sigmoidal.
Para poder hacer los cálculos con una función lineal se hace una ligera transformación de manera
que el modelo de regresión logística quedaría de la siguiente manera:
1
𝑙𝑜𝑔 ( ) = 𝑏0 + 𝑏1 𝑥1
1−𝑝
• Modelar la probabilidad de que un evento suceda, iniciando desde un grupo de variables (se
hallan los coeficientes y se construye la ecuación).
• Estimar la probabilidad que suceda un evento para una observación arbitraria y la probabilidad
de que no ocurra (Odds).
• Predecir el efecto de un grupo de variables en una variable categórica binaria.
• clasificar las observaciones de las estimaciones de la probabilidad que se encuentre en un grupo.