Regresion Lineal Multiple

ANÁLISIS DE DATOS CATEGÓRICOS
ANGIE LIZETH PAMPLONA GALEANO
Docente
GILBERTO JOSE CAMPO CARRASQUILLA
UNIVERSIDAD DEL MAGDALENA
ESTADÍSTICA II
SANTA MARTA D.T.C.H.
2019
PROBLEMA
Se desea estimar los gastos en alimentación de una familia ubicada de Santa Marta, dada los
ingresos mensuales y el número de miembros de la familia.
PLANTEAMIENTO DEL PROBLEMA
De acuerdo con cifras recolectadas por la firma Raddar y el observatorio económico de la

Secretaría de Desarrollo Económico de Bogotá, un hogar capitalino, que podría reflejar el
consumo promedio en las capitales del país, gasta un porcentaje de 31,8% en alimentos,
23,5% en vivienda y 14,8% en transporte y comunicaciones; siendo estos tres gastos los ítems
que ocupan un mayor volumen en sus egresos.
Ahora, dentro del ramo clasificado como vivienda, los gastos de ocupación (arriendo/cuota,
administración e impuestos) logran 70,3% del total. Entre tanto, el gasto de servicios públicos
representa 17,9%. Según un estudio de Fedelonjas el porcentaje de colombianos de zonas
urbanas que vive en arriendo llega a 44%; eso es equivalente a 4,9 millones de hogares.
Como parte de la actualización de información decenal del gasto de los hogares, principal
insumo para la medición de la inflación desde el 2019, el Dane publicó los datos de nueva
Encuesta Nacional de Presupuestos de los Hogares, en la que se reflejó el nivel de consumo
mensual de los 14,3 millones de hogares del país.
Es decir, en promedio cada hogar reporta gastos mensuales por 1,9 millones de pesos en
bienes y servicios como alimentación, comida, diversión, educación, salud, transporte y
comunicaciones, entre otros, que ahora fueron clasificados en 12 grupos, tres más que los
que hasta la fecha usa el Dane para medir la inflación o costo de vida durante cada mes.
FORMULACIÓN DEL PROBLEMA
 ¿Está relacionado el gasto en alimentación de las familias con el nivel de ingresos y

el número de integrantes en el núcleo familiar?
Se requiere determinar mediante regresión lineal múltiple un modelo matemático para

aproximar la relación de dependencia entre una variable dependiente Y, las variables
independientes Xi. Una vez ajustada la recta de regresión a la nube de observaciones es
importante disponer de una medida que mida la bondad del ajuste realizado y que permita
decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos. Como medida
de bondad del ajuste se utiliza el coeficiente de determinación. También se hace uso de la
tabla Anova, En este apartado se descompone la variabilidad de la variable respuesta en
variabilidad explicada por el modelo más variabilidad no explicada o residual, esto permitirá
contrastar si el modelo es significativo o no. Bajo la hipótesis de que existe una relación lineal
entre la variable respuesta y la regresará.
JUSTIFICACIÓN
Con el siguiente estudio estadístico se busca comprobar si la variable “gasto” está relacionada
con la variable “ingresos” y “número de integrantes en la familia” lo anterior haciendo uso
del modelo de regresión lineal múltiple.
De este modo, si existe relación entre las variables, buscar los mecanismos gubernamentales
y entes privados, para aumentar el salario mínimo, disminuir la inflación y bajar los precios
de los productos de la canasta familiar.
OBJETIVOS
OBJETIVO GENERAL
Determinar si la variable gasto está relacionada con las variables ingresos y tamaño de la
familia.
OBJETIVOS ESPECÍFICOS
 Ajustar los datos a un modelo de regresión lineal múltiple.

 Determinar mediante los coeficientes de determinación la relación entre las variables
dependiente e independientes.
 Constatar si el modelo es significativo o no mediante la tabla Anova
MARCO TEÓRICO
Regresión lineal múltiple: La regresión lineal permite trabajar con una variable a nivel de
intervalo o razón. De la misma manera, es posible analizar la relación entre dos o más
variables a través de ecuaciones, lo que se denomina regresión múltiple o regresión lineal
múltiple. Constantemente en la práctica de la investigación estadística, se encuentran
variables que de alguna manera están relacionadas entre sí, por lo que es posible que unas de
las variables puedan relacionarse matemáticamente en función de otra u otras variables.
(Wikipedia, 2019)
Programa SPSS: es un programa estadístico informático muy usado en las ciencias sociales
y aplicadas, además de las empresas de investigación de mercado. El nombre originario
correspondía al acrónimo de Statistical Package for the Social Sciences (SPSS), reflejando
la orientación a su mercado original (ciencias sociales), aunque este programa es también
muy utilizado en otros campos como la mercadotecnia. Sin embargo, en la actualidad la parte
SPSS del nombre completo del software (IBM SPSS) no es acrónimo de nada. (Questionpro,
2019).
Tabla Anova: El análisis de la varianza parte de los conceptos de regresión lineal. Un

análisis de la varianza permite determinar si diferentes tratamientos muestran diferencias
significativas o por el contrario puede suponerse que sus medias poblacionales no difieren.
El análisis de la varianza permite superar las limitaciones de hacer contrastes bilaterales por
parejas que son un mal método para determinar si un conjunto de variables con n > 2 difieren
entre sí. (Mexico, 2019)
Coeficiente de determinación: En estadística, el coeficiente de determinación, denominado

R² y pronunciado R cuadrado, es un estadístico usado en el contexto de un modelo estadístico
cuyo principal propósito es predecir futuros resultados o probar una hipótesis. El coeficiente
determina la calidad del modelo para replicar los resultados, y la proporción de variación de
los resultados que puede explicarse por el modelo.
METODOLOGÍA
1. Se recolecta información por medio de una encuesta, donde se toma una muestra de
15 familias de forma aleatoria. Principalmente se realiza preguntas relacionadas con
el ingreso y gasto promedio mensuales. En la tabla 1, se resume los datos
obtenidos.
Gasto Ingresos Tamaño

$ 430.000,00 $ 2.100.000,00 3
$ 310.000,00 $ 1.100.000,00 4
$ 320.000,00 $ 900.000,00 5
$ 460.000,00 $ 1.600.000,00 4
$ 1.250.000,00 $ 6.200.000,00 5
$ 440.000,00 $ 2.300.000,00 4
$ 520.000,00 $ 1.080.000,00 3
$ 290.000,00 $ 1.000.000,00 6
$ 1.290.000,00 $ 8.900.000,00 4
$ 350.000,00 $ 2.400.000,00 3
$ 350.000,00 $ 1.200.000,00 2
$ 780.000,00 $ 4.700.000,00 4
$ 430.000,00 $ 3.500.000,00 3
$ 470.000,00 $ 2.900.000,00 2
$ 380.000,00 $ 1.400.000,00 4
Tabla 1
2. La información se ingresa en el Software SPSS para su posterior análisis. Como se
muestra en la imagen 1 e imagen 2.
Imagen 1. Se ingresa las variables de estudio su valor y su tipo.
Imagen 2. Datos ingresados al Software SPSS.

TIPO DE INVESTIGACIÓN
Investigación de tipo cualitativa
El método de investigación cualitativa es la recogida de información basada en la

observación de comportamientos naturales, discursos, respuestas abiertas para la posterior
interpretación de significados.
Mientras que los métodos cuantitativos aportan valores numéricos de encuestas,

experimentos, entrevistas con respuestas concretas para realizar estudios estadísticos y ver
cómo se comportan sus variables. Muy aplicado en el muestreo.
Sin embargo, el concepto de método cualitativo analiza el conjunto del discurso entre los
sujetos y la relación de significado para ellos, según contextos culturales, ideológicos y
sociológicos. Si hay una selección hecha en base a algún parámetro, ya no se considerará
cualitativo. Digamos que es el método de investigación cualitativa no descubre, sino que
construye el conocimiento, gracias al comportamiento entre las personas implicadas y toda
su conducta observable.
POBLACIÓN Y MUESTRA
Población: Familiar ubicadas en la ciudad de Santa marta
Muestra:15 familias escogidas de manera aleatoria
RECOLECCIÓN DE LA INFORMACIÓN
INFORMACIÓN PRIMARIA
Para nuestro caso de estudio, la información recolectada es de carácter primario, ya que

obtuvimos la información través de un contacto inmediato con el objeto de análisis.
INSTRUMENTO DE RECOLECCIÓN DE LA INFORMACIÓN
El instrumento utilizado para la recolección de información fue la encuesta. Una encuesta

es un procedimiento dentro de los diseños de una investigación descriptiva en el que el
investigador recopila datos mediante un cuestionario previamente diseñado, sin modificar
el entorno ni el fenómeno donde se recoge la información ya sea para entregarlo en forma
de tríptico, gráfica o tabla.
PROCESAMIENTO DE LA INFORMACIÓN
La información fue procesada en el programa SPSS, inicialmente por medio de la

tabulación se hizo el conteo de las frecuencias observadas, después se determino las
frecuencias esperadas y finalmente se realizo la prueba Ji. Cuadrado.
RESULTADOS
Coeficientes
Coeficientes no Coeficientes 95,0% intervalo de
estandarizados estandarizados confianza para B Correlaciones
Límite Límite Orden
Modelo B Desv. Error Beta t Sig. inferior superior cero Parcial Parte
1 (Constante) 56606,960 116742,231 ,485 ,636 - 310966,430
197752,510
ingreso ,130 ,014 ,922 9,192 ,000 ,099 ,160 ,931 ,936 ,919
tamano 33390,551 29160,094 ,115 1,145 ,275 -30143,837 96924,938 ,189 ,314 ,114
a. Variable dependiente: gasto
Tabla 2. Coeficientes del modelo

Resumen del modelo
Estadísticos de cambio
R R cuadrado Error estándar de la Cambio en R Cambio en Sig. Cambio
Modelo R cuadrado ajustado estimación cuadrado F gl1 gl2 en F
1 ,938a ,880 ,860 119602,164 ,880 44,041 2 12 ,000
a. Predictores: (Constante), tamaño, ingreso
b. Variable dependiente: gasto
Tabla 3. Coeficiente de determinación.
Dado que r2 es 0,88 es decir se acerca a 1, podemos concluir que el modelo se ajusta sobresalientemente, en otras palabras la variable
dependiente gasto y las independientes ingreso y tamaño de la familia tienen correlación.
ANOVAa
Modelo Suma de cuadrados gl Media cuadrática F Sig.
1 Regresión 1259983868519,432 2 629991934259,716 44,041 ,000b
Residuo 171656131480,568 12 14304677623,381
Total 1431640000000,000 14
a. Variable dependiente: gasto
b. Predictores: (Constante), tamano, ingreso
Tabla 4. Tabla Anova.
Se esta utilizando un nivel de confianza del 95%, por lo tanto, el nivel de significancia es 0,05. Dado que 0,05 al estadístico p , se
concluye que el modelo es significativo. Bajo la hipótesis de que existe una relación lineal entre la variable respuesta y la regresora.
Figura 1. Histograma. Los datos cumplen el supuesto que se distribuyen normalmente.

CONCLUSIONES
En conclusión, el modelo de regresión lineal múltiple se ajusta al modelo, el coeficiente de

correlación lo comprueba y la tabla anova demuestra que el modelo establecido si es
significativo.
En la regresión lineal múltiple vamos a utilizar más de una variable explicativa; esto nos va
a ofrecer la ventaja de utilizar más información en la construcción del modelo y,
consecuentemente, realizar estimaciones más precisas. Al tener más de una variable
explicativa (no se debe de emplear el término independiente) surgirán algunas diferencias
con el modelo de regresión lineal simple. Una cuestión de gran interés será responder a la
siguiente pregunta: de un vasto conjunto de variables explicativas: x1, x2, …, xk, cuáles son
las que más influyen en la variable dependiente Y.
WEBGRAFIA
Mexico, D. (21 de 05 de 2019). Dm Mexico. Obtenido de Tabla Anova:
http://dm.udc.es/asignaturas/estadistica2/sec6_6.html
Questionpro. (04 de 01 de 2019). SPSS. Obtenido de Qué es SPSS y cómo utilizarlo:

https://www.questionpro.com/es/que-es-spss.html
Samuelson, C. (08 de 05 de 2019). Desempleo. Obtenido de Wikipedia:

https://es.wikipedia.org/wiki/Desempleo#cite_note-1
Wikipedia. (21 de 05 de 2019). regresion lineal. Obtenido de regresion lineal multiple:

https://es.wikipedia.org/wiki/Regresión_lineal#Regresión_lineal_múltiple

Regresion Lineal Multiple

Cargado por

Copyright:

Formatos disponibles

Regresion Lineal Multiple

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Lineal Multiple

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS DE DATOS CATEGÓRICOS

ANGIE LIZETH PAMPLONA GALEANO

GILBERTO JOSE CAMPO CARRASQUILLA

UNIVERSIDAD DEL MAGDALENA

SANTA MARTA D.T.C.H.

PLANTEAMIENTO DEL PROBLEMA

De acuerdo con cifras recolectadas por la firma Raddar y el observatorio económico de la

 ¿Está relacionado el gasto en alimentación de las familias con el nivel de ingresos y

Se requiere determinar mediante regresión lineal múltiple un modelo matemático para

 Ajustar los datos a un modelo de regresión lineal múltiple.

Tabla Anova: El análisis de la varianza parte de los conceptos de regresión lineal. Un

Coeficiente de determinación: En estadística, el coeficiente de determinación, denominado

Gasto Ingresos Tamaño

Imagen 1. Se ingresa las variables de estudio su valor y su tipo.

Imagen 2. Datos ingresados al Software SPSS.

Investigación de tipo cualitativa

El método de investigación cualitativa es la recogida de información basada en la

Mientras que los métodos cuantitativos aportan valores numéricos de encuestas,

Población: Familiar ubicadas en la ciudad de Santa marta

Muestra:15 familias escogidas de manera aleatoria

Para nuestro caso de estudio, la información recolectada es de carácter primario, ya que

El instrumento utilizado para la recolección de información fue la encuesta. Una encuesta

La información fue procesada en el programa SPSS, inicialmente por medio de la

Tabla 2. Coeficientes del modelo

Tabla 3. Coeficiente de determinación.

Tabla 4. Tabla Anova.

Figura 1. Histograma. Los datos cumplen el supuesto que se distribuyen normalmente.

En conclusión, el modelo de regresión lineal múltiple se ajusta al modelo, el coeficiente de

Questionpro. (04 de 01 de 2019). SPSS. Obtenido de Qué es SPSS y cómo utilizarlo:

Samuelson, C. (08 de 05 de 2019). Desempleo. Obtenido de Wikipedia:

Wikipedia. (21 de 05 de 2019). regresion lineal. Obtenido de regresion lineal multiple:

También podría gustarte