Informe Final ICVU DICIEMBRE
Informe Final ICVU DICIEMBRE
Informe Final ICVU DICIEMBRE
Profesores Correctores:
Fecha:
1
Departamento de Ingeniería Comercial, Facultad de Ingeniería, Universidad de Antofagasta, Campus Coloso, Avda.
Universidad de Antofagasta s/n, Email: [email protected].
2
Departamento de Ingeniería Comercial, Facultad de Ingeniería, Universidad de Antofagasta, Campus Coloso, Avda.
Universidad de Antofagasta s/n, Email: [email protected].
3
Departamento de Ingeniería Comercial, Facultad de Ingeniería, Universidad de Antofagasta, Campus Coloso, Avda.
Universidad de Antofagasta s/n, Email: [email protected].
1
AGRADECIMIENTOS
Jorge Baltra
Jorge Castillo
Francisca Herrera
RESUMEN
2
En el siguiente proyecto, se realizará un estudio sobre la Región de Antofagasta respecto a su
índice de calidad de vida urbano, comparándolo con los distintos niveles a lo largo del país.
Se definirá lo que significa la Calidad de Vida Urbana, las condiciones que conllevan este índice y
además cada una de sus variables.
La metodología a utilizar para esto será el uso de una herramienta estadística, conocida como
análisis de clúster, que brindará un análisis objetivo y lo más acertado posible, el cual pueda
brindar un acercamiento al lector y otorgar una nueva perspectiva sobre la segunda región en
comparación con el resto de Chile.
Con la información adquirida, se creará una base de datos en el programa SPSS para la aplicación
de análisis de clúster y con los resultados se generará una perspectiva neutra para categorizar a
cada región del país en conglomerados y tener una visión más certera sobre la realidad nacional
con respecto a la calidad de vida.
3
ÍNDICE
AGRADECIMIENTOS 2
ÍNDICE 4
INTRODUCCIÓN 4
FUNDAMENTACIÓN TEÓRICA 11
HIPOTESIS Y VARIABLES 15
METODOLOGÍA 19
RECOLECCIÓN DE LA INFORMACIÓN 40
RESULTADOS 41
DISCUSIÓN DE RESULTADOS 57
CONCLUSIONES 57
RECOMENDACIONES 57
ANEXOS 58
BIBLIOGRAFÍA 59
1. INTRODUCCIÓN
4
región que debiese contar con una buena calidad de vida, teniendo en cuenta que es de las
regiones que más aporta al PIB nacional.
Considerando la información en escala monetaria, puede que esto sea así, ya que es una de las
regiones más ricas del país, pero se debe recordar que en la vida no todo es dinero y que el dinero
no siempre es sinónimo de felicidad.
El indicador de Calidad de Vida Urbana (ICVU) es un estudio que realiza todos los años la
Universidad Católica a través del Instituto de Estudios Urbanos, en conjunto con la Cámara Chilena
de la Construcción, trabajo que busca medir de forma objetiva las condiciones de vida de la
población.
Si bien este estudio no es una medición oficial por parte de algún Órgano de la Administración del
Estado, sus resultados se han convertido en una referencia para saber y comparar el estado de la
calidad de vida que ofrecen las regiones de Chile.
2.1 Problemática
En el tiempo Chile ha avanzado en economía, mayoritariamente, gracias al potencial del sector
minero, lo que ha provocado un avance notorio del desarrollo como país. Debido a esto es que las
regiones que tienen mayor influencia en el PIB nacional son en su mayoría pertenecientes al sector
5
norte del país, donde la Región de Antofagasta se posiciona como una de las con mayor aporte al
PIB chileno. Teniendo en cuenta ese factor, se podría traducir que la Región de Antofagasta podría
ser considerada como un lugar con una alta calidad de vida, pero tomando en cuenta diversos
indicadores que se consideran dentro del Índice de Calidad de Vida Urbana debemos tener en
cuenta que para determinar si una zona particular posee una buena calidad de vida, existen
diversos factores, que se determinan mediante variables.
El índice de Calidad de Vida Urbana(ICVU), se viene realizando desde el año 2011 en donde a partir
de 36 variables, se construyeron en 6 dimensiones distintos factores relacionados con la calidad de
vida:
• Condición Laboral (CL), referidas a variables que midan las facilidades de acceso al
mercado laboral, ingresos, capacitaciones, desarrollo profesional y protección social de los
residentes.
• Vivienda y Entorno (VE), referido a variables que dan cuenta de la calidad de la vivienda,
nivel de hacinamiento e inversión en el espacio público cercano para sus residentes.
6
Otro factor que se puede considerar algo confuso, es que se trabaja mediante la opinión
de expertos para la elaboración del indicador, pero en ningún momento se comenta el
sistema a utilizar a la hora de calcular cada valor, entonces se optó en este trabajo para
crear una variación del sistema utilizado por la PUC y enfocarse más en generar una base
de datos, que sintetiza cada dimensión del ICVU, pero que estandarice las variables y las
compare mediante un análisis de clúster.
La investigación del ICVU de la PUC fue realizada durante el año 2020, en la ciudad de Santiago.
Mientras que el presente informe fue realizado en la región de Antofagasta, desde Octubre del año
2021 hasta inicios de Enero de 2022.
7
2.3 Justificación
Si bien estudios como el ICVU son de gran utilidad para entender la realidad nacional,
como es mencionado anteriormente, es de vital importancia poseer estudios donde exista
acceso a información comprometida con estos, y mejor aún actualizada.
Para saber realmente cómo se comporta la Región de Antofagasta, respecto a las demás
regiones, teniendo en cuenta variables consideradas que tienen influencia en el ICVU de
cada región.
Bajo esta imagen se ve en duda si realmente esta información es actual, o si variables que
afectan positivamente la situación de la región son parte de este índice. Dado lo anterior,
se decide usar fuentes de acceso público, para así entregar información franca y
transparente.
¿Qué dimensión afecta a cada región en el índice como tal?, ¿Que se debe considerar para
Con esta investigación, se busca tener una razón de cómo la Región de Antofagasta se
asemeja a otras regiones del pais, teniendo en cuenta las influencias de cada variable
recogida del ICVU. ¿Qué área influye más dentro de este índice?, ¿Que no se debe
considerar y que sí en este índice?, entre otras preguntas como esas se ve envuelta esta
investigación.
“LO QUE SE BUSCA ES QUÉ VARIABLE INFLUYE MÁS..” “CÓMO AFECTA/DISTRIBUYE VARIABLES Y
CÓMO SE CLASIFICA ANF RESPECTO A CL”
PRECISAR
8
2.4 Limitaciones
Una limitación para el desarrollo fue, como para todos, la llegada del COVID-19, pandemia que
afectó directamente a la presencialidad de muchos tipos de mediciones, sobre todo en el ámbito
de educación. Ejemplo claro de lo anterior son las pruebas SIMCE, que estos últimos años no se
pudieron aplicar, por ende, no se dispone con la información del año 2020.
También existían problemas con diferentes medios oficiales, ya que algunos servidores contaban
con problemas que afectan negativamente el acceso a las fuentes de información, por lo que
algunas variables tuvieron que ser eliminadas o simplemente ser reemplazadas por otras, ya que
siempre existía el riesgo de que el sitio donde se encuentra la fuente, apareciese como sin acceso
que simplemente la página había dejado de existir.
Además al ser un estudio que considera cada región nacional, se encontró investigaciones
publicadas que poseían enfoques en ciertas zonas del país, que simplemente ignoraban otras
regiones, o que por ejemplo mencionan las variables de diez regiones solamente y al buscar la
información faltante en otros medios, ésta simplemente no existía.
Dentro del estudio previo también se modificó variables, la variable metro de áreas verdes con
mantenimiento por habitante se reemplazó por superficie total en metros cuadrados de parques
urbanos , la cantidad de camas en hospitales y clínicas cada 1000 habitantes se cambió por Tasa de
establecimientos del SNSS y el gasto total municipal por habitante en la comuna por el gasto cada
100.000 habitantes en $.
9
2.5 Objetivos
Objetivo general
Objetivos específicos
a) Conformar una Base de Datos para cada una de las variables que actualmente incluye el
ICVU. Elaborado por la Universidad Católica.
b) Proponer nuevas variables para un nuevo ICVU que cumplan con el acceso público a los
datos.
c) Comparar el ICVU de las Regiones de Chile utilizando un Análisis de Clúster jerárquico y
bietápico.
3. Fundamentación teórica
Índice de calidad de vida Según la composición del ICVU, se puede entender que, debido al
urbana, Orellana (2012) fenómeno multidimensional de la realidad urbana, existen
diferencias en los estándares para la medición de la calidad de
vida a nivel nacional. Estos estándares regionales son esenciales
para generar una comprensión general sobre la realidad de cada
región en torno a las dimensiones señaladas en este estudio.
10
(2005) la toma de decisiones en materia de calidad de vida.
La calidad de vida en
espacios urbanos, Se busca establecer planteamientos para la calidad de vida
Gonzalez (2018) experimentada según habitantes en un espacio determinado
teniendo en cuenta dos elementos básicos: Salud o condiciones
objetivas en que viven las personas y la percepción, satisfacción o
evaluación subjetiva de las personas acerca de su situación.
En estas investigaciones se usa una metodología de trabajo para realizar estudios en vistas de
desarrollar y poder tener una buena aplicación del ICVU, revisando distintos indicadores nacionales
e internacionales que se consideran para medir la calidad de vida. De esta manera optan a
construir el indicador con variables objetivas (datos cuantitativos) registradas y actualizadas cada
cierto tiempo por fuentes institucionales públicas y privadas, de un carácter confiable. Esta
información se usará como guía para poder desarrollar el estudio y entenderlo de una manera
similar a cómo se ha planteado anteriormente.
11
Marco teórico:
La utilización del concepto de Calidad de Vida (CV) puede remontarse a los Estados Unidos
después de la Segunda Guerra Mundial, como una tentativa de los investigadores de la época de
conocer la percepción de las personas acerca de si tenían una buena vida o si se sentían
financieramente seguras (Campbell, 1981; Meeberg, 1993).
El hecho que desde sus inicios haya estado vinculado a otras variables psicológicas que involucran
en sí mismas el concepto de bienestar ha posibilitado que a la fecha, muchos investigadores no
diferencien claramente en sus estudios cada concepto o lo utilicen de manera distinta.
El concepto de Calidad de Vida actualmente incorpora tres ramas de las ciencias: economía,
medicina y ciencias sociales. Cada una de estas disciplinas ha promovido el desarrollo de un punto
de vista diferente respecto a cómo debiera ser conceptualizada la CV (Cummins, 2004)
12
La metodología más apropiada a utilizar será el Indicador Calidad De Vida Urbana (ICVU)
(Orellana; Bannen; Fuentes; Gilabert y Pape). Donde se analizarán 6 ámbitos como componentes
de un ICVU, bajo condiciones objetivas y comparables:
1. Condición laboral.
2. Ambiente de negocios.
3. Condiciones socioculturales.
4. Conectividad y movilidad.
5. Salud y medio ambiente.
6. Vivienda y entorno.
Dado a la diferencia de población que hay entre regiones se toma como muestra datos
proporcionales.
Finalmente se trabajará mediante el uso del software SPSS para la tabulación de datos, los que
posteriormente serán comparados mediante la realización de un Análisis de Clúster (También
llamado análisis de conglomerados), para establecer una relación entre la calidad de vida urbana
del resto del país y la Región de Antofagasta.
Esto se considera de gran utilidad cuando no existe supuesto previo acerca de cuántos clústeres
existirán dentro de un conjunto y nos proveen de información acerca de las distintas asociaciones y
posibles patrones que puedan haber dentro de una base de datos.
Existen distintos tipos de clústeres, pero para este estudio se utilizarán los siguientes: El clúster
jerárquico que corresponde a un algoritmo que agrupa los datos, basados en la distancia entre
cada uno e identificando cuáles datos dentro del clúster son más similares entre sí. Y el clúster
bietápico, que es utilizado para determinar una cantidad óptima de subgrupos. A diferencia del
clúster jerárquico se puede trabajar con un número predeterminado de clústeres, utilizando
variables categóricas y continuas de forma simultánea.
13
previamente. Al final, se extrae los grupos de sujetos y sus características definitorias: número de
segmentos, número de integrantes de cada segmento. Si las variables de aglomeración están en
escalas muy diferentes, será necesario estandarizarlas previamente. Es necesario observar
también los valores atípicos y desaparecidos, porque los métodos jerárquicos no tienen solución
con valores perdidos, y porque los valores atípicos deforman distancias y producen clúster
unitarios. Es perjudicial la presencia de variables correlacionadas, por lo que es conveniente
realizar primero un análisis de multicolinealidad. Los conglomerados deben tener sentido
conceptual y no variar mucho al cambiar la muestra o método de aglomeración. Para la formación
de clúster en este trabajo se utilizó la técnica de Análisis de Clúster Jerárquico, con el Método de
Ward, que tiene por objeto maximizar la homogeneidad dentro de cada conglomerado. Para ello,
plantea todas las posibles combinaciones de observaciones para el número de grupos que se esté
considerando en cada etapa concreta. Este método, propuesto por Ward en 1963 es uno de los
más utilizados en la práctica; posee casi todas las ventajas del método de la media, y suele ser
más discriminativo en la determinación de los niveles de agrupación. Este método, además, es
capaz de encontrar mejor una clasificación óptima en comparación con otros métodos.
Ward propuso que la pérdida de información que se produce al integrar los distintos individuos en clústeres
puede medirse a base de la suma total de los cuadrados de las desviaciones entre cada punto (individuo) y la
media del clúster en el que se integra. Para que el proceso de “clusterización” resultará óptimo, en el sentido
de que los grupos formados no distorsionen los datos originales, proponía la siguiente estrategia: en cada paso
del análisis, considerar la posibilidad de la unión de cada par de grupos y optar por la fusión de aquellos dos
grupos que menos incrementa en la suma de los cuadrados de las desviaciones al unirse. La ventaja del
método de Ward es que no deja ningún tipo de “cabos sueltos”. No quedan formados grupos que tengan uno o
muy pocos elementos. Todos los datos se agrupan en clústeres que tienen varios elementos. Así, las
principales ventajas del método de Ward son: la formación de clústeres más compactos y de similar tamaño y
la minimización de la pérdida de información en el proceso de organización de los conglomerados. La medida
de similitud a base de la cual se formaron los grupos fue la distancia, esto es, las distintas medidas entre los
puntos del espacio definido por los individuos. La distancia euclídea al cuadrado es la medida utilizada para la
formación de conglomerados en este trabajo y se expresa: distancia euclídea al cuadrado d(i, j) 2 = ∑ k (xik −
xjk) 2 . Se observa que la distancia euclídea al cuadrado entre dos individuos se define como la suma de los
cuadrados de las diferencias de todas las coordenadas de los dos puntos. Para la determinación de los grupos
se hace uso del gráfico denominado dendograma, que puede emplearse para evaluar la cohesión de los
conglomerados que se han formado y proporcionar información sobre el número adecuado de conglomerados
que deben conservarse. El tipo de variable utilizada en este trabajo es métrica y es la participación de cada
sector económico, a nivel provincial en la demanda de créditos bancarios. El software utilizado para realizar
los conglomerados y el resto del análisis fue el SPSS
14
El procedimiento de análisis de conglomerados en dos fases, también llamado bietápico, es una herramienta
de exploración diseñada para descubrir las agrupaciones naturales de un conjunto de datos, permitiendo así
la generación de criterios de información, frecuencias de los conglomerados y los estadísticos descriptivos por
conglomerado, gráficos de barras, sectores y gráficos de importancia de las variables. El método de análisis
de conglomerados en dos fases tiene unas características únicas respecto a otros métodos de
conglomeración tradicionales, que son las siguientes: un procedimiento automático del número óptimo de
conglomerados, la posibilidad de crear modelos de conglomerados con variables tanto categóricas como
continuas y la opción de trabajar con archivos de datos de gran tamaño.
El análisis cluster de K-medias es una herramienta diseñada para asignar casos a un número fijo de grupos
(clusters o conglomerados) cuyas características no se conocen aún pero que se basan en un conjunto de
variables especificadas. Es muy útil cuando queremos clasificar un gran número (miles) de casos.
El procedimiento del análisis cluster de K-medias empieza con la construcción de unos centros de
conglomerados iniciales. Podemos asignar estos nosotros mismos o tener un procedimiento de selección de
observaciones bien situadas para los centros de conglomerados.
● Asigna casos a los conglomerados basándose en la distancia de los centros de los conglomerados.
● Actualizar las posiciones de los centros de los conglomerados basándose en los valores medios de
los casos en cada conglomerado.
Estos pasos se repiten hasta que cualquier reasignamiento de los casos haga que los conglomerados sean
internamente más variables o externamente similares.
Medidas de distancias
A partir de la matriz de datos X de orden Nxp se construye la matriz S de distancias de orden NxN, donde
cada coeficiente de S, sij representa el valor de un coeficiente de disimilitud para los casos i y j, que mide el
grado de disimilitud/distancia de los individuos. Esta matriz será simétrica, dado que sij = sji Estas matrices
pueden variar considerablemente para los mismos datos según la medida de disimilitud/distancia usada y
según haya o no transformado o estandarizado las variables originales. R proporciona varias medidas de
distancia. Una de las más usadas es la euclidea (la raíz cuadrada de la suma de cuadrados de las diferencias) .
Vea ayuda para la función dist en R ("euclidean", "maximum", "manhattan", "canberra", "binary" o
"minkowski"). La función daisy en el package cluster permite usar métricas euclidea, manhattan o distancia
15
de Gower, esta función es útil cuando las variables usadas no son numéricas (nominales, binarias, ordinales o
incluso combinaciones de ellas). Para más información use ayuda de R. Variables cuantitativas: La medida
más importante es la distancia euclídea y derivaciones de ella mediante ponderaciones. Sean X1, X2, ..., Xp
las variables observadas. Notamos con Xij valor observado en el caso i-ésimo en la variable j-ésima. Dados
dos casos i e i’, se definen las siguientes medidas de proximidad: • Distancia euclídea: Es la raíz cuadrada de
la suma de los cuadrados de las diferencias entre los valores de los elementos. Ésta es la medida por defecto
que suele usarse para datos de intervalo. ∑= −= p j ii jiij xxd 1 2 ' ' ( ) Depende de la escala de medida. Sus
valores no están acotados. Variables binarias (presencia/ausencia de atributo): Existe una gran diversidad de
medidas. Basadas en si están o no presentes las modalidades de las variables binarias. Departamento de
Estadística e Investigación Operativa 4 Supongamos que la tabla siguiente resume la información para un par
de casos i e i’. Cada caso vendrá dado por una p-upla de unos y ceros, donde: 1 indica la presencia y 0 la
ausencia de cierto atributo. Caso i 1 0 1 a b Caso i’ 0 c d a = total de atributos presentes en el caso i y en el
caso i’ d = total de atributos ausentes en ambos casos b = total de atributos ausentes en i y presentes en i’ c =
total de atributos ausentes en i’ y presentes en i Distancia euclídea: cbdii' += Es sencillamente la distancia
euclídea para el caso particular en que las variables toman sólo los valores 1 y 0. Dependiendo de las
características de los datos, unos coeficientes serán más o menos apropiados que otros. Se puede llegar a
designar a dos casos como iguales o distintos, dependiendo de la medida usada. Entre los de uso más
frecuente destaca el coeficiente de concordancia simple. Unas veces será importante considerar el recuento de
ausencias y otras no. En algunos análisis, tan importante es considerar la concordancia de presencias como de
ausencias. Es preciso advertir que si se realizan varios análisis con medidas diferentes y los resultados del
agrupamiento son similares, esto no garantiza siempre que se haya encontrado la verdadera estructura de los
datos, dado que muchos de los coeficientes especificados están relacionados entre sí y, en consecuencia, la
concordancia de resultados puede responder, en muchos casos, a las relaciones existentes entre las medidas de
similaridad usadas, más que al carácter de la estructura del agrupamiento. R permite efectuar un análisis
cluster jerárquico usando como entrada una matriz de datos o la de distancias. Esta opción es interesante
porque a veces no se dispone de los datos originales o, bien, porque se desea manipular previamente la matriz
de distancias.
16
4. HIPOTESIS Y VARIABLES
17
18
19
4.3 Definición operacional de variables
20
Nombre Año de vida Hacinamiento Atención Adscripción sistema de salud
Operacional potencial perdido médica
dormitorios.
L: Edad límite
superior
Personas
atendidas últimos
i: Edad de muerte 3 meses/Total
población que
di: Número de presentó
defunciones a la problemas de
salud en el mismo
edad i
periodo
21
Nombre Simce Simce Fecundidad PSU Colegios Municipales
Operacional Lenguaje Matemáticas Adolescente
x1,x2..xn=
Promedio
personal por x1,x2..xn=
estudiante Promedio
personal por
N: Total de estudiante Puntaje promedio PSU de
estudiantes Matemáticas, Historia, Ciencias
N: Total de e Historia por región en
estudiantes establecimientos municipales
22
Nombre Hogar y Medio Asistencia Mercado Laboral Hogar y
Operacional Ambiente Educacional Seguridad
23
Nombre Hogar y Trato Hogar y Ingreso del Hogar y
Operacional social Participación Hogar Accesibilidad
Social
24
25
Nombre
Operacional Utilización de Mujeres en el Acceso Inadecuado
Internet Trabajo Agua Potable
26
5. Metodología
Antes de realizar el análisis de clúster respectivo a cada variable del estudio, primero se
consideró de gran importancia el realizar una estandarización de cada una de ellas. Ya que
gracias a esta herramienta, se puede comparar datos de distribuciones distintas o que
posean diferentes unidades de medida.
Por lo que al generar la distribución normalizada, se genera una media aritmética igual a 0
y una desviación estándar de 1 a lo largo de todas las variables estandarizadas.
Dentro de la clusterización esta herramienta es usada muy comúnmente, ya que se
trabaja con grandes cantidades de información y que muchas veces, no está toda en
unidades similares.
Variables de investigación
En esta investigación existen variables como el ingreso, que se expresa en miles o millones
de pesos, mientras que otras como la participación femenina en el trabajo está
determinada en porcentaje. Por lo que a la hora de comparar un ingreso de por ejemplo 2
millones de pesos vs un 46% de participación femenina en el trabajo en la región de Arica,
puede llevar a diferencias muy grandes que a la hora de clusterizar, pueden llevar a
generar números tan elevados que requieran notación científica, por ende para que este
proceso sea más simple de comprender para el lector, se optó por estandarizar, trabajar
con variables bajo una distribución normalizada y de esta forma a su vez disminuir el
reescalado dentro del clúster jerárquico.
Tipos de Clúster
27
de reescalar la distancia entre variables, para de tal forma generar un gráfico compacto
que resume toda la información proveniente del análisis de clúster.
En el caso del clúster bietápico, que también es conocido como Two-step clúster debido a
su título en inglés. Se priorizó debido a que es bastante único, además tiene tres
características diferenciadoras a considerar con el resto de métodos.
I) Permite trabajar con variables categóricas y contínuas.
II) Permite definir previamente el número de clústeres a generar.
III) Permite analizar grandes números de datos.
Durante esta investigación se consideró de gran utilidad el two-step clúster,
principalmente ya que posee además a los 3 puntos previos, una tabla de centroides que
indica la media y desviación estándar por variable en cada clúster, por lo tanto, es una
herramienta que permite realizar un análisis más específico de alguna información que es
omitida durante el clúster jerárquico.
Distancia Clústeres
28
5.1 Tipo de Investigación
● El presente estudio corresponde a una investigación histórica, debido a que se trabaja con
datos provenientes de un año anterior, donde se describe cómo era el contexto nacional
en aquel momento.
29
VARIABLE Tasa de Puntaje Tasa de Porcentaje Tasa de Porcentaje de
fecundida PSU años de de atención Hogares
d promedio en vida Carencia médica carentes en
adolesce establecimie potenciales de Últimos 3 adscripción al
nte en ntos perdidos hacinamien meses sistema de
porcentaj municipales to (2020) Salud
e
MAX 1% 1% 48% 1% 8% 3%
30
VARIABLE Ingreso Porcentaje Gasto Puntaje Superfici Tasa
monetari de hogares cada PSU igual o e total Mortalidad
o del carentes en 100.000 superior a m2 Infantil
hogar accesibilida habitantes 450 puntos parques
promedio d en $ en urbanos
establecimi
entos
municipales
194,9463
MEDIA 792118 0,0655 22211067,3 39,8827365 46 132,8
11323,30
MEDIANA 1204524 0,11 54142336,4 51,1085714 34 306
5,667010
MAX 634603 0,018 14769797,9 31,3 78 7,2
983,1948
MIN 865536 0,0615 393353760 40,2498061 52 137,25
31
VARIABLE Tasa de Tasa de Tasa de Tasa de Població Tasa de
participac ocupación siniestros fallecidos n de 5 participación
ión (Mayores de de tránsito cada años o femenina en
laboral 15 años) cada 100000 más que el trabajo
(Mayores 100000 habitantes utiliza
de 15 habitantes internet 1
años) vez a la
semana
al menos
32
VARIABLE Acceso
inadecua
do a
agua
potable o
no
cuentan
con
conexión
a
alcantarill
ado
MEDIA 8%
MEDIANA 18%
MAX 3%
MIN 9%
33
6. RECOLECCIÓN DE LA INFORMACIÓN
A continuación se indicará la fuente en específico de la cual provino cada variable dentro del
estudio:
34
Variable Tasa de años de Porcentaje de Tasa de atención Porcentaje de
vida potenciales Carencia de médica Últimos 3 Hogares
perdidos hacinamiento meses (2020) carentes en
adscripción al
sistema de
Salud
35
Variable Porcentaje de Porcentaje de Ingreso Porcentaje de
hogares hogares monetario del hogares
carentes de carentes de hogar promedio carentes en
trato social apoyo y accesibilidad
participación
social
Fuente Casen (2020) SINIM (2019) INE (2020) INE (2020) INE (2020)
36
Fuente Minsal (2020) Minsal (2020) Minsal (2020)
La información adquirida mediante estas fuentes, se utilizó para sintetizar una base de datos
propia, que fuese capaz de incluir información de las siguientes variables a lo largo de cada región
del territorio nacional:
Cada una de estas variables fueron utilizadas para el año 2020 generando finalmente la base de
datos que fue utilizada a lo largo de la investigación.
7. Resultados
37
La información se organizó primero por archivos separados, los cuales contienen la información
proveniente de las diferentes fuentes utilizadas para su adquisición.
Inicialmente se comenzó con una base del formato final, el cual consistía en un documento Excel
con una columna mencionando todas las regiones a nivel nacional,el cual fue siendo modificado
hasta generar una base de datos, ya que la información nueva era ingresada en forma de
columnas hacia la derecha del documento original.
Región
Arica Y Parinacota
Tarapacá
Antofagasta
Atacama
Coquimbo
Valparaíso
Región Metropolitana
O'higgins
Maule
Ñuble
Biobío
Araucanía
Los Ríos
Los Lagos
Aysén
Magallanes
38
(Mover a Anexo base de datos y formato de la tabla)
Cada variable poseía una columna propia, en la cual la información se transformaba a tasas cada
100.000 habitantes o en un promedio general por región, para evitar trabajar con números
demasiado grandes mientras se digitaba la información
Tarapacá 1499.9
Antofagasta 1451.4
Atacama 1276.2
Coquimbo 1290.2
Valparaíso 1300.1
O'higgins 1096.5
Maule 1204.9
Ñuble 1186.6
Biobío 1324.6
Araucanía 1134.9
Aysén 1456.0
Magallanes 1238.2
Mediante este formato se diseñó la siguiente base de datos que se presentará a continuación y la
cual conforma la estructura a gran escala previo al uso del análisis de clúster
39
Una vez generada esta base de datos, con diferentes variables correspondientes a cada una de las
dimensiones que considera el ICVU, la información se traspasó a un software llamado IBM SPSS,
para la realización del análisis de clúster.
40
Donde Z corresponde a la variable, xi es la muestra, X es la media y Sx la desviación
estándar.
La estandarización de los datos permite comparar las distintas medidas que se encuentran
en este análisis y fueron clave para generar una base de datos en el software SPSS. Ya que
por ejemplo en caso de no estandarizar, variables como el ingreso (Que se mide en millones
de pesos) vs una tasa que va simplemente en valores de alrededor de 1.1 a 1.9 generarían
grandes diferencias, ya que la variable ingreso al estar en una escala mayor tendría una
mayor influencia sobre el resultado final, por lo que el transformar datos a escalas
comparables evita que ocurran estos problemas y son importantes previo a realizar un
análisis de clúster.
Una vez realizado este proceso, se procedió a trabajar mediante el uso de un análisis de
clúster jerárquico
Para la realización de este tipo de análisis estadístico, primero se comienza con la creación
automática mediante el software de los distintos conglomerados, dependiendo del grado de
similitud entre cada caso dentro del estudio:
La tabla 2 nos indica el número y porcentaje de casos con valores perdidos dentro de alguna
de las variables que se incluyeron a lo largo del análisis, sumado al tamaño total de la
muestra. Como se puede apreciar existen 16 casos válidos en el estudio, que corresponden
a las 16 regiones de Chile, al haber 0 casos perdidos, esto indica que los datos dentro del
estudio fueron correctamente ingresados y procesados dentro de SPSS y el total N,
representa la suma entre casos válidos más perdidos.
La información que aparece posterior a aquella tabla, corresponde a la medida que fue
utilizada para obtener la matriz de distancia, que será explicada posteriormente. En este
caso la medida a utilizar fue la distancia euclídea al cuadrado.
41
Primera aparición del clúster de
Clúster combinado etapa
Etap Clúster Clúster Etapa
a 1 2 Coeficientes Clúster 1 Clúster 2 siguiente
1 8 9 4.142 0 0 8
2 6 11 10.802 0 0 7
3 10 13 20.104 0 0 4
4 10 14 32.332 3 0 5
5 10 12 45.719 4 0 8
6 15 16 61.708 0 0 14
7 5 6 79.074 0 2 11
8 8 10 97.520 1 5 12
9 2 3 116.986 0 0 10
10 2 4 146.431 9 0 13
11 1 5 178.066 0 7 12
12 1 8 214.512 11 8 15
13 2 7 271.515 10 0 14
14 2 15 338.449 13 6 15
15 1 2 465.000 12 14 0
Tabla 3: Historial del proceso de conglomeración
La columna llamada clúster combinado representa que clústeres fueron combinados dentro de
cada una de las etapas, por ejemplo la etapa 1 de este caso, representa la combinación del clúster
8 con el clúster 9, la etapa 2 la combinación del clúster 6 con el 11 y así sucesivamente.
42
Tabla 4: Distribución de clústeres
Dentro de la tabla 5 se puede observar la manera en la que fueron distribuidas las 16 regiones
nacionales a lo largo de los distintos clústeres formados.
El 4to clúster está compuesto por la región de O’higgins, El Maule, Ñuble, Araucanía, Los
Ríos y Los Lagos.
Finalmente el último Clúster se compone de las regiones del sur de Chile, Magallanes y
Aysén.
43
Ilustración 1: Dendrograma
Se debe considerar que las distancias para este caso son re-escaladas, para facilitar la visión del
investigador, ya que al ser valores muy distantes dependiendo del estudio, es mucho más fácil de
apreciar y entender un gráfico en la cual por ejemplo, si la distancia mayor corresponde a 2000 y la
44
menor a 0.005, reescalarlas para que el mayor sea equivalente a 25 y el menor a 0, como en el
caso de este estudio.
Además cabe destacar que si bien, a simple vista no se aprecian las 15 etapas que son
mencionadas en la tabla 3, esto corresponde a una falsa impresión que genera el re-escalado
mencionado previamente, ya que si pudiésemos apreciar este mismo Dendrograma con un mayor
acercamiento a zonas espécificas de este, se podría apreciar mejor que cada una de estas etapas si
están presentes, pero son difíciles de apreciar mediante este método gráfico.
Considerando las distancias que aparecen en la tabla 3, la distancia máxima (465) correspondería a
25 dentro del Dendrograma y la distancia 4.1 correspondería al mínimo.
Cuando se crean las fusiones dentro del Dendrograma, se debe considerar que las fusiones que se
realizan en el extremo izquierda del mismo, corresponden a fusiones dentro de conglomerados
más homogéneos, mientras que las fusiones realizadas al extremo derecho, representan lo
contrario, conglomerados mucho más heterogéneos.
Al considerar grupos por homogeneidad, se estima que la cantidad óptima de clústeres que
pueden ser recreados a nivel nacional corresponden a 5, los cuales se distribuyen de la
siguiente forma:
Clúster 1: Arica y Parinacota, Coquimbo, Valparaíso, Bío Bío.
Clúster 2: Tarapacá, Antofagasta, Atacama
Clúster 3: Región Metropolitana
Clúster 4: O’higgins, Maule, Ñuble, Araucanía, Los Ríos, Los Lagos
Clúster 5: Aysen, Magallanes.
(El número designado a cada conglomerado es el mismo generado por el software SPSS al
realizar el análisis)
45
Para ilustrar el algoritmo del cluster de jerarquía, utilizamos el método de la matriz de
disimilaridades para identificar la proximidad entre cada región.
Esta proximidad se mide en forma de matriz, la cual se generó utilizando una distancia euclediana,
calculando la distancia entre cada objeto mediante el uso de la siguiente fórmula:
Se debe siempre registrar lo similares o disimilares que es cada variable entre sí, dependiendo de
cómo haya sido su representación dentro del espacio de variables del estudio.
En este caso se considera que cada región corresponde a un vector dentro del espacio de
variables, por lo que mediante la siguiente matriz se puede representar la distancia entre cada una
de ellas, que es menester dentro de todo estudio mediante el método jerárquico.
46
Tabla : Matriz de proximidades
47
Mediante el uso de la matriz previamente señalada, la distancia entre todas las regiones del país
que fueron parte de este estudio, además un detalle a observar es que como la distancia es
simétrica ( La distancia entre A y B es igual a la distancia entre B y A), la matriz se puede decir que
posee dos zonas, las que están sobre la diagonal igual a 0 (Ya que esta línea representa la distancia
entre un objeto y si mismo), y la zona bajo la diagonal.
Análisis bietápico:
Durante el inicio del análisis de cluster bietápico se puede apreciar que el modelo posee una
medida de cohesión aceptada para el estudio, ya que se encuentra en zona regular, en caso de que
estructura del estudio, modificar variables o utilizar otro número de clústeres dentro del mismo.
48
La cohesión se refiere a que tan similares o que tan cerca están las variables en cada cluster y
separación se refiere a que tan separado está un cluster de otro, es decir que tan distintos son.
Si la cohesión fuese menor a 0 el cluster estaría erróneo, pero en este caso es alrededor de 0.4 por
lo que es aceptable.
Distribución de clúster
2 6 37.5% 33.3%
3 2 12.5% 11.1%
4 4 25.0% 22.2%
5 1 6.3% 5.6%
Total 18 100.0%
Con la siguiente tabla de distribución de cluster se puede observar el % que cada cluster
representa del total de variables, en este análisis bietápico nuevamente la región metropolitana
49
Gráfico representativo de la dimensión de cada cluster, además del cociente de tamaño entre el
50
Número de clústeres Criterio bayesiano de Schwarz (BIC)
1 630.266
2 731.947
3 893.636
4 1067.996
5 1243.117
Como se aprecia en el siguiente gráfico, El BIC nos enseña que nuestro cálculo inicial que
representaba el número de clústeres como 5 es acertado, ya que el valor BIC tiende al alza
al aumentar el número de clústeres, aunque esto se traduce en Aumentar el número de
parámetros dentro del modelo.
51
Centroides:
Son utilizados para determinar la media y desviación estándar de cada variable dentro del estudio, pero en este caso
específicamente su valor dentro de cada cluster. Estas cifras son de gran utilidad para generar un análisis más específico, ya que
el análisis de cluster jerárquico no nos permite acceder a dicha información.
52
Predictores:
Los predictores son valores de las variables que se miden de 0 a 1, los cuales indican cuánto contribuyó cada una al proceso de
clusterización. En la siguiente tabla se presenta la importancia de cada variable de este estudio al realizar la clusterización bietápica.
53
54
55
56
57
58
8. Discusión de resultados
De acuerdo a como fue agrupada cada región del país, surgieron diversas ideas sobre el resultado
final de esta investigación.
Primero se debe considerar que solo se utilizaron variables que miden aspectos sociales
mayoritariamente, pero que de cierto modo cada clúster creado agrupó regiones por Zona. Por
ejemplo el clúster 2 agrupó a regiones de la zona norte, el clúster 4 a regiones de la zona centro
sur y el clúster 5 a regiones de la zona sur. Posiblemente la calidad de vida se ve afectada
indirectamente por los diferentes climas que existen a lo largo de Chile, considerando el estudio
¨High Mortality Days During The Winter Season¨ comparing meteorological conditions across 5 us
cities¨, realizado por Michael J. Allen y Scott C. Sheridan, las temperaturas bajas afectan
negativamente la calidad de vida del ser humano y factores como por ejemplo la tasa de
mortalidad aumenta en regiones de climas fríos.
Otro factor que llama la atención, es que las regiones que componen cada clúster son de tamaños
similares, en términos de superficie.
Además de los factores previamente señalados, muchas de las regiones que son parte de los
clusters generados dependen principalmente de sectores comerciales similares, como en el caso
del clúster 2 que son regiones mineras, o las regiones del clúster 5 que son regiones asociadas al
sector forestal.
También llama la atención el hecho de que ambos clústeres, jerárquico y bietápico, agruparon de
la misma manera las variables y llegaron a valores en común.
Finalmente los resultados obtenidos son aceptables para este estudio, en términos de cohesión y
distancia como fue expresado dentro del análisis del modelo bietápico.
Sobre este tipo de estudios, si bien el ICVU es un indicador bastante bueno y es realizado
periódicamente, no existen muchas fuentes de información con respecto al tema y en el caso de
nuestro estudio, la aplicación del análisis de clúster contribuye nuevas perspectivas para analizar la
calidad de vida en Chile.
59
9. CONCLUSIONES
La calidad de vida, al ser representada mediante el ICVU, nos entrega una visión acerca del
estado en que se encuentra cada región del país y el bienestar de sus habitantes. Un factor que
generalmente se considera necesario para el Desarrollo de la calidad de vida, es el que un
territorio sea próspero y esté rodeado de oportunidades para quien sea parte de él.
Pero si bien, el ICVU considera distintas dimensiones y realiza un ranking de regiones, el Sistema
utilizado al no ser definido dentro del estudio, no permite comprender mediante qué criterios se
realiza la clasificación, ni tampoco el procesamiento de datos, que llevan a obtener una imagen
general del país, que a la larga genera confusión.
Gracias al análisis de cluster, se puede obtener una visión general de cada variable
perteneciente a las diferentes dimensiones, que luego de ser realizado definió a Antofagasta,
como una región que forma parte de un cluster compartido junto a Tarapacá y Atacama.
Inicialmente la hipótesis buscaba encontrar cierta similitud, entre el aporte al PIB nacional
realizado por Antofagasta, y que esto lograse vincularla, considerando estándares de calidad de
vida, con otras regiones prósperas del país, como por ejemplo la región Metropolitana,
Valparaíso o la región del Bío Bío.
Pero en la práctica, el análisis de cluster, optó por asociarla a regiones mineras (Tarapacá y
Atacama) y las regiones mencionadas previamente resultaron formar parte del cluster 1, que
está conformado por las regiones de Arica y Parinacota, Coquimbo, Valparaíso y la región del
Bío-Bío. Mientras que la región Metropolitana, fue definida en un clúster único, ya que no posee
otras regiones que se le asemejen a lo largo del país.
Una posible explicación de este fenómeno, es que la calidad de vida se ve afectada por la
ubicación geográfica de la zona en estudio, o que la administración gubernamental de cada
región en específico se ve influenciada por su vecino más cercano, sumado a que muchas de las
regiones que fueron categorizadas como parte de un clúster poseen economías basadas en
recursos similares, como lo es la minería en el clúster 2, del cual forma parte la región de
Antofagasta.
Esta situación llama bastante la atención, ya que en aspectos generales, mediante el análisis
jerárquico, prácticamente Chile se vio describido en cada clúster según Zona, cada clúster
contenía regiones de zonas similares, pero al usar un Sistema de procesamiento de datos como
la clusterización, la cual está basada en datos que no entregan información alguna sobre la
geografía y la distribución de cada región a lo largo de Chile, es algo que llama bastante la
atención.
Para futuras investigaciones este factor puede ser de gran interés, ya que si bien aclara cómo se
encuentra Antofagasta con respecto a otras regiones del país, a su vez genera muchas
interrogantes de como indirectamente, cada variable que define el ICVU, fue capaz de describir
60
la distribución de las regiones nacionales y como cada una se asemeja entre si, casi de forma
preestablecida por la localización.
61
10. RECOMENDACIONES
11. ANEXOS
62
12. BIBLIOGRAFÍA
63
Construcción, C. C. (05 de Mayo de 2016). Cámara Chilena de la Construcción. Obtenido de
https://cchc.cl/centro-de-informacion/publicaciones/publicaciones-otras-publicaciones/
icvu-2016
https://www.politicaspublicasdelnorte.cl/informe-calidad-de-vida-urbana-2011-icvu/. (s.f.).
https://www.politicaspublicasdelnorte.cl/informe-calidad-de-vida-urbana-2011-icvu/. (s.f.).
64
Slideshare. (07 de Mayo de 2013). Slideshare. Obtenido de https://es.slideshare.net/edowoo/icvu-
2013prensa7demayofinal
65