Informe Final ICVU DICIEMBRE

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 65

COMPARATIVA DEL ÍNDICE DE CALIDAD DE

VIDA URBANA ENTRE ANTOFAGASTA Y


REGIONES DE CHILE MEDIANTE ANÁLISIS
DE CLÚSTER

Jorge Baltra 1 , Jorge Castillo 2 , Francisca Herrera 3

Profesor Guía: Jan Cademartori Dujisin

Profesores Correctores:

Fecha:

1
Departamento de Ingeniería Comercial, Facultad de Ingeniería, Universidad de Antofagasta, Campus Coloso, Avda.
Universidad de Antofagasta s/n, Email: [email protected].
2
Departamento de Ingeniería Comercial, Facultad de Ingeniería, Universidad de Antofagasta, Campus Coloso, Avda.
Universidad de Antofagasta s/n, Email: [email protected].
3
Departamento de Ingeniería Comercial, Facultad de Ingeniería, Universidad de Antofagasta, Campus Coloso, Avda.
Universidad de Antofagasta s/n, Email: [email protected].

1
AGRADECIMIENTOS

Jorge Baltra

Jorge Castillo

Francisca Herrera

RESUMEN

2
En el siguiente proyecto, se realizará un estudio sobre la Región de Antofagasta respecto a su
índice de calidad de vida urbano, comparándolo con los distintos niveles a lo largo del país.

Se definirá lo que significa la Calidad de Vida Urbana, las condiciones que conllevan este índice y
además cada una de sus variables.

La metodología a utilizar para esto será el uso de una herramienta estadística, conocida como
análisis de clúster, que brindará un análisis objetivo y lo más acertado posible, el cual pueda
brindar un acercamiento al lector y otorgar una nueva perspectiva sobre la segunda región en
comparación con el resto de Chile.

Con la información adquirida, se creará una base de datos en el programa SPSS para la aplicación
de análisis de clúster y con los resultados se generará una perspectiva neutra para categorizar a
cada región del país en conglomerados y tener una visión más certera sobre la realidad nacional
con respecto a la calidad de vida.

3
ÍNDICE

AGRADECIMIENTOS 2

RESUMEN (REVISARLO AL FINAL DEL TRABAJO) 3

ÍNDICE 4

INTRODUCCIÓN 4

PLANTEAMIENTO DEL PROBLEMA 5


OBJETIVO GENERAL 10
OBJETIVOS ESPECÍFICOS 10

FUNDAMENTACIÓN TEÓRICA 11

HIPOTESIS Y VARIABLES 15

METODOLOGÍA 19

RECOLECCIÓN DE LA INFORMACIÓN 40

RESULTADOS 41

DISCUSIÓN DE RESULTADOS 57

CONCLUSIONES 57

RECOMENDACIONES 57

ANEXOS 58

BIBLIOGRAFÍA 59

1. INTRODUCCIÓN

En el presente proyecto se investigará la situación vivida en Antofagasta durante el año 2020


respecto a la calidad de vida urbana. Muy frecuentemente se considera que Antofagasta es una

4
región que debiese contar con una buena calidad de vida, teniendo en cuenta que es de las
regiones que más aporta al PIB nacional.

Considerando la información en escala monetaria, puede que esto sea así, ya que es una de las
regiones más ricas del país, pero se debe recordar que en la vida no todo es dinero y que el dinero
no siempre es sinónimo de felicidad.

El indicador de Calidad de Vida Urbana (ICVU) es un estudio que realiza todos los años la
Universidad Católica a través del Instituto de Estudios Urbanos, en conjunto con la Cámara Chilena
de la Construcción, trabajo que busca medir de forma objetiva las condiciones de vida de la
población.

Si bien este estudio no es una medición oficial por parte de algún Órgano de la Administración del
Estado, sus resultados se han convertido en una referencia para saber y comparar el estado de la
calidad de vida que ofrecen las regiones de Chile.

Mediante la síntesis de información proveniente de diferentes fuentes públicas y privadas a lo largo


del país, este proyecto buscará generar una explicación objetiva y lo más acercada a la realidad
posible. Se buscará crear una imagen general sobre la condición en la que se encuentra la región.
El problema de éste es que es un estudio generalizado respecto a la Segunda Región, pero en la
siguiente investigación se realizará un estudio basado en esta información, sustituyendo
indicadores para garantizar que exista una transparencia informativa y permitir al lector
interiorizarse con la información disponible.

Buscando responder a la siguiente interrogante: ¿A qué regiones se asemeja Antofagasta con


respecto al ICVU?

2. PLANTEAMIENTO DEL PROBLEMA

2.1 Problemática
En el tiempo Chile ha avanzado en economía, mayoritariamente, gracias al potencial del sector
minero, lo que ha provocado un avance notorio del desarrollo como país. Debido a esto es que las
regiones que tienen mayor influencia en el PIB nacional son en su mayoría pertenecientes al sector

5
norte del país, donde la Región de Antofagasta se posiciona como una de las con mayor aporte al
PIB chileno. Teniendo en cuenta ese factor, se podría traducir que la Región de Antofagasta podría
ser considerada como un lugar con una alta calidad de vida, pero tomando en cuenta diversos
indicadores que se consideran dentro del Índice de Calidad de Vida Urbana debemos tener en
cuenta que para determinar si una zona particular posee una buena calidad de vida, existen
diversos factores, que se determinan mediante variables.

El índice de Calidad de Vida Urbana(ICVU), se viene realizando desde el año 2011 en donde a partir
de 36 variables, se construyeron en 6 dimensiones distintos factores relacionados con la calidad de
vida:

• Condición Laboral (CL), referidas a variables que midan las facilidades de acceso al
mercado laboral, ingresos, capacitaciones, desarrollo profesional y protección social de los
residentes.

• Ambiente de Negocios (AN), referidas a variables económicas manifiestas que permitan


corroborar que la ciudad y/o comuna es un medio urbano favorable para la generación de
inversiones privadas y/o emprendimientos por cuenta propia.

• Condiciones Socio Culturales (CS), referido a la medición de variables relativas al nivel de


participación de la población en organizaciones sociales, así como a los niveles de seguridad y
educación que afectan la formación de capital social.

• Conectividad y Movilidad (CM), referido a la medición de variables relacionadas con las


condiciones de la infraestructura de conectividad, movilidad y seguridad vial de la población
residente.

• Salud y Medio Ambiente (SM), referido a la medición de condiciones de salud de la


población en relación a enfermedades que presentan una mayor correlación con las condiciones
ambientales y su medio antrópico.

• Vivienda y Entorno (VE), referido a variables que dan cuenta de la calidad de la vivienda,
nivel de hacinamiento e inversión en el espacio público cercano para sus residentes.

Mediante estas dimensiones, es que se puede elaborar un Índice multidimensional que


permite comparar en términos relativos la calidad de vida que tiene cada comuna, o
ciudad que está constituida por más de una comuna, permitiendo focalizar donde se
encuentran los déficits y así dar orientaciones a la acción pública y privada en el territorio
para ser mejor ciudad.

El problema de la investigación previa, realizada por la PUC, es que existen muchas


variables que carecen de accesos a la información en la cual se basan, por lo que genera
un desconcierto para quien quisiera indagar más sobre este tópico de gran interés,
entonces es menester el generar estudios, donde la información tenga mayor
accesibilidad para el público.

6
Otro factor que se puede considerar algo confuso, es que se trabaja mediante la opinión
de expertos para la elaboración del indicador, pero en ningún momento se comenta el
sistema a utilizar a la hora de calcular cada valor, entonces se optó en este trabajo para
crear una variación del sistema utilizado por la PUC y enfocarse más en generar una base
de datos, que sintetiza cada dimensión del ICVU, pero que estandarice las variables y las
compare mediante un análisis de clúster.

2.2 Delimitación de la investigación

La investigación del ICVU de la PUC fue realizada durante el año 2020, en la ciudad de Santiago.
Mientras que el presente informe fue realizado en la región de Antofagasta, desde Octubre del año
2021 hasta inicios de Enero de 2022.

Este estudio contempla 16 regiones de Chile, las cuales son:

● Región de Arica y Parinacota.


● Región de Tarapacá.
● Región de Antofagasta.
● Región de Atacama.
● Región de Coquimbo.
● Región de Valparaíso.
● Región Metropolitana de Santiago.
● Región del Libertador General Bernardo O’Higgins.
● Región del Maule.
● Región del Ñuble.
● Región del Biobío.
● Región de La Araucanía.
● Región de Los Ríos.
● Región de Los Lagos.
● Región de Aysén del General Carlos Ibáñez del Campo.
● Región de Magallanes y la Antártica Chilena

Y se limitará a analizar cada variable, a partir de información del año 2020.

7
2.3 Justificación

Si bien estudios como el ICVU son de gran utilidad para entender la realidad nacional,
como es mencionado anteriormente, es de vital importancia poseer estudios donde exista
acceso a información comprometida con estos, y mejor aún actualizada.

Para saber realmente cómo se comporta la Región de Antofagasta, respecto a las demás
regiones, teniendo en cuenta variables consideradas que tienen influencia en el ICVU de
cada región.

Bajo esta imagen se ve en duda si realmente esta información es actual, o si variables que
afectan positivamente la situación de la región son parte de este índice. Dado lo anterior,
se decide usar fuentes de acceso público, para así entregar información franca y
transparente.

De acuerdo con lo mencionado anteriormente, se busca entender la relación de


Antofagasta como región en el ICVU, tomando en cuenta las demás regiones y su
comportamiento en base a este índice.

¿Qué dimensión afecta a cada región en el índice como tal?, ¿Que se debe considerar para

Con esta investigación, se busca tener una razón de cómo la Región de Antofagasta se
asemeja a otras regiones del pais, teniendo en cuenta las influencias de cada variable
recogida del ICVU. ¿Qué área influye más dentro de este índice?, ¿Que no se debe
considerar y que sí en este índice?, entre otras preguntas como esas se ve envuelta esta
investigación.

“LO QUE SE BUSCA ES QUÉ VARIABLE INFLUYE MÁS..” “CÓMO AFECTA/DISTRIBUYE VARIABLES Y
CÓMO SE CLASIFICA ANF RESPECTO A CL”
PRECISAR

/ JUSTIFICAR LA INVESTIGACIÓN DE NOSOTROS / “YO VOY A HACER ESTO POR TAL

MOTIVO, VAMOS A ANALIZAR EL ÍNDICE / IR A LO CONCRETO

8
2.4 Limitaciones

Una limitación para el desarrollo fue, como para todos, la llegada del COVID-19, pandemia que
afectó directamente a la presencialidad de muchos tipos de mediciones, sobre todo en el ámbito
de educación. Ejemplo claro de lo anterior son las pruebas SIMCE, que estos últimos años no se
pudieron aplicar, por ende, no se dispone con la información del año 2020.

También existían problemas con diferentes medios oficiales, ya que algunos servidores contaban
con problemas que afectan negativamente el acceso a las fuentes de información, por lo que
algunas variables tuvieron que ser eliminadas o simplemente ser reemplazadas por otras, ya que
siempre existía el riesgo de que el sitio donde se encuentra la fuente, apareciese como sin acceso
que simplemente la página había dejado de existir.

Además al ser un estudio que considera cada región nacional, se encontró investigaciones
publicadas que poseían enfoques en ciertas zonas del país, que simplemente ignoraban otras
regiones, o que por ejemplo mencionan las variables de diez regiones solamente y al buscar la
información faltante en otros medios, ésta simplemente no existía.

Algunas variables han sido modificadas y otras agregadas.

Las variables agregadas durante este estudio fueron:

● Porcentaje de participación en el mercado laboral.


● Tasa de participación laboral.
● Tasa de participación femenina en el trabajo.
● Puntaje PSU promedio en establecimientos municipales.
● Tasa de años de vida potenciales perdidos.
● Acceso inadecuado de agua potable.

Dentro del estudio previo también se modificó variables, la variable metro de áreas verdes con
mantenimiento por habitante se reemplazó por superficie total en metros cuadrados de parques
urbanos , la cantidad de camas en hospitales y clínicas cada 1000 habitantes se cambió por Tasa de
establecimientos del SNSS y el gasto total municipal por habitante en la comuna por el gasto cada
100.000 habitantes en $.

9
2.5 Objetivos

Objetivo general

Comparar similitudes y diferencias entre Antofagasta y otras regiones de Chile al agruparlas en


distintos conglomerados, mediante una corrección del ICVU publicado por el Instituto de Estudios
Urbanos de la PUC, sustituyendo variables sin acceso a la información por aquellas con mayor
accesibilidad.

Objetivos específicos
a) Conformar una Base de Datos para cada una de las variables que actualmente incluye el
ICVU. Elaborado por la Universidad Católica.
b) Proponer nuevas variables para un nuevo ICVU que cumplan con el acceso público a los
datos.
c) Comparar el ICVU de las Regiones de Chile utilizando un Análisis de Clúster jerárquico y
bietápico.

3. Fundamentación teórica

3.1 Estado del arte

Autor Descripción del artículo

Índice de calidad de vida Según la composición del ICVU, se puede entender que, debido al
urbana, Orellana (2012) fenómeno multidimensional de la realidad urbana, existen
diferencias en los estándares para la medición de la calidad de
vida a nivel nacional. Estos estándares regionales son esenciales
para generar una comprensión general sobre la realidad de cada
región en torno a las dimensiones señaladas en este estudio.

Indicadores de calidad Se plantea la necesidad de crear una ruta metodológica para


de vida urbana, teoría y generar un índice global de calidad de vida urbana, a partir de la
tarea de integrar distintos indicadores urbanos, colocando en
metodología, Leva
manos de los gestores públicos una herramienta privilegiada para

10
(2005) la toma de decisiones en materia de calidad de vida.

Indicadores de calidad Surge la pregunta de cómo construir indicadores o cuáles de


de vida y políticas éstos considerar para hacer un diagnóstico consciente de las
públicas, Rey (2014) falencias o virtudes de cada urbe y remediarlas o potenciarlas a
través de políticas públicas puntuales.

Análisis de Se plantea metodológicamente cómo trabajar con Análisis de


conglomerados o Clúster, con el objetivo de encontrar qué grupos de
clúster, Figueras (2001) conglomerados son significantes y cuáles no.

Integración urbana y Se explora la relación entre la calidad de vida urbana e índices de


calidad de vida: Integración urbana a partir del Sistema de Indicadores y
disyuntivas en contextos Estándares de Desarrollo Urbano (SIEDU).
metropolitanos, Vicuña
(2019)

La calidad de vida en
espacios urbanos, Se busca establecer planteamientos para la calidad de vida
Gonzalez (2018) experimentada según habitantes en un espacio determinado
teniendo en cuenta dos elementos básicos: Salud o condiciones
objetivas en que viven las personas y la percepción, satisfacción o
evaluación subjetiva de las personas acerca de su situación.

En estas investigaciones se usa una metodología de trabajo para realizar estudios en vistas de
desarrollar y poder tener una buena aplicación del ICVU, revisando distintos indicadores nacionales
e internacionales que se consideran para medir la calidad de vida. De esta manera optan a
construir el indicador con variables objetivas (datos cuantitativos) registradas y actualizadas cada
cierto tiempo por fuentes institucionales públicas y privadas, de un carácter confiable. Esta
información se usará como guía para poder desarrollar el estudio y entenderlo de una manera
similar a cómo se ha planteado anteriormente.

11
Marco teórico:

La utilización del concepto de Calidad de Vida (CV) puede remontarse a los Estados Unidos
después de la Segunda Guerra Mundial, como una tentativa de los investigadores de la época de
conocer la percepción de las personas acerca de si tenían una buena vida o si se sentían
financieramente seguras (Campbell, 1981; Meeberg, 1993).

El hecho que desde sus inicios haya estado vinculado a otras variables psicológicas que involucran
en sí mismas el concepto de bienestar ha posibilitado que a la fecha, muchos investigadores no
diferencien claramente en sus estudios cada concepto o lo utilicen de manera distinta.

El concepto de Calidad de Vida actualmente incorpora tres ramas de las ciencias: economía,
medicina y ciencias sociales. Cada una de estas disciplinas ha promovido el desarrollo de un punto
de vista diferente respecto a cómo debiera ser conceptualizada la CV (Cummins, 2004)

Diagrama 1: Modelo conceptual de la OMS.

12
La metodología más apropiada a utilizar será el Indicador Calidad De Vida Urbana (ICVU)
(Orellana; Bannen; Fuentes; Gilabert y Pape). Donde se analizarán 6 ámbitos como componentes
de un ICVU, bajo condiciones objetivas y comparables:

1. Condición laboral.
2. Ambiente de negocios.
3. Condiciones socioculturales.
4. Conectividad y movilidad.
5. Salud y medio ambiente.
6. Vivienda y entorno.

Dado a la diferencia de población que hay entre regiones se toma como muestra datos
proporcionales.

Finalmente se trabajará mediante el uso del software SPSS para la tabulación de datos, los que
posteriormente serán comparados mediante la realización de un Análisis de Clúster (También
llamado análisis de conglomerados), para establecer una relación entre la calidad de vida urbana
del resto del país y la Región de Antofagasta.

El análisis de clúster es una técnica de análisis estadístico multivariante correspondiente a los


métodos de clasificación automática o no supervisada, que busca agrupar los elementos de una
muestra en grupos homogéneos, teniendo en cuenta la similitud entre ellos. (Peña, 2002) .

Esto se considera de gran utilidad cuando no existe supuesto previo acerca de cuántos clústeres
existirán dentro de un conjunto y nos proveen de información acerca de las distintas asociaciones y
posibles patrones que puedan haber dentro de una base de datos.

Existen distintos tipos de clústeres, pero para este estudio se utilizarán los siguientes: El clúster
jerárquico que corresponde a un algoritmo que agrupa los datos, basados en la distancia entre
cada uno e identificando cuáles datos dentro del clúster son más similares entre sí. Y el clúster
bietápico, que es utilizado para determinar una cantidad óptima de subgrupos. A diferencia del
clúster jerárquico se puede trabajar con un número predeterminado de clústeres, utilizando
variables categóricas y continuas de forma simultánea.

El análisis establece dichos grupos basándose en la similitud que presenta un conjunto de


entidades respecto de una serie de características que el investigador ha especificado

13
previamente. Al final, se extrae los grupos de sujetos y sus características definitorias: número de
segmentos, número de integrantes de cada segmento. Si las variables de aglomeración están en
escalas muy diferentes, será necesario estandarizarlas previamente. Es necesario observar
también los valores atípicos y desaparecidos, porque los métodos jerárquicos no tienen solución
con valores perdidos, y porque los valores atípicos deforman distancias y producen clúster
unitarios. Es perjudicial la presencia de variables correlacionadas, por lo que es conveniente
realizar primero un análisis de multicolinealidad. Los conglomerados deben tener sentido
conceptual y no variar mucho al cambiar la muestra o método de aglomeración. Para la formación
de clúster en este trabajo se utilizó la técnica de Análisis de Clúster Jerárquico, con el Método de
Ward, que tiene por objeto maximizar la homogeneidad dentro de cada conglomerado. Para ello,
plantea todas las posibles combinaciones de observaciones para el número de grupos que se esté
considerando en cada etapa concreta. Este método, propuesto por Ward en 1963 es uno de los
más utilizados en la práctica; posee casi todas las ventajas del método de la media, y suele ser
más discriminativo en la determinación de los niveles de agrupación. Este método, además, es
capaz de encontrar mejor una clasificación óptima en comparación con otros métodos.

Ward propuso que la pérdida de información que se produce al integrar los distintos individuos en clústeres
puede medirse a base de la suma total de los cuadrados de las desviaciones entre cada punto (individuo) y la
media del clúster en el que se integra. Para que el proceso de “clusterización” resultará óptimo, en el sentido
de que los grupos formados no distorsionen los datos originales, proponía la siguiente estrategia: en cada paso
del análisis, considerar la posibilidad de la unión de cada par de grupos y optar por la fusión de aquellos dos
grupos que menos incrementa en la suma de los cuadrados de las desviaciones al unirse. La ventaja del
método de Ward es que no deja ningún tipo de “cabos sueltos”. No quedan formados grupos que tengan uno o
muy pocos elementos. Todos los datos se agrupan en clústeres que tienen varios elementos. Así, las
principales ventajas del método de Ward son: la formación de clústeres más compactos y de similar tamaño y
la minimización de la pérdida de información en el proceso de organización de los conglomerados. La medida
de similitud a base de la cual se formaron los grupos fue la distancia, esto es, las distintas medidas entre los
puntos del espacio definido por los individuos. La distancia euclídea al cuadrado es la medida utilizada para la
formación de conglomerados en este trabajo y se expresa: distancia euclídea al cuadrado d(i, j) 2 = ∑ k (xik −
xjk) 2 . Se observa que la distancia euclídea al cuadrado entre dos individuos se define como la suma de los
cuadrados de las diferencias de todas las coordenadas de los dos puntos. Para la determinación de los grupos
se hace uso del gráfico denominado dendograma, que puede emplearse para evaluar la cohesión de los
conglomerados que se han formado y proporcionar información sobre el número adecuado de conglomerados
que deben conservarse. El tipo de variable utilizada en este trabajo es métrica y es la participación de cada
sector económico, a nivel provincial en la demanda de créditos bancarios. El software utilizado para realizar
los conglomerados y el resto del análisis fue el SPSS

14
El procedimiento de análisis de conglomerados en dos fases, también llamado bietápico, es una herramienta
de exploración diseñada para descubrir las agrupaciones naturales de un conjunto de datos, permitiendo así
la generación de criterios de información, frecuencias de los conglomerados y los estadísticos descriptivos por
conglomerado, gráficos de barras, sectores y gráficos de importancia de las variables. El método de análisis
de conglomerados en dos fases tiene unas características únicas respecto a otros métodos de
conglomeración tradicionales, que son las siguientes: un procedimiento automático del número óptimo de
conglomerados, la posibilidad de crear modelos de conglomerados con variables tanto categóricas como
continuas y la opción de trabajar con archivos de datos de gran tamaño.

El análisis cluster de K-medias es una herramienta diseñada para asignar casos a un número fijo de grupos
(clusters o conglomerados) cuyas características no se conocen aún pero que se basan en un conjunto de
variables especificadas. Es muy útil cuando queremos clasificar un gran número (miles) de casos.

El procedimiento del análisis cluster de K-medias empieza con la construcción de unos centros de
conglomerados iniciales. Podemos asignar estos nosotros mismos o tener un procedimiento de selección de
observaciones bien situadas para los centros de conglomerados.

Después de la obtención de los centros de los conglomerados, el procedimiento:

● Asigna casos a los conglomerados basándose en la distancia de los centros de los conglomerados.
● Actualizar las posiciones de los centros de los conglomerados basándose en los valores medios de
los casos en cada conglomerado.

Estos pasos se repiten hasta que cualquier reasignamiento de los casos haga que los conglomerados sean
internamente más variables o externamente similares.

Medidas de distancias

A partir de la matriz de datos X de orden Nxp se construye la matriz S de distancias de orden NxN, donde
cada coeficiente de S, sij representa el valor de un coeficiente de disimilitud para los casos i y j, que mide el
grado de disimilitud/distancia de los individuos. Esta matriz será simétrica, dado que sij = sji Estas matrices
pueden variar considerablemente para los mismos datos según la medida de disimilitud/distancia usada y
según haya o no transformado o estandarizado las variables originales. R proporciona varias medidas de
distancia. Una de las más usadas es la euclidea (la raíz cuadrada de la suma de cuadrados de las diferencias) .
Vea ayuda para la función dist en R ("euclidean", "maximum", "manhattan", "canberra", "binary" o
"minkowski"). La función daisy en el package cluster permite usar métricas euclidea, manhattan o distancia

15
de Gower, esta función es útil cuando las variables usadas no son numéricas (nominales, binarias, ordinales o
incluso combinaciones de ellas). Para más información use ayuda de R. Variables cuantitativas: La medida
más importante es la distancia euclídea y derivaciones de ella mediante ponderaciones. Sean X1, X2, ..., Xp
las variables observadas. Notamos con Xij valor observado en el caso i-ésimo en la variable j-ésima. Dados
dos casos i e i’, se definen las siguientes medidas de proximidad: • Distancia euclídea: Es la raíz cuadrada de
la suma de los cuadrados de las diferencias entre los valores de los elementos. Ésta es la medida por defecto
que suele usarse para datos de intervalo. ∑= −= p j ii jiij xxd 1 2 ' ' ( ) Depende de la escala de medida. Sus
valores no están acotados. Variables binarias (presencia/ausencia de atributo): Existe una gran diversidad de
medidas. Basadas en si están o no presentes las modalidades de las variables binarias. Departamento de
Estadística e Investigación Operativa 4 Supongamos que la tabla siguiente resume la información para un par
de casos i e i’. Cada caso vendrá dado por una p-upla de unos y ceros, donde: 1 indica la presencia y 0 la
ausencia de cierto atributo. Caso i 1 0 1 a b Caso i’ 0 c d a = total de atributos presentes en el caso i y en el
caso i’ d = total de atributos ausentes en ambos casos b = total de atributos ausentes en i y presentes en i’ c =
total de atributos ausentes en i’ y presentes en i Distancia euclídea: cbdii' += Es sencillamente la distancia
euclídea para el caso particular en que las variables toman sólo los valores 1 y 0. Dependiendo de las
características de los datos, unos coeficientes serán más o menos apropiados que otros. Se puede llegar a
designar a dos casos como iguales o distintos, dependiendo de la medida usada. Entre los de uso más
frecuente destaca el coeficiente de concordancia simple. Unas veces será importante considerar el recuento de
ausencias y otras no. En algunos análisis, tan importante es considerar la concordancia de presencias como de
ausencias. Es preciso advertir que si se realizan varios análisis con medidas diferentes y los resultados del
agrupamiento son similares, esto no garantiza siempre que se haya encontrado la verdadera estructura de los
datos, dado que muchos de los coeficientes especificados están relacionados entre sí y, en consecuencia, la
concordancia de resultados puede responder, en muchos casos, a las relaciones existentes entre las medidas de
similaridad usadas, más que al carácter de la estructura del agrupamiento. R permite efectuar un análisis
cluster jerárquico usando como entrada una matriz de datos o la de distancias. Esta opción es interesante
porque a veces no se dispone de los datos originales o, bien, porque se desea manipular previamente la matriz
de distancias.

16
4. HIPOTESIS Y VARIABLES

4.1 Hipótesis General:

En la agrupación de conglomerados, Antofagasta debería encontrarse en un clúster compuesto


por regiones de mayor aporte al PIB.

4.2 Diagramas de variables

17
18
19
4.3 Definición operacional de variables

Nombre Empresas Delitos de Establecimientos Denuncia por


Operacional Nuevas mayor SNSS violencia
connotación
social

Variable Tasa de Tasa de delitos Tasa Camas Tasa de denuncias por


Empresas de mayor establecimientos violencia intrafamiliar
nuevas cada connotación SNSS cada Cada 100.000
100.000 social cada 100.000 habitantes
habitantes 100.000 habitantes
habitantes

Descripción Empresas Los delitos de Camas La violencia


nuevas mayor disponibles de intrafamiliar es todo
registradas en el connotación establecimientos aquel acto de poder u
SII de manera social refieren a del Sistema omisión recurrente,
Anual. aquellos delitos Nacional de dirigido a dominar,
de carácter Servicios de someter, agredir
violento y que Salud por cada física, psico-
afectan la 100.000 emocional o
propiedad, la habitantes socialmente a
(Empresas vida y bienes de cualquier miembro de
nuevas/Poblacio las personas, la familia
n total)x100.000 generando con (Camas
ello un impacto disponibles
público. SNSS/Población)x
100.000
(Denuncias por
(Tasa de delitos violencia
/ intrafamiliar/Població
Población)x100. n)x100.000
000

20
Nombre Año de vida Hacinamiento Atención Adscripción sistema de salud
Operacional potencial perdido médica

Variable Tasa de años de Porcentaje de Tasa de Porcentaje de Hogares


vida potenciales Carencia de atención carentes en adscripción al
perdidos hacinamiento médica sistema de Salud
Últimos 3
meses
(2020)

Descripción Tasa de años de Razón entre el n° Porcentaje de Porcentaje hogares donde


personas que han
vida potenciales de residentes y algún integrante que no están
recibido atención
perdidos se refiere el n° de médica ante un afiliada a un sistema
a la pérdida que dormitorios en la problema de previsional de salud y no tiene
ocurre cuando vivienda, salud, otro seguro de salud.
enfermedad o
fallecen personas considerando
accidente en los
jóvenes o existen piezas de uso N°Hogares sin adscripción al
últimos 3 meses
fallecimientos exclusivo o uso respecto del total sistema de salud/Hogares con
prematuros. múltiple de la población adscripción al sistema de
que presenta un salud
problema de
salud,
enfermedad o
l: Edad límite N° accidente durante
inferior Residentes/N° el mismo periodo.

dormitorios.
L: Edad límite
superior
Personas
atendidas últimos
i: Edad de muerte 3 meses/Total
población que
di: Número de presentó
defunciones a la problemas de
salud en el mismo
edad i
periodo

21
Nombre Simce Simce Fecundidad PSU Colegios Municipales
Operacional Lenguaje Matemáticas Adolescente

Variable Promedio Promedio Tasa de Puntaje PSU promedio en


Simce Simce fecundidad establecimientos municipales
Lenguaje 2019 Matemáticas adolescente en
2019 porcentaje

Descripción Promedio de Promedio de Tasa de


prueba Simce prueba fecundidad
de alumnos de SIMCE de adolescente
4to básico en alumnos de como porcentaje
la asignatura 4to básico en del total de
de Lenguaje la asignatura mujeres
por región de embarazadas en
Matemáticas cada región
por región

x1,x2..xn=
Promedio
personal por x1,x2..xn=
estudiante Promedio
personal por
N: Total de estudiante Puntaje promedio PSU de
estudiantes Matemáticas, Historia, Ciencias
N: Total de e Historia por región en
estudiantes establecimientos municipales

22
Nombre Hogar y Medio Asistencia Mercado Laboral Hogar y
Operacional Ambiente Educacional Seguridad

Variable Porcentaje de Porcentaje de Porcentaje que Porcentaje de


Hogares carentes Hogares Carentes participa del hogares carentes
por medio en asistencia mercado laboral seguridad
ambiente

Descripción Porcentaje de Son aquellos Razón entre la Expresa el


hogares que donde algún fuerza de trabajo porcentaje de
residen en un niños/as y o población hogares que
entorno inmediato
adolescentes de 4 económicamente declaran haber
de su vivienda que
a 18 años no está activa (ocupados presenciado una
está afectado por
asistiendo a un y desocupados) situación de
la presencia de dos
o más situaciones establecimiento con respecto a la inseguridad
persistentes de educacional y no población en (tráfico de
contaminación ha egresado de edad de trabajar drogas o
cuarto medio, o (15 años y más). balaceras) cerca
personas de 19 a de su residencia
26 años tiene una con frecuencia
condición de siempre.
permanente y/o
de larga duración y
no asisten a un
establecimiento
educacional.

23
Nombre Hogar y Trato Hogar y Ingreso del Hogar y
Operacional social Participación Hogar Accesibilidad
Social

Variable Porcentaje de Porcentaje de Ingreso Porcentaje de


hogares hogares monetario del hogares
carentes de carentes de hogar promedio carentes en
trato social apoyo y accesibilidad
participación
social

Descripción Expresa el Porcentaje de El ingreso Muestra el


porcentaje de hogares que no monetario del acceso expedito
hogares que disponen de hogar se define a servicios de
declaran que redes sociales como la suma transporte,
alguno de sus ni participan en del ingreso salud y
miembros ha un grupo autónomo del educación (en
sido organizado. hogar y las un radio de
discriminado en transferencias distancia
los últimos 12 monetarias que caminable
meses. recibe el hogar desde la
del Estado. Las vivienda
transferencias
monetarias son
todos los pagos
en dinero
provistos por el
Estado.

24
25
Nombre
Operacional Utilización de Mujeres en el Acceso Inadecuado
Internet Trabajo Agua Potable

Variable Población de 5 Tasa de Acceso inadecuado


años o más que participación a agua potable o
utiliza internet 1 femenina en el no cuentan con
vez a la semana al trabajo conexión a
menos alcantarillado

Descripción Total de individuos Porcentaje de Número total de


mayores a 5 años que participación población sin
tienen acceso a femenina (busca o alcantarillado vs total
internet al menos una tiene empleo) /total población
vez a la semana / total población región
población región

26
5. Metodología

Antes de realizar el análisis de clúster respectivo a cada variable del estudio, primero se
consideró de gran importancia el realizar una estandarización de cada una de ellas. Ya que
gracias a esta herramienta, se puede comparar datos de distribuciones distintas o que
posean diferentes unidades de medida.
Por lo que al generar la distribución normalizada, se genera una media aritmética igual a 0
y una desviación estándar de 1 a lo largo de todas las variables estandarizadas.
Dentro de la clusterización esta herramienta es usada muy comúnmente, ya que se
trabaja con grandes cantidades de información y que muchas veces, no está toda en
unidades similares.

Variables de investigación

En esta investigación existen variables como el ingreso, que se expresa en miles o millones
de pesos, mientras que otras como la participación femenina en el trabajo está
determinada en porcentaje. Por lo que a la hora de comparar un ingreso de por ejemplo 2
millones de pesos vs un 46% de participación femenina en el trabajo en la región de Arica,
puede llevar a diferencias muy grandes que a la hora de clusterizar, pueden llevar a
generar números tan elevados que requieran notación científica, por ende para que este
proceso sea más simple de comprender para el lector, se optó por estandarizar, trabajar
con variables bajo una distribución normalizada y de esta forma a su vez disminuir el
reescalado dentro del clúster jerárquico.

Tipos de Clúster

Dentro de la presente investigación se optó por utilizar el clúster jerárquico y bietápico


por sobre otras categorías de clúster.
La decisión de considerar un clúster jerárquico por sobre otros, se debe principalmente a
que es mucho más fácil de implementar y además sus resultados poseen una mayor
simplicidad a la hora de interpretarlos, el dendrograma es una herramienta de gran
utilidad para el investigador a la hora de explicar conglomerados, debido a que es capaz

27
de reescalar la distancia entre variables, para de tal forma generar un gráfico compacto
que resume toda la información proveniente del análisis de clúster.
En el caso del clúster bietápico, que también es conocido como Two-step clúster debido a
su título en inglés. Se priorizó debido a que es bastante único, además tiene tres
características diferenciadoras a considerar con el resto de métodos.
I) Permite trabajar con variables categóricas y contínuas.
II) Permite definir previamente el número de clústeres a generar.
III) Permite analizar grandes números de datos.
Durante esta investigación se consideró de gran utilidad el two-step clúster,
principalmente ya que posee además a los 3 puntos previos, una tabla de centroides que
indica la media y desviación estándar por variable en cada clúster, por lo tanto, es una
herramienta que permite realizar un análisis más específico de alguna información que es
omitida durante el clúster jerárquico.

Distancia Clústeres

En el caso de la unidad para determinar la distancia entre clústeres se escogió la distancia


euclidiana por sobre otras, debido a que considera el tamaño del segmento que conecta
ambos puntos entre conglomerados, forma mucho más acertada de calcular distancia en
comparación a otros métodos, como por ejemplo la distancia Manhattan, que calcula la
distancia solo horizontal o verticalmente.
Sobre otras formas de establecer distancias en este tipo de estudios, existen otras
medidas de disimilitud como la distancia basada en la correlación, pero este tipo de
proceso es más enfocado al estudio en el área de la genética, por lo que se priorizó
trabajar con distancia euclidiana por los motivos previamente señalados.

28
5.1 Tipo de Investigación

● El presente estudio corresponde a una investigación histórica, debido a que se trabaja con
datos provenientes de un año anterior, donde se describe cómo era el contexto nacional
en aquel momento.

5.2 Población Y Muestra


● Al trabajar con variables, las cuales se miden tienen distintas escalas de medida y además
poseen valores numéricos muy distintos entre sí, se optó por estandarizar la información,
ya que de no hacerlo esto podría llevar a resultados muy alejados de la realidad.

El presente estudio considera las siguientes variables:

VARIABLE Tasa de Tasa de Tasa Tasa de Promedi Promedio


Empresa delitos de Camas denuncias o Simce Simce
s nuevas mayor establecimi por Lenguaje Matemáticas
cada connotación entos violencia 2019 2019
100.000 social cada SNSS cada intrafamiliar
habitante 100.000 100.000 Cada
s habitantes habitantes 100.000
habitantes

MEDIA 1274,8 1833,5 152,7 688,5 241 259

MEDIANA 1680,7 2316 248,2 958 243 268

MAX 1096,5 832 52,5 481 233 248

MIN 1306,2 1809 160,1 709,4 240,3 259

29
VARIABLE Tasa de Puntaje Tasa de Porcentaje Tasa de Porcentaje de
fecundida PSU años de de atención Hogares
d promedio en vida Carencia médica carentes en
adolesce establecimie potenciales de Últimos 3 adscripción al
nte en ntos perdidos hacinamien meses sistema de
porcentaj municipales to (2020) Salud
e

MEDIA 25,2 461,15 77 4% 0,92 5%

MEDIANA 35,1 486,3 78 8% 0,94 9%

MAX 19,3 438,2 76 3% 0,88 3%

MIN 26,1 461,3 77 4% 0,92 5%

VARIABLE Porcentaj Porcentaje Porcentaje Porcentaje Porcentaj Porcentaje de


e de de Hogares que de hogares e de hogares
Hogares Carentes en participa carentes hogares carentes de
carentes asistencia del seguridad carentes apoyo y
por mercado de trato participación
medio laboral social social
ambiente

MEDIA 3% 2% 54% 7% 11% 6%

MEDIANA 18% 3% 61% 20% 17% 10%

MAX 1% 1% 48% 1% 8% 3%

MIN 4% 2% 54% 7% 12% 6%

30
VARIABLE Ingreso Porcentaje Gasto Puntaje Superfici Tasa
monetari de hogares cada PSU igual o e total Mortalidad
o del carentes en 100.000 superior a m2 Infantil
hogar accesibilida habitantes 450 puntos parques
promedio d en $ en urbanos
establecimi
entos
municipales

194,9463
MEDIA 792118 0,0655 22211067,3 39,8827365 46 132,8

11323,30
MEDIANA 1204524 0,11 54142336,4 51,1085714 34 306

5,667010
MAX 634603 0,018 14769797,9 31,3 78 7,2

983,1948
MIN 865536 0,0615 393353760 40,2498061 52 137,25

31
VARIABLE Tasa de Tasa de Tasa de Tasa de Població Tasa de
participac ocupación siniestros fallecidos n de 5 participación
ión (Mayores de de tránsito cada años o femenina en
laboral 15 años) cada 100000 más que el trabajo
(Mayores 100000 habitantes utiliza
de 15 habitantes internet 1
años) vez a la
semana
al menos

MEDIA 56,8 52,0 413,1 9,9 69% 0,5

MEDIANA 65,1 61,8 570,0 15,0 80% 0,5

MAX 52,8 46,9 267,8 4,8 60% 0,4

MIN 57,6 53,1 421,1 10,2 70% 0,5

32
VARIABLE Acceso
inadecua
do a
agua
potable o
no
cuentan
con
conexión
a
alcantarill
ado

MEDIA 8%

MEDIANA 18%

MAX 3%

MIN 9%

33
6. RECOLECCIÓN DE LA INFORMACIÓN

6.1 Fuentes de información.


Para la selección de la información, se utilizaron bases de datos de diferentes entidades públicas y
privadas, entre ellas se encuentran: Instituto Nacional de Estadística, Sistema Nacional de
Información Municipal, Encuesta Casen, Departamento de Estadísticas e Información de Salud,
Ministerio de Educación, Superintendencia de Bancos e Instituciones Financieras de Chile,
Observatorio de ciudades, sumados a los estudios realizados por el Programa de las Naciones
Unidas para el Desarrollo durante los años 2019 y 2020 entre otros.

El acceso a estas fuentes de información, provienen principalmente de bases de datos públicas


que ellas administran, por lo que toda la información se encuentra disponible para el público
general.

A continuación se indicará la fuente en específico de la cual provino cada variable dentro del
estudio:

Variable Tasa de Tasa de delitos Tasa Camas Tasa de


Empresas de mayor establecimiento denuncias por
nuevas cada connotación s SNSS cada violencia
100.000 social cada 100.000 intrafamiliar
habitantes 100.000 habitantes Cada 100.000
habitantes habitantes

Fuente SII (2020) Portal CEAD DEIS/DIGERA Portal CEAD


(2020) (2020) (2020)

Variable Promedio Simce Promedio Tasa de Puntaje PSU


Lenguaje 2019 Simce fecundidad promedio en
Matemáticas adolescente en establecimiento
2019 porcentaje s municipales

Fuente Mineduc (2019) Mineduc Minsal (2020) Mineduc


(2019) (2019)

34
Variable Tasa de años de Porcentaje de Tasa de atención Porcentaje de
vida potenciales Carencia de médica Últimos 3 Hogares
perdidos hacinamiento meses (2020) carentes en
adscripción al
sistema de
Salud

Fuente Deis-Minsal Casen (2020) Casen (2020) Casen (2020)


(2020)

Variable Porcentaje de Porcentaje de Porcentaje que Porcentaje de


Hogares Hogares participa del hogares
carentes por Carentes en mercado carentes
medio asistencia laboral seguridad
ambiente

Fuente Casen (2020) Casen (2020) Casen (2020) Casen (2020)

35
Variable Porcentaje de Porcentaje de Ingreso Porcentaje de
hogares hogares monetario del hogares
carentes de carentes de hogar promedio carentes en
trato social apoyo y accesibilidad
participación
social

Fuente Casen (2020) Casen (2020) Casen (2020) Casen (2020)

Variable Gasto Puntaje PSU Superficie Tasa Tasa de


Municipal igual o superior total m2 Mortalidad participación
cada 100.000 a 450 puntos en parques Infantil laboral
habitantes en establecimientos urbanos (Mayores de 15
$ municipales años)

Fuente Casen (2020) SINIM (2019) INE (2020) INE (2020) INE (2020)

Variable Tasa de ocupación Tasa de siniestros de Tasa de fallecidos


(Mayores de 15 años) tránsito cada 100000 cada 100000
habitantes habitantes

Fuente INE (2020) Conaset (2020) Conaset (2020)

Variable Población de 5 años o Tasa de Acceso inadecuado a


más que utiliza internet participación agua potable o no
1 vez a la semana al femenina en el cuentan con conexión a
menos trabajo alcantarillado

36
Fuente Minsal (2020) Minsal (2020) Minsal (2020)

La información adquirida mediante estas fuentes, se utilizó para sintetizar una base de datos
propia, que fuese capaz de incluir información de las siguientes variables a lo largo de cada región
del territorio nacional:

Cada una de estas variables fueron utilizadas para el año 2020 generando finalmente la base de
datos que fue utilizada a lo largo de la investigación.

7. Resultados

37
La información se organizó primero por archivos separados, los cuales contienen la información
proveniente de las diferentes fuentes utilizadas para su adquisición.

Inicialmente se comenzó con una base del formato final, el cual consistía en un documento Excel
con una columna mencionando todas las regiones a nivel nacional,el cual fue siendo modificado
hasta generar una base de datos, ya que la información nueva era ingresada en forma de
columnas hacia la derecha del documento original.

Región

Arica Y Parinacota

Tarapacá

Antofagasta

Atacama

Coquimbo

Valparaíso

Región Metropolitana

O'higgins

Maule

Ñuble

Biobío

Araucanía

Los Ríos

Los Lagos

Aysén

Magallanes

38
(Mover a Anexo base de datos y formato de la tabla)

Cada variable poseía una columna propia, en la cual la información se transformaba a tasas cada
100.000 habitantes o en un promedio general por región, para evitar trabajar con números
demasiado grandes mientras se digitaba la información

Región Tasa de Empresas nuevas cada 100.000 habitantes

Arica Y Parinacota 1273.4

Tarapacá 1499.9

Antofagasta 1451.4

Atacama 1276.2

Coquimbo 1290.2

Valparaíso 1300.1

Región Metropolitana 1680.7

O'higgins 1096.5

Maule 1204.9

Ñuble 1186.6

Biobío 1324.6

Araucanía 1134.9

Los Ríos 1240.3

Los Lagos 1245.9

Aysén 1456.0

Magallanes 1238.2

Mediante este formato se diseñó la siguiente base de datos que se presentará a continuación y la
cual conforma la estructura a gran escala previo al uso del análisis de clúster

39
Una vez generada esta base de datos, con diferentes variables correspondientes a cada una de las
dimensiones que considera el ICVU, la información se traspasó a un software llamado IBM SPSS,
para la realización del análisis de clúster.

Los datos fueron estandarizados a un valor Z previamente a la realización del análisis de


clúster, ya que al trabajar con diversos tipos de variables y escalas es necesario encontrar
una medida de poder comparar y trabajar con cada variable.

(explicaciones de como se trabaja e interpreta el clúster no son necesarias)


La formula para estandarizar variables es la siguiente:

40
Donde Z corresponde a la variable, xi es la muestra, X es la media y Sx la desviación
estándar.

La estandarización de los datos permite comparar las distintas medidas que se encuentran
en este análisis y fueron clave para generar una base de datos en el software SPSS. Ya que
por ejemplo en caso de no estandarizar, variables como el ingreso (Que se mide en millones
de pesos) vs una tasa que va simplemente en valores de alrededor de 1.1 a 1.9 generarían
grandes diferencias, ya que la variable ingreso al estar en una escala mayor tendría una
mayor influencia sobre el resultado final, por lo que el transformar datos a escalas
comparables evita que ocurran estos problemas y son importantes previo a realizar un
análisis de clúster.

Una vez realizado este proceso, se procedió a trabajar mediante el uso de un análisis de
clúster jerárquico

Análisis de conglomerados jerárquico:

Para la realización de este tipo de análisis estadístico, primero se comienza con la creación
automática mediante el software de los distintos conglomerados, dependiendo del grado de
similitud entre cada caso dentro del estudio:

Tabla 2: Resumen de los casos procesados

La tabla 2 nos indica el número y porcentaje de casos con valores perdidos dentro de alguna
de las variables que se incluyeron a lo largo del análisis, sumado al tamaño total de la
muestra. Como se puede apreciar existen 16 casos válidos en el estudio, que corresponden
a las 16 regiones de Chile, al haber 0 casos perdidos, esto indica que los datos dentro del
estudio fueron correctamente ingresados y procesados dentro de SPSS y el total N,
representa la suma entre casos válidos más perdidos.

La información que aparece posterior a aquella tabla, corresponde a la medida que fue
utilizada para obtener la matriz de distancia, que será explicada posteriormente. En este
caso la medida a utilizar fue la distancia euclídea al cuadrado.

41
Primera aparición del clúster de
Clúster combinado etapa
Etap Clúster Clúster Etapa
a 1 2 Coeficientes Clúster 1 Clúster 2 siguiente
1 8 9 4.142 0 0 8
2 6 11 10.802 0 0 7
3 10 13 20.104 0 0 4
4 10 14 32.332 3 0 5
5 10 12 45.719 4 0 8
6 15 16 61.708 0 0 14
7 5 6 79.074 0 2 11
8 8 10 97.520 1 5 12
9 2 3 116.986 0 0 10
10 2 4 146.431 9 0 13
11 1 5 178.066 0 7 12
12 1 8 214.512 11 8 15
13 2 7 271.515 10 0 14
14 2 15 338.449 13 6 15
15 1 2 465.000 12 14 0
Tabla 3: Historial del proceso de conglomeración

La tabla 3 muestra el historial de la generación de conglomerados, etapa a etapa, como este


estudio corresponde a las 16 regiones de Chile, existirán por lo tanto 15 etapas de fusión, ya que
lógicamente si en cada etapa se fusionan 2 distintos casos, el resultado final serán 15 etapas de
conglomeración.

La columna llamada clúster combinado representa que clústeres fueron combinados dentro de
cada una de las etapas, por ejemplo la etapa 1 de este caso, representa la combinación del clúster
8 con el clúster 9, la etapa 2 la combinación del clúster 6 con el 11 y así sucesivamente.

La columna coeficientes representa la distancia a la que se encuentra cada caso previo a la


combinación de conglomerados y la columna etapa siguiente, indica en qué momento el nuevo
clúster formado por los casos previos, será nuevamente combinado con otro clúster a lo largo de
la generación del clúster jerárquico final.

42
Tabla 4: Distribución de clústeres

Dentro de la tabla 5 se puede observar la manera en la que fueron distribuidas las 16 regiones
nacionales a lo largo de los distintos clústeres formados.

Podemos apreciar que el clúster número 1 se compone de las regiones de Arica Y


Parinacota, Coquimbo, Valparaíso y la región del Bío Bío.

El 2do clúster de Tarapacá, Antofagasta, Atacama

El 3ro está compuesto solamente por la RM

El 4to clúster está compuesto por la región de O’higgins, El Maule, Ñuble, Araucanía, Los
Ríos y Los Lagos.

Finalmente el último Clúster se compone de las regiones del sur de Chile, Magallanes y
Aysén.

43
Ilustración 1: Dendrograma

La ilustración 1 representa el Dendrograma de las 16 regiones utilizadas durante este estudio,


donde se puede apreciar también las distintas etapas del proceso de fusión de cada región en sus
respectivos clústeres, sumado a la distancia entre cada una de ellas (Valores que aparecen en el
superior del gráfico).

Se debe considerar que las distancias para este caso son re-escaladas, para facilitar la visión del
investigador, ya que al ser valores muy distantes dependiendo del estudio, es mucho más fácil de
apreciar y entender un gráfico en la cual por ejemplo, si la distancia mayor corresponde a 2000 y la

44
menor a 0.005, reescalarlas para que el mayor sea equivalente a 25 y el menor a 0, como en el
caso de este estudio.

Además cabe destacar que si bien, a simple vista no se aprecian las 15 etapas que son
mencionadas en la tabla 3, esto corresponde a una falsa impresión que genera el re-escalado
mencionado previamente, ya que si pudiésemos apreciar este mismo Dendrograma con un mayor
acercamiento a zonas espécificas de este, se podría apreciar mejor que cada una de estas etapas si
están presentes, pero son difíciles de apreciar mediante este método gráfico.

Considerando las distancias que aparecen en la tabla 3, la distancia máxima (465) correspondería a
25 dentro del Dendrograma y la distancia 4.1 correspondería al mínimo.

Cuando se crean las fusiones dentro del Dendrograma, se debe considerar que las fusiones que se
realizan en el extremo izquierda del mismo, corresponden a fusiones dentro de conglomerados
más homogéneos, mientras que las fusiones realizadas al extremo derecho, representan lo
contrario, conglomerados mucho más heterogéneos.

Al considerar grupos por homogeneidad, se estima que la cantidad óptima de clústeres que
pueden ser recreados a nivel nacional corresponden a 5, los cuales se distribuyen de la
siguiente forma:
Clúster 1: Arica y Parinacota, Coquimbo, Valparaíso, Bío Bío.
Clúster 2: Tarapacá, Antofagasta, Atacama
Clúster 3: Región Metropolitana
Clúster 4: O’higgins, Maule, Ñuble, Araucanía, Los Ríos, Los Lagos
Clúster 5: Aysen, Magallanes.

(El número designado a cada conglomerado es el mismo generado por el software SPSS al
realizar el análisis)

(AGREGAR MAPA DE CHILE CON


CLUSTERES POR COLORES)

45
Para ilustrar el algoritmo del cluster de jerarquía, utilizamos el método de la matriz de
disimilaridades para identificar la proximidad entre cada región.

Esta proximidad se mide en forma de matriz, la cual se generó utilizando una distancia euclediana,
calculando la distancia entre cada objeto mediante el uso de la siguiente fórmula:

Se debe siempre registrar lo similares o disimilares que es cada variable entre sí, dependiendo de
cómo haya sido su representación dentro del espacio de variables del estudio.

En este caso se considera que cada región corresponde a un vector dentro del espacio de
variables, por lo que mediante la siguiente matriz se puede representar la distancia entre cada una
de ellas, que es menester dentro de todo estudio mediante el método jerárquico.

46
Tabla : Matriz de proximidades
47
Mediante el uso de la matriz previamente señalada, la distancia entre todas las regiones del país
que fueron parte de este estudio, además un detalle a observar es que como la distancia es
simétrica ( La distancia entre A y B es igual a la distancia entre B y A), la matriz se puede decir que
posee dos zonas, las que están sobre la diagonal igual a 0 (Ya que esta línea representa la distancia
entre un objeto y si mismo), y la zona bajo la diagonal.

Análisis bietápico:

Durante el inicio del análisis de cluster bietápico se puede apreciar que el modelo posee una

medida de cohesión aceptada para el estudio, ya que se encuentra en zona regular, en caso de que

el estudio arrojara un valor inferior y se encontrase en la zona mala, se debería reconsiderar la

estructura del estudio, modificar variables o utilizar otro número de clústeres dentro del mismo.

48
La cohesión se refiere a que tan similares o que tan cerca están las variables en cada cluster y

separación se refiere a que tan separado está un cluster de otro, es decir que tan distintos son.

Si la cohesión fuese menor a 0 el cluster estaría erróneo, pero en este caso es alrededor de 0.4 por

lo que es aceptable.

Distribución de clúster

N % de combinado % del total

Clúster 1 3 18.8% 16.7%

2 6 37.5% 33.3%

3 2 12.5% 11.1%

4 4 25.0% 22.2%

5 1 6.3% 5.6%

Combinado 16 100.0% 88.9%

Total 18 100.0%

Con la siguiente tabla de distribución de cluster se puede observar el % que cada cluster

representa del total de variables, en este análisis bietápico nuevamente la región metropolitana

fue ubicada en un clúster externo al resto de regiones (Clúster 5).

49
Gráfico representativo de la dimensión de cada cluster, además del cociente de tamaño entre el

más pequeño con el más grande

50
Número de clústeres Criterio bayesiano de Schwarz (BIC)

1 630.266

2 731.947

3 893.636

4 1067.996

5 1243.117

El Criterio Bayesiano de Schwarz (BIC) crea un balance entre el número de parámetros en el


modelo (k) y el número de puntos de información (n) en contra de la función de máxima
probabilidad (L). Lo que hace esta función es determinar el número de parámetros dentro del
modelo que minimicen el BIC.

Como se aprecia en el siguiente gráfico, El BIC nos enseña que nuestro cálculo inicial que
representaba el número de clústeres como 5 es acertado, ya que el valor BIC tiende al alza
al aumentar el número de clústeres, aunque esto se traduce en Aumentar el número de
parámetros dentro del modelo.

51
Centroides:

Son utilizados para determinar la media y desviación estándar de cada variable dentro del estudio, pero en este caso
específicamente su valor dentro de cada cluster. Estas cifras son de gran utilidad para generar un análisis más específico, ya que
el análisis de cluster jerárquico no nos permite acceder a dicha información.

52
Predictores:

Los predictores son valores de las variables que se miden de 0 a 1, los cuales indican cuánto contribuyó cada una al proceso de
clusterización. En la siguiente tabla se presenta la importancia de cada variable de este estudio al realizar la clusterización bietápica.

53
54
55
56
57
58
8. Discusión de resultados

De acuerdo a como fue agrupada cada región del país, surgieron diversas ideas sobre el resultado
final de esta investigación.

Primero se debe considerar que solo se utilizaron variables que miden aspectos sociales
mayoritariamente, pero que de cierto modo cada clúster creado agrupó regiones por Zona. Por
ejemplo el clúster 2 agrupó a regiones de la zona norte, el clúster 4 a regiones de la zona centro
sur y el clúster 5 a regiones de la zona sur. Posiblemente la calidad de vida se ve afectada
indirectamente por los diferentes climas que existen a lo largo de Chile, considerando el estudio
¨High Mortality Days During The Winter Season¨ comparing meteorological conditions across 5 us
cities¨, realizado por Michael J. Allen y Scott C. Sheridan, las temperaturas bajas afectan
negativamente la calidad de vida del ser humano y factores como por ejemplo la tasa de
mortalidad aumenta en regiones de climas fríos.

Otro factor que llama la atención, es que las regiones que componen cada clúster son de tamaños
similares, en términos de superficie.

Además de los factores previamente señalados, muchas de las regiones que son parte de los
clusters generados dependen principalmente de sectores comerciales similares, como en el caso
del clúster 2 que son regiones mineras, o las regiones del clúster 5 que son regiones asociadas al
sector forestal.

También llama la atención el hecho de que ambos clústeres, jerárquico y bietápico, agruparon de
la misma manera las variables y llegaron a valores en común.

Finalmente los resultados obtenidos son aceptables para este estudio, en términos de cohesión y
distancia como fue expresado dentro del análisis del modelo bietápico.

Sobre este tipo de estudios, si bien el ICVU es un indicador bastante bueno y es realizado
periódicamente, no existen muchas fuentes de información con respecto al tema y en el caso de
nuestro estudio, la aplicación del análisis de clúster contribuye nuevas perspectivas para analizar la
calidad de vida en Chile.

59
9. CONCLUSIONES

La calidad de vida, al ser representada mediante el ICVU, nos entrega una visión acerca del
estado en que se encuentra cada región del país y el bienestar de sus habitantes. Un factor que
generalmente se considera necesario para el Desarrollo de la calidad de vida, es el que un
territorio sea próspero y esté rodeado de oportunidades para quien sea parte de él.

Pero si bien, el ICVU considera distintas dimensiones y realiza un ranking de regiones, el Sistema
utilizado al no ser definido dentro del estudio, no permite comprender mediante qué criterios se
realiza la clasificación, ni tampoco el procesamiento de datos, que llevan a obtener una imagen
general del país, que a la larga genera confusión.

Gracias al análisis de cluster, se puede obtener una visión general de cada variable
perteneciente a las diferentes dimensiones, que luego de ser realizado definió a Antofagasta,
como una región que forma parte de un cluster compartido junto a Tarapacá y Atacama.

Inicialmente la hipótesis buscaba encontrar cierta similitud, entre el aporte al PIB nacional
realizado por Antofagasta, y que esto lograse vincularla, considerando estándares de calidad de
vida, con otras regiones prósperas del país, como por ejemplo la región Metropolitana,
Valparaíso o la región del Bío Bío.

Pero en la práctica, el análisis de cluster, optó por asociarla a regiones mineras (Tarapacá y
Atacama) y las regiones mencionadas previamente resultaron formar parte del cluster 1, que
está conformado por las regiones de Arica y Parinacota, Coquimbo, Valparaíso y la región del
Bío-Bío. Mientras que la región Metropolitana, fue definida en un clúster único, ya que no posee
otras regiones que se le asemejen a lo largo del país.

Una posible explicación de este fenómeno, es que la calidad de vida se ve afectada por la
ubicación geográfica de la zona en estudio, o que la administración gubernamental de cada
región en específico se ve influenciada por su vecino más cercano, sumado a que muchas de las
regiones que fueron categorizadas como parte de un clúster poseen economías basadas en
recursos similares, como lo es la minería en el clúster 2, del cual forma parte la región de
Antofagasta.

Esta situación llama bastante la atención, ya que en aspectos generales, mediante el análisis
jerárquico, prácticamente Chile se vio describido en cada clúster según Zona, cada clúster
contenía regiones de zonas similares, pero al usar un Sistema de procesamiento de datos como
la clusterización, la cual está basada en datos que no entregan información alguna sobre la
geografía y la distribución de cada región a lo largo de Chile, es algo que llama bastante la
atención.

Para futuras investigaciones este factor puede ser de gran interés, ya que si bien aclara cómo se
encuentra Antofagasta con respecto a otras regiones del país, a su vez genera muchas
interrogantes de como indirectamente, cada variable que define el ICVU, fue capaz de describir

60
la distribución de las regiones nacionales y como cada una se asemeja entre si, casi de forma
preestablecida por la localización.

61
10. RECOMENDACIONES

11. ANEXOS

62
12. BIBLIOGRAFÍA

63
Construcción, C. C. (05 de Mayo de 2016). Cámara Chilena de la Construcción. Obtenido de
https://cchc.cl/centro-de-informacion/publicaciones/publicaciones-otras-publicaciones/
icvu-2016

Construcción, C. C. (09 de Mayo de 2017). Cámara Chilena de la Construcción. Obtenido de


https://cchc.cl/centro-de-informacion/publicaciones/publicaciones-icvu/icvu-2017

Construcción, C. C. (08 de Mayo de 2018). Cámara Chilena de la Construcción. Obtenido de


https://cchc.cl/centro-de-informacion/publicaciones/publicaciones-icvu/icvu-2018

Construcción, C. C. (07 de Mayo de 2019). Cámara Chilena de la Construcción. Obtenido de


https://www.cchc.cl/centro-de-informacion/publicaciones/publicaciones-icvu/icvu-2019-
resumen-ejecutivo

Granada, U. d. (s.f.). Universidad de Granada. Obtenido de


https://www.ugr.es/~mvargas/2.%20(norte,%202011)RESUMENANLISISCLUSTER.pdf

Granada, U. d. (s.f.). Universidad de Granada. Obtenido de


https://elvex.ugr.es/idbis/dm/slides/42%20Clustering%20-%20Hierarchical.pdf

Granada, U. d. (s.f.). Universidad de Granada. Obtenido de


https://www.ugr.es/~mvargas/2.RESUMENANLISISCLUSTER.pdf

https://www.politicaspublicasdelnorte.cl/informe-calidad-de-vida-urbana-2011-icvu/. (s.f.).

https://www.politicaspublicasdelnorte.cl/informe-calidad-de-vida-urbana-2011-icvu/. (s.f.).

Issuu. (17 de Julio de 2014). Issuu. Obtenido de


https://issuu.com/camaraconstruccion/docs/presentaci__n-icvu-2014-final

norte, P. p. (18 de Mayo de 2011). Politicas publicas del norte. Obtenido de


https://www.politicaspublicasdelnorte.cl/informe-calidad-de-vida-urbana-2011-icvu/

Online, S. E. (06 de Mayo de 2021). Scientific Electronic Library Online. Obtenido de


http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1665-
53462021000100009&lang=en

Quilmes, U. N. (2005). Universidad Nacional de Quilmes. Obtenido de


http://hm.unq.edu.ar/archivos_hm/GL_ICVU.pdf

Revoledu. (2019). Revoledu. Obtenido de


https://people.revoledu.com/kardi/tutorial/Clustering/Linkages.htm

Slideshare. (07 de Mayo de 2012). Slideshare. Obtenido de


https://es.slideshare.net/eleytoni/ranking-de-comunas-icvu-2012

64
Slideshare. (07 de Mayo de 2013). Slideshare. Obtenido de https://es.slideshare.net/edowoo/icvu-
2013prensa7demayofinal

Ucn, N. (12 de Julio de 2018). Noticias Ucn. Obtenido de


http://www.noticias.ucn.cl/wp-content/uploads/2018/08/Arturo-Orellana-ICVU.pdf

65

También podría gustarte