Módulo 1. Introducción A La Visualización y Aplicaciones en Tableau
Módulo 1. Introducción A La Visualización y Aplicaciones en Tableau
Módulo 1. Introducción A La Visualización y Aplicaciones en Tableau
En este módulo estudiaremos qué son los datos y cómo los analizaremos utilizando
visualizaciones. A su vez, aprenderemos cómo aplicarlos en la herramienta Tableau.
Abordaremos los conceptos más importantes que nos permitirán formularnos preguntas y generar
resoluciones en nuestro rol de científico de datos.
Video de inmersión
01:29
Un dato es una representación de algún fenómeno o aspecto del mundo real, se puede presentar
en forma de números, textos o imágenes. Decimos que es una representación por dos motivos:
por un lado, es una variable entre distintas posibilidades (por ejemplo, podríamos representar la
temperatura en grados centígrados o fahrenheit). Por otro lado, podría ser más o menos fiel a la
realidad que busca reflejar. A este aspecto lo llamamos calidad de los datos.
Entonces, ¿cuál es la diferencia entre datos e información? Podemos responder a esa pregunta
de forma fácil: la mayor diferencia es el contexto. Antes de poder obtener información que sirva y
agregue valor a nuestros clientes, es necesario procesar los datos, agregarles contexto y darles
sentido ya que ellos “no hablan por sí solos”. Un ejemplo de la diferencia puede ser una tabla de
información nutricional y un análisis clínico (ambos incluyen una columna con valores de
referencia que le brinda contexto a la persona que los lee).
Figura 1. Pirámide
Cuando realizamos un análisis de datos buscamos encontrar patrones no triviales, por ejemplo:
tendencias, similitudes o diferencias que nos ayuden a entender el fenómeno que estamos
estudiando. En las empresas u organizaciones surgen problemas de forma periódica que
podemos resolver con el análisis de datos.
Finalmente, el dato pasa a ser información y se toman decisiones en base a ella. Es probable que
en esta última etapa surjan nuevas dudas o preguntas: a esto lo conocemos como el ciclo
analítico.
También es necesario entender que dentro de una misma organización (incluso dentro de un
mismo proyecto) suelen existir distintos usuarios de la información. La principal diferencia la
determina el nivel dentro de la organización y cuán técnicos son los perfiles. Por ejemplo, los
niveles gerenciales pueden preferir recibir información a un “más alto nivel” y con menor detalle,
mientras que los perfiles en áreas de operaciones pueden necesitar información con mucho más
detalle técnico. Esto nos va a orientar en el tipo de información que vayamos a producir y
entregar a nuestros clientes.
1. La obtención de los datos: es nuestra “materia prima”. Puede provenir de distintas fuentes
(propias o externas).
2. El procesamiento de esos datos: incluye los chequeos de calidad y las transformaciones
necesarias.
3. El análisis de los datos en sí: es un proceso iterativo que surge hasta encontrar las
respuestas a las preguntas originales.
4. La etapa de comunicar las conclusiones o los hallazgos a los clientes.
Los datos crudos no nos cuentan una historia ni agregan valor, es necesario su procesamiento para que brinden
información.
Una de las limitaciones para el análisis de datos es el conocimiento que existe dentro de la organización (cultura y
madurez analítica).
La cultura y madurez analítica de una empresa u organización pueden limitar cómo se procesa y usa la
información dentro de una organización.
Existe una única forma de representar la realidad en forma de dato y siempre es fiel a ella.
Dentro de una misma organización pueden existir distintas audiencias o usuarios de la información.
Justificación
Tema 2: Visualización de datos e información
Ahora que sabemos qué es el análisis de datos podemos comprender el término visualización
de datos. Consta de representar, de manera visual o gráfica, un conjunto de datos, sus distintas
variables, sus comportamientos y sus relaciones entre las variables. Podemos entender que
visualizar es “traducir” distintos aspectos de los datos al lenguaje visual.
El lenguaje visual, tal como el lenguaje natural, tiene distintos elementos y distintas reglas que lo
componen. Los elementos son los atributos visuales (la forma, el color o el movimiento) y las
reglas son todas aquellas prácticas que aplicamos cuando nos comunicamos.
También podemos llamar a los elementos del lenguaje visual como atributos preatentivos
porque son aquellos que podemos percibir antes de ser conscientes de ello (entre 200 y 500
milisegundos previos). Usarlos facilita el procesamiento de información que el cerebro debe
realizar. Es importante aclarar que algunos atributos son más simples de discriminar que otros.
Dicho rasgo puede determinar la efectividad a la hora de usarlos en visualizaciones.
Atributos preatentivos
Forma
Los atributos más fáciles de discriminar son los de forma. La longitud y el tamaño pueden
usarse para representar variables cuantitativas (por ejemplo, en gráficos de barras). A su vez,
podemos relacionar a la forma con la posición a lo largo de un eje. Esto se utiliza para diagramas
de dispersión.
Por otro lado, las formas (círculos, cuadrados y triángulos, entre otras) pueden servir como
marcadores para diferenciar categorías. También podemos usar texturas o patrones geométricos
para distinguir información (sobre todo cuando los gráficos tienen que imprimirse en blanco y
negro).
Dentro de los atributos de forma, el ángulo o la orientación es el menos efectivo para comunicar
visualmente magnitudes (como vamos a ver más adelante). Se usa en gráficos de torta, de
pendiente o mapas de viento.
Por último, es desaconsejable usar el volumen (gráficos 3D) por la dificultad de percibir las
diferencias en los valores de las variables cuando están representadas en dos dimensiones.
Color
El color tiene distintos aspectos o propiedades que pueden usarse para construir paletas y
escalas que representen las distintas variables a analizar. Al igual que con los atributos de forma,
los del color pueden ser más o menos fáciles de distinguir. Uno de los modelos para definir el
color es el de tono, la saturación y la luminosidad (modelo HSL: hue, saturation and lightness).
Figura 2. Color
Fuente: Endolith [nombre de usuario]. (30 de mayo de 2012). Brewer blueish sequential vs
luminance. Recuperado de https://www.flickr.com/photos/omegatron/7298887952/
La saturación de un color indica cuán puro o cuánto gris tiene. También puede usarse para
representar la intensidad de alguna variable (por ejemplo, una ventaja electoral de algún
candidato o partido).
Lo más difícil de discriminar es el tono o matiz, que es lo que en general llamamos “color” (rojo,
azul, verde, etc.). Como esta propiedad suele usarse para representar distintas categorías, sobre
todo cualitativas y tiene más dificultad en ser percibida y distinguida, se recomienda no usar
demasiados tonos distintos (no más de ocho). Sin embargo, es común que en las empresas u
organizaciones haya colores institucionales o manuales de marca que indiquen el color que se
debe usar. Esto sirve para respetar la identidad de la marca y no utilizar cualquier color aparente.
Un dato no menor que debemos tener en cuenta es que una parte de la población (8% de
hombres y 0,5% de mujeres) tienen daltonismo y no logran percibir correctamente las diferencias
entre algunos colores. Como futuros profesionales en el rubro, debemos estar en todos los
detalles para generar una mejor experiencia a todos los usuarios.
Figura 4. Daltonismo
Fuente: Asociación Española de Optometristas Unidos. (s.f.). [Imagen sin título sobre daltonismo.
Recuperado de https://optometristas.org/tratamiento-del-daltonismo
Por último, la transparencia o canal alfa indica la opacidad que tiene un color. Puede usarse
para representar grados de certeza e incertidumbre, también para diagramas de dispersión o de
burbujas. Por ejemplo:
Figura 5. Transparencia
Otro atributo visual importante es el movimiento. Este puede servir para convertir visualizaciones
estáticas en dinámicas y permitir agregar fácilmente más dimensiones a las visualizaciones.
También permite agregar interactividad a las visualizaciones (usando menús o botones) lo que
permite al usuario más control y rapidez en los análisis que obtiene.
Pregunta de repaso
2. El valor alfa indica la cantidad de gris que tiene un color y la saturación indica la
transparencia.
Verdadero
Falso
Justificación
Cada gráfico tiene distintas partes o componentes que necesitamos entender, tanto para poder
leer e interpretar correctamente gráficos, como para diseñar de forma efectiva, sin distorsiones.
Por ejemplo, en el tema 4 de esta unidad vamos a ver los distintos tipos de gráficos y su utilidad,
pero también algunas variantes. Es decir, mientras conozcamos las reglas de cómo usar el
lenguaje visual, podemos usarlas de forma flexible según lo que necesitemos exponer con cada
visualización.
Figura 6. Gráficos
Fuente: Armstrong, R. (14 de agosto de 2017). [Imagen sin título sobre gráficos]. Recuperado de
https://www.ft.com/content/56d25a52-7df5-11e7-9108-edda0bcbc928
Tomá como referencia los números de la imagen para ver que es cada parte del gráfico.
1. Título: los gráficos deberían tener un título breve que describa qué se está mostrando (por
ejemplo: La inflación en Argentina en el año 2021). También puede incluir un subtítulo que
aclare más en detalle el objetivo de la visualización.
2. Ejes: a lo largo de ellos se representan distintas variables o dimensiones de análisis.
Pueden ser numéricas (por ejemplo, un diagrama de dispersión) o categóricas/cualitativas
(por ejemplo, un gráfico de barras).
Los ejes pueden ser, según la escala, lineales o logarítmicos (para graficar variables que
tienen un comportamiento exponencial, por ejemplo el PBI). Pueden incluir al número cero o
tener un quiebre (acompañado por un símbolo en el mismo eje) y pueden ser únicos o
dobles. Además, en algunos casos (por ejemplo, para variables como rankings) puede ser
útil invertir el eje, mostrarlo un orden inverso al original.
3. Marcas de graduación: son las subdivisiones de los ejes que señalan sus valores.
Además, pueden haber marcas principales y secundarias (más pequeñas).
4. Área de trazado: en ella van a estar incluidos los elementos (líneas, barras y puntos) que
van a representar los datos y las líneas de cuadrícula.
5. Líneas de la cuadrícula (opcional): son rectas horizontales o verticales en determinados
valores que ayudan a entender las magnitudes sobre los ejes.
6. Etiquetas de los ejes (opcional): explican las variables y escalas y pueden estar incluidas
en el texto.
7. Leyenda: explica la simbología que usamos en el gráfico (por ejemplo, colores o formas) si
representamos más de una categoría.
8. Marcadores: sirven para representar y resaltar observaciones individuales. Pueden usar
distintos símbolos (como círculos, cuadrados o triángulos). En algunos gráficos, por ejemplo
de línea, pueden ser opcionales.
9. Capa de anotaciones (opcional): son todos los elementos que se le pueden agregar al
gráfico para resaltar algunos aspectos y exponer más claramente lo que se quiere explicar.
Algunos ejemplos pueden ser: comentarios y etiquetas en datos individuales, líneas de
referencia y líneas de tendencia.
10. Notas: incluyen las fuentes u otras aclaraciones que sean necesarias.
11. Paneles (opcional): son subgráficos que se dividen por el valor de alguna variable. Por
ejemplo, podríamos tener gráficos de línea divididos en subgráficos por región geográfica.
Se debería tratar de no incluir elementos visuales que no codifican información nueva, que sean
redundantes o generen confusión, lo que podríamos llamar “basura” dentro del gráfico (en inglés,
chartjunk). Por ejemplo, hacer un gráfico de barras o torta en 3D o con perspectiva puede
distorsionar la percepción y conclusiones que se pueden extraer de la información brindada.
Otros ejemplos pueden ser colores de fondo, texturas o ilustraciones (en algunos casos).
Las distorsiones más comunes se dan cuando se manipulan los ejes y sus escalas. Por ejemplo,
cuando en un gráfico de barras no se incluye el cero y se truncan los ejes. Dicho rasgo dificultará
las comparaciones dentro del gráfico.
Figura 7. Gráfico
Fuente: How Deceptive are Deceptive Visualizations? Scientific Figure on ResearchGate. (2015).
Recuperado de https://www.researchgate.net/figure/Illustration-showing-Truncated-Axis-distortion-
which-leads-to-message_fig1_300726103
Tipos de variables
Los conjuntos de datos contienen distintas variables que representan distintos fenómenos o
aspectos de la realidad, tal como lo señalamos al principio. Desde el punto de vista estadístico,
estos son las principales variables que podemos encontrarnos:
Tabla 1. Variables
Línea de tendencia.
Comentarios.
Notas.
Justificación
Existen distintos tipos de gráficos que podemos usar para visualizar un conjunto de datos.
Dependiendo de qué aspectos busquemos mostrar o enfatizar, unos van a ser más útiles que
otros. Para elegirlos, debemos tener claro cuántas variables queremos mostrar, a qué tipo
pertenecen, cuántas categorías tienen y cuántas observaciones posee el conjunto de datos. A
continuación, te mostramos los gráficos más comunes según el objetivo de visualización:
Tabla 2. Gráficos
Fuente: elaboración propia con base en The data visualization catalogue. (s.f.). Recuperado de
https://datavizcatalogue.com/ES/index.html
Los gráficos pueden combinarse entre sí. También nos permiten crear variantes: si entendemos
los distintos elementos y cómo usarlos podemos generar nuevos tipos de gráficos.
En esta unidad aplicaremos lo visto en la anterior. Vamos a analizar datos usando Tableau, una
herramienta de visualización que está basada en una interfaz gráfica. Permite el análisis y
visualización de datos de forma amigable e intuitiva. Es una de los softwares de inteligencia de
negocios (business intelligence) más utilizados.
Tableau tiene distintas versiones, en nuestro caso vamos a trabajar con la de Escritorio (desktop).
Desde https://www.tableau.com/products/desktop/download se puede descargar una versión de
prueba gratuita por 14 días[1].
[1] El archivo de instalación ocupa aproximadamente 500 MB y requiere tener disponibles 1,5 GB
de espacio en el disco.
Figura 8. Tableau
En la sección del centro vamos a poder ver libros de trabajo abiertos recientemente y su vista
previa. Más abajo también están disponibles los tableros de muestra que podemos explorar. A la
derecha podemos encontrar más recursos, como videos gratuitos de entrenamiento.
Podemos empezar a explorar el entorno de Tableau usando datos precargados: en la parte
izquierda del menú, al final de la columna, elegimos la opción Fuentes de datos guardadas» e
«Indicadores mundiales».
Figura 10. Tableau
Fuente: captura de pantalla de Tableau (2021).
La pantalla se divide en secciones: en el margen superior tenemos los menús que contienen las
distintas herramientas y opciones. En el margen izquierdo tenemos acceso a las distintas
variables disponibles (que vamos a poder incorporar en las visualizaciones arrastrándolas con el
mouse) y podemos ver sus tipos (por ejemplo, numéricas, de texto y geográficas).
Para empezar a construir una visualización en el área de trabajo, tenemos que elegir los campos
o variables que queremos incluir y arrastrarlos en alguna de las distintas secciones en las que
queramos que estén representados. Por ejemplo, un campo puede estar representado en filas o
en columnas o con algún atributo visual como el color o la forma. También podríamos usar un
campo como filtro para que nuestro análisis solo contenga algunos de los registros de los datos
originales y no todos.
Pregunta de repaso
4. En la interfaz de Tableau, podemos encontrar las solapas con las hojas de trabajo,
tableros e historias en:
El margen superior.
La sección central.
Margen inferior.
Justificación
Tema 2: Visualizaciones estáticas
En este tema vamos a ver cómo construir algunos de los gráficos más usados. Vamos a empezar
con un gráfico de línea para representar la evolución del PBI por región a través del tiempo (en
años).
Figura 11. Ejemplo de gráfico en Tableau
Para poder identificar observaciones individuales nos aproximamos a algunos de los puntos del
diagrama. Ubicando el cursor por encima de estos se muestra la descripción emergente
(tooltip) que es un cuadro que muestra más información sobre ese data point.
Figura 16. Ejemplo de gráfico en Tableau
Muchas veces necesitamos generar nuevas variables a partir de los datos originales o
necesitamos hacer correcciones y cambios para poder analizar de mejor forma los datos. En
estos casos es útil crear campos calculados. Estas nuevas variables van a estar disponibles
junto a las de los datos originales y vamos a poder usarlas en las visualizaciones.
Para esto, podemos ir al menú «Análisis» y hacer click en la opción «Campos calculados»: se va
a abrir una ventana en la que tenemos que elegir un nombre para el nuevo campo y debemos
insertar la fórmula (como lo haríamos en Excel, por ejemplo).
Como existe una gran cantidad de funciones disponibles, una forma de consultarlas es haciendo
click en el margen derecho de la ventana, en el ícono del triángulo. A partir de ahí se muestran
las distintas funciones (de número, de fecha, de texto y de agregación, entre otras).
Figura 21. Uso de Tableau
Una vez creado un campo calculado se puede identificar por el signo «=» a la izquierda de su nombre.
Justificación
En este tema vamos a ver cómo agregar movimiento e interactividad a nuestras visualizaciones.
Tal como vimos en la primera parte, son recursos visuales que nos permiten mostrar distintos
aspectos de nuestro conjunto de datos.
Podemos tomar los filtros que vimos en el tema anterior y hacerlos dinámicos. Para esto vamos a
el casillero de «Filtros» y hacemos click derecho en el campo por el que estamos filtrando (puede
ser más de uno) y elegimos la opción de «Mostrar filtro».
Figura 25. Ejemplo de gráfico en Tableau
Falso
Justificación
Video de habilidades
Interactive
Video
Cierre
En este primer módulo vimos las bases de qué es y para qué nos sirve analizar datos:
comenzamos a aprender cómo comunicar visualmente distintos aspectos de los datos, cómo
hacernos preguntas y cómo responderlas con distintas herramientas gráficas.
Comenzamos a usar Tableau, una herramienta interactiva que nos permite construir rápidamente
visualizaciones estáticas o dinámicas, facilitando el análisis exploratorio de los datos.
Glosario
Glosario Interactivo
Buscar...
Accionable
A
Elemento que permitirá a una organización poder tomar decisiones informadas para
Accionable
alcanzar sus objetivos.
Análisis exploratorio de los datos
Atributos preatentivos
B
Boxplots
C
Calidad de datos
Campos calculados
Chartjunk
Ciclo analítico
Coeficiente de correlación
ANTERIOR SIGUIENTE
Referecias
Asociación Española de Optometristas Unidos. (s.f.). [Imagen sin título sobre daltonismo.
Recuperado de https://optometristas.org/tratamiento-del-daltonismo
Endolith [nombre de usuario]. (30 de mayo de 2012). Brewer blueish sequential vs luminance.
Recuperado de https://www.flickr.com/photos/omegatron/7298887952/