Introducción A La Ciencia de Datos
Introducción A La Ciencia de Datos
Introducción A La Ciencia de Datos
Lucas Achaval
Preguntas elementales
Las unidades en un conjunto de datos se refieren a los elementos individuales o casos que compo-
nen dicho conjunto. Estas unidades pueden representar observaciones, personas, objetos, eventos u
cualquier otra entidad que esté siendo estudiada o registrada en el contexto de la recopilación de
datos. Por ejemplo, si estamos recopilando datos sobre estudiantes en una escuela, cada estudiante
serı́a una unidad de datos.
Las variables en un conjunto de datos son atributos o caracterı́sticas que se registran o miden para
cada una de las unidades de datos dentro del conjunto. Estas variables pueden ser de naturaleza
diversa, incluyendo tanto variables categóricas como numéricas. Por ejemplo, en un conjunto de
datos sobre estudiantes, las variables podrı́an incluir el género, la edad, las calificaciones en diferentes
asignaturas, la asistencia a clases, entre otras.
Las variables categóricas son aquellas que representan caracterı́sticas cualitativas o atributos, y tienen
un conjunto fijo y conocido de valores posibles. A diferencia de las variables numéricas, no pueden
medirse ni cuantificarse de forma numérica. Ejemplos de variables categóricas incluyen el género, el
estado civil y el tipo de sangre.
1
¿Qué son los cuantiles?
Los cuantiles son puntos que dividen un conjunto de datos ordenados en partes iguales. Por ejemplo,
el primer cuantil divide los datos en dos partes iguales, con el 25% de los datos menores o iguales a
ese valor. El segundo cuantil, que es igual a la mediana, divide los datos en dos partes iguales, con
el 50% de los datos menores o iguales a ese valor.
La distancia intercuartil, también conocida como rango intercuartı́lico, es una medida de dispersión
que se calcula como la diferencia entre el tercer cuartil y el primer cuartil de un conjunto de datos.
Esta medida es utilizada para identificar la variabilidad en los datos y es especialmente robusta frente
a valores atı́picos. La distancia intercuartil es una herramienta comúnmente empleada en análisis
estadı́sticos.
2
Tipos de Gráficos y sus Descripciones
1 ggplot ( df , aes ( x = age , y = charges , col = factor ( smoker , labels = c ( " Si " , " No " ) ) ) ) +
2 geom _ point ( alpha = 0.6) +
3 labs (
4 title = " Edad vs . Cargos de Seguro " ,
5 subtitle = " Distincion entre fumadores y no fumadores " ,
6 x = " Edad " ,
7 y = " Cargos de Seguro " ,
8 col = " Fumador "
9 ) +
10 theme _ minimal () +
11 theme (
12 legend . title = element _ blank () ,
13 plot . margin = margin ( t = 20 , r = 20 , b = 20 , l = 20 , unit = " pt " ) ,
14 axis . title . x = element _ text ( margin = margin ( t = 20 , unit = " pt " ) ) ,
15 axis . title . y = element _ text ( margin = margin ( r = 20 , unit = " pt " ) )
16 )
3
2. Gráficos de Barras
Los gráficos de barras son una forma de representar datos categóricos mediante barras rectangulares.
Cada barra representa una categorı́a y la altura de la barra muestra la frecuencia o el porcentaje de
casos en esa categorı́a.
1 ggplot ( df ) +
2 geom _ bar ( aes ( x = smoker , fill = region ) , position = " dodge " , alpha = 0.7) +
3 labs (
4 title = " Cantidad de Fumadores por Region " ,
5 x = " Fumador " ,
6 y = " Cantidad " ,
7 fill = " Region "
8 ) +
9 scale _ x _ discrete ( labels = function ( x ) str _ to _ title ( x ) ) +
10 theme _ minimal () +
11 scale _ fill _ manual ( labels = function ( x ) str _ to _ title ( x ) , values = c ( " #66 c2a5 " , " # fc8d62 " , " #8 da0cb " , " #
e78ac3 " ) ) +
12 theme (
13 legend . title = element _ blank () ,
14 plot . margin = margin ( t = 20 , r = 20 , b = 20 , l = 20 , unit = " pt " ) ,
15 axis . title . x = element _ text ( margin = margin ( t = 20 , unit = " pt " ) ) ,
16 axis . title . y = element _ text ( margin = margin ( r = 20 , unit = " pt " ) )
17 )
4
3. Diagrama de caja o Boxplots
Un diagrama de caja, también conocido como boxplot, es una representación gráfica que muestra
la distribución de un conjunto de datos. La caja representa el rango intercuartı́lico, la lı́nea media
representa la mediana y los bigotes representan los valores mı́nimo y máximo.
5
4. Histograma
Los histogramas se utilizan para examinar la distribución de una variable continua. Consisten en bar-
ras rectangulares contiguas que representan los intervalos de valores de la variable en el eje horizontal
y la frecuencia de ocurrencia de esos valores en el eje vertical.
6
5. Gráfico de densidades
Los gráficos de densidades muestran la distribución de una variable numérica a través de una curva
suave. Son útiles para visualizar la forma de la distribución, identificar picos o modas y evaluar la
simetrı́a y dispersión de los datos.
7
6. Polı́gono de frecuencias
Un polı́gono de frecuencias es una representación gráfica que muestra la distribución de frecuencias
de un conjunto de datos. Consiste en trazar puntos en un plano cartesiano, donde el eje horizontal
representa los valores de la variable y el eje vertical representa la frecuencia de ocurrencia de esos
valores. Luego, se unen los puntos con segmentos de lı́nea para formar un polı́gono.
8
7. Diagrama de Violı́n
El diagrama de violı́n es una representación gráfica que combina un diagrama de caja con una
representación de densidad. Muestra la distribución de los datos y proporciona información sobre
la simetrı́a, la forma y los valores atı́picos. Es especialmente útil cuando se desea comparar varias
distribuciones al mismo tiempo.
9
Funciones en R y sus descripciones
Función Descripción
ggplot Crear gráficos estadı́sticos personalizables de alta calidad para visualizar datos.
unique Extraer valores únicos de un vector o columna en un conjunto de datos, eliminando duplicados.
slice min Seleccionar filas con valores mı́nimos de una variable especı́fica en un conjunto de datos.
slice max Seleccionar filas con valores máximos de una variable especı́fica en un conjunto de datos.
arrange Reorganizar filas en función de valores de una o más variables, en orden ascendente o descendente.
group by Agrupar datos en función de una o varias variables para realizar operaciones por grupos.
10