Tema 1 - Introduccción A La Estadística
Tema 1 - Introduccción A La Estadística
Tema 1 - Introduccción A La Estadística
Tema 1. Introducción a la
estadística
Índice
Esquema
Ideas clave
A fondo
Efecto Hawthorne
Series temporales
Bibliografía
Test
Esquema
Para estudiar este tema lee las páginas 13-37 del siguiente libro:
Málaga. Publicaciones.
Versión
electrónica: https://www.bioestadistica.uma.es/baron/apuntes/clase/apuntes/pdf/
Este primer tema consta de una parte introductoria para repasar los conceptos y
técnicas clave sobre los que trabaja la ciencia estadística y también aborda una
primera necesidad que surge a partir de los datos, sobre cómo organizarlos y
presentarlos. O dicho de otro modo, este capítulo trata de responder a esta cuestión:
¿Cómo organizamos los datos para poder comprender la información que contienen?
(O como diría Moore, para «aprender» de ellos.
También será clave que practiques con los ejercicios que vienen al final del tema, los
cuales están diseñados para que apuntales las ideas más importantes sobre tablas
de frecuencias y gráficos estadísticos. Los dos esquemas que acompañan este tema
de voto, etc. Pero esta definición no es la que nos interesa, ya que hace mención a
estudios concretos, pero no expresa una visión de esta disciplina como ciencia que
maneja los datos a través de un proceso que va desde el diseño del estudio,
podemos dar otra definición: la estadística es la ciencia que nos permite aprender
con todas sus fases no quiere decir que no se «haga estadística». Podemos realizar
experimento para recoger los datos, otro de recogerlos, una tercera de analizarlos y
un cuarto de exponerlos en una presentación delante del jefe de la empresa para que
este pueda tomar las decisiones oportunas. Cada uno de los cuatro empleados está
hecho, se suele decir que no hay buen análisis posible si los datos han sido
Además, las fases explicadas anteriormente tampoco son únicas, pues otros autores
fase previa.
Alguien podría preguntarnos alguna vez «¿para qué sirve la estadística?». Entonces,
(Moore, 2006).
parte inferencial, aquella que descansa sobre un aparato matemático mayor y que
recolectada sobre algo. Pero ese «algo» es lo que llamaremos individuo el cual
conforma un colectivo que llamamos población, que es finalmente sobre lo que nos
cualquier fenómeno, sino de aquellos que son colectivos y que no atienden a leyes
deterministas (de las cuales se encargan las ciencias exactas), es decir, de aquellos
El proceso mediante el cual seleccionamos a los individuos que van a formar parte
calidad en los datos obtenidos (es decir, una información importante sobre la
la de la población de origen.
muestra), el cómo será la realidad entera (la población). La clave será reducir este
error, inherente al propio proceso de muestreo, al mínimo.
descriptiva y de la inferencial).
madrileño de transportes hace unos ocho años los encargados del estudio querían
Madrid?».
pueblos de la serranía. Lo que ocurre es que no les pudieron preguntar a todos los
habitantes de todos los pueblos, ya que ello hubiera excedido los costes
presupuestados.
De modo que se seleccionó una muestra aleatoria de viviendas para que sus
Como el estudio anterior son en realidad todos los estudios que se llevan hoy en día
practican desde el año 2000 cuando tuvo lugar el último censo de la población
española.
cuando pueden tomar infinitos valores como por ejemplo las magnitudes físicas
▸ Variables dependientes.
▸ Variables independientes.
Las dependientes son las que sus valores dependen de los que tomen otros de
acuerdo a un determinado rol hipotético que asumimos que juega cada variable y
supone que pretendemos explicar el hecho de aprobar Lengua a partir del número de
horas estudiadas para la asignatura, lo cual parece razonable (aunque existirán otros
factores).
predictora. Depende del gusto de los autores el emplear una terminología u otra,
ANCOVA permite este tipo de controles, aunque son técnicas que se ven en cursos
dicotómicas, ya que son muy útiles para describir el hecho de que ocurra algo (1) o
no ocurra (0).
como por ejemplo la variable edad. En teoría se trata de una variable continua (la
edad es el tiempo pasado desde el nacimiento, que es una magnitud continua), sin
2ºESO,…, 2ºBachillerato).
momento dado, no ser neutral con el resultado de los objetivos del estudio y este
datos que viene a ser esa pequeña o grande manipulación y preparación que sufren
las conclusiones de los datos para beneficio de quien presenta los resultados del
estudio.
fuentes de sesgo donde la anterior es tan solo la más coloquial. Es donde solemos
decir: «tal o cual estudio o investigación están sesgados…». Cuando veamos los
sondear los votos a los partidos en un momento coyuntural concreto. Este tipo de
pregunta, etc.
Ejemplo 4: Imagínate que eres un analista de datos y tienes que empezar a trabajar
datos, a las variables que hacen referencia X e Y, cómo han sido recogidos, etc.
unas actas de una asignatura de un grado universitario y que son una m.a.s. de 10
alumnos por cada uno de los grupos del curso, mañana y tarde, los cuales
que se nos ocurre hacer con los datos es contarlos. Anotar sus repeticiones, es decir,
el número de veces que se repite un valor o una categoría de una variable. A estas
▸ Las relativas que se obtienen como las absolutas en relación al N total o suma de
circunstancia que Nk, que es la última frecuencia absoluta acumulada (que a veces
▸ Las relativas acumuladas que por analogía con las anteriores son las sumas de las
Ejemplo 5:
En esta tabla se aprecia que en el lugar que tendría que figurar la columna de
cuenta que se trata de conceptos equivalentes, las frecuencias relativas son al tanto
No todos los individuos tienen que tener asociado obligatoriamente un valor para
cada variable, cuando esto sucede diremos que el individuo presenta un valor
entender que en esa columna no se contabilizan los valores perdidos. Esto sucede
en la tabla anterior tal y como se puede apreciar, ocurriendo que en este caso se
individuo.
continuación en otra pregunta cuántos hijos se tienen, esta segunda pregunta dará
lugar a valores «no procede» o «no aplicables» para los individuos que hayan
tenemos que considerar los conceptos de límite inferior y superior del intervalo, y el
valor que representará a dicho intervalo que se denomina marca de clase del
cuando veamos las medidas resumen estadísticas. Al ser el valor o punto medio del
Ejemplo 7:
Existe un dicho en estadística: «Más vale un buen gráfico que mil tablas de
frecuencias». Si bien puede que sea una exageración, en muchos casos es cierto.
Uno de los dilemas clave cuando tenemos una base o conjunto de datos es el
La pista esencial para saber que gráfico nos corresponde confeccionar es el tipo de
variable que se pretende representar. El primer caso que se nos presenta es cuando
tenemos variables de «tipo categórico» (en realidad no existe tal división pero a nivel
práctico es útil manejarla), que pueden ser tanto cualitativas (de ambos tipos:
nominales y ordinales) como cuantitativas discretas, donde cada valor discreto sería
equivale a decir que todas las variables pueden ser representadas con diagramas de
Ejemplo 8:
En ocasiones los diagramas de barras pueden ser un poco más complejos, esto
ocurre cuando «cruzamos» dos variables categóricas.
Ejemplo 9:
tarta).
Se trata de un gráfico muy habitual que estamos más o menos acostumbrados a ver
por doquier. El único requisito que hay que tener en cuenta es el de representar los
Cuando hay muy pocas diferencias entre las categorías o porciones podríamos
Ejemplo 10:
Ejemplo 11: Para resumir información de carácter militar el pictograma puede ser
representar cada modalidad según su valor y dibujando cada elemento con esta
escala. Esto no es correcto pues hay que considerar que las áreas de los dibujos
En el ejemplo anterior si se fija uno bien el valor en millones de euros del segundo
tanto, el área, tal y como apuntan algunos autores (Ríus et al., 2006, 25). Según lo
dicho las frecuencias serán proporcionales al tamaño de estas áreas.
Uno de los motivos que hace que el uso de los pictogramas sea limitado se debe al
cuantitativas continuas.
que se obtiene al unir los puntos medios de las barras del histograma (muestro con el
color de relleno rebajado el histograma asociado que no tendría por qué figurar
Ejemplo 13:
Este gráfico, al ser pura línea, acentúa las tendencias, por lo que viene bien para
llamado nube de puntos) el cual nos sirve para representar los valores de un
Ejemplo 14:
Cuando se dispone de frecuencia mayor que uno para algún par (xi,yj) lo que se hace
es situarlos muy próximos entre sí indicando que todos esos puntos (nij puntos para
gráfico diferenciando los puntos por colores o usando un símbolo. Por ejemplo «H» o
Otra gráfica muy común en nuestro día a día (sobre todo en las secciones de
que se muestran una línea que recorre diferentes valores o frecuencias a lo largo del
Ejemplo 15: Los índices económicos bursátiles como el IBEX 35 son un ejemplo
Para aprender más sobre series temporales consulta el apartado No dejes de leer.
empezar. Es raro encontrar un libro que aborde esta cuestión explícitamente, pero lo
vamos a emplear sea realmente el más adecuado o que no pareciendo que sea
erróneo sospechamos que tiene que haber algún otro gráfico que sea realmente
Y entonces, ¿cuál es el gráfico más adecuado para mis datos? Lo primero que
tenemos que tener en mente para responder con seguridad a esta pregunta es la
siguiente tabla, que aunque al principio quizás tengamos que acudir a ella con cierta
recolecta y analiza los datos» proviene del siglo XIX. Está bastante claro que con la
llevar a cabo todo tipo de análisis está más allá casi de nuestro propio entendimiento.
Esto genera un problema que hasta ahora nunca había sucedido: «tenemos tantos
pesar de que nunca habíamos tenido tantos datos, somos incapaces de aprender
nada de ellos. Y ¿de qué sirve realmente entonces tener los datos? La respuesta
es: para nada. Para solucionar esto, la estadística debe adaptarse a este nuevo
De manera más específica, estos son los problemas a los que tiene que
debido a que el tiempo necesario para llegar a cabo los cómputos necesarios
puede ser inviable. Por tanto, se hace necesaria la creación de códigos eficientes
que nos permitan:
Cuando trabajamos con conjuntos reducidos de datos, este enfoque puede resultar
trabajamos en entornos Big Data, los outliers pueden estar formado por una
cantidad muy grande de datos. Por ello, eliminarlos u obviarlos puede no ser la
el único problema que la estadística debe resolver para poder trabajar de forma
datos relativos a todos los usuarios que pasan por ellas. Este compendio de
información contiene, por lo general, datos referentes a todo tipo de actuaciones
que los usuarios llevan a cabo en la web. La heterogeneidad de dicha información
hace necesaria, por parte de los métodos de análisis estadístico, de la aplicación de
procesos que permitan transformar los datos de forma que puedan ser
más rápida y eficiente. Esto es debido a que, si paralelizamos los métodos, todos
es.svg/2000px-Cloud_computing-es.svg.png
▸ 4. Políticas de privacidad: los datos de la mencionada «huella digital» que dejan los
usuarios en Internet son una fuente fiable y extensa de información cuya utilización
requiere de la autorización de los usuarios y de la web en concreto que haya
obtenido esta información. Por tanto, no son datos que estén al alcance de todo el
mundo sino que, cuando se necesite llevar a cabo un estudio estadístico, es
necesario pedir los datos (o comprarlos) a la empresa en cuestión que posea la
información que necesitamos.
Puede que incluso necesitemos cruzar datos que posean varias empresas a la
hora de llevar a cabo nuestro análisis. Por tanto, aunque pueda parecer que hay una
informe estadístico.
Accede al vídeo:
https://unir.cloud.panopto.eu/Panopto/Pages/Embed.aspx?id=77b5a672-ce90-
4d20-b4bd-acbc00c99a8e
Moore, D. S. (2006). Introduction to the practice of statistics (5th. ed.). New York:
https://www.bioestadistica.uma.es/baron/apuntes/clase/apuntes/pdf/
Accede al vídeo:
https://unir.cloud.panopto.eu/Panopto/Pages/Embed.aspx?id=e1b1a4b3-1803-
41fe-b7c5-abdc00f2aa38
Efecto Hawthorne
¿Has oído hablar del efecto Hawthorne? Te animo a que investigues por tu cuenta un
poco de este efecto y sus orígenes en la industria americana de los años 50 del
pasado siglo. También puedes aprovechar para reflexionar que implicaciones puede
http://es.wikipedia.org/wiki/Efecto_Hawthorne
Series temporales
Para profundizar y saber más sobre series temporales (lo cual excede en cierto modo
indagar sobre las componentes de una serie temporal, lo cual te servirá para
desarrollar un «buen ojo» para juzgar y analizar las series temporales con las que
importancia que debería tener la estadística en nuestros currículos acorde con lo útil
que resulta en nuestro día a día; todo ello en detrimento de las matemáticas clásicas
http://www.ted.com/talks/arthur_benjamin_s_formula_for_changing_math_educa
tion
estudios demográficos realizado por Hans Rosling. Nota: puedes además poner los
subtítulos en español o inglés para facilitar su seguimiento.
Bibliografía
Moore, D. S. (2006). Introduction to the practice of statistics (5th. ed.). New York:
https://www.bioestadistica.uma.es/baron/apuntes/clase/apuntes/pdf/
B. Números contextualizados.
A. Los llevaba a cabo el INE todos los años para temas muy importantes
etc…
B. Son junto con los observacionales los dos grandes tipos de estudios
estadísticos.
Big Data:
10. La estadística:
D. A y C son ciertas.