Libro de Data Science
Libro de Data Science
Libro de Data Science
YOUR LIFE!
04
Nuclio
Digital School
Nace de la incubadora de startups Nuclio Venture
Builder, con la necesidad de formar a perfiles
especializados en el sector tecnológico, con una
metodología práctica y centrada en el alumno.
Nuclio Digital School
Creación
En 2018, el principal Business Angels de España y pre- Para la mayor Venture de España, tenía todo el sentido
sidente de Nuclio, Carlos Blanco, junto al experto en la crear una escuela de másteres con metodología boot-
innovación de modelos educativos, Jared Gil, tuvieron camp especializada en perfiles digitales, no solo para
una serie de reuniones que los llevarían a tomar una gran proveer de estos a las startups del grupo, sino a toda
decisión: crear Nuclio Digital School. Una escuela digital la industria.
enfocada en cubrir la alta demanda de perfiles TIC que
tiene la industria.
07
Nuclio Digital School
08
Nuclio Digital School
Desarrollo
Establecer una nueva empresa en el mercado y con- La clave del desarrollo fue ofrecer un upskilling y reski-
seguir que sea la #1 no es fácil. ¡Para ello tienes que lling de los perfiles profesionales, en tan solo 5 meses.
rodearte de los mejores! Tanto socios como compañeros Con un gran aporte de valor: networking con profesores
de trabajo. Y puede que la parte más difícil sea esa: en- en activo de compañías top del mercado.
contrar a las personas adecuadas para llevar a cabo
el proyecto con éxito. En NDS preparamos a los estudiantes para generar
un gran impacto en las empresas o emprendimientos
En Nuclio Digital School lo logramos y nos converti- propios. Dotándolos de conocimientos que no se pueden
mos rápidamente en una escuela referente en España. adquirir en las carreras tradicionales.
Creando los programas de formación más innovadores
y nutriendo a las empresas de perfiles técnicos de alto
rendimiento.
09
Nuclio Digital School
Expansión
En solo algunos años, nos hemos posicionado como Bajos, Portugal, y EAU). Sin dejar de lado las ciudades
la principal escuela de negocios digitales de España. que la vieron nacer y donde se ubican sus tech centers:
Y ya ha sido galardonada con premios como “European Barcelona y Madrid.
Technology Awards” y “Educational Excellence Awards”.
Nuestra escuela ha logrado también ampliar su oferta de
Con el objetivo claro de digitalizar a todos los profesio- formaciones, y actualmente ofrece másteres especia-
nales del mundo, hacia 2022 logramos afirmar la expan- lizados en digitalización, en áreas como programación,
sión, aterrizando en mercados como Latam (México, marketing, diseño, negocios, finanzas y recursos huma-
Brasil, y Chile, entre otros), y Europa (Alemania, Países nos. Brindando las modalidades presencial y streaming.
10
Dime tu fuente
y te diré quién eres
El mundo ya no habla, grita. Cada día escuchamos miles
de voces que dicen ser la voz de la verdad. Mientras tanto,
tú necesitas estar informado sobre los temas que más te
interesan, pero te cuesta decidir en quién confiar.
Lo sabemos y por eso queremos presentarte a nuestros 11
colaboradores.
Hemos seleccionado a un grupo de profesionales líde-
res del sector para que escriban sobre Data Science, tal
y como nos hubiera gustado leer tantas veces. Además,
mientras te dejas llevar por sus palabras, encontrarás
Inteligencia Artificial gracias a las imágenes generadas
junto a DALL·E.
Esta es tu oportunidad de escuchar en primera persona a
distintos expertos que viven en contacto día y noche con
esta disciplina. Perfiles con experiencia de trabajo en re-
conocidas empresas y emprendimientos propios, que han
formado parte de la comunidad de Nuclio Digital School y
quieren que también te unas a la revolución digital.
Al igual que ellos, tú puedes hacer la diferencia.
¿Nos acompañas?
Espartaco Camero _ Responsable de Data Science & Analytics Carlos Pérez _ Responsable de Data Science
Jesús Prada _ Responsable de Machine Learning Toni Badia _ Data Scientist Senior
Massimiliano Brevini _ Data Analyst Senior
12
15
(I)Big Data
31
(II)Inteligencia
Artificial
54
(III)Machine
Learning
70
(IV)Deep
Learning
93
(V)Data
Science
110
El equipo
soñado
124
Máster en
Data Science
128
Glosario
Data Science
136
Ricardo
Cavolo
(I)Big Data
QUÉ ES?
?
Se conoce como la recopilación, selección, filtrado y Y las siguientes personalidades han declarado:
análisis de gran cantidad de datos utilizando algoritmos
informáticos. El objetivo es obtener información relevan- “Sin análisis de Big Data las
te de forma rápida y dinámica, de manera tal que pueda
ser mostrada de forma organizada y preferiblemente corporaciones son ciegas y sordas.
visual, a la parte interesada. Perdidos en la web como un ciervo
El origen de los datos y la relevancia de los mismos es
en la carretera”
parte fundamental en la obtención de resultados real- - Geoffrey Moore
mente relevantes, que ayuden a extrapolar resultados
futuros o ayuden a inferir tendencias de diferente índole. “El mundo es un problema de
La definición de Big Data parece haber llegado a un con- Big Data”
senso, pero muchas personalidades han realizado sus
propias definiciones o comentarios al respecto, y nos - Andrew Mc Afee. Refiriéndose a que el mundo es como
ayudarán a entender mejor el concepto: un enorme algoritmo que solo el Big Data es capaz de 17
hacer visible.
En la conferencia de Techonomy de California de 2010,
Eric Schmidt pronunció la famosa frase (1):
“Sin Big Data solo eres otra persona
con su opinión”
- W. Edwards
(1)
“Hubo 5 exabytes de información creada
por el mundo entero entre los albores de
la civilización y 2003. Ahora esa misma
cantidad se crea en dos días”
Big Data
“La información es el petróleo del El Big Data se utiliza en una amplia variedad de campos,
como la ciencia de datos, la investigación empresarial,
S. XXI, y el Big Data es el motor de la publicidad en línea, la salud y el gobierno, entre otros.
combustión” Algunas de las características comunes del Big Data son:
NACIMIENTO
1937
A pesar de que no ha sido hasta hoy en día cuando el Big
Data ha obtenido mucha importancia, es algo con lo que
convivimos desde tiempos inmemoriales. A medida que
ha ido avanzando la tecnología se ha convertido en uno Ya en el año 1937, Franklyn D. Roosvelt decidió realizar
de los mayores atractivos para aquellas instituciones el seguimiento de 29 millones de contribuyentes, el
que quieran conseguir o preservar el poder, y para las responsable de realizarlo sería precisamente IBM, la cual
empresas que simplemente buscan encontrar a su públi- fue contratada para desarrollar una máquina lectora de
co objetivo en un mercado muy diverso. tarjetas perforadas.
1943
población para controlar e investigar negocios, inicial-
mente se trataba solo de registros contables introdu-
cidos en Mesopotamia, pero ha habido grandes saltos
tecnológicos que han cambiado esa básica recopilación En el año 1943, en plena segunda guerra mundial, los bri- 19
de datos en un sofisticado sistema para obtener e inter- tánicos inventaron la primera máquina de procesamiento
pretar información. de datos, dispositivo conocido como “Colossus”, creado
para interceptar mensajes del bando nazi, que era capaz
de interpretar 5.000 caracteres por segundo, haciendo
1663
que el trabajo que antes suponía semanas de esfuerzo,
pasara a ser cuestión de horas
1952
tica y pionero dentro de la historia del Big Data, debe su
título al libro “Observaciones naturales y políticas”, en
el que realizó un análisis exhaustivo de los boletines de
mortalidad en Londres, con el objetivo de crear un siste- Posteriormente, en 1952 se crea la NSA, que en los
ma de alerta para la peste bubónica que los asolaba. siguientes 10 años contrataría a 12.000 criptólogos por
la sobrecarga de información que recibían debido a la
guerra fría con Rusia.
1887
El siguiente avance se produjo en 1887, con la entrada 1965
a la era de la información, gracias al invento de Herman
Hollerith, una máquina tabuladora que permitía organizar Pero es en 1965 cuando se puede hablar de almacena-
los datos censales. Ese invento le llevó a crear la empre- miento de datos digitales, teniendo EEUU, en un solo es-
sa que cambiaría en unos años su nombre a IBM. pacio, almacenados 175 millones de huellas dactilares y
742 millones de declaraciones de impuestos, algo que la
población estadounidense rechazó por los paralelismos
con el personaje de George Orwell “Big Brother”.
Big Data
2005
nes de administradores de datos.
FUNCIONAMIENTO
Para poder trabajar con Big Data se utilizan diversas Integración de los datos
técnicas y herramientas de análisis de datos y tecnolo-
gías de almacenamiento y procesamiento, que permiten La integración del big data es el proceso de combinar
manipular y analizar estos grandes grupos de datos. datos de diferentes fuentes y en diferentes formatos,
para obtener una visión más completa y precisa de
El Big Data es un proceso totalmente automatizado. El una situación o problema en particular. Esto puede ser
cual trabaja en conjunto con herramientas que buscan especialmente útil en el análisis de grandes conjuntos de
una solución a una serie datos que emiten información datos, que pueden ser difíciles de analizar y procesar de
de relevancia. Se hace uso de aplicaciones analíticas, otra manera.
de aprendizaje, e inclusive, de inteligencia artificial. Sin
embargo, es necesario conocer detenidamente cómo La integración del big data puede incluir la recopilación
funciona, siempre contando con las estructuras necesa- de datos de diversas fuentes, como bases de datos, 21
rias para que sea efectiva. archivos de registro, sensores, redes sociales y dispo-
sitivos móviles. También puede involucrar la limpieza de
Según sean las características de la empresa, se tomará datos para eliminar redundancias y errores, así como la
en cuenta la integración del tipo de sistema a aplicar. En transformación de datos para que puedan ser utilizados
algunos casos los servidores a automatizar deberán ser de manera más efectiva.
bastantes, lo que puede resultar costoso para la mis-
ma. Así que determinar el funcionamiento correcto es Una vez que se han integrado los datos, se pueden utili-
imprescindible para realizar los debidos presupuestos zar herramientas de análisis y visualización de datos para
con antelación. obtener insights y tomar decisiones basadas en los re-
sultados. La integración del Big Data puede ser utilizada
Para entender el funcionamiento del Big Data, debemos en una amplia variedad de campos, como la publicidad, la
explicar en qué consiste la integración, gestión, análisis salud, la financiación y la industria.
de datos, así como las herramientas que se utilizan.
El Big Data, como ya hemos mencionado, proviene de
gran cantidad de fuentes y el volumen de datos es consi-
derable. Por ende, es necesario el uso de aplicaciones y
herramientas tecnológicas que permitan gestionar tales
cantidades. Al generar tanta información, es impres-
cindible recibir los datos, lograr procesarlos y formatear
adecuadamente, con el fin de que puedan llegar a ser
comprendidos por los profesionales y usuarios.
Big Data
BENEFICIOS
EMPRESARIALES
26
El uso de Big Data en las empresas comporta un conjunto En el caso de Dragon Corp Games, el Big Data sirve sobre
de beneficios para estas, entre los cuales cabe destacar: todo para identificar patrones en el mercado de los vi-
deojuegos, entender de dónde provienen sus fuentes de
• Mejora la toma de decisiones y el diseño de estrate- ingresos, segmentar por países y edades a los usuarios
gias en una empresa, a partir del análisis de grandes de un determinado juego, y comprobar si la información
cantidades de datos que proporcionan información que deciden proporcionar es veraz y encaja con nuestros
valiosa. datos. Eso nos ha permitido mejorar mucho la toma de
decisiones, ya que somos capaces de detectar oportuni-
• Incrementa la eficiencia, ayudando a identificar dades de negocio y disponer de un equipo que compren-
áreas de una compañía, donde se pueden hacer de el mercado.
ahorros de tiempo y dinero a través del análisis de
patrones y tendencias en los datos.
DESAFÍOS SOCIALES
BUENAS Y MALAS
PR CTICAS
Cuando se está en frente de algo disruptivo, es difícil SANIDAD: Una de las mayores aplicaciones a día de hoy
definir cuáles de los efectos que esto genera son buenos del Big Data se da en la sanidad. Cruzando datos del
y cuáles malos. La disrupción conlleva cambios y suelen historial de los pacientes y sus características físicas,
afectar de manera negativa e injusta a mucha gente, a estamos llegando a una sanidad personalizada. Has-
pesar de que a largo plazo puedan ser positivos para el ta ahora siempre se ha tratado a la salud como unos
conjunto global de la población. mantras aplicables al conjunto de la población. No fumar,
hacer ejercicio, dormir 8 horas, etc. Pero ahora sabemos
Hay ciertos eventos e hitos que nos hacen imaginar lo que hay gente que necesita dormir solo 6 horas para
que puede acabar aconteciendo: estar bien, que si sale a correr se lesionará, que tiene una
esperanza de vida X, entre otros datos determinados por
PREDICCIÓN LOTERÍA: A pesar de que a día de hoy no un conjunto inmenso de información.
podemos saber el número de la lotería que será pre- 28
miado, gracias al uso de Big Data se puede determinar *Contra: Si actualmente ya muchos rechazan a las per-
cuáles son los números con más probabilidades de salir sonas por lo que piensan, imaginemos cómo se puede
premiados. llegar a discriminar en el futuro, en función de paráme-
tros biométricos.
*Contra: Aquellos que disponen de la información ten-
drán cada vez más poder sobre aquellos que no la tienen. ASEGURADORAS: Las ciencias actuariales se ocupan de
las repercusiones financieras de riesgo e incertidumbre.
CHAT GPT: Hasta ahora hemos buscado la informa- Los actuarios proporcionan evaluaciones de sistemas de
ción desde fuentes como YouTube o Google, que nos garantía financiera, con especial atención a su comple-
indexan contenidos para ayudarnos a encontrar lo que jidad, sus matemáticas y sus mecanismos. Y la buena
buscamos. Aunque por otro lado, herramientas como noticia para ellos es que ahora es más fácil y certero de-
Alexa y Siri, han comenzado a responder preguntas más terminar las posibilidades de fraude de un asegurado, su
concretas y a tener incluso personalidad. El Chat GPT es posible siniestralidad, etc. Beneficiando a los asegura-
la evolución de estos últimos. Su inteligencia es abruma- dos que no dan problemas y perjudicando a los posibles
dora, hasta el nivel de poder escribir un poema, hacer los estafadores.
deberes, o detectar y corregir los errores de código de
un programador. *Contra: Habrá consumidores que pagarán más por
ser prejuzgados por motivos discriminatorios, incluso
*Contra: Hasta hace poco se creía que los trabajos de teniendo un historial de tráfico sin antecedentes.
transporte serían prácticamente los únicos afectados
por la IA a corto plazo, pero ahora vemos que trabajos
como el de programador, escritor, dibujante y un sin fin
de ejemplos más, están bajo la necesidad de transfor-
marse para perdurar.
Big Data
29
Big Data
FUTURO
El Big Data ha tenido un gran impacto en diversos cam- MAYOR USO DE DATOS EN LA TOMA DE DECISIONES
pos y ha revolucionado la forma en que se recopilan, EMPRESARIALES: Se espera que el análisis de datos
almacenan y analizan los datos. En el futuro, se espera se convierta en una parte cada vez más importante en
que el Big Data continúe siendo una herramienta valiosa la toma de decisiones empresariales, permitiendo a las
para mejorar la toma de decisiones y entender mejor empresas tomar decisiones más informadas y adaptarse
ciertos fenómenos y tendencias. El Big Data será integra- mejor a los cambios en el mercado.
do dentro de nuestra vida cotidiana, de forma que cada
actividad que llevemos a cabo podrá ser contabilizada Sin duda alguna, el futuro del Big Data es muy prome-
dentro de un sistema, que manteniendo la privacidad de tedor, al punto de que todas las universidades están
los usuarios, permita llevar un registro de actividades adaptando el pénsum o incluyendo alguna materia al
o preferencias; y que traslade esta información a las respecto. Aunque la necesidad sigue en crecimiento y la 30
instituciones y/o compañías, para la mejora de produc- velocidad con que se cubre la demanda no va al mismo
tos o servicios, beneficiando siempre a la mayoría de los ritmo, posiblemente sea el momento más idóneo de
compradores o usuarios. aprender y especializarse en el tema.
QUÉ ES?
?
La Inteligencia Artificial (IA) es la simulación de la inte- La IA aún está en época
ligencia humana mediante máquinas y sistemas com-
putacionales. El término fue acuñado en 1956 por John de crecimiento y necesita
McCarthy, que la definió como “la ciencia y la ingeniería madurar, y aunque en algunos
de hacer máquinas inteligentes”. La IA nos puede sonar
lejana y misteriosa, pero está presente en nuestro día
sectores parece haberse
a día desde hace muy poco tiempo, y la pregunta que consolidado, en otros está
muchos se hacen es ¿hasta dónde es capaz de llegar? apenas apareciendo.
Prácticamente todas las industrias están incorporando
algún componente de IA, ya que les ayuda a apoyar y
justificar sus decisiones, a transformarse digitalmente, o
a sacar partido a los datos. Pues si la data es el petróleo
del siglo XXI, la inteligencia artificial es quien refina estos
datos y los convierte en productos muy valiosos.
Inteligencia Artificial
TIPOS DE IA
A continuación te contaremos los distintos tipos
de Inteligencia Artificial, según su funcionalidad:
Deep Blue, una supercomputadora creada por IBM, fue Su IA puede almacenar patrones de información de datos
capaz de vencer en ajedrez al gran maestro ruso Gary del pasado (aunque de manera limitada y temporal) y dar 34
Kasparov a finales de la década de los 90. Pudiendo iden- respuesta a eventos para un futuro no lejano.
tificar las piezas del tablero y conocer los movimientos
de cada una, para escoger las mejores futuras posibilida- El ejemplo más claro son los coches autónomos, que uti-
des que tenía. lizan datos recogidos (imágenes y vídeos) en los instan-
tes previos, para tomar decisiones.
Las máquinas reactivas son capaces de simular millones
de combinaciones a una velocidad alucinante.
RAMAS
Por su parte, la Inteligencia Artificial abarca otros
dominios como el Machine Learning o el Deep Learning.
Estas son las principales ramas:
Clasificación
Regresión
Aprendizaje
supervisado
Ranking
MACHINE
LEARNING
Clustering
Aprendizaje
no supervisado
35
Reducir la
dimensionalidad
REINFORCEMENT
LEARNING
Natural Language
Processing (NLP)
DEEP
LEARNING
Computer
Vision (CV)
ROBÓTICA
Inteligencia Artificial
Machine Learning
El Machine Learning (ML) se sirve de algoritmos para
identificar patrones en los datos, que permitan elabo-
rar predicciones e inferencias. Existen dos categorías
importantes:
36
1950
La primera noción de la Inteligencia Artificial surge en los
años 50, poco después de la Segunda Guerra Mundial. El
matemático Alan Turing, quien con su trabajo acortó la
duración de la guerra entre dos y cuatro años tras des- Entre 1964 y 1966 en el Massachusetts Institute of Tech-
encriptar los mensajes cifrados de los nazis alemanes, nology (MIT) se desarrolló ELIZA, un programa capaz de
redactó el conocido Test de Turing en su ensayo “Com- procesar el lenguaje natural e interactuar vía texto.
puting Machinery and Intelligence”.
ELIZA era un proyecto embrionario aunque prometedor.
Este test evalúa la capacidad de una máquina para Tanto es así que el gobierno de Estados Unidos fundó la 38
exhibir un comportamiento similar al de un ser humano. Agencia de Proyectos de Investigación Avanzados de De-
La máquina pasa exitosamente el test, luego de que fensa (Defense Advanced Research Projects Agency en
una persona (el entrevistador), tras una conversación inglés, DARPA) para promocionar y fomentar investiga-
con una máquina y otra conversación con una persona, ciones en este nuevo mundo. En 1970 Marvin Minsky dijo
no sepa distinguir cuál fue con el humano y cuál con la en la revista Life: “De aquí a 3 u 8 años, tendremos una
máquina. máquina con la inteligencia media de un ser humano”. Sin
embargo, la capacidad de los ordenadores aún estaba a
Cinco años después del ensayo de Turing, en Dartmouth años luz de poder exhibir tal inteligencia, y durante los
(Estados Unidos) se presentó el primer programa de siguientes años la IA dejó de estar en boca de todos. El
Inteligencia Artificial organizado por John McCarthy y hype se desvaneció y la gente perdió el entusiasmo por
Marvin Minsky en 1956. En la conferencia de Dartmouth esta nueva tecnología.
se reunieron los principales investigadores de varias
1980
disciplinas para discutir sobre la Inteligencia Artificial.
Fue aquí donde se acuñó por primera vez el término
Inteligencia Artificial.
Hay que esperar a los inicios de los ochenta, cuando la
1960
IA vuelve a renacer gracias a las aportaciones de Edward
Feigenbaum. Edward se doctoró en la Universidad de
Carnegie Mellon, y en esta misma universidad en 1979
Con el desarrollo de los ordenadores, surgió la capacidad otro profesor creó un programa informático que con-
de almacenar información y ejecutar procesos más rápi- siguió vencer al campeón de Backgammon, e introdujo
do y barato; convirtiéndose con el tiempo en un producto el concepto “Sistemas Expertos” que imita el proceso
más accesible para el público general. de decisión de los humanos más expertos. El programa
preguntaba a un experto cómo responder ante ciertas
¿Pero cómo se puede avanzar a pasos tan agigantados? situaciones y el sistema era capaz de memorizar y res-
Te lo contamos: ponder a peticiones de personas no tan expertas.
Si recordamos a ELIZA, aquel programa con el que se po-
día hablar con tu ordenador a través de una pantalla y un
teclado, en 1996 Richard Wallace desarrolló un chatbot
Los Sistemas Expertos fueron utilizados ampliamente en ALICE (Artificial Linguistic Internet Computer Entity).
varias industrias, tanto es así que en Japón, los nipones ALICE mejoraba a ELIZA porque añadía un gran corpus
decidieron hacer una fuerte inversión en revolucionar el de texto (datos) de los que aprender y replicar patrones,
procesamiento por computador, la lógica programática tenía una estructura más sencilla y sabía satisfacer limi- 39
y mejorar la Inteligencia Artificial. Aunque sus objetivos taciones que ELIZA tenía.
fueron demasiado ambiciosos y no llegaron a cumplirse,
2000
estos esfuerzos inspiraron a muchos ingenieros y cientí-
ficos jóvenes.
1990
La década de los 2000 destaca por el boom de la robóti-
ca y su aparición en el mundo del cine:
Los nuevos intentos frustrados hicieron que la IA deje En el 2000, Honda lanza ASIMO, un robot humanoide
de estar, de nuevo, en el foco de atención. Los gobier- inteligente. La compañía japonesa creó este robot para
nos dejaron de invertir en ella y el hype del público se ayudar a personas que carecen de movilidad completa
desvaneció. Irónicamente, fue en la década de los 90 y en sus cuerpos.
los 2000 cuando más prosperó. En 1997, el gran maestro
mundial de ajedrez Gary Kasparov fue derrotado por En 2004, Will Smith protagonizó la película Yo, Robot.
Deep Blue, un programa de ordenador desarrollado por La película se sitúa en Chicago en el año 2035, donde
IBM. La primera partida en 1996, la perdió la máquina, existen robots humanoides que sirven a las personas.
pero una versión mejorada venció al ajedrecista ruso el Del Spooner, un detective del departamento de Policía
siguiente año. de Chicago, investiga el caso del supuesto suicidio del
co-fundador de US Robotics. Del Spooner teme que haya
En los noventa destacan las evoluciones en el Deep Lear- sido un robot humanoide el autor del crimen.
ning y la consolidación de las redes neuronales. En 1997,
Sepp Hochreiter y Jürgen Schmidhuber desarrollan Long No hay que irse al 2035, para ver convivir algunos robots
Short-Term Memory (LSTM), un tipo de red neuronal en nuestro día a día, pues en el 2002, iRobot lanzó
recurrente (Recurrent Neural Network en inglés - RNN). Roomba. Este robot no será capaz de huir de Will Smith,
Esta arquitectura se volverá muy popular para el recono- pero sí de aspirar y barrer nuestra casa evitando sillas y
cimiento del texto y la voz. muebles..
Inteligencia Artificial
2010 2018
Desde 2010 hasta hoy, la IA está en nuestro día a día. En 2018 Google desarrolló BERT, la primera representa-
Cada día utilizamos smartphones con asistentes de voz, ción bidireccional del lenguaje no supervisado, que se
ordenadores y aplicaciones con funciones inteligentes puede usar en una variedad de tareas de lenguaje natu-
con las que ahora no podríamos vivir. ral mediante el aprendizaje por transferencia. En 2019,
OpenAI, un laboratorio de investigación impulsado por
En 2011 Watson, un ordenador de lenguaje natural crea- Elon Musk, lanzó GPT-2 un modelo de redes neuronales 40
do por IBM, respondió preguntas y venció a 2 ganadores formado por 1.5 billones de parámetros que generan tex-
de Jeopardy (un concurso de televisión sobre numero- to prediciendo palabra a palabra. Pero sin duda es GPT-3
sos temas como historia, lenguas, cultura popular, bellas el producto que más revuelos ha causado en el público.
artes, ciencia, geografía y deportes). Sin embargo, el El New York Times dijo que GPT-3 no es solo asombrosa,
mayor hito hasta la fecha en términos de juegos de es- espeluznante y aleccionadora, sino también un poco
trategia y concursos, lo ha alcanzado AlphaGo de Google más que aterradora.
DeepMind, un programa de computadora que compite
en el juego de mesa Go, que derrotó a varios campeones GPT-3 se entrenó con un corpus de más de 1000 millones
entre 2015 y 2017. Si el ajedrez puede parecer un juego de palabras y puede generar texto con una precisión en
complicado, Go es inmensamente más complejo. el nivel de los caracteres. Por el momento está en versión
beta y no se vende al público, pero ha dejado a muchos
En 2011, Apple lanzó Siri, un asistente virtual que utiliza expertos con la boca abierta. Tecnologías como esta
lenguaje natural para entender, responder y recomendar permitirán grandes avances, pero también abrirán las
cosas al usuario. Otras empresas en Silicon Valley no tar- puertas a nuevas maneras para cometer fraude, terroris-
darían, y en 2014 Microsoft lanzaría Cortana y Amazon a mo o suplantación de identidad (deep fake).
Alexa. El procesamiento del lenguaje natural ha evolucio-
2021
nado con creces en la última década.
FUNCIONAMIENTO
Los sistemas de IA funcionan combinando grandes Los principales retos a la hora de entrenar un modelo son
conjuntos de datos con algoritmos de procesamien- el underfitting y el overfitting:
to inteligentes e iterativos para aprender patrones y
características en los datos que analizan. Cada vez que El UNDERFITTING ocurre cuando el modelo construido
un sistema de IA ejecuta una ronda de procesamiento falla en capturar los patrones tanto en train como en
de datos, prueba y mide el rendimiento, y genera una test. El modelo desarrollado es demasiado simple y/o a
experiencia adicional. las variables generadas les falta capacidad predictiva. 42
Para combatir el underfitting, la solución está en optar
El procedimiento usual en la generación de modelos de por modelos más complejos y aumentar la cantidad de
ML sigue una secuencia de pasos: partición de los datos registros, de modo que el modelo pueda estar expuesto
en entrenamiento y validación, definición de las métricas a más casos y/o añadir más y mejores variables.
y selección del modelo.
El OVERFITTING ocurre cuando el modelo ha memoriza-
El primer paso consiste en la partición de los datos. Los do los datos de entrenamiento y falla en las predicciones
datos se dividen en tres bloques: train, test y validación. en test. Su rendimiento en entrenamiento es excelente,
Con los datos de train, se entrena el modelo de ML o DL. pero cuando se evalúa en test, los resultados son muy
Con los datos de test, se comprueba que el modelo ha inferiores. Para combatir el overfitting, se puede reducir
aprendido los patrones adecuados en los datos y que no la complejidad del modelo utilizado (reduciendo el núme-
ha memorizado los datos de train. Y finalmente, compro- ro de hiperparámetros, seleccionado así un modelo más
bamos nuestro modelo con los datos de validación. simple), aumentar la cantidad de registros, reducir el
número de variables que describen los datos o utilizar la
Las particiones suelen hacerse de manera aleatoria, por validación cruzada. La cross validation divide los regis-
defecto el train-test corresponde al 90% del cual train tros en varias piezas, cada pieza tiene registros selec-
corresponde al 80% de los datos existentes y el test al cionados de manera aleatoria. El modelo será entrenado
20%, y la validación al 10%. Aunque si existe algún com- y evaluado en cada una de estas piezas, ya que de esta
ponente temporal en los datos, las particiones de train y manera el modelo generaliza mejor y se evita el sobreen-
test pertenecen al pasado, y los de validación correspon- trenamiento.
den a los registros más recientes de las últimas semanas
o el último mes. Recordar que el objetivo principal es po- El underfitting se produce cuando se tiene mucho sesgo
ner en producción un modelo que capte los patrones del y poca varianza. Y el overfitting cuando se tiene poco
mercado y tendencias actuales. Un modelo que funciona sesgo y mucha varianza. Existe una batalla entre el
bien en el pasado pero falla en el presente, no es un buen sesgo (bias) y la varianza, y el objetivo es encontrar un
modelo a poner en producción. ¿No lo creen? balance entre ambos.
Inteligencia Artificial
El segundo paso es la elección de la métrica y la función 2. MODELOS A BASE DE ÁRBOLES DE DECISIÓN: Este
de coste. Los modelos se entrenan iterativamente con tipo de modelos basan su estructura en los árboles
el objetivo de reducir el error que se computa en una de decisión. Un árbol de decisión define una serie de
variable generalizada que viene definida por la función de consultas o pruebas con respuestas de sí o no, que se
coste. realizan de manera adaptativa. Los resultados de estas
consultas permiten inferir un resultado.
La métrica depende del tipo de problema a resolver: Los modelos más populares son combinaciones de
varios árboles de decisión. Destacan Random Forest, y
CLASIFICACIÓN: Podemos querer maximizar la exactitud los modelos de Gradient Boosting (CatBoost, LightGBM o
(accuracy), la precisión (precision), la exhaustividad XGBoost). Estos últimos modelos se volvieron populares
(recall) o el valor-F (F1-score) que es un balance entre en las competiciones de Kaggle por su gran rendimiento. 43
precision y recall.
3. REDES NEURONALES: Este último tipo de modelos
REGRESIÓN: La métrica más popular es el error cuadráti- emulan el funcionamiento de las neuronas. Su arquitec-
co medio (RMSE). Pero en otras ocasiones, dependiendo tura consiste en nodos de entrada y salida. Entre los no-
del tipo de problema o de la distribución de los datos, dos de entrada y salida, existen unas capas ocultas con
nos interesa minimizar el error absoluto medio (MAE) o otros nodos en los que se producen sumas y multiplica-
alguna otra expresión de error ponderada. ciones. Las redes neuronales son el tipo de modelo más
complejo, requieren el uso de GPU (si se desea que el
RANKING: La métrica más popular es el Discounted Cu- entrenamiento se agilice y no dure una eternidad), pero
mulative Gain (DCG). La lógica detrás de esta métrica es en su contra, son capaces de detectar patrones no linea-
premiar la aparición de recomendaciones en los primeros les y ocultos en los datos y son el tipo de modelos que
puestos y penalizar la aparición de recomendaciones mejores resultados han dado en el campo de la Visión por
irrelevantes. Computador, el procesamiento del Lenguaje Natural y las
secuencias de Series Temporales.
Tras seleccionar la métrica más adecuada, el siguiente
paso es escoger el modelo más adecuado. Los modelos La elección del modelo no suele ser una tarea fácil. A
podrían clasificarse en 3 grandes grupos: menudo, el modelo más preciso no suele ser el mejor si la
predicción tarda mucho tiempo en realizarse o si el coste
1. MODELOS GEOMÉTRICOS: Este tipo de modelos de poner este modelo en producción es alto. A veces es
encuentra combinaciones entre las variables de entrada recomendable combinar el resultado de varios modelos
que permiten obtener el valor de salida. Los modelos más más simples (ensemble). Un tipo de modelo será bueno
populares son Support Vector Machine (SVM), Logistic identificando un tipo de categoría pero quizás flaquee
Regression, Linear Regression o K-Nearest Neighbors en otra, y otro tipo puede ser bueno generalizando en
(KNN). Estos modelos son simples, fáciles de entrenar y ambos. La opinión de varios tipos de modelos suele ser lo
almacenar, pero fallan al capturar relaciones no lineales y que da el mejor resultado.
necesitan que los datos vengan normalizados.
BENEFICIOS
EMPRESARIALES
La Inteligencia Artificial ofrece multitud de beneficios a El Machine Learning y la Inteligencia Artificial dan
las empresas y aplicar bien IA se traduce en una venta- resultados sorprendentes cuando:
ja competitiva. Las empresas más valiosas y que más
han crecido en los últimos años han confiado en algún • El problema es demasiado complejo para ser resuel- 44
tipo de IA en alguno de sus procesos y estrategias de to mediante reglas y condiciones. El conocimiento
negocio. Algunas empresas están más avanzadas y otras ganado tras años de experiencia en un campo podría
menos, pero lo que parece claro es que si no incorporas permitir conocer los factores determinantes que lide-
la IA quedarás obsoleto más pronto que tarde. ran en el mercado, pero este proceso puede ser muy
complicado o incluso imposible. El ML permite captu-
Sin embargo, recientemente hemos visto que la IA y la rar estos patrones.
tecnología aún tienen que encontrar su rol, pues tienen
muchas virtudes, pero algunos defectos. Empresas • El problema está cambiando constantemente. Esto
como Twitter, Shopify, Meta (Facebook), Netflix o Uber lleva a que el trabajo realizado hoy, deje de ser útil
han tenido que hacer un ajuste en el personal, despi- mañana.
diendo hasta al 50% de su plantilla en algunos casos,
porque han visto que se estaban dedicando muchos • Se trata de un fenómeno sin estudiar. Si existen datos
recursos a productos y avances tecnológicos que no sobre este fenómeno, la IA puede llegar a predecir
estaban reportando un impacto económico positivo. cuándo volverá a ocurrir este fenómeno y poder ac-
tuar antes de que pase.
Invertir en IA porque nuestros competidores lo hacen
o para no quedarse atrás, no debería ser la principal • El problema tiene un objetivo simple. Nuestra variable
palanca que active a las empresas a actuar. A menudo objetivo es única, no existe ambigüedad.
soluciones tecnológicas ya existentes, menos complejas
y costosas, ya ofrecen una solución bastante buena a • Los costes de la alternativa son muy altos. Los costes
nuestro problema. Otro punto a destacar es que muchas de contratar a un profesional experto en la materia
industrias necesitan una transformación digital previa pueden ser muy altos, y construir un modelo de pre-
antes siquiera de querer construir un modelo de predic- dicción es la opción más viable económicamente.
ción con la última tecnología del mercado. La realidad
es que la IA no es la gallina de los huevos de oro y para
algunos propósitos no es la mejor herramienta.
Inteligencia Artificial
Sin embargo, no se recomienda utilizar IA cuando: Algorithmia comentaba en uno de sus estudios que el
55% de las compañías tenía problemas para poner en
• Cada acción del sistema debe ser explicable. producción sus modelos de predicción, y es que incor-
porarlos a los procesos actuales de una empresa para
• El coste de un error del sistema es muy alto. que den soporte o incluso actúen como decisores en
negocio, sigue siendo una tarea complicada.
• Obtener los datos adecuados es muy complicado o
imposible. La IA bien usada tiene grandes beneficios porque: 45
• El desarrollo de software tradicional ya ofrece una • Automatiza los procesos. La IA permite realizar aná-
solución muy buena y a un coste mucho menor. lisis y tareas repetitivas, optimizando procesos de
manera automática, sin la necesidad de la interven-
• Una simple heurística funciona razonablemente bien. ción humana.
• El fenómeno a predecir tiene muchos posibles resulta- • Reduce el sesgo y el error humano. Al reducir la inter-
dos y existe mucha ambigüedad. vención de los humanos, se reduce la posibilidad de
cometer errores. Un algoritmo no tiene sentimientos,
Lanzar proyectos de Inteligencia Artificial depende de la no está enfadado, triste o contento, por lo que no
situación de cada empresa y no es una tarea fácil. Para dudará en tomar una decisión difícil si así lo dicen sus
que todo funcione a la perfección, los sistemas deben estimaciones y predicciones.
ser robustos y adaptarse a la necesidad de los usuarios,
los datos deben ser de calidad y el equipo de desarrollo • Aporta precisión. Las máquinas pueden llegar a un
debe tener las capacidades suficientes como para poder detalle mayor que el del ser humano, lo que también
poner en producción la solución. El trabajo no acaba reduce el error.
ahí, pues habrá que hacer seguimiento e iterar nuestra
solución, ya sea entrenando de nuevo los modelos para • Agiliza la toma de decisiones. La IA es capaz de
capturar las nuevas tendencias o añadiendo nuevas analizar miles de datos en poco tiempo y ofrecer una
variables predictoras. recomendación con la que el negocio pueda tomar
una decisión.
DESAFÍOS SOCIALES
Las empresas y gobiernos que utilizan IA aún tienen
varios desafíos a resolver. Hemos podido ver ya varios
casos donde empresas que han lanzado proyectos con
una alta dependencia en IA se han visto involucradas en
polémicas y escándalos, experimentado algún que otro
desastre y viviendo grandes pérdidas económicas. Otra de las incógnitas es qué pasará con los traba-
jos actuales si la Inteligencia Artificial se impone. Los
En 2016 Microsoft publicó Tay, un bot de conversación nuevos avances de la robótica o lanzamientos como
que se comunicaba a través de Twitter. En menos de GPT-3, DALL·E o ChatGPT pueden reemplazar el trabajo
24 horas, los usuarios de Twitter educaron a este bot de personal administrativo, desarrolladores y creadores
para que se convirtiera en una persona que comentaba de contenidos; lo que podría llevar a la desaparición de
mensajes xenófobos, racistas o con contenido sexual muchos puestos de trabajo.
inapropiado. Tay empezó con tweets mencionando lo
cool que eran los humanos, pero acabó publicando que Sin embargo, como ocurrió en la revolución industrial 46
Hitler tenía razón sobre los judíos. En tan solo 16 horas, cuando las máquinas reemplazaron el trabajo manual y
Microsoft dio de baja su creación. repetitivo de millones de personas, se espera que surjan
nuevos puestos de trabajo.
No es el primer caso en el que la IA actúa con comporta-
mientos racistas, machistas y xenófobos. Corregir estos La automatización y la IA harán que nuestros traba-
comportamientos y deshacerse del sesgo es un reto aún jos sean más eficientes y rápidos, pero la interacción
por resolver. Cabe mencionar que la IA no ha aprendido humana por el momento parece necesaria. Para que la IA
estos comportamientos porque decida ser así, sino por- funcione correctamente se necesita que los datos estén
que ha sido expuesta a datos e interacciones de muchas bien recogidos y sean de calidad, que personas con
otras personas que denotan este comportamiento, y la criterio, entendimiento y experiencia monitoricen qué
IA ha interpretado este comportamiento como normal. decisiones está tomando la IA. Tareas como estandariza-
ción de los datos, manejo de la seguridad y la integridad,
La existencia de estos sesgos genera dudas en temas entrenamiento de los modelos, y perfiles como diseña-
mucho más delicados como la salud o el acceso a la dor de sistema de IA, expertos en IA o seguridad de los
financiación que ofrecen los bancos. Este sesgo puede sistemas, serán necesarios en el futuro.
denegar un préstamo a una persona simplemente por
pertenecer a cierta etnia. Otro gran dilema aparece con los coches autónomos. En
caso de accidente con peatones o ciclistas, ¿el sistema
En algunas ocasiones, tener total confianza en la IA debe ser diseñado para proteger la vida de los individuos
también puede llevar a grandes pérdidas económicas. En dentro del vehículo o debería proteger a los peatones?
2021, la empresa inmobiliaria estadounidense Zillow de-
claraba que había perdido 881 millones de dólares debido La pregunta clave está en cómo programar el algoritmo
a su nueva línea de negocio de House Flipping. El House que tome la decisión “adecuada” en cada situación.
Flipping consiste en un algoritmo de IA y ML que compra ¿Podrá la IA diferenciar entre lo que está bien y lo que
inmuebles para venderlos más tarde a un precio más alto. está mal? ¿Y si llega el momento en que no podemos
El proyecto resultó ser un completo desastre. controlar qué decisiones toma la IA?
El estado de completa autonomía se llama
Singularidad. Elon Musk, Bill Gates o Stephen
Hawking han hablado sobre este momento
cuando no podemos manejar a la IA, hasta el
punto en que pueda ser una amenaza para la
humanidad. Es posible que la IA decida actuar
de forma armada ante un conflicto o actuar en
contra de nuestros intereses.
47
ÉTICA Y
LEGALIDAD
La Inteligencia Artificial actuará mal en el pasado, pre- La ley actual no abarca todos los casos y existen huecos
sente y lo hará en el futuro, por esto la sociedad y los donde empresas o la misma IA puede operar realizan-
gobiernos se han visto forzados a redactar leyes que do acciones en contra de la moralidad común. Es en
limitan la actuación de la IA. este punto donde la ética debe imperar. La IA debe ser
transparente, no malévola, respetar los derechos huma-
La IA suele ser un sistema opaco, con sesgo e intrusivo, nos, ser justa y en caso de mala actuación, debe haber
que puede llegar a infringir la privacidad de las personas. responsables de esta mala praxis, ya sean personas,
La Unión Europea lanzó el Reglamento General de Pro- gobiernos o empresas.
tección de Datos (RGPD) el 25 de mayo de 2018. Su obje-
tivo principal es dar control a los ciudadanos y residentes Para que la IA sea transparente debe ser explicable. 49
sobre sus datos personales y simplificar el entorno Las personas deberían poder entender qué factores
regulador de los negocios internacionales, unificando la se han tenido en cuenta para determinar la aproba-
regulación dentro de la UE. ción del crédito a un cliente. Sin embargo, los modelos
más efectivos y que mejor rendimiento dan suelen ser
El RGPD prohíbe la utilización de información personal “cajas negras”. A una caja negra se le entran unos datos
como puede ser la etnia, orientación sexual, conviccio- y devuelve un resultado, pero se desconoce qué se ha
nes religiosas u opiniones políticas, y pide el consenti- razonado para llegar a esta solución.
miento del usuario para poder utilizar información como
la dirección, los ingresos o el documento nacional de Los sistemas de IA también tienen que ser robustos,
identidad. justos y defender la privacidad de los usuarios. Los
sistemas deberían estar operativos, evitar el acceso a
El RGPD debería evitar casos como el escándalo de ataques cibernéticos, ser justos y no tener sesgo que
Cambridge Analytica. En la década de 2010, la consul- favorece a los grupos privilegiados y que penaliza a los
tora británica Cambridge Analytica recopiló datos de grupos discriminados. Ya existen librerías de programa-
millones de usuarios de Facebook sin su consentimiento, ción que mitigan este sesgo y proporcionan interpretabi-
principalmente para utilizarlos con un fin de propaganda lidad a los modelos de ML y DL.
política. Este tipo de información se utilizó para asisten-
cia analítica a las campañas de Ted Cruz y Donald Trump De esta manera, la IA será más utilizada, porque además
para las elecciones presidenciales de 2016, para interfe- de dar resultados geniales, se puede confiar en ella y es
rir en el referéndum del Brexit y en algunas elecciones de posible justificar qué razones han llevado al sistema a
otros países. tomar esa decisión.
APLICACIONES
PR CTICAS
En muchas ocasiones, pese a que la IA, el ML o el DL sean Otro punto a considerar es el ROI (Return of Investment).
herramientas muy potentes, otra alternativa más tradi- ¿Puede la IA añadir valor, aumentar los ingresos y reducir
cional puede dar resultados similares o incluso mejores, los costes? La primera comparativa siempre debe reali-
siendo además una opción mucho menos costosa en zarse con la de un ser humano medio realizando la misma
términos económicos, de esfuerzo o tiempo. tarea. ¿Da mejores resultados que tener una persona
trabajando y resolviendo ese problema? Si la respuesta
La gran mayoría de modelos de ML que se utilizan son es no, no tiene sentido utilizar IA.
de aprendizaje supervisado, es decir, necesitan datos
etiquetados. Cuando no existen datos etiquetados, Esta misma pregunta también se traslada a solucio- 50
los humanos deben categorizar miles de registros con nes que ofrece un software normal. Frecuentemente
el fin de tener una muestra de la que el modelo pueda productivizar soluciones complejas resulta tan costoso,
aprender patrones. Por ejemplo, compañías que desa- que soluciones mucho más sencillas son más fáciles de
rrollan coches autónomos tienen a cientos de personas lanzar al mercado.
anotando manualmente objetos, vehículos y señales en
horas y horas de vídeo. No cometer ninguno de los errores anteriores ya te evi-
tará muchos fracasos y decepciones. Esta es la mejor de
Aun así puede ocurrir que no se disponga de datos sufi- las recomendaciones. ¡Aunque no acaba aquí! Desarro-
cientes. En especial, los modelos de DL necesitan miles, llar un modelo de predicción para un caso de uso es el
incluso millones, de registros para tener un rendimiento primer paso. Hay más trabajo en el despliegue del modelo
similar al del ser humano. Obtener una muestra amplia y en la monitorización. Productivizar el modelo, es decir,
de datos sobre eventos fortuitos, eventos que ocurren hacerlo accesible a nuestros usuarios, tiene mucha
una vez cada miles de casos, puede ser prácticamente interferencia con el mundo del desarrollo de software.
imposible.
Otro punto importante es conocer qué rendimiento va
La otra limitación a tener en cuenta es la EXPLICABILI- teniendo el modelo, pues “lo que no se define no se
DAD. Los modelos que mejores resultados ofrecen acos- puede medir. Lo que no se mide, no se puede mejorar. Y
tumbran a ser complejos, y encontrar la razón que lleva lo que no se mejora, se degrada siempre”. Conocer que
a tomar esa decisión se ha vuelto complicado. Recien- nuestro modelo falla, que la tendencia de los usuarios ha
temente se ha ido avanzando en este aspecto y muchas cambiado o que los datos de entrada tienen otro forma-
librerías pretenden encontrar qué variables son las más to, es vital. Es importante desarrollar un plan de con-
significativas, aplicando permutaciones. Un modelo se tingencia para mitigar cualquier riesgo y responder con
entrena con todas las variables menos una y se estudia una alerta para los responsables, volver a una versión
el efecto que tiene considerar o no esta variable. Sin anterior que funcionaba o reentrenar los modelos.
embargo, seguirá habiendo áreas donde la explicabilidad
total sea necesaria, lo que limitará el uso de la IA.
Inteligencia Artificial
51
En el Machine Learning tradicional, los avances no pare- TRANSPORTE. Los vehículos autónomos se van a
cen ser tanto en la mejora del rendimiento, pues los mo- perfeccionar y tarde o temprano serán parte de nuestra
delos de ensemble y combinaciones de varios modelos realidad.
dan resultados sorprendentes, sino en la explicabilidad
de los modelos. Algunas librerías open source pretenden SALUD. La IA permitirá descubrir medicamentos para
ya solucionar este problema. enfermedades nuevas y existentes.
Inteligencia Artificial
QUÉ ES?
?
56
Para empezar, el aprendizaje automático es una subárea El proceso de aprendizaje automático comienza con la
central de la Inteligencia Artificial (IA). Las aplicaciones introducción de datos de entrenamiento en el algoritmo
de ML aprenden de la experiencia (para ser exactos, de seleccionado. Estos pueden ser conocidos o desconoci-
los datos) como lo hacen los humanos, sin necesidad dos. El tipo de datos de entrenamiento (training) que se
de programación directa. Cuando se exponen a nuevos introduce, influye y es la pieza clave para que el resulta-
datos, estas aplicaciones aprenden, crecen, cambian do del algoritmo se acerque al resultado esperado.
y se desarrollan por sí mismas. En otras palabras, el
aprendizaje automático consiste en que los ordenadores Los nuevos datos de entrada (test) se introducen para
encuentren información útil sin que se les diga dónde comprobar si funciona correctamente o no. La predicción
buscar, y es justo aquí donde está la innovación. Por eso y los resultados se comparan entre sí. ¿Y entonces qué
sabemos que cuanto más datos mejor, porque lo que sucede? Si la predicción y los resultados no coinciden, el
hacen estos algoritmos es aprender de los datos en un algoritmo se vuelve a entrenar con los mismos o diferen-
proceso iterativo. tes parámetros, varias veces hasta que se obtienen los
valores esperados.
Las aplicaciones aprenden de cálculos y operaciones an-
teriores, y utilizan el “reconocimiento de patrones” para Esto permite que el algoritmo de aprendizaje automático,
producir resultados fiables y fundamentados. aprenda continuamente por sí mismo y produzca la res-
puesta óptima, aumentando gradualmente su precisión
¿Crees que el aprendizaje automático es una de las par- con el tiempo.
tes más apasionantes de la Inteligencia Artificial? Noso-
tros también. Ahora veamos lo siguiente: es importante
entender qué es lo que hace que el Aprendizaje Automá-
tico funcione y cómo se podrá utilizar en el futuro.
Machine Learning
NACIMIENTO
Hoy en día los algoritmos de aprendizaje automático per- ambulantes, comenzando en una ciudad al azar, pero
miten a los ordenadores comunicarse con los humanos, asegurándose de que visitaran todas las ciudades du-
conducir coches de forma autónoma, escribir y publicar rante un breve recorrido.
informes de partidos deportivos y encontrar sospecho-
sos de terrorismo. Creo firmemente que el aprendizaje 1979: Los estudiantes de la Universidad de Stanford
automático tendrá un gran impacto en la mayoría de los inventan el “carrito de Stanford”, que puede sortear los
sectores y en los puestos de trabajo dentro de ellos, por obstáculos de una habitación por sí solo.
lo que todo directivo debería tener al menos una idea de
1980-1990
lo que es el aprendizaje automático y cómo está evolu-
cionando.
1950
1985: Terry Sejnowski inventa NetTalk, que aprende a
pronunciar las palabras del mismo modo que un bebé.
1950: Alan Turing crea el “Test de Turing” para determi- LOS 90: El trabajo sobre el aprendizaje automático pasa
nar si un ordenador tiene inteligencia real. ¿Recuerdas de un enfoque basado en el conocimiento a otro basado
que te lo contamos en detalle en el capítulo de en los datos. Los científicos empiezan a crear programas
Inteligencia Artificial? para que los ordenadores analicen grandes cantidades
de datos y saquen conclusiones, o aprendan de los
1952: Arthur Samuel escribió el primer programa de resultados.
aprendizaje para ordenadores. El programa era el juego
de las damas y el ordenador de IBM mejoraba en el juego 1997: Deep Blue de IBM vence al campeón mundial de
cuanto más jugaba, estudiando qué jugadas constituían ajedrez (como te contamos en el capítulo anterior).
estrategias ganadoras e incorporándolas a su programa.
1960-1970
ten a los ordenadores ver y distinguir objetos y texto, en
imágenes y vídeos.
1967: Se escribe el algoritmo del “vecino más cercano” o 2010: El Microsoft Kinect puede seguir 20 rasgos
KNN, que permite a los ordenadores empezar a utilizar un humanos a una velocidad de 30 veces por segundo, lo
reconocimiento de patrones muy básico. Este algoritmo que permite a las personas interactuar con el ordenador
podía utilizarse para trazar una ruta para los vendedores mediante movimientos y gestos.
Machine Learning
2011: Watson, de IBM, vence a sus competidores huma- Además, más de 3.000 investigadores de IA y robótica,
nos en Jeopardy (lee nuestro Glosario para saber más). respaldados por Stephen Hawking, Elon Musk y Steve
Wozniak (entre muchos otros), firman una carta abierta
También se desarrolla Google Brain, permitiendo a su red en la que advierten del peligro de las armas autónomas
neuronal profunda aprender a descubrir y categorizar que seleccionan y atacan objetivos sin intervención
objetos de forma similar a como lo hace un gato. humana.
2012: El X Lab de Google desarrolla un algoritmo de 2016:El algoritmo de inteligencia artificial de Google ven-
aprendizaje automático que es capaz de explorar de ce a un jugador profesional en el juego de mesa chino Go.
forma autónoma los vídeos de YouTube para identificar
los que contienen gatos. 2020: La publicación del sistema BERT de Google
aceleró las técnicas avanzadas de procesamiento del
2014: Facebook desarrolla DeepFace, un algoritmo de lenguaje natural (PNL). El modelo viene acompañado de
software que es capaz de reconocer o verificar a los una extraordinaria red de PNL que permite comprender
individuos en las fotos al mismo nivel que pueden hacerlo lenguajes más sofisticados y compatibles. El modelo de
los humanos. IA de Google está ampliamente difundido y abierto al uso
público.
FUNCIONAMIENTO
El aprendizaje automático (ML) consiste en codificar pro- de clasificación más comunes son los clasificadores
gramas que ajustan automáticamente su rendimiento, a lineales, las máquinas de vectores de soporte (SVM),
partir de la exposición a la información codificada en los los árboles de decisión, los vecinos más cercanos y los
datos. Este aprendizaje se consigue mediante un modelo bosques aleatorios, que se describen con más detalle a
basado en parámetros sintonizables, que se ajustan continuación.
automáticamente según un criterio de rendimiento.
La regresión se utiliza para comprender la relación entre
Mucha información, ¿verdad? Iremos por partes. variables dependientes e independientes. Se suele
utilizar para hacer proyecciones, como por ejemplo de
El aprendizaje automático puede considerarse un sub- los ingresos por ventas de una empresa determinada.
campo de la inteligencia artificial (IA). Hay tres clases La regresión lineal, la regresión logística y la regresión
principales de ML: polinómica, son algoritmos de regresión populares.
62
Machine Learning
BENEFICIOS
EMPRESARIALES
Los innumerables usos del aprendizaje automático indi- PERSONALIZACIÓN DEL COMPROMISO CON EL CLIENTE:
can lo beneficiosa que puede ser esta tecnología para La personalización también se ha convertido en una es- 63
empresas de todo tipo. Las compañías describen sus trategia crítica para competir en el mercado actual. Con
beneficios de aprendizaje automático en términos de las plataformas de aprendizaje automático que analizan
ganancias y mejoras en los diferentes procesos empre- el comportamiento del usuario y sugieren productos
sariales exponenciales. Te contamos cuáles son algunas adicionales en función del historial de compras, los
de las más comunes: minoristas online interactúan con los clientes de forma
más personalizada y consiguen más ventas. El gigante
TOMA DE DECISIONES MÁS RÁPIDA: Al permitir que las mundial Amazon es un buen ejemplo, ya que utiliza el
empresas procesen y analicen los datos con más rapidez aprendizaje automático para crear listas de productos
que nunca, el aprendizaje automático permite una toma recomendados y ofrecer sugerencias a los clientes.
de decisiones rápida, incluso en fracciones de segun-
dos. Por ejemplo, un software basado en el aprendizaje AUMENTO DE LA EFICIENCIA: El uso del aprendizaje
automático entrenado para identificar anomalías en el automático permite a las empresas acelerar las tareas
entorno de seguridad de una empresa puede detectar repetitivas y desplazar los recursos humanos a activida-
automáticamente una violación de datos al instante y des de mayor valor. Por ejemplo, la tecnología de apren-
notificar al equipo técnico de la organización. dizaje automático puede realizar búsquedas exhaustivas
de documentos en una fracción del tiempo que tardan
PREVISIÓN DE LA DEMANDA CON MAYOR PRECISIÓN: las personas en realizar tareas de escaneo y referencias
Para competir en un panorama empresarial que cam- cruzadas. Estas capacidades permiten a las empresas
bia rápidamente, las empresas están sometidas a una reducir los costes de las actividades de recuperación de
presión cada vez mayor para anticipar las tendencias del información relacionadas con el cumplimiento de la nor-
mercado y el comportamiento de los clientes. Al incor- mativa y la investigación jurídica, al tiempo que liberan a
porar modelos de aprendizaje automático a sus análisis los empleados para que puedan centrar sus esfuerzos en
de datos, las empresas obtienen capacidades mucho otros aspectos.
más precisas y potentes para prever la demanda, lo que
se traduce en una gestión más eficaz del inventario y un
gran ahorro de costes.
Machine Learning
DESAFÍOS SOCIALES
Por la misma razón por la que el aprendizaje automático
es valioso, porque impulsa las decisiones operativas con
mayor eficacia, también ejerce su poder en el impacto
que tiene en la vida de millones de personas. Las ame-
nazas a la justicia social surgen cuando ese impacto es
perjudicial, cuando los modelos limitan sistemáticamen-
te las oportunidades de los grupos desfavorecidos o
protegidos.
64
Machine Learning
3. Microfocalización
depredadora
La impotencia engendra impotencia, y ese ciclo puede 65
ampliarse para los consumidores, cuando el aprendiza-
je automático aumenta la eficiencia de las actividades
diseñadas, maximizando los beneficios de las empresas.
La mejora de la microfocalización del marketing y la fija-
ción de precios predictivos de los seguros y los créditos,
puede magnificar el ciclo de la pobreza. Por ejemplo, los
anuncios altamente segmentados son más hábiles que
nunca para explotar a los consumidores vulnerables y
separarlos de su dinero.
APLICACIONES
PR CTICAS
Malas prácticas
ERROR 1. Una solución de aprendizaje automático que
busca un problema.
A menudo se intenta utilizar una solución de Machine
Learning cuando el problema de negocio no lo requiere, 66
gastando así recursos y tiempo innecesarios.
Buenas prácticas
MEJOR PRÁCTICA 1: Entender el problema de la empre- MEJOR PRÁCTICA 4: Trabajar en un eje de acción a la
sa, definir la solución de aprendizaje automático. vez.Una vez identificado el problema, proponer una
No contrates a empresas que no tengan o no te permitan solución de Aplicación de Machine Learning (AML). Se
definir una solución viable de aprendizaje automático. pueden poner en marcha otros proyectos de AML des- 67
pués de que el primero tenga éxito.
MEJOR PRÁCTICA 2: El bajo coste significa que la fruta
que cuelga es baja. Tus primeros proyectos deben añadir MEJOR PRÁCTICA 5: Si el primer proyecto ha salido con
capacidades, no sustituir ni mejorar las existentes. éxito y el cliente está satisfecho, entonces se puede
aumentar la inversión poniendo en marcha más proyec-
Te damos un consejo: Hasta que no hayas demostrado tos a la vez.
el valor añadido del aprendizaje automático, evita añadir
aplicaciones de ML al sistema heredado (existente) de Esta mejor práctica (iterativa) es evidente. Lo que no
una organización. Es más fácil decirlo que hacerlo. ¡Lo es tan obvio es que los patrocinadores pueden querer
sabemos! iniciar más proyectos de AML antes de que el primero se
ponga en producción, lo que requeriría una gestión del
MEJOR PRÁCTICA 3: Encontrar e identificar el caso de proyecto distinta (por ejemplo, utilizando la metodología
negocio, el flujo de procesos y/o los diagramas de flujo Kanban, trabajando en paralelo y ayudándonos a tener
de datos. Los KPI (indicadores clave de rendimiento) son una gestión de trabajo más fluida gracias a la visualiza-
un gran indicador de lo que la organización considera ción del trabajo por fases).
importante. La organización puede medir una variedad
de métricas de salud de departamentos, procesos y
proyectos.
68
Machine Learning
FUTURO
El futuro del aprendizaje automático es excepcionalmen- tado, el aprendizaje automático se convierte en la mayor
te emocionante. En la actualidad, casi todos los ámbitos bendición de la IA para la humanidad, para la realización
comunes se nutren de aplicaciones de aprendizaje efectiva de los objetivos. Por otra parte, las técnicas de
automático. Por nombrar algunos de ellos: la sanidad, los máquinas autodidactas han cambiado considerablemen-
motores de búsqueda, el marketing digital y la educa- te las pautas de empleo de las grandes empresas.
ción, son los principales beneficiarios.
Últimamente, los vehículos automáticos autodirigidos,
Parece prácticamente imposible trabajar en un dominio los ayudantes computarizados, los miembros del per-
desprovisto de esta nueva tecnología para lograr los sonal mecánico, los robots y las áreas urbanas inteli-
resultados previstos de forma eficiente. El aprendizaje gentes han demostrado que las máquinas inteligentes
automático podría ser un mérito para una empresa o una son concebibles y podrían dar resultados tentadores. 69
organización, ya sea una multinacional o una empresa La inteligencia simulada a semejanza de la mente y el
privada, ya que las tareas que aún se realizan de forma cerebro humano ha cambiado la mayoría de las áreas
manual serán ejecutadas en su totalidad por las máqui- industriales, como el comercio minorista, la producción,
nas, en el futuro. la construcción, la contabilidad, los servicios médicos,
los medios de comunicación y la ingeniería. Y sigue ocu-
Según Gartner, la institución líder mundial en inves- pando nuevas regiones con un vigor cada vez mayor. Las
tigación, asesoramiento y consultoría, el aprendizaje cinco áreas están pensadas como avances futuristas del
automático es recordado por casi todas las últimas ten- aprendizaje automático.
dencias y patrones encontrados en los círculos literarios.
El aprendizaje automático está preparado para cambiar Una de las apuestas para el futuro cercano en este cam-
nuestras vidas de una manera que era imposible déca- po es la computación cuántica. Por ahora no hay aplica-
das atrás. En su resumen de los 10 principales patrones ciones de hardware o algoritmos cuánticos listos para su
de innovación, Gartner afirma que el razonamiento comercialización. Sin embargo, para hacerla despegar,
computarizado y las nuevas técnicas de ML han llegado varias agencias gubernamentales, instituciones acadé-
a un punto de inflexión básico y aumentarán y ampliarán micas y grupos de reflexión, han invertido millones.
progresivamente a todos los efectos cada asistencia,
cosa o aplicación, potenciada por la innovación. La crea- La introducción de la computación cuántica en el apren-
ción de marcos inteligentes avanzados que aprendan, se dizaje automático cambiaría por completo este campo,
ajusten y posiblemente actúen de forma autosuficiente, ya que asistimos a un procesamiento instantáneo, a un
en lugar de limitarse a ejecutar directrices predefinidas, aprendizaje rápido, a una ampliación y mejora de las ca-
es fundamentalmente un hito para los comerciantes de pacidades. Esto implica que en una pequeña fracción de
innovación y los proveedores de tecnología. tiempo, se podrán resolver cuestiones complicadas que
no podemos abordar con los métodos convencionales y
Durante el tiempo de la post-industrialización, los indi- las tecnologías existentes.
viduos han intentado hacer una máquina que actúe y
haga cada actividad igual que un humano. Como resul- ¿Te gustaría ser parte de esto?
(IV)Deep
Learning
QUÉ ES?
?
El concepto de aprendizaje profundo, o Deep Learning Sin embargo, la denominación DL también se ha utilizado
(DL por sus siglas en inglés), ha tenido diferentes inter- para referirse a cualquier tipo de marco de modelos de
pretaciones en los últimos años. A menudo DL se emplea Aprendizaje Automático que consista en un esquema de
simplemente para referirse a un subconjunto específico entrenamiento con varias capas de optimización, cada
de Redes Neuronales Artificiales (o ANN por sus siglas en una de las cuales afecta al resultado del modelo final. Un
inglés), una familia de modelos de Aprendizaje Auto- ejemplo de ello son las Deep Belief Networks, un tipo de 72
mático, o Machine Learning (ML), que pueden utilizarse modelos de Aprendizaje Automático que se utiliza para
tanto para tareas de clasificación como de regresión. En el aprendizaje no supervisado y se basa en múltiples
concreto, se utiliza para denominar a las ANN con un gran capas, que presentan diferencias significativas respecto
número de lo que se denominan capas ocultas. Ahora al esquema estándar de una ANN, que hemos descrito
bien, ¿estás dispuesto a entrar en detalle en este mun- anteriormente.
do? Te contaremos lo esencial que debes saber.
No obstante, es cierto que el vínculo entre DL y las ANN
Un modelo de ANN está formado por un conjunto de profundas es fuerte y casi omnipresente en la actuali-
unidades conectadas llamadas neuronas, donde la salida dad. Probablemente han influido en ello varios factores,
de cada neurona se calcula mediante alguna función no entre ellos, el hecho de que el esquema de las ANN se
lineal, llamada función de activación, aplicada a la suma adapta casi a la perfección al concepto de Aprendi-
ponderada de sus entradas. Las conexiones neuronales zaje Profundo, y que algunos de los primeros avances
tienen pesos o coeficientes asociados, por lo que las pioneros en DL corresponden en efecto a este tipo de
activaciones de distintas neuronas pueden tener mayor estructuras.
impacto que otras.
73
Aprendizaje de extremo
a extremo
En un proyecto de ML estándar, una de las etapas princi- Cuando se utilizan marcos DL, este proceso de múltiples
pales a llevar a cabo es el pre-procesamiento de datos. etapas puede sustituirse directamente por el entrena-
Esta etapa incluye varios pasos, entre ellos lo que suele miento de una Red Neuronal Profunda, lo que permite
denominarse feature engineering, es decir, la creación introducir el clip de audio y obtener directamente la
y selección de variables a usar como valores de entrada transcripción como salida. Sin embargo, es importante
del modelo predictivo. señalar que uno de los retos de la DL de extremo a extre-
mo, es que normalmente se necesitan grandes volúme- 75
Sin embargo, debido a la naturaleza específica de los nes de datos antes de que funcione de forma compara-
marcos de Aprendizaje Profundo, que constan de varias ble a los marcos clásicos de ML con múltiples pasos de
capas que llevan a cabo tareas intermedias necesarias preprocesado, e incluso mayores para poder superar el
para resolver problemas de ML, estos pasos de preproce- rendimiento de sus homólogos.
sado pueden dejar de ser necesarios al aplicar modelos
de DL. Esta propiedad suele denominarse aprendizaje
end-to-end y permite a los investigadores y científicos
de datos evitar pasos complejos y lentos que antes eran
necesarios y que habitualmente requerían de la ayuda
de expertos humanos en el campo correspondiente a la
tarea en cuestión.
NACIMIENTO
1944 2012 76
El primer modelo de red neuronal fue propuesto por En los últimos años la popularidad de los modelos DL ha
primera vez en 1944 por Warren McCullough y Walter aumentado de forma espectacular, debido a la amplia
Pitts. El algoritmo estándar de backpropagation para el disponibilidad de potentes instalaciones informáticas y
cálculo del gradiente durante el entrenamiento de los a los avances en los fundamentos teóricos de los MLP.
modelos básicos de ANN, de una sola capa, fue estable- Especialmente a partir del año 2012, gracias al trabajo de
cido por Frank Rosenblatt en 1958. Por otro lado, la teoría autores como Hinton, Bengio y LeCun, por varias mejoras
básica correspondiente al perceptrón multicapa, o MLP en sus procedimientos de entrenamiento y una mejor
por sus siglas en inglés, la estructura de Deep Learning comprensión de las dificultades relacionadas con las
más estándar, ya estaba bien establecida en los años 80. arquitecturas de muchas capas.
De hecho, pueden considerarse como el primer ejemplo
de algoritmos modernos de aprendizaje automático que Entre los avances, podríamos destacar el desarrollo
podían utilizarse tanto en problemas de regresión como de nuevos métodos de optimización, como Adam, que
de clasificación, con variaciones conceptuales mínimas. han reemplazado a backpropagation como elección
estándar de algoritmo de optimización en modelos DL,
la propuesta de nuevos métodos de inicialización de
Finales 1990 coeficientes, con especial mención a la conocida como
Xavier initialization, o el empleo de nuevas funciones de
Sin embargo, algunos problemas técnicos, debidos activación como la ReLU. A todos estos factores se suma
esencialmente a lagunas de conocimiento sobre el la aparición de múltiples entornos de desarrollo como
entrenamiento de estos modelos, unidos a la falta (en TensorFlow y Keras, ambos en 2015, que han permitido a
aquella época) de la potencia de cálculo necesaria para los usuarios experimentar con diferentes arquitecturas de
manejar grandes volúmenes de datos, provocaron su DL, activaciones no diferenciables, e incluso, funciones de
relativo declive a finales de los 90, y el auge de métodos pérdida no diferenciables.
alternativos, en particular las Máquinas de Vectores
Soporte, para clasificación y regresión.
Deep Learning
Por otro lado, se ha demostrado que el entrenamiento Las estructuras de DL, por el contrario, no requieren de
de estos modelos es un cálculo en tiempo lineal, lo que esa fase de preprocesado, ya que son las capas iniciales
77
asegura un buen nivel de escalabilidad frente a grandes las que realizarán ese proceso de extracción de patrones
volúmenes de datos. Por último, pero no por ello menos relevantes a ser empleados por las capas posteriores.
importante, se demostró que los modelos DL son capaces Simplificando, el concepto de profundidad en estas
de extraer más poder predictivo que otros marcos estructuras se basa en el hecho de que la estructura del
de ML existentes en esa época, cuando se entrenan modelo debe constar de múltiples capas que representen
con conjuntos de datos suficientemente grandes. el nivel de abstracción, y cada capa debe adaptarse al
Estas características suponen dos de las principales entrenamiento del modelo. Las características de los
necesidades a cubrir que empujaron el auge de las niveles o capas inferiores del modelo, deben combinarse
estructuras de DL: el contar con modelos más escalables progresivamente para formar características de nivel
en términos de coste computacional que las Máquinas superior en las capas posteriores.
de Vectores soporte y que a la vez proporcionaran igual o
mayor potencial predictivo. Como consecuencia de esta aproximación, los modelos
DL sobre datos no estructurados no solo permiten un
A esto hay que añadir otra de las necesidades que enfoque end-to-end, donde no es necesario el empleo
resuelven las estructuras de DL: su aplicación a datos de un preproceso específico de cada área para extraer
no estructurados, como imágenes o audio. Los modelos información en forma de variables estructuradas, sino que
clásicos de ML han demostrado su potencial predictivo han demostrado en múltiples investigaciones proporcionar
desde los años 80 en múltiples áreas y aplicaciones. Sin un mayor potencial predictivo en este tipo de tareas,
embargo, como se describió en la sección anterior, cuando como el reconocimiento de imágenes. Mientras que en los
los datos disponibles no están estructurados, es decir, en problemas que emplean datos estructurados, los modelos
un formato tabular, su uso requiere de un preprocesado DL solo son capaces de sobrepasar el potencial de los
previo que genere una serie de variables a partir de esa modelos ML clásicos cuando se proporcionan grandes
información original no estructurada. Dichas variables se volúmenes de datos, no siendo útil su empleo cuando
estructuran entonces en un formato tabular que pueda las dimensiones no son muy elevadas. Son claramente la
usarse como entrada de los modelos clásicos de ML. opción más recomendable en prácticamente cualquier
escenario en el que se empleen datos no estructurados.
Deep Learning
TIPOS DE ESTRUCTURA
FUNCIONAMIENTO
Existen tres tipos de técnicas de DL:
BENEFICIOS
EMPRESARIALES
Algunas de las áreas de aplicación de éxito del Deep En la actualidad es difícil pensar un área en que no se
Learning son las siguientes: pueda encontrar una problemática en la que aplicar
técnicas de ML, y en concreto, en la que DL no pueda
1. Imágenes: Reconocimiento facial de imágenes, proporcionar claros beneficios empresariales. Dichos
búsqueda de imágenes, visión artificial, creación de beneficios pueden ser de varios tipos:
imágenes artificiales.
DESAFÍOS SOCIALES
En las secciones anteriores nos hemos centrado en los área de aplicación, sino por la causa de este tipo de
múltiples beneficios, tanto puramente empresariales sesgos. Es importante clarificar aquí que el sesgo no pro-
como globales para el conjunto de la sociedad, que viene de las tecnologías de DL en sí mismas, sino de los
puede tener la aplicación de técnicas de DL en distintas datos empleados para entrenar dichos modelos. Estos
áreas. Sin embargo, no debemos olvidar que como toda datos pueden estar sesgados, bien por la forma en la que
revolución tecnológica, el auge del ML (incluyendo las fueron recolectados y seleccionados, o bien por reflejar
técnicas de Aprendizaje Profundo), también conlleva una sesgos que ya existen en la sociedad, como puede ocu-
serie de desafíos sociales. Aunque dichos problemas po- rrir por ejemplo cuando se obtienen datos directamente
tenciales no nacen de la tecnología en sí misma, sino del de redes sociales.
uso humano dado a las mismas, como puede ocurrir con 84
otras tecnologías disruptivas como internet o las redes El problema del sesgo en los modelos de DL, si bien
sociales, conviene tenerlas en cuenta para minimizar su puede tener un impacto negativo, puede ser detectado,
posible impacto negativo. mediante un análisis del funcionamiento del modelo para
distintos grupos poblacionales, así como solucionado
En primer lugar, tenemos el potencial problema de crear mediante una correcta selección del dataset de entrena-
aplicaciones basadas en DL que tomen decisiones con miento a emplear.
un bias o sesgo. Este sesgo implicaría que nuestro
modelo dé predicciones con un ajuste mucho menor El problema de los modelos con sesgo suele ser un
para determinados grupos de población. Este efecto efecto no intencionado. Sin embargo, existen también
puede ser especialmente dañino cuando se trata de desafíos sociales relacionados con un uso inadecua-
aplicaciones críticas, como las empleadas para la ayuda do voluntario de estas tecnologías. Cobran especial
a la decisión clínica en hospitales, o para los grupos de relevancia aquí el empleo de aplicaciones de DL en las
población discriminados. Existen múltiples ejemplos de redes sociales, donde estas tecnologías pueden con-
aplicaciones que han sufrido de esta problemática, sien- tribuir a aumentar exponencialmente el impacto de dos
do famoso el empleo en E.E.U.U. de técnicas de ML en un fenómenos ya existentes. Por un lado, el uso abusivo
modelo que estimaba la probabilidad de un delincuente de este tipo de algoritmos para maximizar el tiempo de
de reincidir, para ayudar a la decisión de si proporcionar permanencia en estas aplicaciones, incluyendo el uso de
libertad condicional o no, y que mostró un claro sesgo clickbait o recomendaciones personalizadas para atraer
negativo no justificado hacia la población afroamericana la atención del usuario sin prestar atención al beneficio
debido a un error en la elección de los datos de entrena- de este, que puede dar lugar a comportamientos que
miento del modelo. han sido definidos por expertos como un nuevo tipo de
adicción. Por otro lado, el auge de las fake news se ha
Este ejemplo es bastante interesante porque muestra, visto ayudado por el empleo de estas tecnologías y con-
no solo que las implicaciones de un problema de sesgo tribuye a una sociedad más desinformada, habiendo sido
en este tipo de aplicaciones pueden tener un impacto por ejemplo estudiado su impacto en diversos procesos
negativo de gran entidad sobre el ciudadano según el electorales.
Deep Learning
85
ÉTICA Y
LEGALIDAD
Existen actualmente distintas regulaciones que afec- Es interesante indicar que el GDPR contiene un apartado
tan, directa o indirectamente, al empleo de técnicas de que afecta de forma directa a las aplicaciones de ML, in-
Aprendizaje Profundo. En primer lugar, podemos hacer cluido el uso de técnicas de DL. Este reglamento cuenta
mención a la General Data Protection Regulation, RGPD, con el Considerando 71, que proporciona el derecho a
un reglamento de la Unión Europea sobre protección de una explicación sobre la toma de decisiones automatiza-
datos y privacidad en la Unión Europea, UE, y el Espacio das de la Directiva de Protección de Datos de 1995. 86
Económico Europeo, EEE. El RGPD es un componente im- Esto es:
portante de la legislación sobre privacidad de la UE y de
la legislación sobre derechos humanos. También aborda
la transferencia de datos personales fuera de la UE y de
“El interesado debe tener derecho a no
las zonas del EEE. ser objeto de una decisión, que puede
incluir una medida, que evalúe aspectos
El objetivo principal del RGPD es mejorar el control y los personales relativos a él, y que se base
derechos de las personas sobre sus datos personales y
únicamente en el tratamiento automatizado
simplificar el entorno normativo para las empresas inter-
nacionales. Este reglamento, que sustituye a la Directiva
y produzca efectos jurídicos en él o le
95/46/CE sobre protección de datos, contiene disposi- afecte significativamente de modo similar,
ciones y requisitos relacionados con el tratamiento de como la denegación automática de una
los datos personales de quienes se encuentran en el solicitud de crédito en línea o los servicios
EEE, y se aplica a cualquier empresa, independientemen-
de contratación en red en los que no medie
te de su ubicación y de la ciudadanía o residencia de las
personas afectadas, que procese información personal
intervención humana alguna.”
de personas dentro del EEE.
“En cualquier caso, dicho tratamiento debe
estar sujeto a las garantías apropiadas,
entre las que se debe incluir la información
específica al interesado y el derecho a
obtener intervención humana, a expresar
su punto de vista, a recibir una explicación
de la decisión tomada después de tal
evaluación y a impugnar la decisión.”
Deep Learning
BUENAS PRÁCTICAS
Extracción de interpretabilidad
Se suele decir, erróneamente, que los modelos de Apren-
dizaje Profundo, y en general los modelos de ML, son una
“caja negra”. Se sabe lo que entra y lo que sale, pero no
lo que pasa entre medias. Sin embargo, la extracción de
interpretabilidad en este tipo de modelos es una línea
de investigación muy popular y ya se han desarrolla-
do algunos algoritmos que han mostrado muy buenos
resultados en distintas aplicaciones. Esta extracción de
interpretabilidad puede ayudarnos a crear modelos con
menos dudas a nivel ético y a generar una mayor con-
fianza por parte de la población general.
Deep Learning
MALAS PR CTICAS
Modelos no equitativos
Ya sea por el empleo de datos sesgados o por otro tipo
de problemas en la creación de los modelos de Deep
Learning, las predicciones dadas por estos modelos pue-
den mostrar distintos grados de ajuste para diferentes
grupos de poblaciones. Por ejemplo, podemos encon-
trarnos con modelos con un mayor grado de ajuste, y
por tanto más justos en las predicciones dadas para el
género masculino con respecto al femenino. Existen téc-
nicas para evitar este tipo de desajustes, y su aplicación
debe ser contemplada en el diseño de cualquier modelo
de Aprendizaje Profundo.
Deep Learning
FUTURO
El DL tiene actualmente un alto grado de penetración en Es de esperar que esta tendencia se mantenga, y que la
múltiples áreas, desde aplicaciones sanitarias hasta la “competición” entre estas grandes entidades tecnoló-
optimización de ventas en un e-commerce. Las estruc- gicas contribuya al impulso de las técnicas de DL. Esto
turas de Aprendizaje Profundo son actualmente una sin duda tiene implicaciones positivas muy significativas,
referencia en ML, cuando se emplean datos no estructu- ya que hasta ahora el área del Aprendizaje Profundo se
rados, como imágenes, mientras que los conocidos como ha mantenido en un formato abierto, en el que en la gran
modelos de Boosting, son la referencia en la aplicación mayoría de las nuevas estructuras desarrolladas se ha-
de ML a datos tabulares. cen públicos los detalles teóricos y en muchos casos se
proporcionan librerías que permiten el empleo y entrena-
En los últimos años, los grandes avances en DL han miento de dichos modelos.
estado dominados por su aplicación sobre imágenes,
en primer lugar, y por aplicaciones de procesamiento de Sin embargo, esto último no siempre es así, como el re-
lenguaje natural, tras la aparición de los Transformers en ciente caso de OpenAI con GPT-3, que optó por publicar 90
2017. Este tipo de estructuras ha revolucionado el mundo un artículo científico con detalles teóricos, pero no el
de las aplicaciones de Aprendizaje Automático en NLP, algoritmo propiamente dicho, lo cual ha sido criticado
desde la traducción de texto, la creación de chatbots afirmándose que va en contra de principios científicos
o la generación automática de texto realista. Aunque básicos y hace que las afirmaciones de la empresa sean
no creados inicialmente con ese objetivo, los Transfor- más difíciles de verificar. La justificación de OpenAI para
mers han empezado también recientemente a mostrar tomar esta decisión es, en primer lugar, que esta aplica-
su utilidad en aplicaciones sobre imágenes, donde las ción es demasiado peligrosa para ser difundida, debido
CNNs eran la clara referencia, hasta la irrupción de estas a su capacidad potencial para generar desinformación o
nuevas estructuras. noticias falsas. Por otro lado, también afirmaron que los
algoritmos son demasiado grandes y caros de ejecutar.
La aparición de estructuras de Transformers de gran
complejidad, lideradas por grandes entidades como Goo- Más allá de si estas razones son la verdadera causa de-
gle (BERT), OpenAI (GPT-2/GPT-3), Facebook (RoBERTa) trás de la decisión tomada por OpenAI o es una manera
y Microsoft (DeBERTa), ha empujado no solo el alcance e de justificar una decisión basada únicamente en objeti-
impacto de la aplicación de este tipo de tecnologías, sino vos de negocio y monetización, ya que los servicios son
también su difusión a gran escala; incluso entre segmen- ofrecidos a través de una API de pago, este caso parti-
tos de la población no especializada en el sector. Esto es cular plantea un interesante debate sobre dos posibles
un factor nada desdeñable, que ha contribuido a la po- efectos adversos de la reciente evolución del Aprendiza-
pularidad y desarrollo, aunque quizá también a un cierto je Profundo. Por un lado, tenemos la cada vez mayor pe-
efecto hype asociado, de estas tecnologías. La veloci- ligrosidad de un uso indebido de este tipo de aplicacio-
dad de aparición de nuevas estructuras, sumada a sus nes. Hemos hablado anteriormente de las regulaciones
correspondientes campañas de divulgación y publicidad, que existen actualmente a nivel europeo para proteger
ha alcanzado un ritmo y ha generado un volumen de de este uso indebido, pero, además de existir regiones
noticias inusitado, incluso dentro del campo del Machine con una menor protección regulatoria, es difícil no tener
Learning, un área que ya destacaba en ambos factores. la impresión de que estas regulaciones no evolucionan a
la misma velocidad vertiginosa que las tecnologías.
Deep Learning
91
Deep Learning
Por otro lado, los recientes avances en estas tecnologías para cualquier problema relacionado con NLP tiene un
se están basando en gran parte en el principio de que gran potencial, pero de momento parece que sigue sien-
“cuanto más grande, mejor”. Esto es en el sentido de que, do necesario una especialización de dichos algoritmos
en buena medida, la evolución se está centrando en usar para resolver de manera adecuada ciertos problemas
tecnologías similares, pero en mayores estructuras de concretos.
computación. Lo que permite entrenar modelos con más
datos y más unidades de aprendizaje; y esto nos lleva Si los algoritmos se hicieran públicos, este proceso de
a otro debate: ¿Está el enfoque actual amenazando la especialización de un modelo general a otro específi-
“democratización” de la inteligencia artificial (una idea co podría realizarse mediante un conjunto de técnicas
según la cual el acceso a la Inteligencia Artificial debería llamadas Transfer Learning, sobre un conjunto de datos
estar al alcance de cualquiera)? etiquetados ajustados al problema concreto a resolver,
aunque solo por aquellos que dispusieran de la capaci- 92
Esta democratización implica el acceso a la potencia de dad de computación necesaria. Pero esto se hace impo-
cálculo, los conjuntos de datos y los propios algoritmos. sible cuando solo se puede acceder a la funcionalidad a
Los marcos de código abierto facilitan la creación y el través de una API.
intercambio de algoritmos, y existen muchos conjuntos
de datos de código abierto. Pero la potencia de cálculo Por otro lado, es interesante hacer hincapié en una apli-
procede del hardware, un recurso físico limitado al que cación de DL dentro del NLP: La generación automática
pueden acceder sobre todo grandes empresas y orga- de código. Un ejemplo de ello es Copilot, integrado en
nizaciones bien financiadas. Incluso aunque OpenAI GitHub. Más allá del acierto conseguido por esta herra-
hubiera decidido hacer público su código, solo grandes mienta, la sola posibilidad de crear una aplicación que
entidades que tuvieran acceso a enormes capacidades es capaz de generar código de forma automática podría
de computación habrían sido capaces de usarlo. Si los abrir las puertas a nuevos horizontes teóricos que,
experimentos de OpenAI resultan ser el camino a seguir, aunque lejanos, hasta ahora eran directamente irreali-
y algoritmos más grandes se traducen en un mayor zables. En concreto, estamos hablando del concepto de
rendimiento, entonces el DL de vanguardia se vuelve singularidad, que define un punto en el que un agente
inaccesible para quienes no pueden permitírsela. inteligente mejorable acabará entrando en un proceso
de ciclos de autosuperación, apareciendo cada vez más
Sin embargo, conviene indicar que no todos los expertos rápidamente una nueva generación más inteligente.
están convencidos de que “el método más grande es
mejor” sea lo correcto. Aunque GPT-3 obtuvo buenos En el momento en el que se crea un algoritmo capaz de
resultados en muchas pruebas, se ha descubierto que programar, se abre la puerta, aunque lejana y solo a nivel
no era capaz de captar algunos conceptos sencillos que teórico, de crear un algoritmo que aprendiera a crear
otros algoritmos dominan desde hace décadas, como es mejores versiones de sí mismo. Aún suena algo muy dis-
el caso de una prueba de “imitación”, en la que se pedía tante, pero es la primera vez que esta posibilidad se abre
al algoritmo que identifique patrones en la forma de a nivel teórico y que incluso ha empezado a ser discutida
cambiar determinadas series de letras. La creación de en algunos artículos académicos.
modelos gigantes que intentan usarse de forma general
(V)Data
Science
QUÉ ES?
?
95
Data Science es un campo muy dinámico, pero si tuvié- CONOCIMIENTOS MATEMÁTICOS Y ESTADÍSTICOS,
ramos que definirlo de una manera sencilla, diríamos que para darle valor a esos datos.
es el conjunto de metodologías para trabajar datos en
cualquier forma que se nos presenten (imágenes, clics HERRAMIENTAS para la resolución de problemas
en una página web, transacciones, etc.), y tomar deci- DE NEGOCIO.
siones basadas en ellos. Estas decisiones pueden ser
para entender el pasado, describir el presente o tratar de No es tarea sencilla conseguir una persona con estas 3
predecir el futuro, siempre con la intención de obtener habilidades. Es por ello que el Data Scientist sea un perfil
valor de los mismos. tan demandado, bien remunerado y que, en ocasiones,
puede llegar a convertirse en un unicornio para muchos
Si bien el Data Science es la intersección de diferentes reclutadores.
disciplinas (1), existen dos tipos de Data Scientist: A y B.
DATA
SCIENCE
96
DOMAIN
KNOWLEDGE
NACIMIENTO
97
1962 1990
Aunque el término Data Science empezó a coger auge Posteriormente, durante los años 90 y 2000, se empieza
alrededor de 2012, cuando Tom Davenport y D.J Patil pu- a usar en conferencias, revistas y otros campos como
blicaron en la Harvard Business Review: “Data Scientist: la computación, de la mano del Data Mining, siempre
The Sexiest Job of the 21st Century”, su origen se remon- asociado a la disciplina de usar los datos para generar
ta a 1962 cuando el estadístico John W. Turkey comienza conocimiento e información de valor como se conoce
a comentar sobre el futuro de la estadística como ciencia hoy en día.
empírica en su libro The Future of Data Analysis.
2000
1974
Luego, en 1974, se presenta por primera vez el término Desde la primera década del año 2000, el área de Data
Data Science de la mano de Peter Naur, quien lo definió Science también se ha transformado bastante en fun-
como “La ciencia de tratar con datos, una vez que se han ción de las necesidades y/o cambios de la tecnología.
establecido”. El término venía frecuentemente asociado a lo que se
conoce como Big Data, concepto introducido por Doug
Laney en el 2001, donde se hablaba de las 3 V: Velocidad,
Volumen y Variedad. La primera de ellas hace refe-
rencia a lo rápido que se generaban los datos. Fuentes
como móviles, internet y redes sociales, generaban una
cantidad de datos por segundo nunca antes vista. Esto
ocasionó que se tuvieran que almacenar muchos más
datos que antes: Volumen.
Data Science
(2) Búsqueda en Google del término “Data Science” a través de los años.
Data Science
FUNCIONAMIENTO
Son numerosos los beneficios que puede traer el Data Detección y prevención
Science a una organización y es por esto, que ha gene-
rado todo un boom en la industria. Entre algunos de ellos de fraude
se pueden mencionar:
Por ende, ahorro de dinero. 103
Segmentación de clientes
A/B tests
Para la correcta aplicación de campañas de marketing
y/o retención de los mismos: Por ejemplo, identificar Para mejorar la experiencia de usuarios en páginas web:
quiénes son mis clientes VIP, los que están más engan- Dónde y de qué color agregar el botón de “comprar” en
chados con mis productos, los que realizan más compras mi página web para obtener más clics.
de manera frecuente, etc.
Creación de modelos
de recomendación
Para impulsar la venta cruzada (cross-selling o up-se-
lling): El clásico ejemplo de Amazon de quién compró
este artículo, también vio y/o compró estos otros, por
tanto se lo recomendaremos a otros clientes con intere- Entre muchas otras aplicaciones que dependen del
ses similares. sector y empresa que los necesite.
Data Science
DESAFÍOS SOCIALES
APLICACIONES
PR CTICAS
Comencemos con las llamadas malas prácticas: Pero no todo ha sido negativo en temas sociales, al
mismo tiempo estas tecnologías han aportado grandes
• Durante 2010, Facebook fue duramente criticado por ideas que son adaptadas a gran escala, muchas veces
todo el escándalo de Cambridge Analytica y la mani- sin saber lo que hay detrás de ellas. Por ejemplo:
pulación de datos de usuarios sin su consentimiento. 105
• La recomendación de texto cuando escribimos un
• En 2018, un algoritmo de Amazon asociado a temas de correo en Google, viene de un modelo que predice la
Recursos Humanos, tenía preferencias para escoger siguiente palabra al escribir.
hombres sobre mujeres para ciertos puestos de la
empresa. • La detección de tumores cancerígenos con mayor
eficacia que como lo hacen los humanos.
• Un año después, la tarjeta de Apple fue criticada por
crear ciertas desventajas al momento de otorgar prés- • La identificación de texto en una foto y su traducción
tamos a mujeres. automática.
106
FUTURO
Aún queda mucho que descubrir y explotar dentro de A largo plazo, sería importante que el Data Science no 107
esta área y es por eso que siguen habiendo cientos de solo sea un área donde algunos se especializan, sino que
ofertas laborales, nuevas carreras dedicadas explícita- sea parte básica de la formación de cualquier persona. Ya
mente a esta ciencia y mucho, pero mucho, que aportar que los datos serán las respuestas a muchas de nues-
dentro de las distintas unidades de negocio o a la socie- tras preguntas.
dad en sí.
Por último, siendo los datos el nuevo petróleo, existe
Ya vimos cómo el término Data Science sigue una ten- cada vez más la necesidad de disponer de talento que
dencia creciente a nivel mundial (2) y esto es apenas el no solo se enfoque en el uso de datos, sino que sepa
comienzo. Porque a medida que la tecnología avance y tratarlos y manipularlos de una manera eficiente. Y es
se puedan resolver aún más problemas usando la ciencia aquí donde los Data Engineers jugarán un papel muy
de datos, la proliferación de esta carrera irá a más. importante para poder habilitar esa información, los Data
Analyst sacarán insights de ella y entenderán el pasado
Si hubiera que decantarse por cómo será el Data Scien- de esos datos, y los Data Scientists la utilizarán para
ce a corto plazo, diría que se seguirán abriendo posicio- predecir el futuro.
nes en empresas, tanto tradicionales como startups. Y
que la demanda del Data Scientist tipo A será inmensa
porque ataca el primer problema básico: añadir valor con
insights de los datos, y que luego se dará valor añadido
con lo que pueda resolver y construir el Data Scientist
tipo B con sus modelos de Machine Learning.
108
Data Science
AHORA SÍ
!
HAZ MATCH! 109
EL EQUIPO
SOÑADO
El equipo soñado
Data Analyst
112
Funciones: Herramientas:
Da valor al negocio en función de los insights, tenden- • SQL: Es la “base” de un analista de datos y entonces
cias y patrones que consigue en los datos, así como el esencial para comunicarse con la base de datos empre-
reporte de los mismos para seguimiento y control de las sarial.
diferentes unidades de negocio, buscando darle sentido
y explicaciones. • VISUALIZACIÓN DE DATOS: La mayoría de las empresas
Un analista de datos responde a preguntas sobre el pre- tienen licencias de herramientas de Business Intelligen-
sente como: ¿Qué está pasando ahora? ¿Cuáles son las ce como Power BI, Tableau, Looker, Qlik, etc.
causas? ¿Puede mostrarme XYZ? ¿Qué debemos hacer
para evitar/conseguir ABC? ¿Cuál es la tendencia de las • CONOCIMIENTO DEL DOMINIO: ¿Qué significan las
ventas en los últimos 5 años? métricas? ¿Cómo interactúan entre sí? ¿Qué es lo que
mueve la aguja?
El trabajo de un analista de datos incluye 3 partes princi-
pales: Entender el problema de las métricas del negocio,
es decir, hacer las preguntas correctas; averiguar las
respuestas o conocimientos a partir de los datos; y saber
comunicar. Esto incluye la creación de cuadros de mando
con las visualizaciones adecuadas y la explicación de los
mismos de una manera fácil de entender para las partes
interesadas no tecnológicas o “Business”.
El equipo soñado
Data Scientist
113
Funciones: Herramientas:
En lugar de responder a preguntas sobre el presente, • SQL: Es esencial en este tipo de roles, para interactuar
tratan de encontrar patrones en los datos y responder con las bases de datos.
a las preguntas sobre el futuro, es decir, la predicción.
• COMUNICACIÓN: La investigación debe transmitirse
Esta técnica existe desde hace mucho tiempo y seguro de forma eficaz, tanto al público técnico como al no
has oído hablar de ella: se llama estadística. El aprendi- técnico.
zaje automático (ML) y el aprendizaje profundo (DL) son
las dos formas más populares de utilizar el poder de los • ESTADÍSTICAS/MATEMÁTICAS: Hay que dominar los
ordenadores para encontrar patrones en los datos. conocimientos de estadística, como las teorías que hay
detrás de cada método de aprendizaje automático, para
Los científicos de datos también construyen productos resolver problemas más complejos.
basados en esas predicciones. Por ejemplo, un sistema
de recomendación predice lo que te gusta, un sistema • HABILIDADES DE PROGRAMACIÓN: Actualmente,
de clasificación predice el orden de popularidad, la NLP Python y R son los lenguajes de programación más
predice lo que significa una frase. Los científicos de populares.
datos construyen estos productos, no para ayudar a
tomar decisiones empresariales, sino para resolver sus • DESARROLLO DE SOFTWARE: El flujo de trabajo de Git,
problemas. CI/CD, DevOps, etc. son básicos en el arsenal de un
científico de datos.
El equipo soñado
Data Engineer
114
Funciones: Herramientas:
Es la persona encargada de desarrollar, implementar • SQL: Debe conocer los entresijos de cada una de las
y mantener sistemas que generan datos (a menudo diferentes bases de datos, cuándo utilizar cada una,
desordenados y en formatos distintos) y producir con cuáles son sus aristas.
ellos información de alta calidad, consistente y fácil de
analizar para otras unidades de negocios. • COMPUTACIÓN EN LA NUBE: AWS (Amazon), Azure
(Microsoft) y GCP (Google) son los tres servicios en la
Los consumidores de datos no pueden realizar su trabajo nube más populares del mercado. Esto también incluye
sin que los ingenieros de datos configuren toda la es- la aplicación de la computación paralela (Hadoop,
tructura. Por decirlo de forma sencilla, los ingenieros de Spark) y el big data.
datos se encargan de todo lo que ocurre con los datos
antes de llegar a la base de datos: • DESARROLLO DE SOFTWARE: Lo mismo que lo anterior,
en el caso de Científico de Datos.
• Asegurarse de que el conducto de datos, el almace-
namiento y la estructura estén optimizados y sean lo • Gran conocimiento sobre el funcionamiento de los
más rentables posible para la empresa. DATA LAKES.
• Asegurarse de que los datos que utilizan los analistas • Extract Transform Load (ETL).
y científicos son los más actualizados, validados y
responsables.
El equipo soñado
Machine Learning
Engineer
115
Funciones: Herramientas:
• Lenguajes de programación: PYTHON, JAVA y/o C++.
Es la persona que pone en producción los modelos de-
sarrollados por el Data Scientist, de una manera óptima, • SQL: Esto es esencial para todos los roles relacionados
escalable y mantenible. Son especialistas en mejorar los con los datos.
modelos, encontrando el que mejor rendimiento da. Tie-
ne un perfil más de Software Engineer, pero conoce bien • CONOCIMIENTOS DE INGENIERÍA DE SOFTWARE:
el ciclo de vida de los modelos y su operación (término Escritura de algoritmos que puedan buscar, ordenar y
conocido como MLOps). optimizar, comprensión de las estructuras de datos y
conocimiento de la arquitectura de los ordenadores.
La principal diferencia con otros perfiles es en qué se
centran. Los ingenieros de aprendizaje automático se • CONOCIMIENTOS PROFUNDOS DE APRENDIZAJE
centran exclusivamente en este. Su objetivo es crear PROFUNDO: Programación dinámica, arquitecturas de
componentes de software o productos que puedan redes neuronales, procesamiento del lenguaje natural,
trabajar con un mínimo de supervisión humana y que procesamiento de audio y vídeo, aprendizaje de refuer-
ayuden a obtener información de los datos que se les zo, técnicas avanzadas de procesamiento de señales y
proporcionan. Por eso, un ingeniero de aprendizaje auto- optimización de algoritmos de aprendizaje automático.
mático se centra tanto en los fundamentos de la infor-
mática como en el desarrollo de software, ya que esa es • DESARROLLO DE SOFTWARE: El flujo de trabajo de Git,
su especialización. CI/CD, DevOps, etc. son básicos en el arsenal de un
científico de datos.
El equipo soñado
MLOps Engineer
Funciones: Herramientas:
• PROGRAMACIÓN: Python y R. Dentro de Python, las
El perfil de un buen experto en Deep Learning es una librerías más ampliamente utilizadas en este campo son
combinación de tres conjuntos de habilidades. Keras, Tensorflow y Pytorch.
Por un lado, las matemáticas, para entender el funcio- • SISTEMAS OPERATIVOS: Las distribuciones Linux son
namiento de los modelos se requieren ciertas bases de las más utilizadas en los proyectos de Deep Learning.
teoría matemática, con especial énfasis en álgebra, esta-
dística y teoría de optimización. • ARQUITECTURA: Amazon Web Services, Azure y
Google Cloud para computación en la nube. Kuberne-
Además, la informática, para poder implementar los tes y MLflow para la automatización del despliegue, el
modelos de Deep Learning son necesarios altos niveles escalado y la gestión de aplicaciones.
de programación. También son recomendables ciertos
conocimientos de manejo de servidores y arquitectura
de datos.
Herramientas:
• SQL
“En Dios confiamos. Todos los • Excel
• Python
demás deben traer datos”
- Edwards Deming
Visualization Tool
Developer
Funciones:
Profesional especialista en la generación de dash-
boards para la visualización de valores y métricas re-
levantes para el negocio. Tiene conocimientos sobre
Structured Query Language (SQL)y su arquitectura.
Herramientas:
• Tableau
• PowerBI
• Looker “La información solo es útil
cuando es comprendida”
- Muriel Cooper
Deep Learning
Engineer
Funciones:
Profesional especialista en el desarrollo de modelos
de Deep Learning con redes neuronales. Tiene gran
entendimiento sobre la arquitectura del sistema de las
redes neuronales. Son responsables del desarrollo de
modelos para reconocimiento de imágenes, reconoci-
miento de la voz o procesamiento del lenguaje natural.
Herramientas:
“Todo ser humano puede ser, • Python
• Tensorflow
si se lo propone, escultor de • Pytorch
su propio cerebro”
- Ramón y Cajal
Analytics Engineer
Funciones:
Profesional especialista en realizar queries (peti-
ciones precisas para obtener información en una
base de datos o sistema de información) en Data
Lakes, como también del mantenimiento de estas.
Se trata de un rol nuevo y deben tener conocimien-
tos de la arquitectura del Data Lake, como fun-
cionan las ETLs y saber traducir las peticiones de
negocio a queries.
Herramientas:
• Snowflake “Nunca inviertas en un negocio
• Bigquery
• Redshift que no puedes entender”
• DBT
- Warren Buffett
Cloud Engineer
Funciones:
Se trata de un perfil polivalente que se dedica a identi-
ficar e integrar servicios y soluciones de computación
en la nube, con el objetivo de ayudar a las organiza-
ciones a funcionar con mayor eficiencia, seguridad y
atención al detalle.
Herramientas:
• CompTIA A+.
• Systems Security Certified Practitioner (SSCP).
• AWS Certified Solutions Architect Associate.
“Dos cosas dan igualdad en la • Plataformas Cloud: Amazon Web Services, Google
Cloud o Microsoft Azure.
vida: Internet y la educación” • Componentes de redes comunes (firewall, router,
switch).
- John T. Chambers • Lenguajes de programación (Python, Java, Go, R).
• Sistemas operativos (Linux, UNIX, Windows, macOS).
• Protocolos TCP/IP y comunes (DNS, HTTP).
Herramientas:
• Matemáticas, estadística y técnicas de
análisis avanzado
• Python y R “Los arquitectos no inventan
• Structured Query Language (SQL) y NoSQL
• Hadoop nada, solo transforman la
• Apache Spark
• Sistemas Cloud
realidad”
• Looker
- Álvaro Siza
Database Manager
Funciones:
Dirige todo el equipo de “database” y es responsable
de las bases de datos de la empresa. Debe supervi-
sar el presupuesto y las necesidades de personal, y
procesar las solicitudes de datos de la empresa. Su
función es revisar el uso de los datos y evaluar estas
fuentes para su optimización. Por tanto, es un experto
con capacidad de liderazgo y gestión.
Herramientas:
• Power BI
“La acción es la clave • Tableau Public
• Panoply
fundamental de todo éxito” • Excel
• Looker
- Pablo Picasso
Data Warehouse
Manager
Funciones:
Herramientas:
“Si quieres cambiar el futuro,
• Digital Dashboards o paneles de control digital
• OLAP (Procesamiento analítico en línea, por sus empieza a vivir como si ya
siglas en inglés): HOLAP, ROLAP y MOLAP
• Aplicaciones de informes
estuvieras allí”
• Minería de datos
- Lynn Conway
Chief Data Officer
Funciones:
El Chief Data Officer es el responsable de todos los
equipos especializados en Big Data de la organización.
Su función es la de liderar y gestionar datos y analí-
tica asociados con el negocio y asegurarse de que la
empresa sea data-driven. Es decir, es el encargado de
la explotación de los activos de datos para crear valor
de negocio.
Herramientas:
• Apache Hadoop
“La tecnología es importante. • Spark
• Scala
Pero lo único que realmente • Python
importa es qué hacemos con ella” • PySpark
• TensorFlow
- Muhammad Yunus
Data Artist
Funciones:
Son científicos de datos que también son expertos en
el procesamiento gráfico y textual de flujos de datos
grandes y complejos. Analizan las fuentes de datos
y, tras sacar sus propias conclusiones de ellas, las
preparan para la comunicación y gestión corporativa
interna o externa.
Herramientas:
• Visme
• Tableau “Lo más revolucionario que
• Infogram una persona puede hacer, es
• Datapine
• Google Charts decir siempre en voz alta lo que
realmente está ocurriendo”
- Rosa Luxemburgo
El equipo soñado
123
El Máster en Data Science de Nuclio Digital School
proporciona a los alumnos una gran variedad de
competencias ajustadas a la realidad del merca-
do laboral, que les permiten mejorar su posición o
buscar nuevas oportunidades en el ámbito del Big
Data y Analytics.
LEARN
[TO BE]
THE FUTURE
Máster en Data Science
125
Máster en Data Science
del mercado laboral, que les permiten mejorar su posi- conocimientos previos quiere
ción actual o buscar nuevas oportunidades en el ámbito
de los datos. hacer un máster de este nivel?
Gracias a nuestro máster con metodología bootcamp, No sería un problema, porque hemos diseñado un
en solo 5 meses y a través de la modalidad Learning by pre-curso que hace la vía de aprendizaje más fácil para
doing, quien realmente lo quiera, podrá convertirse en aquellos que no han tenido un gran acercamiento con la
un Data Scientist de éxito. programación.
GLOSARIO
C
N
A
Z
S
B
K
JI
Glosario
Bb
Aa Black Box: En ciencia, informática e ingeniería, una caja
negra es un sistema que se puede ver en términos de
A/B Test: Experimento aleatorio con el fin de testear sus entradas y salidas, sin ningún conocimiento de su
diferentes versiones de un mismo contenido, logrando funcionamiento interno.
hacer una comparativa. El resultado será encontrar la
versión que sea más eficiente. Business Analytics: Permite conseguir los objetivos em-
presariales, a partir del análisis de datos. Utilizando los
Algoritmo: Conjunto de instrucciones o reglas definidas modelos predictivos para detectar tendencias, realizar 130
y no-ambiguas, ordenadas y finitas, que permiten solu- pronósticos y optimizar los procesos del negocio.
cionar un problema, realizar un cómputo, procesar datos
y llevar a cabo otras tareas o actividades. Business Intelligence: Conjunto de estrategias con las
que se analizan todos los datos que puede manejar un
Análisis Predictivo: Utiliza los datos para determinar negocio, de forma inteligente. Se trata de trabajar a partir
qué puede pasar en el futuro y descubrir relaciones de la información que los datos aportan y aprovecharla
entre los datos que normalmente no son detectadas con para mejorar las estrategias empresariales.
un análisis menos sofisticado.
AWS (Amazon Web Services): Es una plataforma en la Clúster de Servidores: Un servidor en clúster es la unión
nube, que cuenta con un conjunto de productos como de varios sistemas informáticos (servidores) que funcio-
aplicaciones de informática, almacenamiento, bases de nan como si fueran uno solo, con el objetivo de ofrecer
datos, IoT (Internet of Things) y análisis. velocidad y alta disponibilidad ante fallos.
Glosario
Dd
Data-driven: Cuando una empresa toma decisiones es-
tratégicas basadas en análisis e interpretación de datos.
Este enfoque permite que examine y organice sus datos
con el fin de atender mejor a sus clientes.
Data Lake: Es el lago de datos en el que el profesional se Datos Relacionales: Una base de datos relacional alma-
baña para conseguir todas las respuestas a las pregun- cena y proporciona acceso a puntos de datos relaciona-
tas que ofrece el Big Data. Es el almacenamiento de toda dos entre sí. Son una forma intuitiva y directa de repre-
la información recogida en bruto y que trabaja con una sentar datos en tablas.
arquitectura plana.
Data Set: El término hace referencia a una única base de
Data Mart: Es una versión específica del almacén de datos de origen. Representa un conjunto completo de
datos, centrados en un tema o un área de negocio dentro datos, incluyendo las tablas que los contienen, ordenan
de una organización. Son subconjuntos de datos con y restringen, así como las relaciones entre ellas.
el propósito de ayudar a que un área específica pueda
tomar mejores decisiones. Datos Tabulares: Son elementos representados por
marcadores diferentes, donde cada campo de marcas 131
Data Mining: Es el proceso para descubrir patrones representa la presencia o ausencia de un elemento es-
útiles o conocimientos, a partir de fuentes tales como pecífico. Cada registro representa un conjunto completo
bases de datos, textos, imágenes, internet, etc. Los de elementos asociados.
patrones deben ser válidos, potencialmente útiles y
entendibles. Deep Fake: Es un vídeo en el que se muestran imágenes
falsas, habitualmente del rostro de una persona, que
Data Sourcing: Es el conjunto de fuentes utilizadas parecen ser reales y que se han producido utilizando
para obtener información, generalmente de una base de inteligencia artificial.
datos. Se sirve de una serie de conectores hacia diferen-
tes medios, canales o soportes cruzados, para extraer Deep Learning (DL): Marco de modelos de aprendizaje
datos y proporcionar información relevante. automático que consiste en un esquema de entre-
namiento que contiene varias capas de optimización.
Data Warehouse: Repositorio de datos desde distintas Comúnmente está asociado a las ANN con un gran
fuentes, de una manera eficiente y útil, a fin de que sea número de capas ocultas.
utilizado para responder a preguntas de negocio y ayu-
dar a la toma de decisiones. DevOps: Conjunto de prácticas que combina el desarro-
llo de software y las operaciones informáticas. Promueve
Datos Etiquetados: Son los datos para los que el un mejor desarrollo de aplicaciones en menos tiempo y
Aprendizaje Supervisado ya conoce la respuesta de la rápida publicación de nuevas o revisadas funciones de
destino. software y productos.
Datos No Estructurados: Son aquellos que carecen de Discounted Cumulative Gain (DCG): La ganancia acu-
una estructura o arquitectura identificable. Esto significa mulada descontada es una medida de la calidad del ran-
que no se ajustan a un modelo de datos predefinidos, king. En la recuperación de información, a menudo se usa
son más cualitativos y conllevan una administración más para medir la eficacia de los algoritmos de los motores de
complicada (menos convencional). búsqueda web o aplicaciones relacionadas.
Glosario
Ee
Exabytes: Es una unidad de medida de almacenamiento
de datos cuyo símbolo es el EB. Equivale a 1018 bytes.
Hh
la estructura”, es decir, no es necesario hacer suposicio-
nes especiales sobre la entrada.
Funciones de Activación: Se utiliza en Deep Learning y Hadoop: Apache Hadoop es una colección de software
significa que en la salida de la neurona, puede existir, un de código abierto que facilita el uso de una red de mu-
filtro, función limitadora o umbral, que modifica el valor chos ordenadores para resolver problemas que implican
resultado o impone un límite que se debe sobrepasar cantidades masivas de datos y cálculos.
para poder proseguir a otra neurona.
Gg
hacerlo.
Kk
para identificar un recurso, como puede ser un archivo
en el ordenador o una información extra sobre un tipo de
dato.
Kaggle: Kaggle es una comunidad en línea de científicos
de datos y profesionales de la Inteligencia Artificial y el Metodología Kanban: Se trata de un método visual de
Aprendizaje Automático. Esta plataforma hace que el gestión de proyectos que permite a los equipos visuali-
entorno sea competitivo mediante el otorgamiento de zar sus flujos y carga de trabajo, a través de un tablero
premios y rankings para ganadores y participantes. organizado por columnas.
Ll
Microprocesador: Es la unidad de procesamiento princi-
pal de un ordenador, su “cerebro”.
Ley Moore: Esta predicción expresa que aproximada- Microsoft Azure: Es una plataforma de pago por uso que
mente cada 2 años se duplica el número de transistores integra servicios completos en la nube pública para que
en un microprocesador. Teniendo en cuenta que cuantos desarrolladores y equipos de TI administren e implemen-
más transistores o componentes haya en un dispositivo, ten aplicaciones y otros recursos, a través de un gran
el coste por dispositivo se reduce, mientras que el rendi- centro de datos mundial.
miento por dispositivo aumenta.
Migración de datos: Es el proceso de mover datos
Librerías de Python: Proveen soluciones estandariza- de una ubicación, formato o aplicación, a otra. 133
das para los diversos problemas que pueden ocurrir en el Normalmente, esto es resultado de la introducción de un
día a día en la programación. Responden al conjunto de nuevo sistema o ubicación.
implementaciones que permiten codificar este lenguaje,
con el objetivo de crear una interfaz independiente. Missing Data: Término usado cuando la data trae con
ella datos perdidos o no registrados durante la recopi-
Librerías Open Source: Son librerías donde se pueden lación de los mismos. Se debe a fallas en la recopilación
encontrar códigos diseñados de manera que sean ac- o momentos ocasionales en que no se registró, entre
cesibles al público: todos pueden verlos, modificarlos y otras.
distribuirlos de la forma que consideren conveniente.
MLOps: Área encargada de toda la operatividad de un
Mm
modelo de Machine Learning que está en producción,
asegurando la continuidad y desarrollo del mismo, de
manera continua.
Máquinas Boltzmann Restringidas (RBM por sus
siglas en inglés): Es una red neuronal artificial de dos Modelo: Representación matemática de las relaciones
capas (capa de entrada y capa oculta) que aprende una en un conjunto de datos. Es una forma simplificada y ma-
distribución de probabilidad basada en un conjunto de temáticamente formalizada de aproximarse a la realidad
entradas. Ayuda a resolver diferentes problemas basa- y hacer predicciones.
dos en combinaciones.
Rr
diferentes según el ámbito particular.
Oo
Raíz del Error Cuadrático Medio (RMSE): Es una medida 134
de uso frecuente de las diferencias entre los valores
(valores de muestra o de población) predichos por un
Open Data: Práctica que dispone de unos tipos de datos modelo o un estimador y los valores observados.
de forma libre para todo el mundo, sin restricciones de
derecho de autor, patentes u otros mecanismos. Su Razonamiento Computarizado: Es trasladar el sistema
objetivo es que estos datos puedan ser consultados, de pensamiento que utilizaría un científico informático a
redistribuidos y reutilizados libremente. la resolución de un problema: aplicar procesos de pensa-
miento lógico, sistémico, algorítmico, para lograr repre-
Outliers: Se dice que un dato es un outlier o dato aislado, sentar las soluciones a un problema como secuencias de
cuando se encuentra fuera de lo que sería la distribución instrucciones y algoritmos.
normal. Estadísticamente, se diría que esto sucede si se
encuentra muy distanciado del resto de datos. Recall: Esta métrica informa sobre la cantidad que un
modelo de Machine Learning es capaz de identificar.
Pp
Por ejemplo: ¿qué porcentaje de los clientes que están
interesados, somos capaces de identificar?
Precisión: Es una métrica para determinar la calidad del Redes Generativas Adversariales (GANs por sus siglas
modelo de Machine Learning en tareas de clasificación. en inglés): Son una nueva forma de utilizar Deep Learning
Por ejemplo: ¿qué porcentaje de los clientes que contac- para generar, por ejemplo, imágenes que parezcan rea-
temos estarán interesados? les, música y predicciones futuras, entre otros.
Procesamiento del Lenguaje Natural (PLN): Hace posi- Redes Neuronales Artificiales (ANN): Familia de mode-
ble la compresión y procesamiento asistidos por orde- los de Aprendizaje Automático formados por un conjunto
nador de información expresada en lenguaje humano, o de unidades conectadas llamadas neuronas. Pueden
lo que es lo mismo, hace posible la comunicación entre utilizarse tanto para tareas de clasificación como de
personas y máquinas. regresión.
Glosario
Ss
Spark: Apache Spark es un motor de análisis unificado
de código abierto para el procesamiento de datos que
Uu
permite a los programadores realizar operaciones sobre
un gran volumen de datos en clústeres de forma rápida y
con tolerancia a fallos.
User Experience (UX): Conjunto de factores y ele- 135
Structured Query Language (SQL): Lenguaje especí- mentos que intervienen en la vivencia de una persona
fico de programación, diseñado para gestionar bases y con una empresa, lo cual ayuda a determinar cómo se
flujos de datos. Estos son algunos de los programas que sienten con respecto a la marca desde el primer hasta el
usan SQL: Oracle, MySQL, Microsoft SQL Server, Access, último contacto.
Ingres, etc.
Vv
Tt Valor-F (F1-score): Se utiliza para combinar las medidas
Target: Variable objetivo que se quiere predecir me- de precisión y recall en un solo valor. Esto es práctico
diante el empleo de técnicas de ML. Básicamente lo que porque hace más fácil el poder comparar el rendimiento
todos conocemos por “target”, pero aplicado a las IT. combinado de la precisión y la exhaustividad entre varias
soluciones.
TensorFlow: Biblioteca de código abierto desarrollada
Ww
por Google para llevar a cabo proyectos de Machine
Learning.
Test de Turing: Es un experimento en el que un humano Watson: Es un sistema basado en Inteligencia Artificial
mantiene una conversación con una computadora y otra capaz de responder a preguntas formuladas en lenguaje
persona, pero sin saber quién de los dos conversadores natural, desarrollado por la empresa estadounidense
es realmente una máquina. El objetivo es determinar IBM.
si la inteligencia artificial puede imitar las respuestas
humanas. World Wide Web (WWW): Red informática mundial,
sistema lógico de acceso y búsqueda de la información
Transistor: Es el dispositivo electrónico semiconductor disponible en Internet, cuyas unidades informativas son
que permite el paso de una señal en respuesta a otra. las páginas web.
Hemos querido regalarte una cita entre arte y
tecnología, y para eso elegimos el arte de uno de
los ilustradores españoles más reconocidos a nivel
internacional. Sus creaciones tratan de historias,
personajes y experiencias a lo largo del tiempo; y
se basan en las relaciones con el arte popular, la
cultura del tatuaje tradicional y moderno, el imagi-
nario religioso europeo y las artes tribales.
RICARDO
CAVOLO
Ricardo Cavolo
137
Ricardo Cavolo
El corazón de
Ricardo Cavolo
Nacido en Salamanca en 1982 y bajo la influencia de
la pintura de su padre, Ricardo Cavolo aprendió desde
pequeño a coger bien el lápiz, “para no soltarlo desde
entonces”.
El amor inclusivo
que los 4 ojos son un mimo que le hago a mis personajes,
para que sean especiales”.
139
Ricardo Cavolo
La magia de la
singularidad
¿Cómo destacar el encanto de su arte? Sin duda en el
caso de Ricardo Cavolo la respuesta está en el esfuerzo
diario y la fe que tiene en sí mismo.
El poder de la
tenido de actualidad para enseñar a través de la singula- 140
ridad de sus ilustraciones.
diferencia
¿Qué tiene de especial este libro? En todo su proceso
de creación se aplicó Learning by doing. Una metodo-
logía clave para el éxito, que se basa en el desarrollo de
habilidades a través de la experimentación. Aprendiendo
a resolver los verdaderos desafíos y adquiriendo nuevos
conocimientos y habilidades, partiendo de los errores y
aciertos propios.
141
AGRADECI-
MIENTOS
Agradecimientos
143
Agradecimientos
(II)
(I)
Agradecimientos
Mi pasión por la tecnología y los datos se desarrolló mi propia empresa, Horus ML, dedicada al desarrollo de
cuando era pequeño, concretamente cuando me regala- proyectos innovadores de Machine Learning en el ámbito
ron mi primer ordenador, con Windows 95. Aunque estoy sanitario, dado que crear aplicaciones en sanidad siem-
orientado al mundo Data Science/IA, empecé trabajando pre ha sido mi objetivo a nivel laboral por su gran poten-
en el sector de logística y operaciones en Glovo (Barce- cial de impacto positivo.
lona) y luego en el mundo de micromovilidad eléctrica,
(III)
(IV)
(V)
Agradecimientos
(I)
(VI)
(III)
(V)
(II)
(IV)
Agradecimientos
La creatividad es la inteligencia
Las cosas pasan por algo divirtiéndose
Si estás aquí es porque tenemos algo en
común. Nos une el fuego imparable de la
revolución digital. No nos basta ser parte,
queremos ser protagonistas, líderes.
El apasionante mundo de los datos tiene
mucho más por explorar.
Dar el siguiente paso depende de ti.
Te invitamos a que conozcas más sobre
Nuclio Digital School. Estaremos a tu lado
asegurando tu impulso.