11-19-1-SM Big DATA
11-19-1-SM Big DATA
11-19-1-SM Big DATA
Antonio Paredes-Moreno1
RESUMEN. Con el trmino Big Data se hace referencia normalmente a las colecciones de conjuntos
de datos tan grandes y complejos que son muy difciles de procesar con las herramientas que conocemos usadas por las aplicaciones en las bases de datos tradicionales. Este nuevo estado de cosas
constituye un enorme desafo que incluye la captura,conservacin, almacenamiento, bsqueda,
intercambio, transferencia, anlisis y visualizacin de los datos.
Los conjuntos de datos a que hacemos referencias estn en constante crecimiento dado que las
fuentes de las que emanan crecen en nmero cada da y adems la velocidad de comunicacin y
capacidad de almacenamiento de las nuevas tecnologas cada vez es ms alta. Ya no se habla de
conjuntos de datos cuyo volumen viene expresado en Gigas o Terabytes sino ms bien en Peta, Exa,
o Zettabytes de datos.
Dado que Big Data indica grandes volmenes a grandes velocidades, de datos muy variados es obvio
que se necesitan nuevas formas de procesamiento a fin de que la informacin o conocimiento extrado pueda ser utilizado para una buena toma de decisiones.
En las pginas que siguen a continuacin se intenta describir someramente cual es la situacin presente de este reciente e interesante fenmeno que se ha dado en llamar Big Data o grandes datos.
ABSTRACT. The term Big Data generally refers to collections of sets of data so large and complex
that are difficult to process with tools we know that the traditional database applications use. This
new situation constitutes a huge challenge involving the capture, preservation, storage, search,
exchange, transfer, analysis and visualization of data.
The data sets referenced are constantly growing becauseof the sources from which they emanate
grown in number every day and also because the speed of the new communication and storagetechnologies is becoming increasingly high. We no longer speaks of datasets whose volume is expressed
in gigabytes or terabytes but rather Peta, Exa, or Zettabytes data.
As Big Data indicates large volumes and high speeds communicationof diverse data, is obvious we
need new ways and toolsto processing data in order that information or knowledge extracted can
be used for good decision-making.
In the following pages we tray to describe briefly what is the present situation of this interesting phenomenon called "Big Data".
PALABRAS CLAVE: Big Data, Cloud Computing, Web and Social Media, Machine-to-Machine
(M2M), Big Transaction Data, Hadoop.
KEYWORDS: Big Data, Cloud Computing, Web and Social Media, Machine-to-Machine (M2M),
Big Transaction Data, Hadoop.
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
International Journal of Information Systems and Software Engineering for Big Companies (IJISEBC)
39
Cada da, la humanidad crea 1,5 trillones de bytes de datos. La imparable expansin de Internet, no slo
como un canal de informacin, sino como un instrumento al servicio de la gestin empresarial, explica en gran
medida este incremento de datos. Pero a ello se unen otros fenmenos, como la explosin de las redes sociales,
el desarrollo de la telefona mvil (en particular de redes xG y smartphones con capacidades de conexin de
datos impensables hace no tanto tiempo), el crecimiento de la produccin y divulgacin de materiales multimedia (foto y vdeo) por parte de usuarios particulares, la eclosin de medidores inteligentes (smartmetering) y el
despliegue de dispositivos que transmiten informacin por radiofrecuencia.
Segn el informe del ao 2012 de Oracle [1], el 90% de los datos del planeta se ha generado en los ltimos
dos aos y durante 2011 se rozaron los dos zettabytes (1 zettabyte = 1024 exabytes) de informacin en todo
el mundo segn el informe de 2011 sobre Big Data de McKinsey Global Institute [2], muchos de estos datos
provienen de redes sociales (Facebook: ms de 1.155 millones de usuarios al mes, 699 millones de personas
se conectan cada da; 500 millones de seguidores de Twitter y cerca de 200 millones de blogs pblicos); telfonos mviles (7.000 millones en uso en todo el mundo); sistemas de telemedicin; fotografas; vdeos; emails,
etc. El conjunto de toda esta explosin de informacin recibe el nombre de Big Data y, por extensin, as tambin se denomina al conjunto de herramientas, tcnicas y sistemas destinados a extraer todo su valor.
Big Data junto con Cloud Computing, son trminos que estn centrando el debate actual en el sector TI.
Con el progresivo auge de smartphones, tablets y redes sociales, y una proporcin cada vez mayor de procesos
de negocios digitalizados, todos tenemos constancia de las cantidades enormes de datos que estas transacciones y comunicaciones producen.
Ahora bien, Cmo pueden las empresas hacerse con este tesoro? Cmo pueden convertir los datos propios y los que circulan por las redes y sistemas de informacin en un valor aadido para su negocio y en una
ventaja competitiva?
No hay una respuesta nica para estas preguntas. Cada organizacin, en funcin de su sector de actividad
y de sus propias peculiaridades, deber analizar qu uso puede hacer de este inmenso caudal de datos y cmo
los puede aprovechar. Pero lo que s hay es una clara respuesta tecnolgica. Aprovechar el potencial de Big
Data es una realidad perfectamente posible hoy en da, y a un coste razonable, gracias a los sistemas que las
empresas ponen a disposicin de sus clientes.
La combinacin de datos masivos y su procesamiento con nuevas tecnologas ayudar a que las aseguradoras no tengan que pedir reconocimientos mdicos a sus clientes para conocer su estado de salud, confirmar
a un potencial comprador si un vehculo de segunda mano es de fiar a partir del color de su pintura y anticipar
qu estudiantes flojean antes de un examen. El auge de internet y los telfonos mviles inteligentes no slo
permiten rastrear datos inmensos y desvelar a quin se llama y a dnde se va, sino que con la tecnologa se
abre la puerta al desarrollo de sofisticados sistemas de prediccin de mercado, que ya estn ofreciendo resultados muy ajustados, frente a los obtenidos hasta ahora con tradicionales sondeos de opinin, no siempre tan
acertados.
Big Data significa muchas cosas para muchas personas. El concepto an no est claro, pero la investigacin
est comenzando a demostrar que el tema ya est entrando en el radar de muchas empresas, y algunas historias
de xito y a estallar para arriba aqu y all. El estudio Analytics: el uso del mundo real de Big Data [3], realizado por IBM en colaboracin con la Escuela de Negocios Sad de la Universidad de Oxford, da una buena
visin general del estado actual del uso de grandes volmenes de datos. Otra referencia a la madurez que van
adquiriendo tanto la tecnologa Cloud Computing como Big Data la tenemos en Datacenter Dinamics [4].
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
40
La primera cuestin que posiblemente se nos presente en este momento es Qu es Big Data y porqu se
ha vuelto tan importante? pues bien, en trminos generales podramos referirnos como a la tendencia en el
avance de la tecnologa que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y
semiestructurados) que tomara demasiado tiempo y sera muy costoso cargarlos a una base de datos relacional
para su anlisis. Una buena explicacin sobre Big Data la tenemos en [5].
As pues, el concepto de Big Data se aplica a toda aquella informacin que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no se refiere a alguna cantidad
especfica, ya que es usualmente utilizado cuando se habla en trminos de petabytes y exabytes de datos.
Entonces qu significa demasiada informacin de manera que sea posible ser procesada y analizada utilizando
Big Data? Analicemos primeramente en trminos de bytes:
Adems del gran volumen de informacin, esta se produce y existe en una gran variedad de datos que pueden ser representados de diversas maneras en todo el mundo, por ejemplo de dispositivos mviles, audio,
video, sistemas GPS, incontables sensores digitales en equipos industriales, automviles, medidores elctricos,
veletas, anemmetros, etc., los cuales pueden medir y comunicar el posicionamiento, movimiento, vibracin,
temperatura, humedad y hasta los cambios qumicos que sufre el aire, de tal forma que las aplicaciones que
analizan estos datos requieren que la velocidad de respuesta sea lo suficientemente rpida para lograr obtener
la informacin correcta en el momento preciso. Estas son las caractersticas principales de una oportunidad
para Big Data.
Es importante entender que las bases de datos convencionales son una parte importante y relevante para
una solucin analtica. De hecho, se vuelve mucho ms vital cuando se usa en conjunto con la plataforma de
Big Data. Pensemos en nuestras manos izquierda y derecha, cada una ofrece fortalezas individuales para cada
tarea en espec fico. Por ejemplo, el jugador de beisbol sabe que una de sus manos es mejor para lanzar la
pelota y la otra para atraparla; puede ser que cada mano intente hacer la actividad de la otra, mas sin embargo,
el resultado no ser el ms ptimo.
Los seres humanos estamos creando y almacenando informacin constantemente y cada vez ms, en cantidades astronmicas. Se podra decir que si todos los bits y bytes de datos del ltimo ao fueran guardados en
CDs, se generara una gran torre desde la Tierra hasta la Luna ida y vuelta.
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
41
Esta contribucin a la acumulacin masiva de datos la podemos encontrar en diversas industrias, las compaas mantienen grandes cantidades de datos transaccionales, reuniendo informacin acerca de sus clientes,
proveedores, operaciones, etc., de la misma manera sucede con el sector pblico. En muchos pases se administran enormes bases de datos que contienen datos de censo de poblacin, registros mdicos, impuestos, etc.,
y si a todo esto le aadimos transacciones financieras realizadas en lnea o por dispositivos mviles, anlisis de
redes sociales (en Twitter son cerca de 12 Terabytes de tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y videos), ubicacin geogrfica mediante coordenadas GPS, en otras palabras,
todas aquellas actividades que la mayora de nosotros realizamos varias veces al da con nuestros smartphones.
estamos hablando de que se generan alrededor de 2.5 quintillones de bytes diariamente en el mundo (1 quintilln = 1,000,000,000,000,000,000,000,000,000,000 bytes).
De acuerdo con un estudio realizado por Cisco, entre el 2011 y el 2016 la cantidad de trfico de datos
mviles crecer a una tasa anual de 78%, as como el nmero de dispositivos mviles conectados a Internet
exceder el nmero de habitantes en el planeta [6]. Las naciones unidas proyectan que la poblacin mundial
alcanzar los 7.5 billones para el 2016 de tal modo que habr cerca de 18.9 billones de dispositivos conectados
a la red a escala mundial, esto conllevara a que el trfico global de datos mviles alcance 10.8 Exabytes mensuales o 130 Exabytes anuales. Este volumen de trfico previsto para 2016 equivale a 33 billones de DVDs
anuales o 813 cuatrillones de mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento enorme de informacin, existe tambin la comunicacin denominada mquina a mquina (M2M machine-to-machine) cuyo valor
en la creacin de grandes cantidades de datos tambin es muy importante. Sensores digitales instalados en contenedores para determinar la ruta generada durante una entrega de algn paquete y que esta informacin
sea enviada a las compaas de transportacin, sensores en medidores elctricos para determinar el consumo
de energa a intervalos regulares para que sea enviada esta informacin a las compaas del sector energtico.
Se estima que hay ms de 30 millones de sensores interconectados en distintos sectores como automotriz,
transportacin, industrial, servicios, comercial, etc. y se espera que este nmero crezca en un 30% anualmente.
Muchas organizaciones se enfrentan a la pregunta sobre qu informacin es la que se debe analizar?, sin
embargo, el cuestionamiento debera estar enfocado hacia qu problema es el que se est tratando de resolver?
Para ello lo mejor es tener una buena clasificacin de los tipos de datos segn sus fuentes. Se muestran aqu
algunas de estas categoras o tipos de datos segn el estado actual de la tecnologa:
Web and Social Media: Incluye contenido web e informacin que es obtenida de las redes sociales
las llamadas (CDR), etc. Estos datos transaccionales estn disponibles en formatos tanto semiestructurados
como no estructurados.
Biometrics: Informacin biomtrica en la que se incluye huellas digitales, escaneo de la retina, reco
nocimiento facial, gentica, etc. En el rea de seguridad e inteligencia, los datos biomtricos han sido informacin importante para las agencias de investigacin.
Human Generated: Las personas generamos diversas cantidades de datos como la informacin que
guarda un call center al establecer una llamada telefnica, notas de voz, correos electrnicos, documentos elecParedes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
42
Existe mucha confusin en torno al concepto de Big Data, confusin que comienza con la propia definicin.
No hay una determinada caracterstica que predomine sobre el resto, sino que se da una divisin a la hora de
describir el concepto de Big Data. Para unos se trata de grandes volmenes de datos en crecimiento cada da,
para otros se trata de nuevos tipos de datos y anlisis o de los requisitos emergentes de un anlisis de la informacin en tiempo an ms real
Siguiendo a Paul C. Zikopoulos, Chris Eato y otros [7], IBM en [3] e IBM en Big Data and Analytics Hub
[8], se pueden caracterizar las dimensiones de Big Data con las llamadas cuatro V: Volumen, Variedad
Velocidad y Veracidad ( vase la figura 3).
Volumen: La cantidad de datos. Al ser quiz la caracterstica que se asocia con mayor frecuencia a
Big Data, el volumen hace referencia a las cantidades masivas de datos que las organizaciones intentan aprovechar para mejorar la toma de decisiones en toda la empresa. Los volmenes de datos continan aumentado
a un ritmo sin precedentes. No obstante, lo que constituye un volumen verdaderamente alto vara en funcin
del sector e incluso de la ubicacin geogrfica y es ms pequeo que los petabytes y zetabytes a los que a
menudo se hace referencia. Algo ms de la mitad de los encuestados consideran que conjuntos de datos de
entre un terabyte y un petabyte ya son Big Data, mientras que otro 30% simplemente no saba cuantificar este
parmetro para su empresa. Aun as, todos ellos estaban de acuerdo en que sea lo que fuere que se considere
un volumen alto hoy en da, maana lo ser ms.
Variedad: Diferentes tipos y fuentes de datos. La variedad tiene que ver con gestionar la complejidad
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
43
de mltiples tipos de datos, incluidos los datos estructurados, semiestructurados y no estructurados. Las organizaciones necesitan integrar y analizar datos de un complejo abanico de fuentes de informacin tanto tradicional como no tradicional procedentes tanto de dentro como de fuera de la empresa. Con la profusin de sensores, dispositivos inteligentes y tecnologas de colaboracin social, los datos que se generan presentan innumerables formas entre las que se incluyen texto, datos web, tuits, datos de sensores, audio, vdeo, secuencias
de clic, archivos de registro y mucho ms.
Velocidad: Los datos en movimiento. La velocidad a la que se crean, procesan y analizan los datos
contina aumentando. Contribuir a una mayor velocidad es la naturaleza en tiempo real de la creacin de
datos, as como la necesidad de incorporar datos en streaming a los procesos de negocio y la toma de decisiones. La velocidad afecta a la latencia: el tiempo de espera entre el momento en el que se crean los datos, el
momento en el que se captan y el momento en el que estn accesibles. Hoy en da, los datos se generan de
forma continua a una velocidad a la que a los sistemas tradicionales les resulta imposible captarlos, almacenarlos y analizarlos. Para los procesos en los que el tiempo resulta fundamental, tales como la deteccin de fraude
en tiempo real o el marketing instantneo multicanal, ciertos tipos de datos deben analizarse en tiempo real
para que resulten tiles para el negocio.
Veracidad: La incertidumbre de los datos. La veracidad hace referencia al nivel de fiabilidad asociado
a ciertos tipos de datos. Esforzarse por conseguir unos datos de alta calidad es un requisito importante y un
reto fundamental de Big Data, pero incluso los mejores mtodos de limpieza de datos no pueden eliminar la
imprevisibilidad inherente de algunos datos, como el tiempo, la economa o las futuras decisiones de compra
de un cliente. La necesidad de reconocer y planificar la incertidumbre es una dimensin de Big Data que surge
a medida que los directivos intentan comprender mejor el mundo incierto que les rodea (vase el recuadro
Veracidad, la cuarta V).
Algunos datos son intrnsecamente inciertos, por ejemplo, los sentimientos y la sinceridad de los seres
humanos; los sensores GPS que rebotan entre los rascacielos de Manhattan; las condiciones climticas; los factores econmicos; y el futuro. A la hora de tratar con estos tipos de datos, ninguna limpieza de datos puede
corregirlos. Aun as, y a pesar de la incertidumbre, los datos siguen conteniendo informacin valiosa. La necesidad de reconocer y abordar esta incertidumbre es una de las caractersticas distintivas de Big Data.
La incertidumbre se manifiesta en Big Data de muchas formas. Se encuentra en el escepticismo que rodea
a los datos creados en entornos humanos como las redes sociales; en el desconocimiento de cmo se desarrollar el futuro y cmo las personas, la naturaleza o las fuerzas ocultas del mercado reaccionarn a la variabilidad del mundo que les rodea.
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
44
Para gestionar la incertidumbre los analistas han de crear un contexto en torno a los datos. Una forma de
hacerlo es a travs de la fusin de datos, donde la combinacin de mltiples fuentes menos fiables da lugar a
un punto de datos ms preciso y til, como comentarios sociales aadidos a la informacin acerca de una ubicacin geoespacial. Otra forma de gestionar la incertidumbre es a travs de las matemticas avanzadas que la
engloban, como slidas tcnicas de optimizacin y planteamientos de lgica difusa.
Por naturaleza, a los seres humanos no nos gusta la incertidumbre, pero ignorarla puede crear incluso ms
problemas que la propia incertidumbre. En la era de Big Data, los directivos necesitan abordar la dimensin de
la incertidumbre de forma diferente. Deben reconocerla, aceptarla y determinar cmo aplicarla para su beneficio; la nica certeza acerca de la incertidumbre es que no desaparecer.
En definitiva, Big Data es una combinacin de estas caractersticas que crea una oportunidad para que las
empresas puedan obtener una ventaja competitiva en el actual mercado digitalizado. Permite a las empresas
transformar la forma en la que interactan con sus clientes y les prestan servicio, y posibilita la transformacin
de las mismas e incluso de sectores enteros. No todas las organizaciones adoptarn el mismo enfoque con respecto al desarrollo y la creacin de sus capacidades de Big Data. Sin embargo, en todos los sectores existe la
posibilidad de utilizar las nuevas tecnologas y analticas de Big Data para mejorar la toma de decisiones y el
rendimiento.
La mayor parte de las empresas se encuentra actualmente en las primeras fases del desarrollo de Big Data,
la mayora de ellas centradas en comprender los conceptos (24%) o definir una hoja de ruta relacionada con
Big Data (47%). No obstante, el 28% de los encuestados trabaja en empresas de vanguardia en las que estn
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
45
desarrollando pruebas de conceptos (POCs) o ya han implementado soluciones de Big Data a escala (vase la
figura 4).
En el estudio de IBM sobre el que se basan estas pginas [3], se extraen cinco conclusiones clave que reflejan algunas tendencias y conocimientos comunes e interesantes:
En todos los sectores el negocio de Big Data est orientado en gran medida a abordar objetivos centrados en el cliente.
Las organizaciones estn poniendo en marcha proyectos e implementaciones con fuentes de datos
internas ya existentes o a las que han tenido acceso recientemente.
Para que las empresas puedan obtener el mximo valor de Big Data son necesarias funcionalidades
analticas avanzadas, aunque a menudo carecen de ellas.
A medida que la concienciacin y la implicacin de las empresas en Big Data crece se observa cmo
surgen cuatro fases en el proceso de adopcin de Big Data, que se describen ms abajo.
Aproximadamente la mitad de las empresas encuestadas identificaron los objetivos centrados en el cliente
como la mxima prioridad de su empresa.
Las organizaciones estn comprometidas con la mejora de la experiencia del cliente y con una mejor comprensin de las preferencias y el comportamiento de los mismos. Comprender al consumidor de hoy en da,
mucho ms capacitado, tambin fue identificado como una prioridad de alto nivel tanto en la Encuesta global
a directores de marketing (CMO) de 2011 como en la Encuesta global CEOs de 2012 [8].
Las empresas consideran que Big Data proporciona la capacidad para comprender y predecir mejor los
comportamientos de los clientes y, al hacerlo, mejorar su experiencia. Transacciones, interacciones multicanal,
redes sociales, datos sindicados a travs de fuentes como las tarjetas de fidelidad y otra informacin relacionada con los clientes han aumentado la capacidad de las empresas para crear una imagen completa de las preferencias y demandas de los clientes: un objetivo de los departamentos de marketing, ventas y atencin al cliente durante dcadas.
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
A travs de esta comprensin profunda, empresas de todo tipo encuentran nuevas formas de interactuar
con sus clientes actuales y futuros. Este principio es aplicable al comercio minorista, pero tambin a las telecomunicaciones, la sanidad, el gobierno, la banca y las finanzas y al sector de productos al consumidor, donde
usuarios finales y ciudadanos estn involucrados en interacciones business-to-business (B2B) entre socios y
proveedores.
De hecho, Big Data puede ser una carretera de doble sentido entre los clientes y las empresas: Por ejemplo,
el Ford Focus elctrico produce ingentes cantidades de datos mientras est siendo conducido y cuando est
aparcado. Mientras se encuentra en movimiento el conductor recibe constantemente informacin actualizada
acerca de la aceleracin, la frenada, la carga de la batera y la ubicacin del vehculo. Esto resulta til para el
conductor, pero esos mismos datos tambin llegan a los ingenieros de Ford, quienes reciben informacin acerca
de los hbitos de conduccin de los clientes, incluido cmo, cundo y dnde cargan sus automviles. Y mientras el vehculo se encuentra detenido contina enviando datos acerca de la presin de los neumticos y el sistema de batera al telfono inteligente ms cercano.
Big Data permite obtener una imagen ms completa de las preferencias y demandas de los clientes; a travs
de esta profunda comprensin empresas de todo tipo encuentran nuevas formas de interactuar con sus clientes
actuales y futuros.
De este escenario centrado en el cliente se derivan mltiples ventajas, ya que Big Data hace posibles nuevas
y valiosas formas de colaboracin. Los conductores reciben informacin til cada segundo, mientras que los
ingenieros en Detroit renen la informacin relativa al comportamiento al volante con el objetivo de extraer
conocimientos acerca de los clientes y desarrollar mejoras para los productos. Y lo que es ms, las empresas
de servicios pblicos y otros proveedores externos analizan millones de kilmetros de datos de conduccin para
decidir dnde ubicar nuevas estaciones de carga y cmo proteger las frgiles redes de servicio de las sobrecargas.
Empresas de todo el mundo son capaces de prestar un mejor servicio a sus clientes y de mejorar las operaciones gracias a Big Data. Empresas como
Mcleod Russel India Limited han eliminado por completo el tiempo de inactividad de los sistemas
en el comercio del t gracias a un seguimiento ms preciso de las cosechas, la produccin y el marketing
de hasta 100 millones de kilos de t cada ao.
Santam mejor la experiencia del cliente al implementar el anlisis predictivo con el objetivo de
reducir el fraude.
Adems de los objetivos centrados en el cliente, tambin se abordan otros objetivos funcionales a travs de
las primeras aplicaciones de Big Data. La optimizacin operativa, por ejemplo, fue uno de los objetivos citados
por el 18% de los encuestados, pero consiste principalmente en proyectos piloto. Otras aplicaciones de Big
Data que se mencionaron con frecuencia incluyen la gestin financiera/de riesgos, la colaboracin de los
empleados y la habilitacin de nuevos modelos de negocio.
La promesa de lograr un valor de negocio importante y cuantificable a partir de Big Data solo puede hacerse realidad si las empresas crean una base de informacin que respalde el volumen, la variedad y la velocidad
de los datos de rpido crecimiento. En el estudio, las empresas afirmaron haber comenzado su viaje hacia Big
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
46
47
Data con una base de informacin integrada, escalable, extensible y segura. Cuatro fueron los componentes de
la gestin de la informacin citados con mayor frecuencia como parte de las iniciativas de Big Data de los
encuestados. La informacin integrada es un componente fundamental de cualquier esfuerzo analtico y es
incluso ms importante si hablamos de Big Data. Tal y como se apunta en el estudio realizado por el IBM
Institute for Business Value en 2011 acerca de la analtica avanzada, los datos de una empresa han de estar
disponibles y accesibles para las personas y sistemas que los necesitan (Ver figura 5).
Los dos siguientes componentes de la base de gestin de la informacin que se mencionan con mayor frecuencia en las iniciativas de Big Data son una infraestructura de almacenamiento escalable y un warehouse de
gran capacidad. Ambos respaldan el rpido crecimiento de los datos, actuales y futuros, que llegan a la organizacin.
Estas tecnologas tambin son capaces de gestionar la creciente velocidad de los datos que llegan, y se
almacenan, al hacer posible un movimiento coherente y automatizado de los datos en toda la empresa a medida
que ms personas necesitan tener acceso a tipos de informacin adicionales y diferentes. Tecnologas emergentes como la jerarquizacin y compresin de datos y los sistemas de archivos escalables, junto con bases de
datos en memoria, hacen posible la gestin de cargas de trabajo mucho ms grandes que los warehouses convencionales. Para muchas organizaciones, mejorar la capacidad para gestionar volmenes de datos en crecimiento es la mxima prioridad de Big Data, seguida muy de cerca por la capacidad para abordar la creciente
variedad de datos (un ejemplo de ello lo tenemos en Vestas Wind Systems. Ver 1.10.8 para una descripcin
ms detallada).
El 58% de las empresas que afirman haber puesto ya en marcha iniciativas de Big Data cuenta con unos
procesos de seguridad y gobierno slidos. Si bien la seguridad y el gobierno han sido durante mucho tiempo
un aspecto inherente al business intelligence, las nuevas consideraciones jurdicas, ticas y normativas de Big
Data introducen nuevos riesgos y amplan el potencial de fallos pblicos, tal y como hemos tenido la oportunidad de ver con algunas empresas que han perdido el control sobre los datos o los han utilizado de formas cuestionables.
Como resultado de ello, la seguridad de los datos, y especialmente la privacidad de los mismos, constituye
una parte fundamental de la gestin de la informacin, tal y como afirman varios expertos en la materia y directivos empresariales. La seguridad y el gobierno sern todava ms importantes a medida que las empresas
comiencen a utilizar nuevas fuentes de informacin, especialmente datos procedentes de redes sociales. Para
complicar an ms la situacin, las normativas sobre privacidad continan evolucionando y pueden variar enormemente dependiendo del pas.
Existe la percepcin de que la privacidad y la seguridad son aspectos fciles, pero estn muy regulados y
se encuentran bajo un frreo control, seala un directivo del sector de las telecomunicaciones. Y no son solo
las agencias gubernamentales las que ejercen este control, sino tambin los propios clientes.
Segn este mismo directivo, hay una serie de mbitos nuevos, como pueden ser los datos la navegacin
web, donde existe una zona gris entre lo que es legal y lo que est bien. Una buena mxima a aplicar respecto
a este tema podra ser la de considerar qu pensara el cliente si la forma en la que tal empresa u organizacin
utiliza sus datos apareciera reflejada en la pgina web de dicha empresa.
Para algunos de los directivos entrevistados, los costes de actualizacin de las infraestructuras constituan
otra inquietud. Segn afirmaron, la alta direccin exige un caso de negocio slido y cuantificable, uno que
defina las inversiones progresivas junto con las oportunidades para racionalizar y optimizar los costes de sus
entornos de gestin de la informacin. Arquitecturas de menor coste, incluido el cloud computing, la externalizacin estratgica y la fijacin de precios basada en el valor, fueron citadas como tcticas que estn siendo
desarrolladas en la actualidad. Aun as, otros han invertido en sus plataformas de informacin sobre la base de
la conviccin de que la oportunidad de negocio mereca el incremento de costes asociado.
La mayor parte de los esfuerzos de Big Data estn dirigidos a extraer y analizar datos internos. Ms de la
mitad de las empresas encuestadas afirmaron que la fuente principal de Big Data en sus empresas eran los
datos internos. Esto sugiere que las empresas estn siendo pragmticas al adoptar Big Data y tambin que existe
un tremendo valor por descubrir escondido en esos sistemas internos (ver figura 6).
Tal y como caba esperar, los datos internos son los datos ms desarrollados y mejor entendidos de las
empresas. Estos se han recabado, integrado, estructurado y normalizado a lo largo de aos de planificacin de
recursos empresariales, gestin de datos maestros, business intelligence y otras actividades relacionadas. Al
aplicar la analtica, los datos internos obtenidos de las transacciones de los clientes, las interacciones, los evenRParedes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
48
49
tos y los correos electrnicos pueden proporcionar conocimientos valiosos5, mayores ingresos a travs de una
mejor informacin. No obstante, en muchas empresas el tamao y el alcance de sus datos internos (tales como
datos detallados de transacciones y registros operativos) son ahora demasiado grandes o variados como para
poder gestionarlos con los sistemas tradicionales.
Casi tres de cada cuatro empresas con iniciativas de Big Data en curso analizan datos procedentes de logs.
Se trata de datos generados por mquinas/sensores que se utilizan para registrar detalles de funciones automatizadas llevadas a cabo en el marco de sistemas de informacin o empresariales, datos que han desbordado la
capacidad de la que disponen muchos sistemas tradicionales para su almacenamiento y anlisis. Como resultado de ello, muchos de estos datos se recaban pero no se analizan
No obstante, Big Data no crea valor hasta que se utiliza para superar importantes retos empresariales. Esto
requiere un acceso a ms tipos de datos diferentes entre s, as como slidas funcionalidades analticas que
incluyen tanto herramientas de software como las habilidades necesarias para utilizarlas. Un anlisis de las
empresas inmersas en actividades de Big Data revela que comienzan con un slido ncleo de funcionalidades
analticas diseadas para abordar datos estructurados. A continuacin, aaden capacidades para aprovechar la
enorme cantidad de datos que llegan a la empresa, tanto datos semiestructurados (datos que se pueden conParedes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
50
Ms del 75% de los encuestados con iniciativas de Big Data en curso sealaron que utilizan funcionalidades
analticas clave, tales como las consultas, la generacin de informes y la extraccin de datos para analizar Big
Data, en tanto que ms del 67% afirma que utiliza modelos predictivos. Comenzar con estas funcionalidades
analticas fundamentales es una forma pragmtica de comenzar a interpretar y analizar Big Data, especialmente
cuando estn siendo almacenados en una base de datos relacional.
Las empresas inmersas en Big Data necesitan funciones cada vez ms avanzadas para descubrir patrones
en la inherente complejidad. Para lograrlo, se aplican modelos de optimizacin y analtica avanzada a fin de
comprender mejor cmo transformar los procesos de negocio clave. Utilizan funciones de simulacin para analizar las miles de variables disponibles con Big Data. Ms del 50% de las iniciativas de Big Data en curso utilizan
estas funciones de modelacin avanzadas.
La mayor parte de las empresas centran la atencin de sus primeras iniciativas de Big Data en analizar datos
estructurados. Sin embargo, Big Data tambin genera la necesidad de analizar mltiples tipos de datos, incluida
una gran variedad de datos que pueden ser completamente nuevos para muchas organizaciones. En ms de la
mitad de las iniciativas de Big Data en curso las empresas afirman utilizar funcionalidades avanzadas diseadas
para analizar texto en su estado natural, como pueden ser las transcripciones de las conversaciones de un centro de atencin telefnica. Esta analtica incluye la capacidad para interpretar y comprender los matices del lenguaje, tales como los sentimientos, el argot y las intenciones.
Disponer de la capacidad para analizar datos no estructurados (por ejemplo, datos de una ubicacin geoespacial, voz y vdeo) o en streaming sigue siendo un reto para la mayora de las empresas. A medida que el
hardware y el software de estos mbitos evoluciona, las habilidades siguen siendo escasas. Menos del 25% de
las empresas con iniciativas de Big Data en curso cuenta con las capacidades necesarias para analizar datos no
estructurados, tales como voz y vdeo.
Adquirir o desarrollar estas capacidades analticas y tcnicas ms avanzadas necesarias para el avance de
Big Data se est convirtiendo en un importante reto para muchas empresas con iniciativas de Big Data en curso.
Entre estas organizaciones, la falta de habilidades analticas avanzadas constituye un gran obstculo a la hora
de obtener el mximo valor de Big Data.
Con relacin al nivel de actividades de Big Data existente en las empresas actualmente (2012), los resultados sugieren cuatro fases principales en el proceso de adopcin y evolucin de Big Data, junto con un continuo
que denominado Educar, Explorar, Interactuar y Ejecutar (vase la figura 7).
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
51
Educar: crear una base de conocimiento. En la fase de educacin la atencin se centra en la con
cienciacin y el desarrollo del conocimiento. Casi el 25% de las empresas encuestadas indica que an no utiliza
Big Data dentro de sus empresas. Si bien algunos siguen teniendo relativamente poca informacin acerca del
concepto de Big Data, las personas entrevistadas sugieren que la mayora de las empresas que se encuentran
en esta fase estn estudiando las posibles ventajas de las tecnologas y la analtica de Big Data e intentando
comprender cmo puede ayudarles a abordar importantes oportunidades de negocio en sus propios sectores o
mercados. En el seno de estas empresas son principalmente los empleados los encargados de recabar la informacin, a diferencia de los grupos de trabajo formales, y sus conocimientos an no estn siendo utilizados por
la empresa. Como resultado de ello, los directivos empresariales an no han comprendido totalmente ni abrazado el potencial de Big Data.
Explorar: Definir el caso de negocio y la hoja de ruta. En esta fase la atencin se centra en desarrollar
la hoja de ruta de la empresa para el desarrollo de Big Data. Prcticamente la mitad de las empresas reconoce
que tienen conversaciones formales en curso dentro de sus organizaciones acerca de cmo utilizar Big Data
para abordar importantes retos empresariales. Los principales objetivos de estas empresas incluyen desarrollar
un caso de negocio cuantificable y crear un proyecto de Big Data. La estrategia y la hoja de ruta tienen en
cuenta los datos, la tecnologa y las habilidades existentes y, a continuacin, establecen dnde comenzar y
cmo desarrollar un plan en consonancia con la estrategia de negocio de la empresa.
Interactuar: Adoptar Big Data. En la fase de la interactuacin las empresas comienzan a comprobar
el valor de negocio de Big Data, as como a llevar a cabo una valoracin de sus tecnologas y habilidades. Ms
de una de cada cinco empresas encuestadas est desarrollando en la actualidad POCs para validar los requisitos asociados a la implementacin de iniciativas de Big Data, as como para articular los resultados esperados.
Las empresas que se encuentran en este grupo estn trabajando (dentro de un mbito definido y limitado) para
comprender y probar las tecnologas y habilidades necesarias para aprovechar nuevas fuentes de datos.
Ejecutar: Implementar Big Data a escala. En la fase de ejecucin, el nivel de operatividad e imple
mentacin de las funciones analticas y de Big Data es mayor dentro de la empresa. No obstante, tan solo el
6% de las empresas encuestadas han implementado dos o ms soluciones de Big Data a escala. Este escaso
nmero de organizaciones en la fase de ejecucin resulta coherente con las implementaciones que vemos en
el mercado. Y, lo que es ms importante, estas empresas lderes estn aprovechando Big Data para transformar
sus negocios, por lo que estn obteniendo el mximo valor de sus activos de informacin. Con la tasa de adopcin de Big Data aumentado rpidamente (tal y como demuestra el 22% de los encuestados en la fase de interactuacin, ya sea con POCs o con proyectos piloto en curso), se espera que el porcentaje de empresas en esta
fase se incremente en el futuro.
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
52
Los desafos que obstaculizan la adopcin de Big Data difieren a medida que las empresas avanzan a lo
largo de cada una de las fases de adopcin de Big Data. Sin embargo, los resultados muestran un reto sistemtico, independientemente de la fase, que es la capacidad para articular un caso de negocio convincente. En
cualquiera de las fases, las iniciativas de Big Data se someten a un escrutinio fiscal. El actual entorno econmico global ha dejado a las empresas con un escaso apetito por nuevas inversiones en tecnologa sin beneficios
cuantificables, un requisito que, por supuesto, no es exclusivo de las iniciativas de Big Data. Despus de implementar de forma satisfactoria los POCs, el principal desafo al que se enfrentan las empresas es encontrar las
habilidades necesarias para que Big Data resulte operativo, includas las habilidades tcnicas, analticas y de
gobierno.
El anlisis de datos para establecer nuevos modelos de negocio o definir estrategias comerciales ser una
de las mayores oportunidades para empresas e industrias en los prximos aos, y cada vez ms sectores se
estn dando cuenta. Viajar con Big Data puede convertirse en toda una experiencia a la hora de ofrecer nuevos
servicios o productos, pero esta oportunidad depender de la capacidad de las empresas y los sectores econmicos para adaptarse a uno de los activos ms importantes hoy en da: la gestin de la informacin.
En este momento, existen varias prcticas de utilizacin de Big Data tanto en gigantes de la web como
Google, Facebook o Linkedin como en compaas ms tradicionales. Veamos a continuacin de modo breve
algunos ejemplos de sectores econmicos o empresas donde se empieza a utilizar Big Data, as como los servicios a los se aplica:
Sector Pblico:
Las prcticas de explotacin de Big Data son el ncleo de su negocio desde hace muchos aos por encima
de las aplicaciones transaccionales: Control de la cadena de fabricacin, anlisis del ticket de compra, marketing personalizado y RFID (Identificacin por Radio Frecuencia) en centros comerciales.
Telecomunicaciones:
Control de la red, venta de servicios de localizacin, servicios de publicidad asociados al patrn de llamadas o las aplicaciones descargadas, obtencin de perfiles enriquecidos de consumidor y explotacin de RFID
para segmentar y personalizar ofertas, anlisis de abandono , riesgo y fraude en clientes, satisfaccin y lealtad
de clientes, anlisis de CDR (Call Data Record) o registro de llamadas), etc.
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
53
Utilities:
Interpretacin de contadores inteligentes en todas las casas, control de la red comunicaciones, de tuberas,
red del metro y proyectos de sealizacin de tramos de mantenimiento.
Sector turstico
Uno de los ltimos sectores en subirse al tren del Big Data ha sido el turstico. Segn un informe elaborado
por la compaa Amadeus [9] y el artculo [10], la integracin de la tecnologa de anlisis de datos en este sector supondr todo un revulsivo que podra definir las directrices a seguir para superar los retos futuros del sector turstico. El estudio pone de manifiesto algunas de las prcticas ms novedosas e interesantes, dentro de la
tecnologa Big Data, que se estn llevando a cabo en el sector para establecer estrategias comerciales e impulsar
un sector castigado por la coyuntura econmica actual.
Un buen ejemplo de una compaa de turismo que obtiene ventajas competitivas a partir del uso de Big
Data es British Airways. El objetivo de esta lnea area es entender a sus clientes mejor que cualquier otra
mediante su programa Know me (Conceme), que analiza datos provenientes de decenas de millones de
puntos de contacto para conocer al cliente. La empresa reconoce y recompensa la fidelidad de sus clientes,
monitorea todo tipo de inconvenientes y los resuelve, y brinda a sus clientes ofertas personalizadas.
Otro ejemplo lo tenemos en la central de reservas online Kayak utiliza la tecnologa Big Data para predecir
el precio que tendrn los vuelos en un periodo de tiempo de entre 7 y 10 das, con el fin de ofrecer la mejor
oferta de vuelos a precios competitivos para los usuarios habituales de esta plataforma.
Otro ejemplo del uso de tecnologas Big Data es el caso de aerolneas como Air France-KLM que utiliza
tecnologa de Hadoop como base del sistema de gestin de ingresos de la compaa a nivel corporativo. Las
ventajas de Big Data en la toma de decisiones y en la capacidad para anticiparse a las preferencias y hbitos
de consumo de los clientes son claves para establecer servicios ms diversificados y establecer relaciones ms
estrechas con los consumidores, gracias a la aplicacin de nuevas estrategias en la gestin de clientes, beneficios y operaciones internas. Todo un desafo dentro de un sector tan sensible a los factores externos como el
turstico.
El cualquier caso, el salto del sector de los viajes y el turismo al Big Data deber superar desafos y obstculos coyunturales como la fragmentacin de los datos a travs de mltiples sistemas, las posibles fricciones por
la coexistencia de arquitecturas de gestin de Big Data y arquitecturas tradicionales y la escasa oferta de profesionales especializados con perfil de cientfico de datos para la gestin y anlisis de informacin.
Pero a pesar de estas dificultades iniciales, el marketing de datos ha experimentado un incremento del
227% a lo largo del primer semestre del 2013, segn un estudio realizado por BlueKai. La encuesta realizada
a directivos de marketing y anunciantes de todo el mundo revela que el 91% de los encuestados afirman que
el uso y anlisis de datos ocup un lugar destacado en las estrategias de segmentacin y focalizacin.
Otra de las conclusiones extradas del estudio afirman que el 87% de los expertos confan en la importancia
de los datos recopilados para contacto directo de los clientes, tales como formularios y trfico web, como un
activo importante para las empresas. Los datos ms utilizados en la toma de decisiones de las estrategias de
marketing alcanzan el 83% en referencia al sitio web, seguido de la del CRM y los datos de registro con un
79%, los datos de correo electrnico con un 72%, un 45% para la bsqueda de datos y un 28% en los datos
del sitio o la aplicacin mvil. Entre los servicios que ofrece Big Data en el sector turistico estan la optimizacin
de precios, generacin de ofertas personalizadas y el anlisis de sentimientos.
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
54
Como afirman los expertos de BNY Mellon [11], el crecimiento econmico mundial probablemente sea
ms rpido. A cambio, las implicaciones resultantes para los mercados de capital globales son enormes.
Construccin de infraestructuras, flujos de capital internacionales, el cambio de divisa, la diversificacin de
activos, la seleccin temtica, la innovacin de producto y, quizs lo ms importante, las polticas econmicas
y financieras dependern de los resultados de los nuevos mtodos de Big Data.
Las implicaciones de esta revolucin tambin pueden transformar totalmente la manera actual de interpretar los mercados financieros. Varias de las docenas de interpretaciones de la tasa mensual de empleo en
Estados Unidos son probablemente innecesarias gracias al Big Data, segn la gestora neoyorquina.
Por otra parte, la publicacin de datos macro (PIB, inflacin, PMIs), puede volverse ms certera y menos
sorprendente. Desde BNY Mellon van todava ms lejos: El Big Data reesculpir la industria de gestin de
activos, puesto que se utilizarn nuevos acercamientos a la informacin disponible en bsqueda, anlisis, distribucin, trading y gestin del riesgo. Sus expertos creen que las nuevas herramientas permitirn abandonar
definitivamente los aforismos burstiles y permitirn analizar con todava ms detalle tanto los componentes
fundamentales de las compaas y del crdito como la diferenciacin temtica.
Tambin consideran que un procesamiento ms rpido y eficiente incrementar la dificultad de los gestores
para generar alfa; en un mercado donde los principales condicionantes de la volatilidad sern slo movimientos
irracionales o eventos geopolticos no deseados, creen que se volver cada vez ms comn la gestin pasiva
va indexacin o ETF en detrimento de la diferenciacin temtica.
Entre las aplicaciones de Big Data en el sector financiero se pueden citar los servicios de proteccin de
marca, proteccin ante riesgos y fraude, servicios personalizados a clientes, bsqueda de patrones de uso de
productos financieros, marketing personalizado, creacin de servicios basados en la localizacin, etc.
Vestas Wind Systems, fabricante de aerogeneradores dans[12] utiliza el anlisis de los datos, entre
los que se incluyen la temperatura, las precipitaciones, la velocidad del viento, la humedad y la presin atmosfrica, para determinar la ubicacin ptima de un aerogenerador. Gracias al uso de una solucin de Big Data
en un superordenador, y de una solucin de modelado diseada para aprovechar la informacin de un amplio
conjunto de datos entre los que se incluyen datos estructurados y no estructurados, ahora la empresa puede
ayudar a sus clientes a optimizar la ubicacin del aerogenerador y, como resultado de ello, su rendimiento.
cuenta de que dispona de ms de seis terabytes de informacin sobre productos y clientes almacenada en diferentes sistemas y bases de datos. Al integrar la informacin de toda la empresa, la cadena de tiendas ha visto
cmo sus ingresos aumentaban en aproximadamente un 30% y su rentabilidad anual se incrementaba en 7
millones de dlares. Por ejemplo, la empresa ha evitado prdidas en aproximadamente el 35% de sus productos
ahora que pueden programar reducciones de precio para vender productos perecederos antes de que se estropeen.
Netflix [14] Tras las decisiones de Netflix se esconce un profundo anlisis del comportamiento y los
gustos de sus clientes. Netflix es un servicio para ver pelculas y series en streaming. Lo que tal vez no se sepa
es que la serie House of Cards (en su versin norteamericana) es una produccin de la propia Netflix, en la
que se gast 100 millones de dlares. Semejante cantidad es sin duda una inversin arriesgada. Por qu
Netflix se decidi a producir su propia serie, cuando por menos dinero podra haber comprado los derechos
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
Mercados financieros
55
de otras series de probado xito? Sencillamente porque saba que la serie sera un xito. Y cmo lo saba?
Gracias al Big Data. Netflix analiza cuntos espectadores han visto una serie completa, qu da y a qu hora
ven un episodio, desde qu dispositivos, cundo paran o aceleran la reproduccin, y hasta qu hacen cuando
llegan los ttulos de crdito, para ver si el espectador quiere ver otro episodio cuando termina o cierra la aplicacin. Hay ms datos: Netflix pide a sus clientes que valoren su inters en diferentes gneros o pelculas que
han visto. El algoritmo de recomendacin les sugiere despus ttulos adaptados a sus gustos. Y parece que
acierta bastante, ya que el 75% de lo que ven los usuarios procede de las recomendaciones. El procesamiento
de toda esta informacin fue clave para que Netflix tomara una de las decisiones estratgicas ms importantes
de su historia: compiti con canales como HBO o AMC para hacerse con los derechos para EEUU de la serie
inglesa House of Cards.
Smart Cities. Big Data para las ciudades del siglo XXI. Los das 16 y 17 de abril de 2014 se celebr
la cumbre City & Big Data en Singapur [15]. Esta cumbre en Singapur ha tenido un programa dedicado a
varios de los puntos clave en la discusin sobre los usos de Big Data para las ciudades: el anlisis predictivo,
el manejo de la complejidad, seguridad y redes (cmaras, sensores), administracin del desempeo global de
una ciudad, formas de optimizar la infraestructura existente, las minas de datos de censos, mtodos de visualizacin del espacio urbano y la llamada city cloud: la nube que permite crear ventajas competitivas para
una ciudad.
El desarrollo y uso de Sistemas de Informacin Geogrfica (GIS -Geographic Information System) ha sido
uno de los puntos fuertes mencionados en la sesin de apertura por el experto Peter Quek, a cargo del departamento que dirige las actividades de reestructuracin de desarrollo en Singapur. El objetivo es maximizar las
posibilidades de GIS para disear comunidades vivibles, teniendo en cuenta dos condiciones: Singapur es
uno de los pases ms densamente poblados del mundo y, por ende, la cantidad limitada de tierra obliga a destinar el suelo y uso de recursos con mnimos mrgenes de error.
De acuerdo con su presentacin, el pas est usando tecnologa punta 3D para orientar a las personas que
trabajan en planificacin urbana para hacer simulaciones que permitan apreciar por adelantado los posibles
impactos de las construcciones y hacer estudios ms detallados sobre desarrollos urbansticos propuestos (Ms
informacin en FutureGov Asia). Ejemplos del uso de estos sistemas de grandes datos los ofrecen tambin ciudades como Lyon, en donde la municipalidad se ha asociado con IBM para crear una plataforma que ayuda a
los operadores responsables del trfico a predecir congestiones y actuar para reducirlas (cambiando programacin de tiempos de semforos, por ejemplo).
En Boston, la Oficina de Nuevas Mecnicas Urbanas tiene un programa llamado Adopte un hidrante
(toma de agua) mediante el cual se han localizado ms de 13 mil hidrantes en toda la ciudad y se invita a la
poblacin a que adopte uno o varios para dejarlos al descubierto en caso de nevadas y tormentas. En los
Estados Unidos, Seattle ha iniciado con Microsoft y Accenture un proyecto piloto para reducir el uso de energa elctrica en un 25% mediante un programa que recoge y analiza datos sobre los equipos y funcionamiento
de edificaciones en el centro de la ciudad, con el fin de establecer cules funcionan adecuadamente, cules
no y cmo cambiarlos para un ahorro eficiente. Chicago es una de las ciudades del mundo prominentes en la
creacin y aprovechamiento de conjuntos de datos, con varios proyectos que incluyen grupos de investigacin
de la Universidad de Chicago. En noviembre 2013, como parte de la serie Discoveries de conferencias
UChicago, se llev a cabo una interesante discusin al respecto, moderada por el profesor Charlie Catlett,
director del Centro Urbano de Computacin y Datos (UrbanCCD, de UChicago y el Laboratorio Nacional
Argonne, fundado en 2012). Se mostraron algunos ejemplos de casos en la ciudad, como por ejemplo estudios
sobre las relaciones de llamadas a la lnea 311 que informaban sobre ausencia o vandalismo con los contenedores de basura y aparicin de ratas en distintos sectores de la ciudad. Esto ayud al gobierno local a actuar
rpidamente para prevenir un aumento del problema y cortar la cadena de zonas infestadas de roedores [16].
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
56
McKinsey Global Institute [17] relaciona el aumento del volumen de informacin con la demanda de expertos en extraer valor de los datos y asegura que en 2018 habr un desfase de entre el 50 y 60% entre demanda
de talento analtico para acometer proyectos y la oferta real de profesionales preparados para abordar tal tarea.
Esto quiere decir que sern necesarios alrededor de 490.000 profesionales para disear estrategias Big Data
en Estados Unidos pero que tan slo habr 300.000 para cubrir la demanda (Ver figura 8).
Figura 8. Perfiles demandados: estadsticos, cientficos cuantitativos, analistas, managers con enfoque y experiencia cuantitativa y tcnicos expertos en software y lenguajes de programacin de anlisis de datos (fuente: Oficina de Estadstica de Empleo de Estados
Unidos; Censo de EE.UU.; Dun & Bradstreet; McKinsey Global Institute).
Las capacidades del llamado cientfico de datos se concretaran en un perfil mixto que integre conocimientos tecnolgicos con comprensin del negocio. El CIO (Chief Information Officer) ha acabado por estar vinculado a la parte ms puramente tecnolgica, lo que le convierte ms en un CTO (Chief Technology Officer).
Para entender la naturaleza y magnitud de Big Data se necesitara una figura nueva: el Chief Data Officer
capaz de entender la naturaleza de los datos y organizarlos y explotarlos para obtener un impacto positivo.
8. Recomendaciones
El anlisis realizado por IBM de las conclusiones del estudio Big Data @ Work Study[3] ha proporcionado nuevos conocimientos acerca de cmo las empresas promueven sus iniciativas de Big Data en cada fase.
Impulsadas por la necesidad de superar los retos empresariales, y a la vista de las tecnologas en desarrollo y
de la naturaleza cambiante de los datos, las empresas estn comenzado a estudiar ms de cerca las posibles
ventajas de Big Data. Para obtener ms valor de Big Data se ofrece un amplio abanico de recomendaciones a
las empresas a medida que avanzan en la implementacin de Big Data.
Centrarse en el cliente
Es fundamental que las empresas centren sus iniciativas de Big Data en mbitos que puedan proporcionar
el mximo valor para el negocio. Para muchos sectores, esto significar comenzar con una analtica de clientes
que permita prestar un mejor servicio a los mismos como resultado de comprender verdaderamente sus necesidades y ser capaces de anticiparse a sus comportamientos futuros.
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
57
Comenzar con los datos existentes para lograr resultados a corto plazo
Un proyecto abarca la visin, la estrategia y los requisitos de Big Data dentro de una empresa y resulta fundamental para armonizar las necesidades de los usuarios de negocio con la hoja de ruta de la implementacin
de TI. Crea una comprensin comn de cmo la empresa pretende utilizar Big Data para mejorar sus objetivos
de negocio. Un proyecto efectivo define el alcance de Big Data dentro de la empresa al identificar los retos
empresariales clave a los que se aplicar, los requisitos de proceso de negocio que definen cmo se utilizarn
esos datos masivos y la arquitectura que incluye los datos, las herramientas y el hardware necesarios para
lograrlo.
Para poder lograr resultados a corto plazo, al mismo tiempo que se crea el impulso y la experiencia para
respaldar el programa de Big Data, resulta fundamental que las empresas adopten un enfoque pragmtico. El
lugar ms lgico y rentable para comenzar a buscar estos nuevos conocimientos es dentro de la empresa. La
mayor parte de las organizaciones desean hacer esto para aprovechar la informacin almacenada en repositorios existentes, a la vez que amplan su(s) data warehouse(s) para poder gestionar volmenes y variedades de
datos ms grandes.
Las empresas tendrn que invertir en adquirir tanto herramientas como habilidades. Como parte de este
proceso se espera que surjan nuevos roles y modelos de trayectorias profesionales para individuos con el equilibrio necesario de habilidades analticas, funcionales y de TI. Centrar la atencin en el desarrollo profesional
y el avance de la trayectoria de los analistas internos, que ya estn familiarizados con los retos y procesos de
negocio nicos de la empresa, debera ser una prioridad para los directivos empresariales. Al mismo tiempo las
universidades y los propios individuos, independientemente de su formacin o especialidad, tienen la obligacin de desarrollar slidas habilidades analticas.
Desarrollar una estrategia de Big Data exhaustiva y viable, as como la posterior hoja de ruta requiere un
caso de negocio slido y cuantificable. Por lo tanto, es importante contar con la implicacin y el respaldo de
uno o ms directivos empresariales a lo largo de todo el proceso. Igual de importante para lograr el xito a largo
plazo es una colaboracin empresarial y de TI continua y slida. Muchas empresas basan sus casos de negocio
en las siguientes ventajas que se pueden derivar de Big Data:
la toma de decisiones.
Decisiones ms rpidas: Permitir una captura y anlisis de datos en tiempo ms real para
respaldar la toma de decisiones en el punto de impacto, por ejemplo cuando un cliente est navegando por su sitio web o al telfono con un representante del servicio de atencin al cliente.
Decisiones que marquen la diferencia: Centrar las iniciativas de Big Data en mbitos que
Presentamos las predicciones para Big Data en 2014 que realiza la editora del portal siliconangle.com, entre
las que se encuentran (a) que el Big Data estar moldeado por la demanda de los usuarios para el data blending, (b) que el Big Data necesita convivir bien con otros, (c) que no se puede estar preparado para el hoy con
herramientas de ayer; y (d) una rpida innovacin por la comunidad de Big Data open source [18].
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
58
La curva de potencia Big Data en 2014 estar determinada por la demanda de los usuarios de negocios
para la mezcla de datos. Clientes como Andrew Robbins de Paytronix y Andrea Dommers-Nilgen de
TravelTainment, quien recientemente habl de sus proyectos en Pentaho en eventos en Nueva York y Londres,
ambos provienen de la parte empresarial y estn logrando las metas especficas para sus empresas mediante la
mezcla de los grandes datos y datos relacionales. Se est aprovechando tambin los datos mezclados (blended)
para obtener nuevos conocimientos con una vision del cliente, incluyendo la capacidad para analizar los patrones de comportamiento de los clientes y predecir la probabilidad de que estos puedan disfrutar de ofertas especficas.
Prediccin 2:
Big Data tiene que jugar bien con los dems. Histricamente, los proyectos de grandes volmenes de datos
se han sentado en gran medida en los departamentos de TI debido a las habilidades tcnicas necesarias. Los
clientes debern elegir entre las diversas tecnologas comerciales y de cdigo abierto, incluyendo las distribuciones de Hadoop, bases de datos NoSQL, bases de datos de alta velocidad, plataformas de anlisis, y muchas
otras herramientas y plug-ins. Pero tambin deben tener en cuenta la infraestructura existente, incluidos los
datos relacionales y los almacenes de datos.
El lado positivo de esta eleccin y de la diversidad es que, despus de dcadas de tirana y lock-in impuesta por los proveedores de software de empresa, en adelante se desplazar an mayor poder adquisitivo a los
clientes. Tambin significa que las TI estarn buscando herramientas Big Data para ayudar a implementar y
administrar estas complejas arquitecturas. Incumbir a los proveedores de tecnologa Big Data la tarea de jugar
bien con los dems y trabajar en pro de la compatibilidad. Despus de todo, se trata de la capacidad de acceder
y gestionar la informacin de mltiples fuentes que agreguen valor a la analtica Big Data.
Prediccin 3:
Se ver una innovacin an ms rpida de la comunidad de cdigo abierto de Big Data. Nuevos proyectos
de cdigo abierto tales como como Hadoop 2.0 y YARN, harn la infraestructura Hadoop ms interactiva.
Nuevos proyectos de cdigo abierto como STORM (protocolo de comunicaciones) funcionarn ms en tiempo
real, trabajarn bajo demanda sus anlisis de la informacin en el ecosistema Big Data.
Desde que se anunci el primer conector nativo Hadoop en 2010, se ha estado trabajando con la misin
de hacer la transicin hacia arquitecturas Big Data ms fcil y con menos riesgo, en el contexto de este ecosistema en expansin. En 2013, se han hecho algunos avances enormes en esta direccin. Esto permite a los
departamentos de TI sentirse ms inteligentes, ms seguros y con ms confianza en sus arquitecturas y abrir
soluciones Big Data para los que se dedican a este negocio.
Prediccin 4:
No se puede preparar el maana con herramientas de ayer. Se sigue perfeccionando plataforma (Pentaho)
para apoyar el futuro de la analtica. Se va a lanzar una nueva funcionalidad, mejoras y plug-ins para que sea
an ms fcil y ms rpido mover, mezclar y analizar fuentes relacionales y Big Data. Se esta planeando mejorar
las capacidades de la capa adaptativa de datos y que sea ms seguro y fcil para los clientes gestionar el flujo
de datos. Por lo que respecta al anlisis, se esta trabajando para simplificar la bsqueda de datos sobre la marcha, de todos los usuarios, y hacer que sea ms fcil encontrar patrones y anomalas en la captura. En Pentaho
Labs [19], van a seguir trabajando con los primeros usuarios para cocinar nuevas tecnologas que aporten cosas
tales como datos predictivos de la mquina y anlisis en tiempo real de la produccin
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com
Prediccin 1:
59
Dado el condicionante sobre la extensin del presente documento, su contenido es necesariamente incompleto ya que no nos ha sido posible profundizar ms en los temas descritos anteriormente, as como incluir otros
ngulos de visin. El tema Big Data est generando una enorme cantidad de literatura, que como decimos no
nos es posible abarcar.
Hay, sin embargo, un tema al que deberamos dirigir nuestra mirada: se trata del estado actual de las diversas plataformas de software / hardware existentes o en proceso de desarrollo, que son las que harn posible
capturar, limpiar, analizar y generar nuevos conocimientos de los grandes conjuntos de datos que se almacenan
constantemente en sus diversas fuentes Big Data. Entre ellas podemos citar Pentaho, Talend Open Studio, Intel
Data Platform, SAS the power to know, Soluciones de Big Data de IBM basadas en POWER8, etc. Casis todas
ellas se basan en la infraestructura de software Hadoop de Apache. De momento, dada la extensin del presente documento no nos es posible adentrarnos en dicho campo, que se deja para un futuro
Cmo citar este artculo / How to cite this paper
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems
and Software Engineering for Big Companies (IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el
[dd/mm/aaaa] en www.ijisebc.com
Referencias
[1] Oracle, BIG DATA y su impacto en el negocio, Una aproximacin al valor que el anlisis extremo de datos aporta a las organizaciones,
Mayo 2012.
[2] Big Data: The next frontier for innovation, competition, and productivity, verlo en la direccin web http://goo.gl/ltgbb4 .
[3] Analytics: el uso de Big Data en el mundo real; Cmo las empresas ms innovadoras extraen valor de datos inciertos, IBM Institute
for Business Value, Said Business School (University of Oxford Autores: Michael Schroeck, Rebecca Shockley, Dra. Janet Smart, Dolores
Romero-Morales y Peter Tufano, 2012. Ver la direccin web http://goo.gl/Q7LHH5.
[4] Ver pgina web de Datacenter Dinamics en http://goo.gl/8XtlVa .
[5] Qu es Big Data? Vase http://goo.gl/QZZ4iv .
[6] Ver el informe de Cisco en http://goo.gl/jSozfq.
[7] Understanding Big Data, Analytics for Enterprise Class Hadoop and Streaming Data, Paul Zikopoulos, Chris Eaton, Tom Deutsch,
Dirk Deroos and George Lapis, Mc Graw Hill, New York, ISBN 978-0-07-179053, 2012.
[8] Encuestas globales de CEOs http://goo.gl/eGI5MZ.
[9] Vase la pgina de Amadeus en http://goo.gl/MgnIna .
[10] La experiencia de viajar se transformar con Big Data en Blog Think Big, Vease la pgina
http://blogthinkbig.com/viajar-con-big-data/
[11] Cmo revolucionar el Big Data la gestin de activos, en Funds People, ver pgina http://goo.gl/ykPDsA .
[12] Vase la pgina de Vestas Systems en http://www.vestas.com/
[13] Vase la pgina de Automercados Plazas en https://www.elplazas.com/
[14] El Big Data est detrs del xito de Netflix, en Baquia. Vase la pgina en http://goo.gl/vtBlCB
[15] Big Data para las ciudades del siglo XXI, Lina Mara Aguirre, 29/04/2014, en http://blogs.lavanguardia.com/tecladomovil/?p=1799
[16] Para ms informacin sobre el programa de UChicago ver Chicago: City of Big Data en http://goo.gl/Pwoj2u.
[17] Big Data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute. Vase en la pgina
http://goo.gl/Ua3D5Z.
[18] 2014 Technology Predictions Series: Pentaho on Big Data by Suzanne Kattau. Vase en la pgina http://goo.gl/lsRmWh
[19] La pgina de puede consultarse en http://www.pentaho.com/labs
Paredes-Moreno, A. (2015). Big Data: Estado de la cuestin. International Journal of Information Systems and Software Engineering for Big Companies
(IJISEBC), Vol. 2, Num. 1, pp. 38-59. Consultado el [dd/mm/aaaa] en www.ijisebc.com
www.ijisebc.com