Procesos Etl

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 16

Qu es ETL?

Los procesos de Extraccin, Transformacin y


Carga constan de mltiples pasos, cuyo
objetivo es transferir datos desde las
aplicaciones de produccin a los sistemas de
Inteligencia de negocio.

ETL - este trmino viene de ingles de las siglas ExtractTransform-Load que significan Extraer, Transformar y
Cargar y se refiere a los datos en una empresa. ETL es el
proceso que organiza el flujo de los datos entre diferentes
sistemas en una organizacin y aporta los mtodos y
herramientas necesarias para mover datos desde
mltiples fuentes a un almacn de datos, reformatearlos,
limpiarlos y cargarlos en otra base de datos, data mart
bodega de datos. ETL forma parte de la Inteligencia
Empresarial, tambin llamado Gestin de los Datos.
La idea es que una aplicacin ETL lea los datos primarios
de unas bases de datos de sistemas principales, realice
transformacin, validacin, el proceso cualitativo, filtracin
y al final escriba datos en el almacn y en este momento

Extraer

Esta es la primera parte del proceso ETL y consiste en


extraer los datos desde los sistemas de origen. La
mayora de los proyectos de almacenamiento de datos
fusionan datos provenientes de diferentes sistemas de
origen.
La extraccin convierte los datos a un formato preparado
para iniciar el proceso de transformacin.
Una parte intrnseca del proceso de extraccin es la de
analizar los datos extrados, de lo que resulta un chequeo
que verifica si los datos cumplen la pauta o estructura que
se esperaba. De no ser as los datos son rechazados.

Transformar

La fase de transformacin aplica una serie de reglas de


negocio o funciones sobre los datos extrados para
convertirlos en datos que sern cargados. Algunas
fuentes de datos requerirn alguna pequea
manipulacin de los datos. No obstante en otros casos
pueden ser necesarias aplicar algunas de las siguientes
transformaciones

Seleccionar slo ciertas columnas para su carga (por ejemplo, que


las columnas con valores nulos no se carguen).
Traducir cdigos (por ejemplo, si la fuente almacena una "H" para
Hombre y "M" para Mujer pero el destino tiene que guardar "1" para
Hombre y "2" para Mujer).
Codificar valores libres (por ejemplo, convertir "Hombre" en "H" o
"Sr" en "1").
Obtener nuevos valores calculados (por ejemplo, total_venta =
cantidad * precio).
Unir datos de mltiples fuentes (por ejemplo, bsquedas,
combinaciones, etc.).
Calcular totales de mltiples filas de datos (por ejemplo, ventas

Generacin de campos clave en el destino.


Transponer o pivotar (girando mltiples columnas en filas o
viceversa).
Dividir una columna en varias (por ejemplo, columna "Nombre:
Garca, Miguel"; pasar a dos columnas "Nombre: Miguel" y
"Apellido: Garca").
La aplicacin de cualquier forma, simple o compleja, de validacin
de datos, y la consiguiente aplicacin de la accin que en cada
caso se requiera.

Cargar

La fase de carga es el momento en el cual los


datos de la fase anterior (transformacin) son
cargados en el sistema de destino. Dependiendo
de los requerimientos de la organizacin, este
proceso puede abarcar una amplia variedad de
acciones diferentes. En algunas bases de datos se
sobrescribe la informacin antigua con nuevos
datos. Los data warehouse mantienen un historial
de los registros de manera que se pueda hacer una
auditora de los mismos y disponer de un rastro de
toda la historia de un valor a lo largo del tiempo.
Existen dos formas bsicas de desarrollar el
proceso de carga:

Acumulacin simple: La acumulacin simple es la ms sencilla y


comn, y consiste en realizar un resumen de todas las
transacciones comprendidas en el perodo de tiempo
seleccionado y transportar el resultado como una nica
transaccin hacia el data warehouse, almacenando un valor
calculado que consistir tpicamente en un sumatorio o un
promedio de la magnitud considerada.
Rolling: El proceso de Rolling por su parte, se aplica en los casos
en que se opta por mantener varios niveles de granularidad. Para
ello se almacena informacin resumida a distintos niveles,
correspondientes a distintas agrupaciones de la unidad de tiempo
o diferentes niveles jerrquicos en alguna o varias de las
dimensiones de la magnitud almacenada (por ejemplo, totales
diarios, totales semanales, totales mensuales, etc.).

La fase de carga interacta directamente con la base


de datos de destino. Al realizar esta operacin se
aplicarn todas las restricciones y triggers
(disparadores) que se hayan definido en sta (por
ejemplo, valores nicos, integridad referencial, campos
obligatorios, rangos de valores). Estas restricciones y
triggers (si estn bien definidos) contribuyen a que se
garantice la calidad de los datos en el proceso ETL, y
deben ser tenidos en cuenta.

Procesamiento
paralelo

Un desarrollo reciente en el software ETL es la


aplicacin de procesamiento paralelo. Esto ha
permitido desarrollar una serie de mtodos para
mejorar el rendimiento general de los procesos ETL
cuando se trata de grandes volmenes de datos. Hay 3
tipos principales de paralelismos que se pueden
implementar en las aplicaciones ETL; Estos tres tipos
de paralelismo no son excluyentes, sino que pueden
ser combinados para realizar una misma operacin
ETL.

De datos: Consiste en dividir un nico archivo secuencial


en pequeos archivos de datos para proporcionar acceso
paralelo.
De segmentacin (pipeline): Permitir el funcionamiento
simultneo de varios componentes en el mismo flujo de
datos. Un ejemplo de ello sera buscar un valor en el
registro nmero 1 a la vez que se suman dos campos en el
registro nmero 2.
De componente: Consiste en el funcionamiento simultneo
de mltiples procesos en diferentes flujos de datos,
pertenecientes todos ellos a un nico flujo de trabajo. Esto
es posible cuando existen porciones dentro de un flujo de
trabajo que son totalmente independientes entre ellas a

También podría gustarte