Investigacion

EXTRACCIÓN DEL CONOCIMIENTO
DE BASE DE DATOS
INGENIERÍA EN DESARROLLO Y GESTIÓN DE SOFTWARE
PROYECTO: “SISTEMA DE RESERVACIÓN EN UN HOTEL”
DOCENTE:
ADÁN JAIMES JAIMES
NOVENO CUATRIMESTRE
ESTUDIANTE: JUNIO
BRYAN RAMOS SALVADOR 2024
INTRODUCCIÓN
Identificar la procedencia de los datos es fundamental para comprender su origen y

contexto. Los datos biométricos provienen de características físicas o
comportamientos biológicos únicos, como huellas dactilares, iris o voz, siendo
utilizados en sistemas de identificación y seguridad. La información generada por
máquinas a máquinas (M2M) proviene de dispositivos conectados, como sensores
o dispositivos IoT, brindando datos automatizados sobre el entorno o el rendimiento
de maquinaria industrial. Los datos de transacciones son registros de actividades
comerciales o financieras, tales como compras, ventas o movimientos bancarios,
esenciales para el análisis financiero y de negocio. Por otro lado, los datos
generados por humanos son aquellos creados o ingresados por personas, como
registros médicos, encuestas o interacciones en redes sociales, reflejando
opiniones, preferencias o comportamientos individuales.
Los datos web se obtienen de páginas en línea, proporcionando información sobre

el comportamiento de los usuarios, clics en anuncios o formularios completados,
cruciales para el análisis del tráfico web y la optimización de la experiencia del
usuario. Los medios sociales generan una amplia gama de datos, desde
publicaciones hasta comentarios y perfiles de usuarios, siendo valiosos para
entender tendencias, opiniones y engagement en plataformas digitales.
En cuanto a los tipos de datos en análisis, existen los cuantitativos y cualitativos.

Los cuantitativos son datos numéricos, como ingresos, edades o cantidades,
mientras que los cualitativos son descriptivos, como categorías, opiniones o estados
emocionales. Dentro de los datos cuantitativos, se encuentran los continuos, que
pueden tomar un número infinito de valores, como la altura de una persona, y los
discretos, que toman valores específicos, como el número de hijos. Los datos
escalares son aquellos que se miden en una escala, como temperaturas o puntajes.
En el análisis de datos, también se consideran los tipos de fuentes de datos
disponibles. Las fuentes estructuradas son aquellas con un formato organizado y
predefinido, como las bases de datos relacionales, que almacenan información en
tablas con relaciones establecidas. Las fuentes no estructuradas carecen de un
formato específico, como los archivos de texto o las imágenes, siendo más
complejas de analizar directamente. Por último, las fuentes semiestructuradas
tienen una estructura flexible, como los documentos XML o JSON, que contienen
información organizada pero no en tablas tradicionales.
En el contexto de un data warehouse, se destacan varias características

importantes. La centralización permite tener un único punto de acceso para todos
los datos de la organización, facilitando la gestión y el análisis integrado. La
integración de datos de múltiples fuentes garantiza que la información sea completa
y consistente, evitando duplicidades o inconsistencias. La consolidación de datos
en un almacén central optimiza la consulta y el análisis, al tener una visión unificada
de la información.
La historización en un data warehouse implica mantener un registro histórico de los

datos, permitiendo analizar tendencias y patrones a lo largo del tiempo. La
seguridad es fundamental para proteger la integridad y confidencialidad de los datos
almacenados, implementando medidas como el control de acceso y la encriptación.
Finalmente, el acceso eficiente a los datos se logra mediante herramientas y
técnicas que permiten consultar y analizar grandes volúmenes de información de
manera rápida y efectiva.
El proceso ETL (Extracción, Transformación y Carga) es esencial en la gestión de

datos. La extracción implica obtener datos de diversas fuentes, como bases de
datos, archivos o servicios web. La transformación consiste en limpiar, validar,
integrar y preparar los datos para su análisis, aplicando operaciones como limpieza
de datos, conversión de formatos o cálculos. La carga implica insertar los datos
transformados en el data warehouse, asegurando su disponibilidad para su
posterior análisis y generación de informes.
PROCEDENCIA DE LOS DATOS
a) BIOMÉTRICOS
Los sistemas biométricos en bases de datos se refieren a la aplicación de
tecnologías que utilizan características físicas o comportamentales únicas de un
individuo, como huellas dactilares, iris, voz, rostro, entre otros, para identificar de
manera única a los usuarios y controlar el acceso a los datos.
La función principal de los sistemas biométricos en bases de datos es garantizar la
autenticación y autorización de usuarios, asegurando que solo personas
autorizadas puedan acceder a la información almacenada en la base de datos.
Algunas características clave de los sistemas biométricos en bases de datos
incluyen la precisión en la identificación de usuarios, la capacidad de evitar el uso
de contraseñas o tarjetas de acceso, y la posibilidad de integrarse con otros
sistemas de seguridad.
Ventajas:
• Seguridad mejorada: Al utilizar rasgos únicos de cada individuo, se reduce el
riesgo de accesos no autorizados
• Eliminación de contraseñas: No es necesario recordar contraseñas, lo que
disminuye el riesgo de robo o pérdida de credenciales.
• Mayor comodidad: Los usuarios no tienen que llevar consigo tarjetas de
acceso ni recordar contraseñas.
• Auditoría y trazabilidad: Se puede llevar un registro detallado de las acciones
realizadas por cada usuario.
Desventajas:
• Costo: La implementación de sistemas biométricos puede ser costosa, tanto

en términos de hardware como de software.
• Privacidad: Almacenar información biométrica plantea preocupaciones sobre
la privacidad y la protección de datos personales.
• Fallos de reconocimiento: Existe la posibilidad de fallos en el reconocimiento
biométrico, especialmente en condiciones adversas como cambios en la
iluminación o alteraciones en los rasgos biométricos.
b) MÁQUINA A MÁQUINA
La comunicación de máquina a máquina (M2M) es un término que describe la
comunicación automática entre dispositivos, máquinas o sistemas informáticos sin
intervención humana directa.
Su función principal es permitir que los dispositivos intercambien datos de manera
automática y eficiente, lo que puede incluir la recolección, procesamiento y
transmisión de información relevante para su operación.
Características:
• Automatización: Los procesos de intercambio de datos son automáticos y

programados.
• Eficiencia: Permite una comunicación rápida y eficiente entre dispositivos,
reduciendo la necesidad de intervención humana.
• Escalabilidad: Puede gestionar grandes volúmenes de datos y conectarse
con múltiples dispositivos.
• Seguridad: Debe contar con medidas de seguridad robustas para proteger la
integridad y confidencialidad de los datos transmitidos.
Ventajas:
• Eficiencia operativa: Permite la automatización de procesos y la optimización

de recursos.
• Mejora la toma de decisiones: Proporciona datos en tiempo real para la toma
de decisiones más informada.
• Reducción de errores: Al minimizar la intervención humana, se reducen los
errores asociados.
• Integración: Facilita la integración de sistemas y dispositivos diversos.
Desventajas:
• Complejidad: Puede requerir una infraestructura compleja y costosa para

implementar y mantener.
• Seguridad: La seguridad de los datos en la comunicación M2M es crucial y
puede ser vulnerable si no se implementan medidas adecuadas.
• Interoperabilidad: Puede haber desafíos en la interoperabilidad entre
diferentes sistemas y dispositivos.
• Dependencia tecnológica: Una falla en la comunicación M2M puede afectar
la operación de múltiples dispositivos interconectados.
c) DATOS DE TRANSACCIONES
Los datos de transacciones son registros de actividades específicas que ocurren en
un sistema informático, como transacciones financieras, compras en línea, registros
de cambios en bases de datos, etc.
La principal función de los datos de transacciones es registrar y mantener un
historial preciso de todas las operaciones realizadas en un sistema. Esto es
fundamental para garantizar la integridad de los datos y permitir la recuperación de
información en caso de errores o fallos del sistema.
Características:
• Temporalidad: Los datos de transacciones suelen estar asociados con

marcas de tiempo para indicar cuándo ocurrió cada operación.
• Granularidad: Son registros detallados que incluyen información específica
sobre cada transacción o acción realizada.
• Volatilidad: Pueden cambiar con frecuencia a medida que se realizan nuevas
operaciones y se actualizan los registros.
• Persistencia: Aunque pueden cambiar con el tiempo, los datos de
transacciones suelen conservarse en la base de datos durante períodos
prolongados.
Ventajas:
• Auditoría y seguimiento: Permiten rastrear quién realizó qué acción en el

sistema, lo que es crucial para auditorías y cumplimiento normativo.
• Integridad de datos: Ayudan a mantener la integridad de los datos al registrar
todas las operaciones y cambios realizados.
• Recuperación y resiliencia: Facilitan la recuperación de datos en caso de
errores, fallos del sistema o situaciones de recuperación ante desastres.
• Análisis y toma de decisiones: Son útiles para analizar patrones de uso,
comportamiento de los usuarios y tomar decisiones basadas en datos.
Desventajas:
• Volumen de datos: Pueden generar grandes volúmenes de datos,

especialmente en sistemas con muchas operaciones.
• Rendimiento: El registro detallado de cada transacción puede afectar el
rendimiento de la base de datos, especialmente si no se gestionan
correctamente los índices y la optimización.
• Privacidad y seguridad: Al contener información detallada sobre las acciones
de los usuarios, los datos de transacciones deben protegerse
adecuadamente para garantizar la privacidad y seguridad de los datos
sensibles.
• Complejidad de gestión: Requieren una gestión cuidadosa para asegurar su
integridad, disponibilidad y cumplimiento normativo.
d) GENERADOS POR LOS HUMANOS

La generación de datos por humanos en una base de datos se refiere al proceso
mediante el cual las personas ingresan, crean o modifican la información
almacenada en la base de datos. Esto puede incluir la introducción manual de datos,
la actualización de registros existentes, la corrección de errores y la inserción de
nueva información.
Funciones:
• Ingreso de Datos Precisos: Los humanos pueden proporcionar información

detallada y precisa que a menudo es difícil de obtener automáticamente.
• Actualización de Registros: Permite mantener la base de datos actualizada
con la información más reciente.
• Corrección de Errores: Los humanos pueden identificar y corregir errores en
los datos, mejorando la calidad de la información almacenada.
• Inserción de Nueva Información: Permite agregar nuevos datos que no
pueden generarse automáticamente.
Características:
• Flexibilidad: Los humanos pueden adaptarse a cambios en los requisitos de

ingreso de datos y capturar información variada y compleja.
• Contexto: Pueden proporcionar contexto y detalles que son importantes pero
difíciles de capturar automáticamente.
• Variedad de Datos: Permiten la inclusión de datos cualitativos, opiniones y
otros tipos de información subjetiva que no se pueden generar
automáticamente.
Ventajas:
• Precisión: Los humanos pueden garantizar la precisión de los datos

ingresados, especialmente en casos donde la información es compleja o
ambigua.
• Adaptabilidad: Pueden adaptarse a cambios en los requisitos de ingreso de
datos de manera más rápida que los sistemas automatizados.
• Contextualización: Proporcionan contexto y detalles que son importantes
para comprender completamente los datos.
• Variedad de Información: Permiten la inclusión de información subjetiva y
cualitativa que enriquece la base de datos.
Desventajas:
• Costo y Tiempo: El ingreso manual de datos puede ser costoso y consumir

mucho tiempo en comparación con los métodos automatizados.
• Posible Error Humano: Existe el riesgo de errores humanos durante el
ingreso de datos, especialmente en grandes volúmenes.
• Escalabilidad Limitada: El proceso manual puede tener dificultades para
escalar eficientemente a medida que aumenta la cantidad de datos.
• Dependencia de la Persona: Si una persona clave deja de ingresar datos,
puede afectar la continuidad y consistencia de la base de datos.
e) WEB
Se refiere a la técnica de extraer información de páginas web y almacenarla en una
base de datos. Este proceso puede realizarse de manera automatizada utilizando
herramientas especializadas que acceden a las páginas, extraen la información
relevante y la organizan en una estructura que pueda ser almacenada y consultada
posteriormente.
La función principal de la WEB en una base de datos es obtener datos de fuentes
externas, como sitios web, para enriquecer la información disponible en la base de
datos. Esto puede incluir datos como precios de productos, noticias, información de
redes sociales, entre otros.
Características:
• Extracción automatizada: La WEB en bases de datos permite la

automatización de la extracción de datos de múltiples fuentes web de manera
eficiente.
• Estructuración de datos: Los datos extraídos se estructuran de manera que
sean almacenables y procesables dentro de la base de datos.
• Actualización periódica: Puede configurarse para actualizar los datos
extraídos periódicamente, manteniendo la información actualizada en la base
de datos.
• Diversidad de fuentes: Puede extraer datos de una amplia variedad de
fuentes web, dependiendo de las necesidades del usuario.
Ventajas:
• Actualización automática: Los datos extraídos se pueden actualizar

automáticamente, lo que garantiza que la información en la base de datos
esté siempre actualizada.
• Amplia gama de datos: Permite acceder a una gran cantidad de datos
disponibles en la web, lo que enriquece la base de datos con información
relevante y actualizada.
• Automatización: Reduce el esfuerzo manual necesario para recopilar y
actualizar datos, lo que ahorra tiempo y recursos.
Desventajas:
• Dependencia de la estructura web: Si la estructura de las páginas web de las

que se extraen los datos cambia, puede ser necesario ajustar el proceso de
extracción.
• Problemas legales: En algunos casos, la extracción de datos de ciertos sitios
web puede estar prohibida por cuestiones legales o términos de servicio.
• Fiabilidad de los datos: La calidad y fiabilidad de los datos extraídos pueden
variar dependiendo de la fuente web y la precisión del proceso de extracción.
f) MEDIOS SOCIALES
Los medios sociales son plataformas en línea donde los usuarios pueden crear
perfiles, compartir información, interactuar con otros usuarios y generar contenido
en forma de texto, imágenes, videos, etc. En el contexto de bases de datos, los
medios sociales se refieren a la información generada y almacenada en estas
plataformas.
La función principal de los medios sociales en bases de datos es proporcionar un
medio para que los usuarios compartan información, se conecten con otros
usuarios, expresen sus opiniones y participen en conversaciones. Esto crea una
gran cantidad de datos que pueden ser analizados para obtener insights sobre el
comportamiento de los usuarios, tendencias, preferencias, etc.
Características:
• Interactividad: Los usuarios pueden interactuar entre sí y con el contenido.

• Generación de Contenido: Los usuarios pueden crear y compartir contenido
en diversas formas.
• Compartir: Facilitan el intercambio de información en tiempo real.
• Seguimiento: Permiten seguir a otros usuarios y recibir actualizaciones.
• Análisis de Datos: Proporcionan datos sobre el comportamiento de los
usuarios para análisis y toma de decisiones.
Ventajas:
• Conectividad: Facilitan la conexión y comunicación entre personas y

organizaciones.
• Visibilidad: Permiten una mayor visibilidad de productos, servicios o ideas.
• Interacción: Fomentan la interacción directa con los usuarios para obtener
feedback.
• Análisis: Proporcionan datos valiosos para análisis de mercado y tendencias.
• Marketing: Son eficaces para estrategias de marketing y promoción.
Desventajas:
• Privacidad: Pueden plantear preocupaciones sobre la privacidad de los datos

de los usuarios.
• Contenido no deseado: Existe la posibilidad de recibir spam o contenido
inapropiado.
• Gestión de la reputación: Las críticas negativas pueden afectar la reputación
de una marca.
• Saturación de información: La gran cantidad de datos puede dificultar el
análisis efectivo.
• Dependencia: Algunas empresas pueden volverse demasiado dependientes
de los medios sociales para su imagen y marketing.
TIPOS DE DATOS EN ANÁLISIS DE DATOS
a) CUANTITATIVOS Y CUALITATIVOS
a. Cuantitativos
Los datos cuantitativos son aquellos que se pueden medir y expresar
numéricamente. Representan cantidades, medidas o atributos que pueden ser
cuantificados.
Estos datos son utilizados para realizar análisis estadísticos, modelado matemático,
cálculos numéricos y análisis predictivo.
Características:
• Son numéricos y se pueden contar o medir.

• Se pueden ordenar y comparar matemáticamente.
• Son objetivos y reproducibles.
• Permiten realizar análisis estadísticos como promedios, desviaciones
estándar, correlaciones, etc.
Ventajas:
• Facilitan el análisis matemático y estadístico.

• Permiten realizar comparaciones cuantitativas precisas.
• Son útiles para modelar y predecir fenómenos basados en datos
numéricos.
Desventajas:
• No capturan información cualitativa o subjetiva.

• Pueden perder detalle en la interpretación de datos complejos o
contextuales.
b. Cualitativos
Los datos cualitativos son descriptivos y representan cualidades, características o
atributos que no se pueden cuantificar numéricamente. Se centran en las
percepciones, opiniones y experiencias.
Estos datos se utilizan para comprender fenómenos complejos, explorar
significados, identificar patrones cualitativos y obtener información subjetiva.
Características:
• Describen cualidades y características.
• No se pueden medir directamente con números.
• Capturan información subjetiva y contextual.
• Son útiles para comprender el contexto y las experiencias de las
personas.
Ventajas:
• Proporcionan insights profundos sobre el comportamiento humano,
percepciones y opiniones.
• Son útiles para explorar temas complejos y contextuales.
• Permiten una comprensión holística de los datos.
Desventajas:
• Son más difíciles de cuantificar y analizar de manera numérica.
• La interpretación puede ser subjetiva y variar según el analista.
• No permiten comparaciones cuantitativas directas como los datos
cuantitativos.
b) CONTINUOS,DICRETAS Y ESCALARES
En el análisis de datos y en el contexto de bases de datos, los términos "continuos",

"discretos" y "escalares" se refieren a diferentes tipos de datos que se pueden
manejar. Aquí tienes una explicación de cada uno:
a. Datos Continuos
Son datos que pueden tomar cualquier valor dentro de un rango. No tienen límites
claros y pueden ser fraccionarios.
Son útiles para representar medidas que pueden variar de manera continua, como
la temperatura, la altura, el peso, etc.
Características:
• No tienen límites definidos.

• Pueden ser fraccionarios.
• Pueden tener una cantidad infinita de valores posibles dentro de un rango.
Ventajas:
• Mayor precisión al representar mediciones precisas.

• Flexibilidad para trabajar con valores en rangos amplios.
Desventajas:
• Requieren más espacio de almacenamiento debido a su precisión.

• Pueden ser más complejos de manipular en algunas operaciones.
b. Datos Discretos
Son datos que solo pueden tomar valores específicos dentro de un conjunto finito o
numerable. Tienen límites claros y son contables.
Son útiles para representar cantidades que se pueden contar, como el número de
personas, el número de productos en inventario, etc.
Características:
• Tienen valores definidos y separados.

• Son contables y finitos dentro de un rango.
• No pueden tomar valores fraccionarios.
Ventajas:
• Fácil de entender y trabajar con valores discretos.

• Requieren menos espacio de almacenamiento que los datos continuos.
Desventajas:
• Pueden perder precisión al representar medidas muy exactas.

• Limitados en su representación de valores intermedios.
c. Datos Escalares
Son datos que representan una magnitud única, como un número, sin dirección ni
orientación.
Son útiles para representar cantidades simples que no tienen componentes

vectoriales o direcciones asociadas, como la edad, el peso, la temperatura, etc.
Características:
• Representan magnitudes sin dirección.

• Se expresan mediante un único valor numérico.
Ventajas:
• Fácil de manipular y realizar cálculos matemáticos.

• Se pueden utilizar en diversos tipos de operaciones numéricas.
Desventajas:
• No representan información direccional o vectorial.

• Limitados en su capacidad para representar relaciones espaciales o
direccionales.
c) NOMINAL, ORDINAL, BINARIO Y NUMÉRICO
En análisis de datos y bases de datos, los tipos de datos como Nominal, Ordinal,
Binario y Numérico se utilizan para categorizar y organizar la información de manera
adecuada. Aquí te detallo cada uno de ellos:
a. Nominal
Representa datos que se pueden categorizar en grupos o clases, pero no tienen un

orden inherente.
Función: Se utiliza para etiquetar o clasificar datos sin ningún tipo de orden o
jerarquía.
Características:
• No hay un orden significativo entre las categorías.

• Los valores se representan mediante etiquetas o nombres descriptivos.
• Se utilizan para análisis estadístico básico y clasificación de datos.
Ventajas:
• Facilita la organización y clasificación de datos.

• Útil para la realización de análisis categóricos y comparaciones simples
entre grupos.
Desventajas:
• No permite establecer relaciones de orden entre las categorías.

• No se pueden realizar operaciones matemáticas directas sobre los datos.
b. Ordinal
Representa datos que tienen un orden predefinido, pero las diferencias entre los
valores no son significativas.
Se utiliza para clasificar datos en categorías ordenadas según un criterio específico.
Características:
• Existe un orden secuencial entre las categorías.

• Las diferencias entre las categorías pueden no ser uniformes o
cuantificables.
• Se usan para clasificar niveles de satisfacción, niveles educativos, etc.
Ventajas:
• Permite establecer una jerarquía entre las categorías.

• Útil para análisis que requieren ordenamiento y comparaciones
cualitativas.
Desventajas:
• No se pueden realizar operaciones aritméticas directamente sobre los

valores.
• Las diferencias entre categorías pueden ser subjetivas.
c. Binario
Representa datos que solo pueden tener dos valores posibles, como
verdadero/falso, sí/no, 1/0, etc.
Función: Se utiliza para representar información dicotómica o binaria.
Características:
• Solo tiene dos estados posibles.

• Se emplea en situaciones donde la respuesta es binaria, como
presencia/ausencia, éxito/fallo, etc.
Ventajas:
• Facilita la representación de situaciones simples de elección.

• Útil para análisis de decisiones dicotómicas.
Desventajas:
• Limitado a representar solo dos estados.

• No es adecuado para datos que requieren más de dos opciones.
TIPOS DE FUENTES DE DATOS
a) ESTRUCTURA, NO ESTRUCTURADA Y SEMIESTRUCTURADA
En términos de bases de datos, los datos se pueden clasificar en tres tipos

principales según su estructura: estructurados, no estructurados y
semiestructurados. Aquí te proporciono una descripción general de cada tipo junto
con sus funciones, características, ventajas y desventajas:
a. Estructura
Los datos estructurados están organizados en un formato tabular con filas y

columnas claramente definidas. Siguen un esquema predefinido y se almacenan en
tablas relacionadas mediante claves primarias y externas.
Permiten almacenar y recuperar información de manera eficiente a través de

consultas SQL estructuradas.
Características:
• Conformidad con un esquema definido.

• Facilidad para realizar consultas complejas y relacionar datos.
• Alta integridad y consistencia de los datos.
Ventajas:
• Facilitan el análisis y la manipulación de datos.

• Son ideales para sistemas de gestión de bases de datos relacionales
(RDBMS).
• Proporcionan seguridad y control de acceso a datos.
Desventajas:
• No son adecuados para datos no estructurados o semiestructurados.

• Requieren un diseño de esquema inicial que puede ser complejo en
algunos casos.
• Pueden tener limitaciones en la escalabilidad para grandes volúmenes de
datos no relacionales.
b. Datos No Estructurados
Los datos no estructurados no siguen un formato específico y no se almacenan en

tablas relacionales. Incluyen texto libre, multimedia, documentos, correos
electrónicos, redes sociales, entre otros.
Capturan información de manera flexible y pueden contener diversos tipos de datos,

como imágenes, videos, texto sin formato, audio, etc.
Características:
• Falta de estructura definida y esquemas predefinidos.

• Variedad de formatos y tipos de datos.
• Gran volumen de información no organizada.
Ventajas:
• Capturan datos en su forma original sin restricciones de formato.

• Permiten almacenar gran cantidad de información heterogénea.
• Flexibilidad para adaptarse a diferentes tipos de datos.
Desventajas:
• Difíciles de organizar y consultar de manera eficiente.

• Requieren herramientas y técnicas avanzadas para análisis y extracción
de información.
• Pueden presentar desafíos en términos de seguridad y privacidad debido
a la falta de estructura.
c. Datos Semiestructurados
Los datos semiestructurados tienen una organización parcialmente definida, lo que

significa que tienen alguna estructura, pero no cumplen completamente con un
esquema fijo como los datos estructurados.
Permiten almacenar información que no encaja perfectamente en un modelo

relacional, como documentos XML, JSON, archivos de registro, datos de sensores,
entre otros.
Características:
• Algunas partes de los datos siguen un esquema definido.

• Flexibilidad para agregar nueva información sin cambiar la estructura
completa.
• Pueden representar relaciones entre datos de manera parcial.
Ventajas:
• Combina la estructura de datos con la flexibilidad de datos no

estructurados.
• Permite el almacenamiento de datos complejos y relacionados.
• Adecuado para aplicaciones que manejan datos variados y en evolución.
Desventajas:
• Puede requerir herramientas específicas para el análisis y la consulta.

• La estructura parcial puede dificultar la integración con sistemas que
requieren datos completamente estructurados.
• La consistencia y la integridad de los datos pueden ser desafíos en
algunos casos.
b) BASE DE DATOS, HOJA DE CÁLCULO, ARCHIVOS DE TEXTO
a. Base de Datos
Una base de datos es un sistema organizado para recopilar, almacenar y gestionar

datos de manera estructurada para su posterior uso.
Las bases de datos permiten almacenar grandes cantidades de datos de manera

eficiente y proporcionan mecanismos para acceder, modificar y gestionar esos datos
de forma segura.
Características:
• Estructurada: Los datos se organizan en tablas con relaciones definidas.

• Seguridad: Se pueden aplicar permisos para controlar quién puede
acceder o modificar los datos.
• Integridad: Mantienen la consistencia y precisión de los datos mediante
restricciones y reglas.
• Escalabilidad: Pueden manejar grandes volúmenes de datos y aumentar
su capacidad según sea necesario.
Ventajas:
• Facilita la gestión y organización de grandes cantidades de datos.

• Permite compartir datos entre múltiples usuarios de manera controlada.
• Proporciona mecanismos de respaldo y recuperación de datos.
Desventajas:
• Requiere de conocimientos técnicos para su diseño, implementación y

mantenimiento.
• Puede implicar costos asociados con software, hardware y personal
especializado.
b. Hoja De Cálculo
Una hoja de cálculo es una aplicación informática que permite organizar datos en
filas y columnas, realizar cálculos y generar gráficos a partir de esos datos.
Las hojas de cálculo son utilizadas para realizar análisis de datos, crear informes y
llevar a cabo tareas de contabilidad, presupuesto, seguimiento de inventario, entre
otras.
Características:
• Celdas: Los datos se ingresan en celdas individuales dentro de una

cuadrícula.
• Fórmulas: Se pueden utilizar fórmulas para realizar cálculos automáticos.
• Gráficos: Permite crear gráficos a partir de los datos para visualizar
tendencias y patrones.
• Formatos: Permite aplicar formatos y estilos a los datos para mejorar su
presentación.
Ventajas:
• Facilidad de uso y familiaridad para usuarios no técnicos.

• Permite realizar cálculos y análisis de manera rápida.
• Incluye funciones para crear gráficos y visualizar datos.
Desventajas:
• Limitaciones en el manejo de grandes volúmenes de datos.

• Menor seguridad y control que en una base de datos.
• Puede haber errores humanos al ingresar o manipular los datos.
c. Archivos de Texto
Un archivo de texto es un documento que contiene texto sin formato, organizado en

líneas y caracteres legibles por humanos.
Los archivos de texto son utilizados para almacenar información en formato legible
y simple, como configuraciones, registros, datos de configuración, etc.
Características:
• Formato simple: El texto se almacena sin formato adicional, como negritas

o colores.
• Legibilidad: Los archivos de texto son legibles y pueden ser editados con
un editor de texto básico.
• Portabilidad: Son fácilmente transportables entre diferentes sistemas y
aplicaciones.
• Tamaño reducido: Comparados con otros formatos, los archivos de texto
suelen ocupar menos espacio en disco.
Ventajas:
• Compatibilidad con una amplia variedad de aplicaciones y sistemas.

• Ligeros y fáciles de manipular.
• Son adecuados para almacenar información que no requiere estructuras
complejas.
Desventajas:
• Limitados en la capacidad de estructurar datos de manera compleja.

• No ofrecen funcionalidades avanzadas de consulta o manipulación como
una base de datos.
• Pueden ser menos eficientes para manejar grandes cantidades de datos
en comparación con una base de datos.
DATAWAREHOUSE
Un data warehouse es una base de datos especializada que integra datos de

múltiples fuentes y los organiza para facilitar consultas y análisis complejos. Está
diseñado para soportar la toma de decisiones empresariales al proporcionar una
vista consolidada y consistente de los datos.
Funciones:
• Integración de Datos: Combina datos de diversas fuentes, como bases de

datos operativas, archivos, sistemas externos, etc.
• Almacenamiento Centralizado: Mantiene datos históricos y actuales en un
único lugar para su análisis.
• Análisis Complejo: Permite consultas complejas y análisis de datos para
generar informes, pronósticos y análisis predictivos.
• Soporte a la Toma de Decisiones: Proporciona información útil para la toma
de decisiones estratégicas y tácticas en la organización.
Características:
• Orientado a Temas: Organizado en torno a temas empresariales específicos,

como ventas, inventario, recursos humanos, etc.
• Integrado: Combina datos de diferentes fuentes y formatos en un único
repositorio.
• No Volátil: Los datos históricos no se modifican; se añaden nuevos datos a
medida que están disponibles.
• Tiempo Variantes: Mantiene un historial de cambios en los datos para análisis
temporales.
• Orientado a Consultas y Análisis: Diseñado para soportar consultas
complejas y análisis de datos.
• Escalabilidad: Capacidad para manejar grandes volúmenes de datos y
crecimiento futuro.
• Seguridad: Implementa medidas de seguridad para proteger los datos
sensibles.
• Accesibilidad: Proporciona herramientas y interfaces para que los usuarios
puedan acceder y analizar los datos de manera efectiva.
Ventajas:
• Mejora de la Toma de Decisiones: Proporciona información consolidada y

precisa para tomar decisiones informadas.
• Análisis Complejo: Permite análisis detallados y complejos sobre grandes
conjuntos de datos.
• Integración de Datos: Combina datos de múltiples fuentes para obtener una
vista completa de la organización.
• Historial de Datos: Mantiene un historial de datos para análisis temporales y
tendencias.
• Eficiencia Operativa: Simplifica el acceso y análisis de datos, lo que mejora
la eficiencia operativa.
Desventajas:
• Costo: La implementación y mantenimiento de un data warehouse puede ser

costosa.
• Complejidad: Requiere habilidades técnicas y experiencia para diseñar,
implementar y gestionar eficazmente.
• Tiempo de Implementación: Puede llevar tiempo desarrollar e implementar
un data warehouse completo.
• Integración de Datos: La integración de datos de múltiples fuentes puede ser
un desafío técnico.
• Requerimientos de Hardware: Puede necesitar hardware y recursos de
almacenamiento significativos para manejar grandes volúmenes de datos.
II.V PROCESO ETL
El proceso ETL (Extracción, Transformación y Carga) es fundamental en el ámbito

de las bases de datos y la gestión de datos en general. Aquí te explico cada fase
del proceso:
1. Extracción (Extraction):
• En esta fase, los datos se extraen de diversas fuentes, que pueden ser bases
de datos relacionales, archivos planos, servicios web, entre otros.
• Se utiliza software especializado para extraer los datos de manera eficiente
y segura, evitando pérdida de información y manteniendo la integridad de los
datos durante la extracción.
2. Transformación (Transformation):
• Una vez que los datos han sido extraídos, se realiza la transformación para
prepararlos para su posterior carga en el almacén de datos.
• En esta etapa, se aplican diversas operaciones de limpieza, validación,
filtrado, enriquecimiento y transformación de datos.
• Se utilizan herramientas y técnicas como limpieza de datos, conversión de
formatos, cálculos, normalización, deduplicación, entre otros.
3. Carga (Loading):
• En la fase de carga, los datos transformados y preparados se cargan en el
almacén de datos o data warehouse.
• El proceso de carga puede ser incremental (solo cargando datos nuevos o
modificados desde la última carga) o completo (cargando todos los datos
nuevamente).
• Se deben considerar aspectos como la integridad de los datos, la
optimización de la carga para mejorar el rendimiento y la programación de
cargas automáticas en intervalos regulares.
CONCLUSIONES
En conclusión, la gestión efectiva de datos abarca varios aspectos clave que van
desde la identificación de su procedencia hasta su almacenamiento y análisis en un
entorno organizado como un data warehouse.
Es fundamental comprender la diversidad de fuentes de datos, que van desde

biométricos y transacciones hasta información generada por humanos, máquinas y
medios digitales. Cada tipo de dato tiene características únicas, desde su naturaleza
cuantitativa o cualitativa hasta su estructura continua, discreta o escalable, lo que
influye en cómo se procesan y analizan.
Las herramientas como el data warehouse son esenciales para integrar, consolidar
y mantener la integridad de los datos, permitiendo un acceso eficiente y seguro para
su análisis. Este proceso implica la extracción, transformación y carga de datos
(ETL), donde se limpian, validan y preparan los datos para su posterior uso en la
toma de decisiones y la generación de informes.
En resumen, la correcta identificación, análisis y gestión de datos son pilares

fundamentales para aprovechar al máximo la información disponible y convertirla en
insights valiosos que impulsen el éxito y la eficiencia en las organizaciones.
REFERENCIAS BIBLIOGRÁFICAS
• Kimball, R., & Ross, M. (2013). The Data Warehouse Toolkit: The Definitive
Guide to Dimensional Modeling. John Wiley & Sons.
• Redman, T. C. (2015). Data Driven: Profiting from Your Most Important
Business Asset. Harvard Business Press.
• Inmon, W. H. (2005). Building the Data Warehouse (4th ed.). John Wiley &
Sons.
• Kudyba, S. (2011). Data Mining and Business Analytics with R. John Wiley &
Sons.
• Han, J., Kamber, M., & Pei, J. (2011). Data Mining: Concepts and Techniques
(3rd ed.). Morgan Kaufmann.
• Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., & Becker, B. (2013). The
Data Warehouse Lifecycle Toolkit (2nd ed.). John Wiley & Sons.
• Microsoft. (2020). Introduction to Data Warehousing. Recuperado de
“https://learn.microsoft.com/en-us/sql/relational-databases/data-
warehousing/data-warehousing”.
• IBM. (2020). What is ETL? Extract, Transform, Load Explained. Recuperado
de “https://learn.microsoft.com/en-us/sql/relational-databases/data-
warehousing/data-warehousing”.
• Oracle. (2020). Data Warehouse vs. Data Lake: How They Differ and Why
They Matter. Recuperado de “https://www.oracle.com/big-data/guide/data-
warehouse-vs-data-lake.html”.

Investigacion

Cargado por

Copyright:

Formatos disponibles

Investigacion

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Investigacion

Cargado por

Copyright:

Formatos disponibles

EXTRACCIÓN DEL CONOCIMIENTO

PROYECTO: “SISTEMA DE RESERVACIÓN EN UN HOTEL”

Identificar la procedencia de los datos es fundamental para comprender su origen y

Los datos web se obtienen de páginas en línea, proporcionando información sobre

En cuanto a los tipos de datos en análisis, existen los cuantitativos y cualitativos.

En el contexto de un data warehouse, se destacan varias características

La historización en un data warehouse implica mantener un registro histórico de los

El proceso ETL (Extracción, Transformación y Carga) es esencial en la gestión de

• Costo: La implementación de sistemas biométricos puede ser costosa, tanto

• Automatización: Los procesos de intercambio de datos son automáticos y

• Eficiencia operativa: Permite la automatización de procesos y la optimización

• Complejidad: Puede requerir una infraestructura compleja y costosa para

• Temporalidad: Los datos de transacciones suelen estar asociados con

• Auditoría y seguimiento: Permiten rastrear quién realizó qué acción en el

• Volumen de datos: Pueden generar grandes volúmenes de datos,

d) GENERADOS POR LOS HUMANOS

• Ingreso de Datos Precisos: Los humanos pueden proporcionar información

• Flexibilidad: Los humanos pueden adaptarse a cambios en los requisitos de

• Precisión: Los humanos pueden garantizar la precisión de los datos

• Costo y Tiempo: El ingreso manual de datos puede ser costoso y consumir

• Extracción automatizada: La WEB en bases de datos permite la

• Actualización automática: Los datos extraídos se pueden actualizar

• Dependencia de la estructura web: Si la estructura de las páginas web de las

• Interactividad: Los usuarios pueden interactuar entre sí y con el contenido.

• Conectividad: Facilitan la conexión y comunicación entre personas y

• Privacidad: Pueden plantear preocupaciones sobre la privacidad de los datos

TIPOS DE DATOS EN ANÁLISIS DE DATOS

• Son numéricos y se pueden contar o medir.

• Facilitan el análisis matemático y estadístico.

• No capturan información cualitativa o subjetiva.

En el análisis de datos y en el contexto de bases de datos, los términos "continuos",

• No tienen límites definidos.

• Mayor precisión al representar mediciones precisas.

• Requieren más espacio de almacenamiento debido a su precisión.

• Tienen valores definidos y separados.

• Fácil de entender y trabajar con valores discretos.

• Pueden perder precisión al representar medidas muy exactas.

Son útiles para representar cantidades simples que no tienen componentes

• Representan magnitudes sin dirección.

• Fácil de manipular y realizar cálculos matemáticos.

• No representan información direccional o vectorial.

Representa datos que se pueden categorizar en grupos o clases, pero no tienen un

• No hay un orden significativo entre las categorías.

• Facilita la organización y clasificación de datos.

• No permite establecer relaciones de orden entre las categorías.

Se utiliza para clasificar datos en categorías ordenadas según un criterio específico.

• Existe un orden secuencial entre las categorías.

• Permite establecer una jerarquía entre las categorías.

• No se pueden realizar operaciones aritméticas directamente sobre los

Función: Se utiliza para representar información dicotómica o binaria.

• Solo tiene dos estados posibles.

• Facilita la representación de situaciones simples de elección.

• Limitado a representar solo dos estados.

a) ESTRUCTURA, NO ESTRUCTURADA Y SEMIESTRUCTURADA

En términos de bases de datos, los datos se pueden clasificar en tres tipos

Los datos estructurados están organizados en un formato tabular con filas y

Permiten almacenar y recuperar información de manera eficiente a través de

• Conformidad con un esquema definido.

• Facilitan el análisis y la manipulación de datos.

• No son adecuados para datos no estructurados o semiestructurados.