NoSQL Vs SQL
NoSQL Vs SQL
NoSQL Vs SQL
(8 votes, average: 2,25)
Hoy en día empieza a haber una tendencia alcista por la utilización de Bases de Datos No SQL.
En este artículo queremos aclarar cuáles son las diferencias entre ambas bases de datos y en
qué ocasiones debemos elegir un tipo u otro para nuestro proyecto. Si crees que puedes
aportar más características o información a este artículo estaremos encantados en recibir tus
comentarios.
Antes de proseguir, ¿Sabéis que significa NoSQL? Not Only SQL, es simplemente por aclararlo :)
La diferencia fundamental entre ambos tipos de bases de datos radica en que las bases de
datos NoSQL no utilizan el modelo relacional.
Está más adaptado su uso y los perfiles que los conocen son mayoritarios y más
baratos.
Debido al largo tiempo que llevan en el mercado, estas herramientas tienen un mayor
soporte y mejores suites de productos y add-ons para gestionar estas bases de datos.
La atomicidad de las operaciones en la base de datos. Esto es, que en estas bases de
datos o se hace la operación entera o no se hace utilizando la famosa técnica del
rollback.
Los datos deben cumplir requisitos de integridad tanto en tipo de dato como en
compatibilidad.
Escalabilidad, que aunque probada en muchos entornos productivos suele, por norma,
ser inferior a las bases de datos NoSQL.
Suelen ser bases de datos mucho más abiertos y flexibles. Permiten adaptarse a
necesidades de proyectos mucho más fácilmente que los modelos de Entidad Relación.
Se pueden hacer cambios de los esquemas sin tener que parar bases de datos.
Falta de estandarización. Hay muchas bases de datos NoSQL y aún no hay un estándar
como si lo hay en las bases de datos relacionales. Se presume un futuro incierto en
estas bases de datos.
Soporte multiplataforma. Aún quedan muchas mejoras en algunos sistemas para que
soporten sistemas operativos que no sean Linux.
Cuando los datos deben ser consistentes sin dar posibilidad al error utilizar una base
de datos relacional. SQL.
La evolución de NoSQL
El problema de la escalabilidad de SQL fue reconocido por empresas Web 2.0, con grandes
necesidades de datos e infraestructura, como Google, Amazon y Facebook. Ellos solos tuvieron
que buscar soluciones propias a este problema, con tecnologías como BigTable, DynamoDB,
y Cassandra.
Este interés creciente dio lugar a una serie de sistemas de gestión de base de datos NoSQL
(DBMS), con un enfoque en el rendimiento, la fiabilidad y la coherencia. Se reutilizaron y
mejoraron varias estructuras de indexación existentes con el propósito de mejorar la búsqueda
y el rendimiento de lectura.
En primer lugar, había tipos de bases de datos NoSQL (de origen cerrado), desarrolladas por
grandes empresas para satisfacer sus necesidades específicas, como BigTable de Google, que
se cree es el primer sistema NoSQL y DynamoDB de Amazon.
El éxito de estos sistemas patentados, inició el desarrollo de varios sistemas de bases de datos
de código abierto y de propietarios similiares siendo los más populares Hypertable, Cassandra,
MongoDB, DynamoDB, HBase y Redis.
Una diferencia clave entre las bases de datos de NoSQL y las bases de datos relacionales
tradicionales, es el hecho de que NoSQL es una forma de almacenamiento no estructurado.
Esto significa que NoSQL no tiene una estructura de tabla fija como las que se encuentran en
las bases de datos relacionales.
Ventajas
Las bases de datos de NoSQL presentan muchas ventajas en comparación con las bases de
datos tradicionales.
A diferencia de las bases de datos relacionales, las bases de datos NoSQL están
basadas en key-value pairs
Podría decirse que las bases de datos NoSQL de código abierto tienen una
implementación rentable. Ya que no requieren las tarifas de licencia y pueden
ejecutarse en hardware de precio bajo.
Cuando trabajamos con bases de datos NoSQL, ya sean de código abierto o tengan un
propietario, la expansión es más fácil y más barata que cuando se trabaja con bases de
datos relacionales. Esto se debe a que se realiza un escalado horizontal y se distribuye
la carga por todos los nodos. En lugar de realizarse una escala vertical, más típica en
los sistemas de bases de datos relacionales.
Desventajas
Por supuesto, las bases de datos NoSQL no son perfectas, y no siempre van a ser la elección
ideal.
La mayoría de las bases de datos NoSQL no admiten funciones de fiabilidad, que son
soportadas por sistemas de bases de datos relacionales. Estas características de
fiabilidad pueden resumirse en: “atomicidad, consistencia, aislamiento y durabilidad.”
Esto también significa que las bases de datos NoSQL, que no soportan esas
características, ofrecen consistencia para el rendimiento y la escalabilidad.
Esto podría limitar el número de aplicaciones en las que podemos confiar para realizar
transacciones seguras y confiables, como por ejemplo los sistemas bancarios.
Esta tabla ofrece una breve comparación entre las funcionalidades de NoSQL y las bases de
datos relacionales:
Cabe señalar que esta tabla muestra una comparación a nivel de la base de datos, no sobre los
diversos sistemas de gestión de bases de datos que implementan ambos modelos. Estos
sistemas proporcionan sus propias técnicas patentadas para superar los problemas y
deficiencias encontradas en el sistema, además de intentar mejorar significativamente el
rendimiento y la fiabilidad.
En el tipo de almacén Key Value, se utiliza una tabla hash en la que una clave única apunta a un
elemento.
Las claves pueden ser organizadas por grupos clave lógicos, requiriendo solamente estas claves
para ser únicas dentro de su propio grupo. Esto permite tener claves idénticas en diferentes
grupos lógicos. La siguiente tabla muestra un ejemplo de un almacén de valores clave, en el
que la clave es el nombre de la ciudad y el valor es la dirección de Ulster University en esa
ciudad.
Todo lo que se necesita para hacer frente a los elementos almacenados en la base de datos: es
la clave. Los datos se almacenan en una forma de una cadena, JSON o BLOB (objeto grande
binario).
Uno de los mayores defectos en esta forma de base de datos es la falta de consistencia a nivel
de la base de datos. Esto puede ser añadido por los desarrolladores con su propio código,
aunque esto suponga más esfuerzo y tiempo.
La base de datos NoSQL más famosa que se construye en un almacén de valores clave Key
Value es DynamoDB de Amazon.
Almacén de documentos
Los almacenes de documentos son similares a los almacenes de valores clave, porque no
tienen un esquema y se basan en un modelo de valor clave. Ambos carecen de coherencia en
el nivel de base de datos, lo que hace posible que las aplicaciones proporcionen más fiabilidad.
Almacenamiento en columnas
Un almacén de columnas está compuesto por una o más familias de columnas que se agrupan
de forma lógica en determinadas columnas en la base de datos. Una clave se utiliza para
identificar y señalar a un número de columnas en la base de datos. Cada columna contiene
filas de nombres o tuplas, y valores, ordenados y separados por comas.
Los almacenes de columnas tienen acceso rápido de lectura y escritura a los datos
almacenados. En un almacén de columnas, las filas que corresponden a una sola columna se
almacenan como una sola entrada de disco, lo cual facilita el acceso durante las operaciones
de lectura y escritura.
Las bases de datos más populares que usan el almacén de columnas incluyen Google BigTable,
HBase y Cassandra.
Base gráfica
En una gráfica de una base de datos NoSQL, se utiliza una “estructura de gráfica dirigida” para
representar los datos. El gráfico está compuesto por bordes y nodos.
Las bases de datos de gráficos, suelen utilizarse en aplicaciones de redes sociales. Estas
permiten a los desarrolladores centrarse más en las relaciones entre los objetos que en los
propios objetos. En este contexto, de hecho permiten un entorno escalable y fácil de usar.
Actualmente, InfoGrid y InfiniteGraph son las bases de datos gráficas más populares.
Por una breve comparación de las bases de datos, la tabla siguiente, proporciona una breve
comparación entre los diferentes sistemas de gestión de bases de datos NoSQL.
MongoDB tiene un sistema flexible de almacenamiento de esquemas. Lo que significa que los
objetos almacenados no tienen que tener la misma estructura o los mismos campos. MongoDB
también tiene algunas características de optimización, que distribuye las colecciones de datos,
mejorando el rendimiento y consiguiendo un sistema más equilibrado.
Otros sistemas de base de datos NoSQL, como Apache CouchDB, también se consideran bases
de datos de tipo almacén de documentos. Por ello comparten muchas características con
MongoDB, a excepción de que es posible acceder a la base de datos usando APIs RESTful.
Las aplicaciones RESTful utilizan peticiones HTTP para publicar, leer y eliminar datos.
En cuanto a bases de datos de bases de columnas, Hypertable es una base de datos NoSQL
escrita en C ++ y basada en BigTable de Google. Hypertable soporta la distribución de
almacenes de datos entre nodos para maximizar la escalabilidad, al igual que MongoDB y
CouchDB.
Una de las bases de datos NoSQL más utilizadas es Cassandra, desarrollada por Facebook. Se
trata de una base de datos de almacenes de columnas que incluye muchas características
dirigidas a la fiabilidad y tolerancia de fallos.
Cassandra
Esto se consigue proporcionando un sistema de valor clave. Pero las claves de Cassandra
apuntan a un conjunto de familias de columnas, dependiendo del sistema de archivos
distribuido “BigTable” de Google y de las características de disponibilidad de Dynamo (tabla
hash distribuida).
Cassandra está diseñado para almacenar enormes cantidades de datos distribuidos a través de
diferentes nodos. Cassandra es un DBMS diseñado para manejar cantidades masivas de datos,
repartidos entre muchos servidores, mientras que proporciona un servicio altamente
disponible sin un solo punto de fallo, lo cual es esencial para un gran servicio como Facebook.
Las principales características de Cassandra incluyen:
No hay ni un solo punto de fallo. Para que esto se consiga, Cassandra debe funcionar
como un racimo de nodos. Eso no significa que los datos de cada clúster sean los
mismos, sin embargo si debe serlo el software de gestión. Cuando ocurre un fallo en
uno de los nodos, los datos en ese nodo serán inaccesibles. Sin embargo, otros nodos
(y datos) seguirán siendo accesibles.
MongoDB
MongoDB es una base de datos libre de esquemas, orientada a documentos, escrita en C ++. La
base de datos está basada en el almacén de documentos, lo que significa que almacena valores
(denominados documentos) en forma de datos codificados.
La elección del formato codificado en MongoDB es JSON. Es muy potente, porque incluso si los
datos están anidados dentro de los documentos JSON, seguirá siendo consultable e indexable.
Las subsecciones que siguen, describen algunas de las características clave disponibles en
MongoDB.
Shards / Fragmentos
Como se mencionó anteriormente, MongoDB utiliza una API RESTful. Para recuperar ciertos
documentos de una colección db, se crea un documento de consulta que contiene los campos
que deben coincidir con los documentos deseados.
Acciones
En MongoDB, hay un grupo de servidores llamados enrutadores. Cada uno actúa como un
servidor para uno o más clientes. Del mismo modo, el clúster contiene un grupo de servidores
denominados servidores de configuración. Cada uno contiene una copia de los metadatos que
indican qué fragmento contiene qué datos. Las acciones de lectura o escritura se envían desde
los clientes a uno de los servidores de enrutador del clúster y son encaminadas
automáticamente por ese servidor, a los fragmentos adecuados que contienen los datos con la
ayuda de los servidores de configuración.
Indexación de árboles B
Una diferencia importante de otras estructuras de árbol, como AVL, es que el árbol B permite
que los nodos tengan un número variable de nodos secundarios. Lo que va a significar menos
equilibrio de árbol y más espacio perdido.
El B + -Tree es una de las variantes más populares de B-Trees. El B + -Tree es una mejora sobre
B-Tree que requiere todas las claves para residir en las hojas.
Indexación de árboles T
Cada nodo almacena más de una tupla {key-value, pointer}. Además, la búsqueda binaria se
utiliza en combinación con los nodos de múltiples tuplas para producir un mejor
almacenamiento y rendimiento.
Un árbol T tiene tres tipos de nodos: Un T-Node que tiene un hijo derecho e izquierdo, un
nodo de hoja sin hijos, y un nodo de media hoja con un solo hijo.
Se cree que los árboles T tienen un mejor rendimiento general que los árboles AVL.
Indexación de árboles O2
El árbol O2 es básicamente una mejora sobre los árboles Rojo-Negro (Red-Black), una forma de
un árbol Binary-Search, en el que los nodos hoja contienen el valor {key value, pointer}
El árbol O2, se propuso para mejorar el rendimiento de los actuales métodos de indexación.
Un árbol de O2 de orden m (m ≥ 2), donde m es el grado mínimo del árbol, satisface las
siguientes propiedades:
Para cada nodo interno, todas las rutas simples desde el nodo hasta los nodos-hoja
descendientes contienen el mismo número de nodos negros. Cada nodo interno tiene
un único valor de clave.
Los nodos de hoja son bloques que tienen entre ⌈m / 2⌉ y m pares “key-value, record-
pointer”.
Si un árbol tiene un único nodo, entonces debe ser una hoja, que es la raíz del árbol, y
puede tener entre 1 a m elementos de datos clave.
El tiempo se registra para las operaciones de búsqueda, inserción y supresión con relaciones
de actualización que varían entre 0% -100% para un índice de 50M registros, con las
operaciones que resultan en la adición de otros 50M registros al índice.
Está claro que con una proporción de actualización de 0-10%, B-Tree y T-Tree tienen mejores
resultados que O2-Tree. Sin embargo, con la proporción de actualización aumentado, el índice
de O2-Tree funciona significativamente mejor que otras estructuras de datos.
Las bases de datos NoSQL ganaron mucha popularidad debido a su alto rendimiento, alta
escalabilidad y facilidad de acceso. Sin embargo, todavía carecen de las características que
proporcionan consistencia y confiabilidad. Afortunadamente, una serie de DBMS NoSQL
abordan estos retos ofreciendo nuevas características para mejorar la escalabilidad y la
fiabilidad.
No todos los sistemas de base de datos NoSQL funcionan mejor que las bases de datos
relacionales. MongoDB y Cassandra tienen un rendimiento similar, y en muchos casos mejor,
que en las bases de datos relacionales en operaciones de escritura y eliminación.
Se puede y se debe hacer más trabajo para mejorar la consistencia de los DBMSs NoSQL. La
integración de ambos sistemas, NoSQL y bases de datos relacionales, es un área que debería
ser explorada.