Tablas Hash
Tablas Hash
Tablas Hash
Una tabla hash o mapa hash es una estructura de datos que asocia llaves o claves con valores. La
operación principal que soporta de manera eficiente es la búsqueda: permite el acceso a los elementos
(teléfono y dirección, por ejemplo) almacenados a partir de una clave generada (usando el nombre o
número de cuenta, por ejemplo). Funciona transformando la clave con una función hash en un hash, un
número que la tabla hash utiliza para localizar el valor deseado.
Las tablas hash se suelen implementar sobre arrays de una dimensión, Comparada con otras estructuras
de arrays asociadas, las tablas hash son más útiles cuando se almacenan grandes cantidades de
información.
Las tablas hash almacenan la información en posiciones pseudo-aleatorias, así que el acceso ordenado a
su contenido es bastante lento. Como en el caso de los arrays, las tablas hash proveen tiempo constante de
búsqueda promedio O
Funcionamiento
inserción(llave, valor)
Búsqueda
1. Para recuperar los datos, es necesario únicamente conocer la clave del elemento, a la cual se le
aplica la función resumen.
2. El valor obtenido se mapea al espacio de direcciones de la tabla.
3. Si el elemento existente en la posición indicada en el paso anterior tiene la misma clave que la
empleada en la búsqueda, entonces es el deseado. Si la clave es distinta, se ha de buscar el
elemento según la técnica empleada para resolver el problema de las colisiones al almacenar el
elemento.
1. Hash de División:
Este método consiste en tomar el resto de la división por m, el número de entradas de la tabla.
Así h(k) = k mod mEn C sería h(k) = k % m;
Usar m = una potencia de 2 no es buena idea ya que el valor de hash queda dependiendo de sólo
los bits menos significativos de k.
2. Hash de Multiplicación
Este método opera en dos pasos. Primero, multiplicamos la clave por una constante A en el
rango 0 < A < 1 y extraemos la parte fraccionaria de k*A.
Segundo, Multiplicamos este valor por el número de entradas de la tabla y tomamos el piso del
(o truncamos el) resultado.
Resolución de colisiones
Si dos llaves generan un hash apuntando al mismo índice, los registros correspondientes no pueden ser
almacenados en la misma posición. En estos casos, cuando una casilla ya está ocupada, debemos
encontrar otra ubicación donde almacenar el nuevo registro, y hacerlo de tal manera que podamos
encontrarlo cuando se requiera.
Encadenamiento
En la técnica más simple de encadenamiento, cada casilla en el array referencia una lista de los registros
insertados que colisionan en la misma casilla. La inserción consiste en encontrar la casilla correcta y
agregar al final de la lista correspondiente. El borrado consiste en buscar y quitar de la lista.
La técnica de encadenamiento tiene ventajas sobre direccionamiento abierto. Primero el borrado es simple
y segundo el crecimiento de la tabla puede ser pospuesto durante mucho más tiempo dado que el
rendimiento disminuye mucho más lentamente incluso cuando todas las casillas ya están ocupadas.
Direccionamiento abierto
Las tablas hash de direccionamiento abierto pueden almacenar los registros directamente en el array. Las
colisiones se resuelven mediante un sondeo del array, en el que se buscan diferentes localidades del array
(secuencia de sondeo) hasta que el registro es encontrado o se llega a una casilla vacía, indicando que no
existe esa llave en la tabla.
Las secuencias de sondeo más socorridas incluyen:
Sondeo lineal
en el que el intervalo entre cada intento es constante--frecuentemente 1.
Sondeo cuadrático
en el que el intervalo entre los intentos aumenta linealmente (por lo que los índices son descritos
por una función cuadrática), y
Doble hasheo
en el que el intervalo entre intentos es constante para cada registro pero es calculado por otra
función hash.
El sondeo lineal ofrece el mejor rendimiento del caché, pero es más sensible al aglomeramiento, en tanto
que el doble hasheo tiene pobre rendimiento en el caché pero elimina el problema de aglomeramiento. El
sondeo cuadrático se sitúa en medio. El doble hasheo también puede requerir más cálculos que las otras
formas de sondeo.
Conforme el array se acerca al 100% de su capacidad, el número de saltos requeridos por el sondeo puede
aumentar considerablemente. Una vez que se llena la tabla, los algoritmos de sondeo pueden incluso caer
en un círculo sin fin. Incluso utilizando buenas funciones hash, el límite aceptable de capacidad es
normalmente 80%
Referencias
• http://es.wikipedia.org/wiki/Tabla_hash
• http://profesores.elo.utfsm.cl/~agv/elo320/01and02/dataStructures/hashing.pdf