Indexacion y Asociacion
Indexacion y Asociacion
Indexacion y Asociacion
Indexación
Cuando las páginas web son indexadas el contenido puede ser rastreado por
los spiders que es un sistema informático que busca archivos almacenados en servicios
web para lograr buenas posiciones y también se utiliza en el ámbito económico.
Indexar una base de datos: Requiere de una buena comprensión de los datos, las
funciones de usuario y de cómo está indexada la base de datos. Los índices utilizan
componentes clave de los datos de una tabla en una estructura binaria para mejorar
la capacidad de búsqueda. Cada registro de datos en la tabla debe estar asociado con
datos en el índice. Indexar puede aumentar notablemente la velocidad de búsqueda.
Sin embargo, un inconveniente de los índices es que cada operación de inserción,
actualización o supresión necesita una actualización de los índices. Cuando una
tabla incluye índices múltiples, cada índice puede aumentar el tiempo que lleva
procesar las actualizaciones de la tabla. Si se desea reducir el número de índices
para mejorar la velocidad de procesamiento, se deben eliminar los índices que son
menos valiosos a los efectos de la búsqueda.
Tipos de acceso: Los tipos de acceso que se soportan eficazmente. Estos tipos
podrían incluir la búsqueda de registros con un valor concreto en un atributo, o
buscar los registros cuyos atributos contengan valores en un rango especificado.
Tiempo de acceso: El tiempo que se tarda en buscar un determinado elemento de
datos, o conjunto de elementos, usando la técnica en cuestión.
Tiempo de inserción: El tiempo empleado en insertar un nuevo elemento de datos.
Este valor incluye el tiempo empleado en buscar el lugar apropiado donde insertar
el nuevo elemento de datos, así como el tiempo empleado en actualizar la estructura
del índice.
Tiempo de borrado: Es el tiempo empleado en borrar un elemento de datos. Este
valor incluye el tiempo empleado en buscar el elemento a borrar, así como el tiempo
empleado en actualizar la estructura del índice.
Espacio adicional requerido: El espacio adicional ocupado por la estructura del
índice. Como normalmente la cantidad necesaria de espacio adicional suele ser
moderada, es razonable sacrificar el espacio para alcanzar un rendimiento mejor.
Índice Denso
Es aquel en el cual aparece un registro índice para cada valor de la clave búsqueda
en el archivo. El registro índice contiene el valor de la clave y un puntero al primer registro
con ese valor de la clave de búsqueda. . El resto de registros con el mismo valor de la clave
de búsqueda se almacenan consecutivamente después del primer registro, dado que, ya que
el índice es con agrupación, los registros se ordenan sobre la misma clave de búsqueda. Las
implementaciones de índices densos pueden almacenar una lista de punteros a todos los
registros con el mismo valor de la clave de búsqueda; esto no es esencial para los índices
con agrupación.
Índice Disperso:
Sólo se crea un registro índice para algunos de los valores. Al igual que en los
índices densos, cada registro índice contiene un valor de la clave de búsqueda y un puntero
al primer registro con ese valor de la clave. Para localizar un registro se busca la entrada del
índice con el valor más grande que sea menor o igual que el valor que se está buscando. Se
empieza por el registro apuntado por esa entrada del índice y se continúa con los punteros
del archivo hasta encontrar el registro deseado.
Índice Multinivel:
Usando los dos niveles de indexación y con el índice más externo en memoria
principal hay que leer un único bloque índice, en vez de los siete que se leían con la
búsqueda binaria. Si al archivo es extremadamente grande, incluso el índice exterior podría
crecer demasiado para caber en la memoria principal. En este caso se podría crear todavía
otro nivel más de indexación. De hecho, se podría repetir este proceso tantas veces como
fuese necesario. Los índices con dos o más niveles se llaman índices multinivel. La
búsqueda de registros usando un índice multinivel necesita claramente menos operaciones'
de E/S que las que se emplean en la búsqueda de registros con la búsqueda binaria.
Sin importar el tipo de índice que se esté usando, los índices se deben actualizar
siempre que se inserte o se borre un registro del archivo.
Asociación:
Un cajón (bucket) es una unidad de almacenamiento que puede guardar uno o más
registros (generalmente un bucket es un bloque de disco).
En la organización de archivo asociativo (hash file organization) se obtiene un
bucket de un registro directamente del valor de su clave de búsqueda usando
una función de asociación (hash function).
Formalmente, sea K el conjunto de todos los valores de clave de búsqueda y
sea B el conjunto de todas las direcciones de cajón. Una función de asociación h es
una función de K a B. Sea h una función asociación.
Para insertar un registro con clave de búsqueda Ki, calcularemos h(Ki),
y proporciona la dirección del cajón para insertar el registro.
Para realizar una búsqueda con el valor Ki de la clave de búsqueda, simplemente se
calcula h(Ki) y luego se busca el cajón con esa dirección.
Función de la asociación:
Propiedades de una buena distribución.
Distribución uniforme. Esto es, cada cajón tiene asignado el mismo número de
valores de la clave de búsqueda dentro del conjunto de todos los valores posibles de
la clave de búsqueda.
Distribución aleatoria. Esto es, en el caso promedio, cada cajón tendrá casi el mismo
número de valores asignados a él, sin tener en cuenta la distribución actual de los
valores de la clave de búsqueda.
Generalmente las funciones de asociación realizan el cálculo.