Dialnet DelMultibuscadorAlMetabuscador 1300517
Dialnet DelMultibuscadorAlMetabuscador 1300517
Dialnet DelMultibuscadorAlMetabuscador 1300517
Isidro F. Aguillo
CINDOC-CSIC
Joaquin Costa, 22
28002 Madrid
[email protected]
91-5635482
Resumen:
La localización y recuperación de información en el World Wide Web es uno de los
principales retos que afrontan los documentalistas. Las herramientas de primera
generación (motores de búsqueda e índices) no han resuelto adecuadamente los
problemas de ruido documental y de escasa exhaustividad de los resultados. Los
multibuscadores, dado el bajo nivel de solapamiento entre los grandes motores de
búsqueda, pueden ayudar a solucionar estos problemas. Las herramientas de segunda
generación, basadas en programas cliente, han expandido el concepto de forma que son
capaces de explorar la naturaleza hipertextual de la web. Se acuña el término
metabuscadores para describir a los programas capaces de identificar a través de la red,
siguiendo la madeja hipertextual, una serie de documentos pertinentes a una estrategia
de búsqueda a partir de unas sedes originales o "semilla". Se discuten características y
prestaciones prácticas de los principales productos disponibles.
Abstract:
The information retrieval in the World Wide Web is one of the main challenges that
confront the documentalists. The tools of first generation (search engines and indices)
have not solved suitably the problems of noise and poor coverage of the results. The
multisearchers, due to the low overlap between the great search engines, can help to
solve these problems. The tools of second generation (client-side) have expanded the
concept so that they are able to explore the hipertextual nature of the Web. The term
"metasearchers" is coined to describe the programs able to identify through the network a
series of pertinent documents according certain strategy and following links from
previously defined websites or "seed sites". The characteristics and practical benefits of
main products available are discussed.
Introducción.
Aunque parece que el crecimiento explosivo de la Internet física (número de
ordenadores conectados a la red) se ha reducido hasta situarse "solo" en alrededor de un 31%
annual en 1998 [1], el ciberespacio, la Internet de los contenidos, y en especial aquellos
accesibles desde la World Wide Web están creciendo hasta volúmenes inusitados.
Las últimas estimaciones hablan de más de 400 millones de páginas Web [2], cifra a la
que se llegaría teniendo en cuenta el bajo solapamiento descrito entre los grandes motores de
búsqueda y el tamaño real de estos: Altavista superaría los 140 millones de páginas, Northern
Light rondaría los 120 millones, mientras que Hotbot también superaría la marca de los 100
millones con unos 110 aproximadamente. Infoseek y Google acercándose a los 60 y Lycos y
Excite por encima de los 30 completarían el escenario.
ByteSearch www.bytesearch.com
Chubba www.chubba.com
Cyber411 ww.cyber411.com
Debriefing www.debriefing.com
Dogpile www.dogpile.com
Highway 61 www.highway61.com
HotOIL www.dstc.edu.au/cgi-bin/RDU/hotOIL/hotOIL
Husky Search huskysearch.cs.washington.edu/huskysearch
Inference Find www.inference.com/ifind
Insane Search www.cosmix.com/motherload/insane
IntelliScope wizard.inso.com
Mamma www.mamma.com
MetaCrawler www.go2net.com
MetaFind www.metafind.com
MetaGopher www.metagopher.com
Ms. DaChanni www.mochanni.com/index.en.html
OnPoint www.cs.uchicago.edu/~cooper/onpoint
Profusion profusion.ittc.ukans.edu
Verio Metasearch search.verio.net
En muchos casos, los programas utilizan como semilla a uno o varios motores de
búsqueda, de forma que la estrategia sirve conjuntamente para la obtención de página que
sirvan como punto de partida como para evaluar (filtrar) los resultados a medida que se van
volcando. Ello implica que en algunos casos nos encontramos con programas mixtos
multibuscadores-volcadores (downloaders)-metabuscadores, una asociación que resulta
especialmente potente.
Metodología.
Con el fin de proceder a evaluar las capacidades y potencia de estos programas se ha
realizado un análisis comparativo de los siete programas (seis metabuscadores y un multi-
metabuscador) que hemos podido evaluar porque, en su momento, se encuentraban
disponibles bajo la formula “ shareware” que permite su utilización gratuita durante un periodo
limitado de tiempo. Aunque algunos de ellos trabajan bajo Windows 3.1, se recomienda
utilizarlos en entornos W9x o NT y con equipos holgados de potencia y memoria RAM.
que según los casos se ha completado con un amplio número de descriptores adicionales:
"european commission"; "v fp"; "dg xii"; "R&D"; "research and development"; "key
actions"
y se ha ejecutado con una profundidad máxima de 10 niveles y/o hasta 24 horas de exploración
y se han comparado los resultados. Se ha utilizado, cuando fue posible, como páginas “ semilla”
algunos de los principales motores de búsqueda, aunque no se ha hecho ningún esfuerzo por
homologarlos dada la diferente forma de tratarlos de cada programa.
Resultados.
Agentware Desktop
Este programa no se ha podido probar con la estrategia descrita puesto que ha dejado
de distribuirse independientemente y ya no hay posibilidad de utilizarlo para evaluación. No
obstante se ha valorado en el pasado y como pionero de este grupo de programas merece la
pena detenerse en algunas de sus características más relevantes.
Es un programa muy visual, que utiliza un gráfico de un perro para ilustrar los
diferentes procesos. La mascota es "entrenada" introduciendo los términos de la estrategia de
búsqueda en una pizarra. Al soltarla en el globo terráqueo de la web, inicia la exploración a
partir de diferentes sede dejando una "huella" de diferente color según la labor que realice.
Finalmente las sedes se ordenan de mayor a menor pertinencia, adjudicándoles un hueso de
diferente tamaño.
El programa generaba una "biblioteca" de recursos que podría llegar a tener un gran
tamaño, aunque en un formato propietario.
Señalar, por último, la capacidad del programa para explorar otras partes del
ciberespacio, además del web, lo que puede ser de interés en proyectos concretos.
DigOut4U
El programa visita y vuelca las sedes para realizar su evaluación. Ello le permite dar al
usuario la posibilidad de incluir unos extractos de los contenidos en la exportación de los
resultados que se realiza en formato html.
El programa filtra a priori los "hosts" de las paginas semilla, pero dado que muchos
buscadores construyen búsquedas complementarias sobre otros webs comerciales (amazon,
barnesandnoble, etc…) se recomienda identificar estas direcciones indeseadas e incorporarlas
al directorio de "hosts" prohibidas antes de lanzar la estrategia.
Tras 24 horas de trabajo (primera semana de febrero 1999) el programa identificó
32.717 sedes, de las que pudo analizar 22.780. Encontró que eran relevantes 9903 (%) de 661
hosts diferentes. El fichero generado ocupa más de 500 Megas, pero se puede consultar con
cierta facilidad y los resultados ofrecidos eran pertinentes.
Cybot
Macrobot
En teoría nos encontramos con uno de los programas mas potentes del grupo, puesto
que dispone de una potente opción de edición de macros. Aunque se pueden descargar
distintos "scripts" de su sede, el control de lo que puede hacerse no es ni fácil ni demasiado
potente. Por ello, se ha trabajado en formato automático, ya preconfigurado y que resulta
comparable al resto de los programas de la serie.
Como en algún otro programa de este grupo se puede configurar para recopilar
direcciones de correo electrónico con fines de "buzoneo" para marketing.
WebBandit
Diseñado originalmente con otros fines, puesto que es capaz de generar registros no
solo con datos generales de cada web, sino que recupera explícitamente direcciones postales y
correos electrónicos, este potente programa presenta importantes características.
Destacaremos, sobre todo, su capacidad para exportar tanto en formato html (con 3-4 líneas de
los contenidos de cada web) y Access (con un gran número de campo, incluidos los ya
indicados para uso en marketing).
SearchPad
Este programa se presenta en dos versiones ligeramente diferentes, que afectan sobre
todo al módulo de evaluación. Al contrario que en otros programas la valoración de pertinencia
se hace a posteriori, de forma que tienen que ser volcados los registros antes de clasificarlos.
Este segundo módulo es el que distingue ambas versiones, ya que AI se refiere a inteligencia
artificial.
WebWolf
De todos los programas probados este resulta el más sencillo, y aunque sus
prestaciones generales son similares a las del resto, apenas ofrece mecanismos adicionales de
automatización, filtrado o exportación. Esta carencia de opciones lo hace útil fundamentalmente
para estrategias no muy complejas con términos raros (poco frecuentes).
La estrategia única es lanzada contra una semilla definida por defecto, aunque se pude
forzar otra elección diferente. La semilla parece ser uno de los grandes motores, por lo que
también en este programa existe la posibilidad de excluir la visita de ciertas sedes según
dominios prohibidos, lo que indudablemente repercute en la velocidad de la búsqueda y en la
pertinencia final de los resultados.
Es posible definir una Biblioteca ("Library") de sedes prioritarias, que también se genera
automáticamente con las diferentes búsquedas. Siempre se pueden editar esto registros e
incluso restringir la navegación a sólo a las páginas de dichas sedes o a los enlaces emitidos
desde las mismas.
Los informes se producen como página html donde es posible navegar con una barra
alfabética. Además del nombre y url de la página seleccionada se indica la fuente o página
padre desde donde se ha alcanzado.
Señalar por último la existencia de un buscador que permite localizar textos en los
informes y genera un nuevo informe "filtrado", aunque solo de los términos que aparecen en los
títulos y URL.
Conclusiones.
Los programas probados han requerido para completar la prueba un volumen elevado
de recursos informáticos, habiendo colapsado con frecuencia el Pentium II a 350 Mhz y 64 Mb
de RAM utilizado a tal fin. Algunos de ello se han mostrado inestables o incluso incapaces para
manejar a posteriori los resultados obtenidos. Ello tiene que ser tenido en cuenta si lo que se
pretende es realizar una amplia indagación que pueda generar grandes muestras.
Por contrapartida, todos ellos han sido capaces de generar, dentro de sus diferentes
posibilidades, enormes cantidades de resultados. Muchas de las respuestas obtenidas poseen
un elevado nivel de pertinencia, incluso sin utilizar a fondo ni los mecanismos de filtrado ni de
los de aprendizaje que ofrecen algunos de ellos.
En general, los mejores metabuscadores están cualificados para una muy amplia gama
de trabajos documentales, aunque sería deseable la incorporación de características ausentes
o poco representadas en el grupo analizado. El bajo coste de la mayoría de ellos ofrecidos bajo
el modelo "shareware" les hace especialmente atractivos para tareas documentales de muy
diverso orden. Además, algunos permiten exportar directamente los registros a bases de datos,
aunque dicha opción ni es universal ni está adecuadamente implementada lo que limita
considerablemente su uso.
Bibliografía.
1. Lottor, Mark. "Network Wizards Internet Domain Survey. January 1999".
http://www.nw.com/zone/WWW/top.html (visitado el 15 de febrero de 1999)
2. Aguillo, I. F. "Searching the Web". http://www.cindoc.csic.es/cybermetrics/links08.html (visitado
el 15 de febrero de 1999).
3. Aguillo, I.F. "Herramientas de segunda generación". Anuario SOCADI 1998. Barcelona:
Sociedad Catalana de Documentalistas.