Recuperación de La Información - Fuentes Documentales

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 40

UNIVERSIDAD PERUANA LOS

ANDES FAC ULTAD DE M EDIC INA


HUM ANA
UNIDAD CURRICULAR: REDACCIÓN
CIENTÍFICA
RECUPERACIÓN DE LA INFORMACIÓN:
FUENTES DOCUMENTALES
Dr. Gamarra Castillo Fabricio Paul

REDACCIÓN CIENTÍFICA - MH 0000-0002-0585-0974

REDACCIÓN CIENTÍFICA www.linkedin.com/in/fabricio-paul-

REDACCIÓN CIENTÍFICA gamarra-castillo-796331290


El entorno de la recuperación
de información
● Hoy la información puede representarse
digitalmente, almacenarse, y distribuirse
masivamente en forma simple y rápida, a
través de redes de computadoras. La
digitalización abrió nuevos horizontes en las
formas en que el hombre puede tratar con la
información que produce.
● El volumen de información disponible crece permanentemente y
adquiere diferentes formas de representación, desde simples
archivos de texto en una computadora personal o un periódico
electrónico, hasta librerías digitales y espacios mucho más
grandes y complejos como la web.

● En las ciencias de la computación existe un área, la


Recuperación de Información (Information Retrieval), que
estudia y propone soluciones al escenario presentado, al plantear
modelos, algoritmos y heurísticas.
El proceso de búsqueda y
recuperación implica una serie de
pasos a seguir para lograr dar
respuesta a las necesidades de
información, que se satisfagan.
Tener un método y seguir un
orden son cuestiones claves.
Si bien es un proceso que
constituye una pequeña parte de
lo que se incluye en los modelos
de Alfabetización Informacional,
es la parte inicial clave de todo
proceso de investigación
¿Qué se entiende concretamente por
«Recuperación de Información»

«la Recuperación de Información trata Una definición amplia que


plantea que el área de RI «es
con la un campo relacionado con la
representación, el almacenamiento, la estructura, análisis,
organización organización, almacenamiento,
y el acceso a ítems de información». búsqueda y recuperación de
información».
La recuperación de información es «el
conjunto de tareas mediante las cuales el También se define a RI como
usuario localiza y accede a los recursos «la localización y presentación
de información que son pertinentes para a un usuario de información
la resolución del problema planteado. En relevante a una necesidad de
estas tareas desempeñan un papel información expresada como
una pregunta».
fundamental los lenguajes documentales,
las técnicas de resumen, la descripción
del objeto documental, etc.»
La problemática de la RI

El primer caso tiene que ver con la


El problema de la RI puede ser construcción de estructuras de datos
estudiado desde dos puntos de y algoritmos eficientes que mejoren
vista: el computacional y el la calidad de las respuestas.
humano.

El segundo caso corresponde al


estudio del comportamiento y de las
necesidades de los usuarios.
Si se analiza el problema de la RI desde un alto nivel de
abstracción, se establece que:
– Existen usuarios con necesidades
de información,
quienes las plantean al SRI en forma
– Existe una colección de de una consulta
documentos que contienen (en inglés, query. En adelante,
información de interés (sobre ambas palabras se
uno o varios temas). utilizarán indistintamente).

– Como respuesta, el sistema retorna


de forma ideal referencias
a documentos «relevantes», es decir,
aquellos que satisfacen la necesidad
expresada,
generalmente en forma de una lista
rankeada.
– Rankeo de los documentos
– Representación lógica de los considerados relevantes para
documentos y opcionalmente formar el «conjunto solución»
Para cumplir con sus
almacenamiento del original. o respuesta.
Algunos sistemas solo almacenan objetivos, un SRI
porciones de los documentos y otros debe realizar
lo hacen de manera completa. algunas tareas básicas: -Retroalimentación o
refinamiento de las consultas
(para aumentar la calidad de
la respuesta).
– Representación de la
necesidad de
información del usuario – Evaluación de los
en forma de consulta. documentos respecto
de una consulta para
establecer la relevancia
de cada uno.
TÓPICOS
DE LA RI
MODELOS DE RECUPERACIÓN

La tarea de la recuperación puede ser


modelada desde distintos enfoques,
por ejemplo la estadística, el álgebra
de boole, el álgebra de vectores, la
lógica difusa, el procesamiento del
lenguaje natural y demás.
FILTRADO Y RUTEO

● Es un área que permite la definición de perfiles


de necesidades de información por parte de
usuarios y ante el ingreso de nuevos
documentos ciencias de la información.

● Recuperación de información: un área de


investigación en crecimiento al SRI, se los
analiza y se lo reenvía a quienes se estima que
van a ser relevantes.
● – Clasificación: Aquí se realiza la rotulación automática de documentos de un
corpus en base a clases previamente definidas.

● – Agrupamiento (Clustering): Es una tarea similar a la clasificación pero no


existen clases predefinidas. El proceso automáticamente determinará cuáles son
las particiones.

● – Sumarización: Área que entiende sobre técnicas de extracción de aquellas


partes (palabras, frases, oraciones, párrafos) que contienen la semántica que
determina la esencia de un documento.

● – Detección de novedades (Novelty Detection): Se basa en la determinación de la


introducción de nuevos tópicos o temas a un SRI.
● – Respuestas a Preguntas (Question Answering): Consiste en hallar aquellas porciones
de texto de un documento que satisfacen expresamente a una consulta, es decir, la
respuesta concreta a una pregunta dada.

● – Extracción de Información: Extraer aquellas porciones de texto con una alta carga
semántica y establecer relaciones entre los términos o pasajes
extraídos.
● – Recuperación cross-language: Hallar documentos escritos en cualquier lenguaje que
son relevantes a una consulta expresada en otro lenguaje (búsqueda multilingual).
● – Recuperación de Información Multimedia: Más allá de que los SRI tradicionales
operan sobre corpus de documentos textuales, la recuperación de información tiene que
tratar con otras formas alternativas de representación como imágenes, registro de
conversaciones y video.
¿RECUPERACIÓN DE
INFORMACIÓN O
RECUPERACIÓN DE
DATOS?
Muchos usuarios se encuentran familiarizados con el concepto de
recuperación de datos (RD), especialmente aquellos que a menudo
interactúan con sistemas de consulta en bases de datos relacionales o en
registros de alguna naturaleza, como por ejemplo, un registro de los
empleados deuna organización. Sin embargo, hay diferencias significativas
en los conceptos que definen que el tratamiento de las unidades (datos o
información) en cada caso sean completamente diferentes.

Existen diferencias sustanciales en cuanto a los objetos con


que se trata y su representación, la especificación de las
consultas y los resultados.
En el área de RD
Los objetos que se tratan son estructuras de datos Cada elemento (atributo)
conocidas. Su representación se basa en un tiene un dominio conocido
formato previo definido y con un significado y su semántica está
implícito (hay una sintaxis y semántica no claramente establecida.
ambigua) para cada elemento.

En el área de RI
La unidad u objeto de tratamiento es
básicamente un documento de texto
en general sin estructura.
Etapas del
proceso de
búsqueda y
recuperación
de la
Información
1 - Definir la necesidad de
información
1. En primer 2. Luego identificar
lugar necesidadlade información.
saber hay
cuáles que
son
los Determinar sus
recursos con los que se características. ¿Qué
cuenta, el tiempo del que información necesitamos?.
dispone.
4. Resulta conveniente
consultar enciclopedias
diccionarios,
3. En el caso de los estudiantes y
algunos libros generales. Como así
analizar las guías de los alumnos,
también a los expertos, profesores,
programas de asignaturas, etc
etc.
Criterios de búsqueda
02 03 04 05
01

Señalar cualquier
relación del tema
Destacar los Delimitación de la Periodo que debe
Temática de la con otros campos
aspectos en los que profundidad del cubrir la
búsqueda científicos que
se esté tema.
ayude a
búsqueda. Si esta
particularmente
diferenciarlo y a debe ser corriente
interesado y aquellos
evitarconfusiones. o retrospectiva
otros que deben ser
Definir eltema
excluidos.
general,
lossubtemas, los
temasrelacionados
y los equivalentes.
Criterios de búsqueda
06 07 08 09

Idioma o La El nivel científico: Tipo de documento


lengua si se desean deseado (alcance
cobertura
deseada artículos de tipológico):Publicacion
geográfica
investigación, de es periódicas,
monografías, artículos
divulgación o
de tesis, etc. También
ambos
tener en cuenta los
diferentes soportes de
información.
2 - Selección y ordenación de las fuentes que se van a

consultar
•La primera pregunta que uno debe hacerse en esta etapa es ¿Qué fuentes de
información utilizaré?
--Es decir, Identificar el tipo de fuentes apropiadas en función de la necesidad de
información (Catálogos de bibliotecas, bibliografías, bases de datos, portales
especializados, etc.) Físicas y digitales. Considerando los diversos ambientes
informativos Bibliotecas, Internet....
1. Diseñar los itinerarios de
•Implica conocimiento de las fuentes. búsquedafuentes de
2.Buscar información
Variedad. en diferentes entornos.
Características.
A).Bibliotecas y centros de
Tipo de información que contienen.
Contenido y organización. documentación B).Internet como recurso
Complementariedad de las fuentes 3.Priorizar las fuentes de información
2 - Selección y ordenación de las fuentes
que se van a consultar.
Para seleccionar los instrumentos que vamos a utilizar para realizar la búsqueda
bibliográfica nos debemos basar en los
siguientes criterios:
» Cobertura temática: medicina, ciencias básicas, ciencias de la
salud, etc
» Cobertura geográfica: nacional, internacional,
latinoamericana, anglosajona, etc..
» Idioma que utiliza: es importante a la hora de introducir
los términos en un idioma determinado.
» Cobertura idiomática
» Cobertura retrospectiva: nº de años que abarca.
» Existencia o no de vocabulario controlado: sobre todo
cuando se requieren búsquedas precisas por la fiabilidad y
detalle de la indización.
» Conocimiento del programa de interrogación: un buen conocimiento
permitirá realizar una ecuación de búsqueda aplicable al sistema.
» Posibilidad de acceder al documento primario: el sistema permite el acceso
libre al documento primario, envio por e-mail con un coste predeterminado
o no nos permite ningún acceso al documento.
» Disponibilidad y accesibilidad de las bases de datos
» Datos que proporcionan los registros bibliográficos: autores, dirección de
trabajo, resumen, título de la publicación, lugar de publicación, etc.
3 - Planificación de la estrategia de
búsqueda

Una vez definidanuestra necesidad deinformación


y conocidaslas posibilidades quenos ofrecen las
fuentes de información seleccionadas el siguiente
paso es diseñar una estrategia de búsqueda.

Y traducir los conceptos a los términos del


sistema (lenguaje controlado de catálogos en
línea, bases de datos, etc. o lenguaje natural en
buscadores, etc.).
Fases de la Estrategia de
Búsqueda:
1.Definir en una o varias frases cortas el tema sobre el que se
desea obtener información. Comenzar escribiendo una frase
que resuma lo que se quiere buscar.

2.Identificar los conceptos más significativos eliminando


aquellos que tengan un contenido vago o impreciso o que
representen aspectos secundarios y poco importantes. ¿Cuales
Sinónimos y palabras relacionadas hay? ¿Qué términos
representan con mayor exactitud el tema?
4 - Selección y obtención de documentos

que respondan a las necesidades


manifestadas por el usuario
Seguidamente se procede a evaluar los resultados.
¿Qué he encontrado de lo que buscaba? Analizar y
valorar los resultados de la búsqueda. Obtener la
información más útil o relevante en función de la
necesidad de información y el nivel requerido. Aplicar
criterios de valoración.
Se procede a la organización de la información válida
para la resolución de la demanda eliminando la
superflua, etc.
5 - Evaluación del proceso
TÁCTICAS
-Anticipar: es la búsqueda preliminar que permite conocer si la búsqueda que se emprenderá ya
ha sido realizada o ha sido plasmada en alguna fuente como bibliografías. Aquí se pueden utilizar
las fuentes terciarias como bibliografías de bibliografías, catálogos de bibliotecas.
-Enfocar: se relaciona con volver la búsqueda al cauce de las premisas iniciales porque se ha
perdido el rumbo o no se ha delimitado con precisión el tema.
-Corregir:con esta acción se pueden reemplazar términos, revisar la ortografía o la puntuación,
los operadores, delimitadores, seleccionar otras fuentes de información, etc.
-Comprobar: contrastar cada paso de la búsqueda implica reforzar el camino realizado, que en
caso de alguna falla, evitará desandar la totalidad del recorrido.
-Registrar: anotar los pasos y los resultados correspondientes sin importar que éstos hayan sido
exitosos o no.
El proceso ideal de búsqueda y recuperación es aquel en el cual
el silencio y el ruido son nulos o iguales a cero. Se tratan de
dos situaciones negativas que se producen en los resultados de
la búsqueda es decir en la recuperación de información.
INTERACCIÓN
DEL USUARIO
CON EL SRI
La tarea de recuperar información puede ser planteada de diversas formas, de acuerdo a
cómo el usuario interactúa con el sistema o bien qué facilidades éste le brinda.

a) Búsqueda (propiamente dicha) o


recuperación «ad-hoc», el usuario
1) Recuperación inmediata: formula una consulta en un lenguaje y el
El usuario plantea su necesidad de sistema la evalúa y responde.
información y a continuación obtiene
referencias a los documentos que el
sistema evalúa como relevantes.
Existen dos modalidades:
b) Navegación o browsing: En este caso, el
usuario utiliza un enfoque diferente al anterior.
El sistema ofrece una interface con temas
donde el usuario «navega» por dicha estructura
y obtiene referencias a documentos a
relacionados.
2) Recuperación diferida:
El usuario especifica sus necesidades y el
sistema entregará de forma continua los
nuevos documentos que le lleguen y
concuerden con esta. Esta modalidad recibe En esta modalidad la consulta es
el nombre de filtrado y ruteo y la necesidad relativamente estática (corresponde al
del usuario generalmente define un «perfil» profile) y el usuario tiene un rol
pasivo. El dinamismo está dado por la
(profile) de los documentos buscados.
aparición de nuevos documentos y es
Nótese que un «perfil» es de alguna forma
lo que determina más resultados para
un query y puede ser tratado como tal. Cada el usuario.
vez que un nuevo documento arriba al
sistema se
compara con el perfil y – si es relevante –
se envía al usuario.
¡Muchas
gracias!

También podría gustarte