Curso de Indexação - Ufmg
Curso de Indexação - Ufmg
Curso de Indexação - Ufmg
CURSO DE INDEXAO
Princpios e tcnicas de indexao, com vistas
recuperao da informao
Belo Horizonte
2004
Sumrio
1 A RECUPERAO DA INFORMAO E SISTEMAS DE
RECUPERAO DA INFORMAO............................................................2
2 O INDEXADOR.............................................................................................3
3 O PROCESSO DE INDEXAO..................................................................3
3.1 Anlise de assunto........................................................................................5
3.1.1 A leitura do texto pelo indexador..............................................................5
3.1.2 Extrao de conceitos................................................................................6
3.1.3 Determinao da atinncia........................................................................9
3.2 Traduo da frase de indexao para linguagens de indexao...................9
3.3 Linguagens de indexao...........................................................................10
3.3.1Objetivos..................................................................................................11
3.3.2 Funes...................................................................................................11
3.3.3 Construo de linguagens de indexao.................................................11
3.3.4 Componentes da linguagem de indexao..............................................12
3.3.4.1 Vocabulrio..........................................................................................12
3.3.4.2 Sintaxe..................................................................................................13
3.3.5 Linguagens verbais..................................................................................14
3.3.6 Linguagens simblicas............................................................................14
3.3.6.1 Sistemas de classificao.....................................................................14
3.3.6.2 Como classificar...................................................................................15
3.3.7 Linguagens pr-coordenadas...................................................................15
3.3.7.1 Caractersticas da pr-coordenao......................................................16
3.3.7.2 Vantagens.............................................................................................16
3.3.7.3 Desvantagens........................................................................................16
3.3.7.4 Ordem de citao..................................................................................17
3.3.8 Linguagens ps-coordenadas................................................................. 18
3.3.8.1 Caractersticas da ps-coordenao.....................................................18
3.3.8.2 Vantagens............................................................................................19
3.3.8.3 Desvantagens.......................................................................................19
3.3.9 Avaliao das linguagens de indexao.................................................19
3.4 Consistncia da indexao.........................................................................20
3.5 Indexao automtica versus automatizada...............................................21
Referncias......................................................................................................22
Diante disso, o que poderia ser afirmado com relao leitura para fins documentrios?
Existe algum modelo a ser seguido? E com relao ao leitor/indexador?
Um documento, inserido num SRI, antes de ser lido pelo leitor, usurio final do sistema,
lido por um leitor tcnico, o indexador, aquele que faz a leitura para fins documentrios.
Esse tipo de leitura, conhecido como leitura documentria ou leitura tcnica, tem certas
caractersticas, no sendo realizada para lazer ou aprendizagem, nem prazerosa, muito
pelo contrrio. O alto grau de incerteza , ansiedade e responsabilidade contido na atividade
j mostra que a mesma traz pouca satisfao. um tipo de leitura bem racional e rpido,
em que o leitor tcnico no tem chances de aproveitar a leitura, j que seu propsito o de
extrair o contedo informativo do texto, tendo em vista a sua posterior recuperao por um
leitor interessado.
Outro aspecto que merece ser ressaltado que o autor do texto, ao escrev-lo, tem em
mente um determinado leitor alvo para o qual direciona suas idias; suas intenes no so
dirigidas para o leitor/indexador e no lhe interessa se esse vai ter capacidade para
interpretar as informaes que aquele texto est veiculando.
So vrias as tentativas de se estabelecerem alguns critrios e de sistematizar o processo de
leitura do indexador, mas no h um consenso quanto forma mais adequada de se fazer
essa leitura, visando extrao e ao posterior tratamento das informaes contidas no texto.
3.1.2
Extrao de conceitos
b) Relao hierrquica
Gnero/espcie
Quase genrica: (Gato X Animal de estimao)
Verdadeiramente genrica: (Gato X Mamfero)
10
3.1.3
Determinao da atinncia
Terminada a fase de extrao de conceitos, necessrio que se faa uma seleo daqueles
que realmente sintetizem o assunto do texto, partindo-se, assim, para a terceira fase do
processo de anlise de assunto, que a determinao da chamada atinncia, termo
traduzido do ingls aboutness.(outras tradues: concernncia, sobrecidade, temacidade)
Nesta fase da determinao da atinncia para representar os conceitos extrados do texto,
inicia-se um processo lingstico e o problema de descrever documentos para recuperao
, principalmente, o problema de como a linguagem usada. H uma forte relao entre a
atinncia do documento e seu(s) significado(s) identificado(s) pelos indivduos. Um texto
tem uma atinncia relativamente permanente, mas um nmero variado de significados.
O produto final da atinncia uma frase de indexao, elaborada pelo indexador em
linguagem natural. Aps todo o processo intelectual de leitura do texto, de extrao e
seleo de conceitos, o momento em que ele afirma: Este documento trata de..........
Das etapas de indexao, a anlise de assunto a que sofre mais influncia da subjetividade
do indexador, sendo, por isso, considerada muito complexa. Por todos os aspectos
considerados neste item, pode-se concluir que essa no uma atividade possvel de ser
ensinada, no havendo uma receita, ou uma rotina a ser seguida no desenvolvimento da
mesma.
Tentativas de automatizar a anlise de assunto j vm sendo implementadas em pesquisas
de cursos de ps-graduao, mas pode-se verificar que, por enquanto, o limite da mquina
ainda a capacidade humana de percepo e abstrao.
3.2 Traduo da frase de indexao para linguagens de indexao
Quando termina a primeira etapa da indexao, com o(s) assunto(s) j definidos em
linguagem natural, chega o momento de inseri-lo(s) no SRI. Para isso, feita a traduo da
frase de indexao para os termos da linguagem de indexao, o que significa transformar
os conceitos selecionados em termos ou smbolos autorizados para represent-los no
sistema.
11
12
vocabulrio controlado, para o qual foram tomadas decises cuidadosas sobre os termos a
serem usados, o significado de cada um, e os relacionamentos que apresentam.
Uma linguagem de indexao deve procurar indicar os relacionamentos entre os termos no
seu vocabulrio. Por exemplo, se um sistema inclui os termos ENSINO MDIO e
ESCOLAS PROFISSIONALIZANTES, pode-se indicar a relao entre esses dois termos,
pois um usurio, procurando informao sobre ensino mdio, poder encontrar documentos
relevantes sob o termo escolas profissionalizantes que, usualmente, se ocupam tambm do
ensino mdio. Uma linguagem de indexao que tem um vocabulrio controlado e que tenta
indicar as relaes entre os termos no seu vocabulrio chamada estruturada.
3.3.1 Objetivos:
-
permitir ao usurio moldar a estratgia de busca de forma a obter alta revocao ou alta
preciso, conforme o exigirem as circunstncias.
13
14
dos textos, pelos indexadores, e pelos usurios ao consultar o ndice. Por exemplo, o
vocabulrio do sistema usa o termo TESTE DE INTELIGNCIA.
Porm, o assunto pode ser procurado por:
TESTES MENTAIS termo sinnimo
TESTES PSICOLGICOS termo mais geral (abrangente)
TESDE DE APTIDO termo mais especifico
DESENVOLVIMENTO MENTAL termo relacionado
Estes termos constituem o vocabulrio de abordagem.
3.3.4.2 Sintaxe o conjunto de artifcios empregados para revelar as relaes entre os
conceitos e as regras para estabelecer os descritores e determinar a ordem em que devem
ser citados. Ocorrem da necessidade de se poder recuperar a interseo entre duas ou mais
classes de conceitos, e o reconhecimento das relaes entre os conceitos (item 3.1.2)
produto de uma anlise de assunto cuidadosa, que bsica para todas as linguagens de
indexao estruturadas.
So evidenciadas, as relaes semnticas (ou de significado) e as relaes sintticas que
existem entre os termos indexadores.
As relaes semnticas devem ser controladas ou mostradas nas linguagens de indexao
com o objetivo de se indicarem os termos alternativos ou substitutivos de indexao e
busca. As relaes semnticas podem ser de 3 tipos : equivalncia, hierrquicas e
associativas. Dependendo da estrutura da linguagem de indexao (verbal ou simblica), o
estabelecimento das relaes semnticas pode ser mais complexo ou mais simples,
utilizadas em tesauros e listas de cabealhos de assuntos)
Relaes de equivalncia (ver, see, use, x) UP (usado para = Used For - UF)
Relaes associativas (ver tambm, see also, xx) TR (Termo Relacionado = Related
Term - RT)
15
16
Se dividem em:
a) de acordo com a apresentao dos assuntos: enumerativos - procuram indicar todos os
assuntos e todas as combinaes possveis entre eles e apresentar os smbolos que os
representam prontos para ser usados. Ex: .Classificao Decimal de Dewey (CDD); e os
analtico-sintticos ou facetados - apresentam listas de assuntos facetas
acompanhados de smbolos e deixam ao classificador a tarefa de combinar os smbolos
para apresentar os assuntos compostos. Ex: Colon Classification (Classificao de Dois
Pontos) e Bliss Classification.
b) de acordo com a abrangncia: gerais todas as classes do conhecimento. Ex:
Dewey, CDU, Colon, LC; e especiais - classes especiais de assunto Ex: Coates (Msica)
Elementos de um sistema de classificao:
1) Apresentao ou introduo Origem e evoluo do sistema. Atualizao. Ordem de
citao. Ordem de arquivamento. Instrues para a construo de nmeros de
classificao.
2) Tabelas
Auxiliares, classe geral, assuntos
3) Notao
4) ndice alfabtico
3.3.6.2 Como classificar
Ranganathan enfatizou que h trs estgios diferentes na indexao, e denominou-os de
Plano Idia (anlise de assunto em nossas prprias palavras; deciso sobre a classe
principal apropriada; deciso sobre a ordem de citao para a classe; re-arranjo da anlise
de assunto na ordem apropriada), Plano Verbal (exame do ndice e das tabelas do esquema
para encontrar os conceitos necessrios) e Plano Notacional (construo da notao para os
conceitos, de acordo com as regras estabelecidas).
Em todo SRI, necessrio o controle de terminologia para assegurar a coincidncia das
perguntas e respostas, fazendo com que determinado assunto pesquisado seja recuperado.
17
Este controle pode ser feito atravs de coordenao de conceitos no ato da indexao ou no
momento da recuperao. So as chamadas linguagens pr e ps coordenadas.
3.3.7 Linguagens pr-coordenadas
Os sistemas pr-coordenados estabelecem a coordenao dos vrios tpicos referentes a um
assunto composto no momento da indexao, e, com grande subjetividade, determinam
uma prioridade na citao desses elementos. Essa ordem determinada a partir da
importncia que os conceitos representam para os usurios.
3.3.7.1 Caractersticas da pr-coordenao:
-
autonomia do indexador;
3.3.7.2 Vantagens:
-
um nico lugar para um assunto composto: prover apenas um lugar inequvoco para
qualquer assunto composto;
mais precisa.
18
3.3.7.3 Desvantagens:
-
ordem fixa: os termos somente podem ser listados numa determinada seqncia;
o assunto depois do lugar (com a preposio de): Montanhas do Brasil, seria BrasilMontanhas
Opes de ordem de citao so dadas por tericos da rea, como Kaiser (1911) o
concreto, depois o processo Indexao de livros, seria Livros - Indexao; por Coates
(1960) Coisa Parte Material Ao. Uma das opes, a utilizao das Cinco
19
flexibilidade na busca: os termos podem ser combinados entre si, de qualquer forma, no
momento da busca;
20
pesos iguais para os termos: todo termo atribudo a um documento tem peso igual,
nenhum sendo mais importante que o outro.
3.3.8.2 Vantagens:
-
3.3.8.3 Desvantagens:
-
A criao de uma linguagem de indexao nova um processo lento, caro e que exige
recursos humanos qualitativa e quantitativamente preparados e disponveis para isso, , e
a adaptao de uma linguagem j existente pode ser racional, eficiente e mais barata;
21
Nesse contexto, surgem dois conceitos que possibilitam tambm a avaliao de uma LI: a
revocao e a preciso. Revocao o coeficiente entre o nmero de documentos inseridos
no sistema versus o nmero de documentos relevantes recuperados pelo usurio, e a
preciso o coeficiente entre o nmero de documentos inseridos no sistema e a preciso da
busca. Ex. Para a busca de documentos sobre Escultura, se o termo de busca for Artes,
haver alta revocao e baixa preciso, pois sero recuperados documentos que falam de
escultura, mas no s sobre este assunto. Ao passo que, se a busca for feita pelo prprio
termo Escultura, a revocao ser baixa e haver uma alta preciso, pois s sero
recuperados documentos sobre Escultura.
Pesquisas mostram que um maior grau de especificidade eleva a taxa de preciso e baixa a
de revocao; ao contrrio, um aumento de exaustividade, eleva a taxa de revocao,
baixando a de preciso.
3.4 Consistncia da indexao
Um aspecto importante a ser considerado a consistncia da indexao, que tambm ser
muito afetada pela qualidade da linguagem adotada. O estabelecimento da linguagem de
indexao dever ser feito tendo em vista a sua adequao ao sistema a que ir servir. Um
fator importante a qualidade de atualizao dessas linguagens, com a incluso dos novos
termos que surgem nos diversos campos das cincias, adequando-se as linguagens
controladas s terminologias dessas reas.
A consistncia da indexao est ligada a dois elementos bsicos: ao desempenho do
indexador e qualidade dos instrumentos de indexao. importante que essa consistncia
22
23
REFERNCIAS
BEGHTOL, Clare. Bibliographic classification theory and text linguistics: aboutness,
intertextuality and the cognitive act of classifying documents. Journal of Documentatin,
v.42, n.2, p.84-113, Jun.1986.
CESARINO, Maria Augusta N., PINTO, Maria Cristina M.F. Anlise de assunto. Revista
de Biblioteconomia de Braslia, v.8, n.11, p.33-43, 1980.
DAHLBERG, Ingetraut. Teoria do conceito. Cincia da Informao, v.7, n.2, p.101-107,
1978.
FOSKETT, A C. The subject approach to information. 5.ed. London: C.Bingley, 1996.
FROHMANN, B. Rules of indexing: a critique of mentalism in information retrieval
theory. Journal of Documentation, v.46, n.2, p.81-101, Jun.1990.
LANCASTER, F.W. Indexao e resumos: teoria e prtica. Braslia: Briquet de
Lemos/Livros, 1993
NAVES, Madalena M. L. Fatores interferentes no processo de anlise de assunto: estudo
de caso de indexadores. Belo Horizonte: ECI/UFMG, 2000. (Tese, doutorado em Cincia
da Informao)
PINTO MOLINA, Maria. Interdisciplinarly approaches to the concept and practice of
Written Documentary Content Analysis (WTDCA). Journal of Documentation, v.50, n.2,
p.111-1333, Jun.1994.
RAMSDEN, M.J.An introduction to index language construction: a programmed text.
London: C.Bingley, 1974. (Trad. e adap. de Maria Cristina M.F.Pinto)