Pildora OCR 2

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 4

KULTURA 2.

0 - Pldoras de formacin: OCR: tecnologa para el reconocimiento ptico de caracteres en una imagen abril 2011
Desarrollada en el marco de la iniciativa kultura 2.0, el Observatorio Vasco de la Cultura ha puesto en marcha la elaboracin y difusin de kultura 2.0. pldoras de formacin, cuyo objetivo es dar una respuesta concreta a demandas de las empresas y profesionales del sector de la cultura en la CAE.

Qu es el OCR?
El OCR (Optical Character Recognition) es una tecnologa que trata de emular la capacidad del ojo humano para reconocer objetos. Concretamente es un software que permite el reconocimiento ptico de los caracteres contenidos en una imagen (documento escaneado o fotografa), de forma que estos se vuelven comprensibles o reconocibles para un ordenador, obteniendo como resultado final un archivo en un formato de texto editable. El formato del archivo de salida (txt, pdf, etc.) depender de las posibilidades que ofrezca el software.

Cmo funciona el OCR?


Para reconocer los caracteres, el software inspecciona la imagen pixel1 a pixel, buscando formas que coincidan con los rasgos de los caracteres. En funcin del nivel de complejidad o grado de desarrollo del software, ste buscar coincidencias con los caracteres y fuentes disponibles en el programa, o tratar de identificar los caracteres a travs del anlisis de sus caractersticas, de forma que el reconocimiento de los mismos no se limite exclusivamente a un determinado nmero de fuentes. El OCR puede analizar los elementos del documento (bloques de texto, imgenes, tablas), examinando los espacios en blanco y descomponiendo el texto en lneas, palabras y caracteres, de forma que el programa puede formular distintas hiptesis y cotejarlas con los diccionarios contenidos por el mismo (actualmente los programas contienen diccionarios en distintos idiomas), para formar palabras y textos completos. Aunque actualmente el OCR puede llegar a mantener la estructura de los documentos originales en el archivo de salida, e incluso reconocer caracteres contenidos en documentos manuscritos, diagramas, partituras, etc., no hay que olvidar que su nivel de efectividad sigue siendo limitado, lo que hace necesaria una posterior revisin y correccin manual del texto generado. Actualmente existe en el mercado una amplia oferta de software OCR, cuyo nivel de sofisticacin y precio est directamente relacionado con su precisin y efectividad en el reconocimiento de caracteres.

1 Unidad menor o elemento ms pequeo que forma parte de una imagen digital.

Kulturaren Euskal Behatokia - Observatorio Vasco de la Cultura

Para qu se utiliza el OCR?


El OCR es una tecnologa transversal, aplicable en distintos mbitos y sectores para la digitalizacin de formularios, documentos administrativos, informes, etc., ya que las ventajas que ofrece son comunes para todos ellos. En el sector de la cultura, por ejemplo en el mbito de la preservacin del patrimonio, el OCR se aplica principalmente en los procesos de digitalizacin de documentos histricos, en soporte papel o microformas. La tipologa de documentos sobre los que se recomienda aplicar el OCR es diversa. Identificamos a continuacin algunas posibilidades extradas del documento Proceso de Digitalizacin en la Biblioteca Nacional de Espaa: Tipo de documento
Texto impreso

Archivo de preservacin
X
(texto impreso sin imgenes)

Archivo de difusin
X X X X X

Prensa Pginas mecanografiadas Panfletos Partituras impresas

X X X

Buenas prcticas PROYECTO IMPACT


A raz de los problemas detectados en los proyectos de digitalizacin surgidos alrededor de la iniciativa europea i2010, se ha puesto en marcha el proyecto IMPACT, en el que participan 11 bibliotecas nacionales y regionales, 13 entidades de investigacin y 2 empresas. Todas ellas comparten su conocimiento con el objetivo de desarrollar una tecnologa OCR que ayude a mejorar los procesos y resolver los problemas de los proyectos de digitalizacin masiva, facilitando la plena integracin de los contenidos digitalizados en las nuevas tecnologas de la informacin y comunicacin.

Qu ventajas puede tener la aplicacin del OCR?


Bsqueda y recuperacin de documentos 1. 2. La aplicacin del OCR permite realizar bsquedas de texto libre sobre la totalidad del documento. En el proceso de creacin de los metadatos, el OCR se puede utilizar para generar ndices de palabras clave del texto reconocido de forma automtica.

Explotacin de los documentos 3. 4. El OCR permite convertir el texto de los documentos digitalizados a formatos editables. Aunque el OCR no es una herramienta para hacer los documentos accesibles para personas con discapacidades visuales, su aplicacin combinada con otras tecnologas permite que el texto resultante se sintetice en lneas de braille o archivos de audio.

Kulturaren Euskal Behatokia - Observatorio Vasco de la Cultura

Perspectiva econmica 5. 6. Ahorro de tiempo respecto a la insercin manual de datos (el OCR puede alcanzar una velocidad de lectura de hasta 1.200 caracteres por segundo). El almacenamiento en formato de texto puede suponer un ahorro de espacio respecto del almacenamiento como imagen (el archivo de texto necesita aproximadamente 1/3 del espacio que ocupa la imagen).

Cules son los inconvenientes del OCR?


En el marco de la iniciativa i2010 promovida por la Comisin Europea, se han desarrollado numerosos proyectos de digitalizacin masiva que han puesto de manifiesto los siguientes problemas en relacin con el OCR: 1. 2. Carencia de conocimiento y expertos en las instituciones. Elevado coste de generar texto electrnico (no confundir con imagen digital) con todas sus funciones (este proceso puede realizarse tecleando el texto o a travs de OCR y posterior revisin y correccin del texto). Nivel de efectividad insatisfactorio del OCR en el reconocimiento de documentos histricos, anteriores al inicio de la edicin industrial de libros a mediados del siglo XIX.

3.

Respecto al limitado nivel de efectividad del OCR, adems de la calidad o grado de desarrollo del propio software, existen factores extrnsecos asociados al estado fsico del documento original o a la calidad de la imagen digital, que pueden resultar determinantes en el resultado del proceso: Factores relativos al estado del documento original:

Deterioro de los documentos originales Letra borrosa o poco ntida Manchas o transparencias en el papel Letras fragmentadas o solapadas Tipografas extraas o fuera de uso Dimensiones del documento original (aunque no afecte directamente a la efectividad del OCR, las dimensiones del documento original por ejemplo peridicos, puede hacer que resulte complejo escanearlos en equipos convencionales)

Factores relativos a la calidad de la imagen digital:


Baja resolucin de la imagen Incorrecta configuracin del escner

Recomendaciones tcnicas para la aplicacin del OCR


Las recomendaciones tcnicas que hacen las distintas instituciones implicadas en procesos de digitalizacin en relacin con el OCR se refieren principalmente a la resolucin mnima de la imagen escaneada ya que, como se ha citado, es un factor determinante para obtener un resultado satisfactorio: a mayor resolucin de escaneo mayor precisin del OCR.

Kulturaren Euskal Behatokia - Observatorio Vasco de la Cultura

Con carcter general, se establece una resolucin mnima de 300 ppp para que el reconocimiento de los caracteres sea efectivo, aunque dependiendo de las caractersticas del documento se aconseja una resolucin mnima superior. Tipo de documento
Textos con tipos de letra claros Tipos de letra pequea u originales de poca calidad (prensa)

Resolucin mnima
300 ppp 600 ppp

Qu otros temas sobre kultura 2.0 consideras podramos tratar en prximas pldoras de formacin? (concretar lo mejor posible) Envanos tus sugerencias al mail: [email protected]

 Puntos por pulgada.

Kulturaren Euskal Behatokia - Observatorio Vasco de la Cultura

También podría gustarte