Pildora OCR 2
Pildora OCR 2
Pildora OCR 2
0 - Pldoras de formacin: OCR: tecnologa para el reconocimiento ptico de caracteres en una imagen abril 2011
Desarrollada en el marco de la iniciativa kultura 2.0, el Observatorio Vasco de la Cultura ha puesto en marcha la elaboracin y difusin de kultura 2.0. pldoras de formacin, cuyo objetivo es dar una respuesta concreta a demandas de las empresas y profesionales del sector de la cultura en la CAE.
Qu es el OCR?
El OCR (Optical Character Recognition) es una tecnologa que trata de emular la capacidad del ojo humano para reconocer objetos. Concretamente es un software que permite el reconocimiento ptico de los caracteres contenidos en una imagen (documento escaneado o fotografa), de forma que estos se vuelven comprensibles o reconocibles para un ordenador, obteniendo como resultado final un archivo en un formato de texto editable. El formato del archivo de salida (txt, pdf, etc.) depender de las posibilidades que ofrezca el software.
1 Unidad menor o elemento ms pequeo que forma parte de una imagen digital.
Archivo de preservacin
X
(texto impreso sin imgenes)
Archivo de difusin
X X X X X
X X X
Explotacin de los documentos 3. 4. El OCR permite convertir el texto de los documentos digitalizados a formatos editables. Aunque el OCR no es una herramienta para hacer los documentos accesibles para personas con discapacidades visuales, su aplicacin combinada con otras tecnologas permite que el texto resultante se sintetice en lneas de braille o archivos de audio.
Perspectiva econmica 5. 6. Ahorro de tiempo respecto a la insercin manual de datos (el OCR puede alcanzar una velocidad de lectura de hasta 1.200 caracteres por segundo). El almacenamiento en formato de texto puede suponer un ahorro de espacio respecto del almacenamiento como imagen (el archivo de texto necesita aproximadamente 1/3 del espacio que ocupa la imagen).
3.
Respecto al limitado nivel de efectividad del OCR, adems de la calidad o grado de desarrollo del propio software, existen factores extrnsecos asociados al estado fsico del documento original o a la calidad de la imagen digital, que pueden resultar determinantes en el resultado del proceso: Factores relativos al estado del documento original:
Deterioro de los documentos originales Letra borrosa o poco ntida Manchas o transparencias en el papel Letras fragmentadas o solapadas Tipografas extraas o fuera de uso Dimensiones del documento original (aunque no afecte directamente a la efectividad del OCR, las dimensiones del documento original por ejemplo peridicos, puede hacer que resulte complejo escanearlos en equipos convencionales)
Con carcter general, se establece una resolucin mnima de 300 ppp para que el reconocimiento de los caracteres sea efectivo, aunque dependiendo de las caractersticas del documento se aconseja una resolucin mnima superior. Tipo de documento
Textos con tipos de letra claros Tipos de letra pequea u originales de poca calidad (prensa)
Resolucin mnima
300 ppp 600 ppp
Qu otros temas sobre kultura 2.0 consideras podramos tratar en prximas pldoras de formacin? (concretar lo mejor posible) Envanos tus sugerencias al mail: [email protected]