Tesseract OCR

Tesseract
Información general
Tipo de programa	biblioteca de software
Información técnica
Programado en	C++
Versiones
Última versión estable	5.3.418 de enero de 2024
Última versión en pruebas	Ninguna ()
Archivos legibles
	TIFF; Portable Network Graphics; JFIF; JP2; WebP;
Archivos editables
	hOCR; documento de texto; PDF; ALTO; tab-separated values;
Enlaces
	Sitio web oficial Repositorio de código
	[editar datos en Wikidata]

Tesseract es un motor de reconocimiento óptico de caracteres para varios sistemas operativos.^[1] Es software libre, liberado bajo la licencia Apache, Versión 2.0^[2] y su desarrollo es financiado por Google desde el 2006.^[3]

Tesseract fue considerado en 2006 como uno de los motores de OCR de código abierto más precisos disponibles.^[4]

Historia[editar]

Tesseract se desarrolló originalmente como programa de licencia privativa en los laboratorios de Hewlett-Packard en Brístol (Inglaterra) y Greeley (Colorado) entre 1985 y 1994. En 1996 se realizaron las modificaciones necesarias para portarlo a Windows y, más tarde, en 1998, se migró el sistema de C a C++. Tras diez años sin ningún desarrollo, fue liberado como código abierto en el año 2005 por Hewlett-Packard y la Universidad de Nevada, Las Vegas.

Características[editar]

En 1995, Tesseract era uno de los tres mejores motores OCR en cuanto a precisión, además está disponible para Linux, Windows y Mac OS X, sin embargo, sólo ha sido probado por los desarrolladores en Windows y Ubuntu. Hasta la versión 2, Tesseract sólo podía aceptar como entrada imágenes de una sola columna en formato TIFF. En estas primeras versiones no se incluía análisis de patrones, y por tanto, las imágenes con múltiples columnas o anotaciones producían resultados ilegibles. Desde la versión 3, Tesseract soporta el formato en el texto y el análisis del patrón de la página. A través de la biblioteca Leptonica, se consigue la compatibilidad con nuevos formatos de imagen, además, se puede detectar si el texto proporcional o monoespaciado. Tesseract puede procesar inglés, francés, italiano, alemán, español, portugués brasileño y neerlandés, y puede ser entrenado para funcionar con otros idiomas.

Versión 4[editar]

La versión 4 añade el motor de OCR basado en LSTM y modelos para muchos lenguajes y scripts adicionales, llevando el total a 116 idiomas.^[5] Además, se admiten scripts para 37 idiomas, por lo que es posible reconocer un idioma utilizando el script en el que está escrito.

Intefaces de usuario[editar]

Tesseract se ejecuta desde una interfaz de línea de comandos.^[6] Aunque Tesseract no se distribuye con una interfaz gráfica, hay varios proyectos independientes que le proporcionan una.^[7] Ejemplos conocidos son VietOCR^[8] y OCRFeeder.^[9]

Referencias[editar]

↑ «Tesseract: an Open-Source Optical Character Recognition Engine | Linux Journal». www.linuxjournal.com. Consultado el 8 de diciembre de 2019.
↑ Tesseract OCR, tesseract-ocr, 7 de diciembre de 2019, consultado el 8 de diciembre de 2019 .
↑ «Announcing Tesseract OCR». The official Google Code blog. 30 de agosto de 2006. Consultado el 8 de diciembre de 2019.
↑ «OCR - Community Help Wiki». help.ubuntu.com. Consultado el 8 de diciembre de 2019.
↑ TESSERACT(1) Manual Page, 25 de noviembre de 2019, consultado el 25 de noviembre de 2019 .
↑ «Tesseract OCR». GitHub (en inglés). Consultado el 25 de noviembre de 2019.
↑ User Projects – 3rdParty, tesseract-ocr, 25 de noviembre de 2019, consultado el 25 de noviembre de 2019 .
↑ «VietOCR». SourceForge (en inglés). Consultado el 25 de noviembre de 2019.
↑ «OCRFeeder». wiki.gnome.org. Consultado el 25 de noviembre de 2019.

Enlaces externos[editar]

Tesseract OCR Página del proyecto

Datos: Q945242
Multimedia: Tesseract (software) / Q945242

[1] «Tesseract: an Open-Source Optical Character Recognition Engine | Linux Journal». www.linuxjournal.com. Consultado el 8 de diciembre de 2019.

[2] Tesseract OCR, tesseract-ocr, 7 de diciembre de 2019, consultado el 8 de diciembre de 2019 .

[3] «Announcing Tesseract OCR». The official Google Code blog. 30 de agosto de 2006. Consultado el 8 de diciembre de 2019.

[4] «OCR - Community Help Wiki». help.ubuntu.com. Consultado el 8 de diciembre de 2019.

[5] TESSERACT(1) Manual Page, 25 de noviembre de 2019, consultado el 25 de noviembre de 2019 .

[6] «Tesseract OCR». GitHub (en inglés). Consultado el 25 de noviembre de 2019.

[7] User Projects – 3rdParty, tesseract-ocr, 25 de noviembre de 2019, consultado el 25 de noviembre de 2019 .

[8] «VietOCR». SourceForge (en inglés). Consultado el 25 de noviembre de 2019.

[9] «OCRFeeder». wiki.gnome.org. Consultado el 25 de noviembre de 2019.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]