🚀 Big News: Socket Acquires Coana to Bring Reachability Analysis to Every Appsec Team.Learn more →

Book a Demo Install Sign in

simply-ocr

Package Overview

Advanced tools

Install Socket

Detect and block malicious and high-risk dependencies

Install

simply-ocr

Read text from images

1.0.1

PyPI

Maintainers: 1

Simply-ocr 1.0.1

By Jeroben Guzmán

For text extraction from images on a simple way / Para extraer texto de imagenes de forma sencilla

💡 Prerequisites

Python 3

🚀 Features

Preprocesamiento avanzado: binarización, eliminación de ruido, ajuste de contraste, redimensionado, selección de región (ROI).
Soporte multilenguaje y detección de idiomas instalados.
Extracción de texto estructurado (texto y bounding boxes).
Guardado de texto extraído a archivo.
Visualización de la imagen preprocesada para debugging.

📦 Instalación de dependencias

Asegúrate de tener instalados:

opencv-python
scikit-image
pytesseract
matplotlib

Puedes instalar todo con:

pip install opencv-python scikit-image pytesseract matplotlib

📚 Ejemplos

from simply_ocr import (
    read_image_en, read_image_es, get_available_languages,
    save_text_to_file, show_preprocessed_image
)

# Extraer texto en inglés o español
read_image_en('test.jpg')
read_image_es('test.jpg')

# Extraer texto de una región específica y mostrar la imagen preprocesada
roi = (100, 200, 300, 100)  # x, y, w, h
texto = read_image_en('test.jpg', preprocess_opts={'roi': roi, 'binarize': True, 'remove_noise': True})
show_preprocessed_image('test.jpg', preprocess_opts={'roi': roi})

# Guardar el texto extraído en un archivo
if texto:
    save_text_to_file(texto, 'salida.txt')

# Consultar los idiomas disponibles en tu instalación de Tesseract
print(get_available_languages())

🧩 Casos de uso

1. Digitalización de documentos escaneados

Extrae texto de facturas, recibos, contratos o cualquier documento escaneado para su almacenamiento o análisis automatizado.

texto = read_image_es('factura.png')
print(texto)

2. Procesamiento de imágenes de cámaras o móviles

Ideal para extraer texto de fotos tomadas con el móvil, por ejemplo, carteles, pizarras o notas manuscritas.

texto = read_image_es('foto_pizarra.jpg', preprocess_opts={'binarize': True, 'remove_noise': True})

3. OCR en regiones específicas (ROI)

Extrae texto solo de una parte de la imagen, útil para formularios o layouts fijos.

roi = (50, 100, 200, 50)  # x, y, w, h
texto = read_image_es('formulario.png', preprocess_opts={'roi': roi})

4. Automatización de flujos de trabajo

Guarda automáticamente el texto extraído para su posterior procesamiento o integración con otros sistemas.

texto = read_image_es('ticket.jpg')
if texto:
    save_text_to_file(texto, 'ticket.txt')

5. Visualización y ajuste de preprocesamiento

Ajusta parámetros y visualiza el resultado para mejorar la precisión del OCR.

show_preprocessed_image('documento.jpg', preprocess_opts={'contrast': 1.5, 'binarize': True})

📝 Notas

Puedes personalizar el preprocesamiento usando el parámetro preprocess_opts en las funciones.
Para usar la visualización, asegúrate de tener matplotlib instalado.
El OCR funciona mejor con imágenes nítidas y bien contrastadas.

FAQs

What is simply-ocr?

Is simply-ocr well maintained?

Did you know?

Socket for GitHub automatically highlights issues in each pull request and monitors the health of all your open source dependencies. Discover the contents of your packages and block harmful activity before you install or update your dependencies.

Install

simply-ocr

Simply-ocr 1.0.1

💡 Prerequisites

🚀 Features

📦 Instalación de dependencias

📚 Ejemplos

🧩 Casos de uso

1. Digitalización de documentos escaneados

2. Procesamiento de imágenes de cámaras o móviles

3. OCR en regiones específicas (ROI)

4. Automatización de flujos de trabajo

5. Visualización y ajuste de preprocesamiento

📝 Notas

Related posts

Node.js Homepage Adds Paid Support Link, Prompting Contributor Pushback

Another Wave: North Korean Contagious Interview Campaign Drops 35 New Malicious npm Packages