gImageReader, come estrapolare un testo da PDF ed immagini su Linux

by Alessandro Russo on

Spesso può capitare di volersi salvare porzioni di testo da un e-book o da un PDF ma si opta per fare dei semplici screenshot. Creare i propri appunti avendo a disposizione un motore OCR, quindi, velocizza moltissimo la loro stesura. Nell’articolo di oggi vi segnalo un’interessante utility che serve proprio a questo scopo, gImageReader. Questo tool open source altro non è che un front-end per Tesseract OCR, programma per l’estrazione di testi da immagini e file PDF in GNU/Linux. Disponibile per tutte le principali distribuzioni, è distribuito anche per Windows.

Cos’è gImageReader

Tesseract nasce nei laboratori di HP tra il 1985 e il 1994. Dopo alcuni aggiornamenti distribuiti durante gli anni ’90, realativi al porting dell’applicazione su Windows e la migrazione da C a C++, la casa americana nel 2005 decise di rendere il progetto open source. Dal 2006 lo sviluppo passò a Google. Il motore OCR contenuto nell’utility, acronimo di Optical Character Recognition, consente di scansionare testi da un’immagine o da un file in formato PDF. Può rilevare diverse lingue per impostazione predefinita e supporta anche la scansione tramite caratteri Unicode.

Il principale limite di Tesseract è l’assenza di una GUI, funziona solo da riga di comando. Per sopperire a questa mancanza, potete affidarvi a gImageReader, che semplifica l’utilizzo di questo potente strumento dotandolo di un’interfaccia grafica. Per procedere all’installazione della GUI, quindi, dovete in primis installare esplicitamente i language pack di Tesseract. Vediamo come procedere su Ubuntu e derivate.

La prima cosa da fare è installare Tesseract, per farlo eseguite le seguenti istruzioni:

sudo apt install tesseract-ocr-ita
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt update sudo apt install gimagereader

gImageReader, come estrapolare un testo da PDF ed immagini su Linux

Gli utenti Fedora e Debian non dovranno aggiungere alcun repository esterno, poichè il pacchetto di gImageReader è incluso nei repository preinstallati. Una volta completata l’installazione, aprendo l’applicazione, vi troverete una GUI estremamaente semplice da utilizzare. Basterà, infatti, importare il file e scegliere se riconoscere tutto il testo o solo alcune selezioni, e le lingua.

Se siete interessati a questo progetto open source, vi invito a consultare la pagina GitHub di gImageReader dove trovate le indicazioni per installarlo anche su Arch, SUSE, Fedora etc.

gImageReader, come estrapolare un testo da PDF ed immagini su LinuxSeguiteci sul nostro canale Telegram, sulla nostra pagina Facebook e su Google News. Nel campo qui sotto è possibile commentare e creare spunti di discussione inerenti le tematiche trattate sul blog.

L'articolo gImageReader, come estrapolare un testo da PDF ed immagini su Linux sembra essere il primo su Linux Freedom.

Leggi il contenuto originale su Linux Freedom

Written by: Alessandro Russo