Tesseract (software)

Tesseract è un software libero per il riconoscimento ottico dei caratteri (OCR) .

Storia

Sviluppato originariamente come software proprietario dalla Hewlett-Packard tra il 1985 e il 1995, non venne più aggiornato nel decennio successivo. Rilasciato come open source nel 2005 da Hewlett Packard e dall'Università del Nevada a Las Vegas, con la licenza Apache, versione 2.0, dal 2006 al novembre 2018 è stato sviluppato da Google. Attualmente lo sviluppo è portato avanti in modalità aperta da un gruppo di volontari e sviluppatori indipendenti.

Funzionamento

Come tutti i programmi OCR, anche Tesseract serve a convertire il testo contenuto in un'immagine, ottenuta di solito per mezzo di uno scanner, in caratteri comprensibili ad un elaboratore di testi. I risultati sono molto buoni per quanto riguarda il riconoscimento dei caratteri; manca invece la capacità di mantenere il layout delle pagine, per esempio le tabelle o le colonne. Inizialmente limitato ai soli caratteri ASCII, nell'ottobre 2011 Tesseract supporta i caratteri UTF-8 e riconosce 33 lingue.

Si può provare l'uso del software da riga di comando digitando, in una finestra di terminale, il seguente comando:

tesseract <percorso del file di immagine> <nome del file di output>

Sarà generato automaticamente un file di testo con estensione «.txt».

GUI

In generale tesseract è utilizzabile solo da riga di comando o tramite API ma esistono diverse implementazioni che aggiungono un'interfaccia grafica, tra queste citiamo:

  • NAPS2
  • Rescribe
  • Scribe OCR
  • VietOCR

Altri progetti

Collegamenti esterni

Note


 Portale Software libero: accedi alle voci di Wikipedia che trattano di Software libero
Uses material from the Wikipedia article Tesseract (software), released under the CC BY-SA 4.0 license.