La funzione OCR in grado di convertire un PDF in un testo richiede tipicamente diversi strumenti per convertire un file da un formato ad un altro. Generalmente, se un PDF è testuale, è già modificabile e ricercabile. Ma cosa succede se il PDF è stato creato da un'immagine o una fotografia di note scritte a mano o è solo un testo scannerizzato? In questa situazione, non è possibile modificarlo o ricercare le parole a meno che non lo si converta prima in un formato testuale. Questo è lo scopo dell'OCR, che riconosce i caratteri e li dispone come testo stampabile, modificabile e ricercabile. Continua a leggere per scoprire tre metodi per convertire i PDF in testo utilizzando la tecnologia OCR.
Metodo 1: Come convertire un PDF in un testo con la funzione OCR di PDFelement
Il modo più semplice per convertire un PDF in un testo modificabile e ricercabile è quello di utilizzare PDFelement. Si tratta di un'applicazione per modificare, convertire, firmare, proteggere, creare moduli, eseguire l’OCR che comprende anche altre funzioni di base e avanzate. L'interfaccia è facile da usare. Tra i controlli intuitivi vi sono strumenti di modifica, annotazione e altri strumenti utili. Ad esempio, quando in PDFelement viene importato un PDF digitalizzato, si attiva automaticamente il plugin OCR che chiede di eseguire l'OCR. Questo è il primo passo del processo.
Passo 1. Clicca su Esegui OCR
Il file può essere importato con un semplice trascinamento del mouse o selezionando l'opzione del menu Apri file.... Una volta aperto, vedrai una barra di notifica che ti chiederà se vuoi Eseguire l’OCR del documento.
Passo 2. Impostazioni per l’OCR
Quando clicchi su questo pulsante, ti verrà chiesto di scaricare e attivare il plugin, nel caso non l'abbia già fatto.
Il passo successivo è quello di modificare le impostazioni, come ad esempio cambiare le specifiche della lingua in modo che sia più facile per il software rilevare la lingua durante la conversione. Infine, scegli il tipo di documento in uscita - PDF ricercabile o modificabile - e conferma la conversione cliccando su OK.
Passo 3. Modifica testo dopo l'OCR
Una volta convertito il file, puoi cliccare sulla scheda Modifica e vedere che tutti gli elementi di testo sono ora modificabili, o semplicemente ricercabili, in base all'opzione scelta nella fase precedente. Nella modalità di modifica, è possibile modificare il testo, le immagini e gli altri elementi proprio come si farebbe con un normale documento PDF.
Passo 4. Convertire un PDF in TXT
Se necessario, è anche possibile convertire il PDF modificato in un documento testuale in formato.txt. Basta andare nel menu Converti e cliccare sul pulsante A testo.
Perché PDFelement?
Per eseguire l'intero processo illustrato sopra non sono necessari altri strumenti oltre a PDFelement, ed è questo il motivo per cui questo programma aumenta la produttività sul lavoro. Abbiamo già visto alcune delle caratteristiche come la modifica di testo e di immagini e la funzione OCR. In realtà, PDFelement va ben oltre, e consente di aggiungere ampie annotazioni, convertire il documento da e verso PDF con precisione, creare moduli completamente interattivi a partire da contenuti basati su immagini, gestire pagine e file PDF, applicare elementi di sicurezza e altro. Dal momento che il software è stato progettato per l'uso su varie piattaforme quali Windows, macOS, iOS e Android, vedrai un filo conduttore nel design. Tuttavia, potrai notare anche diverse caratteristiche specifiche della piattaforma, come il supporto touch sulle applicazioni mobili, e così via. Inoltre, poiché è possibile accedere e archiviare in cloud, potrai letteralmente portare i tuoi documenti ovunque vada senza doverli conservare nella memoria locale.
Metodo 2: Come convertire gratis online un PDF in un testo con la funzione OCR
Se stai cercando un metodo meno invadente rispetto a quello in cui bisogna scaricare e installare un'applicazione, puoi prendere in considerazione un servizio online come hipdf. Basta andare sul sito web, caricare il tuo documento per la conversione OCR ed eseguire un paio di passi aggiuntivi per completare il processo in pochi minuti! Ecco cosa devi fare:
- 1. Vai al sito web di hipdf e clicca sul menu OCR nell'intestazione in alto. Clicca sul pulsante Scegli file o semplicemente trascina il file nella scheda del browser per caricarlo.
- 2. Cambia la lingua per farla corrispondere allo script del documento e scegli il formato del file in uscita. Per l’output del documento scegli il formato .txt.
- 3. Clicca sul pulsante Converti e attendi che il file convertito sia disponibile.
Questa funzione è disponibile solo per gli utenti con l’abbonamento a hipdf Pro, e viene fornito con l'applicazione desktop che abbiamo mostrato nel Metodo 1. Si tratta di uno dei modi più veloci e precisi per eseguire l'OCR di un documento scansionato o di una fotografia in PDF.
Metodo 3: Come utilizzare Google OCR per Convertire un PDF in testo
Il metodo finale qui presentato è Google OCR, che è essenzialmente una funzione integrata nel set di funzioni di Google Drive. Quando si carica un documento compatibile con Drive, come un PDF, e poi lo si apre con un'applicazione nativa come Google Docs, il componente OCR si attiva per leggere e convertire il documento in contenuto testuale modificabile. Ecco come funziona:
- 1. Prendi un PDF basato su immagini o un PDF scannerizzato e caricalo su Google Drive. Puoi farlo utilizzando l'opzione Nuovo → File.
- 2. All'interno del menu di Drive, clicca con il tasto destro del mouse sul documento caricato e seleziona Apri con Google Docs.
- 3. Poiché Google Docs non è un lettore o un editor di PDF, convertirà prima il file utilizzando Google OCR in un file Doc modificabile e testuale. Ora è possibile modificare o estrarre le informazioni copiandole in un altro documento.
- 4. In alternativa, in questa fase è possibile convertirlo in un formato diverso, come un PPT o HTML, selezionando l'opzione File → Scarica come nel menu principale.
Sebbene questo metodo sia gratuito, non sempre funziona per tutti i tipi di testo. Ad esempio, se nel file è presente un carattere non latino, potrebbe non essere riconosciuto correttamente anche se è stata scelta la lingua corretta. Per questi, e altri, problemi si sconsiglia l'uso di Google OCR a scopo intensivo, sebbene con questo strumento sia comunque possibile ottenere una qualità di conversione ragionevolmente buona. L'opzione migliore sarebbe quella di utilizzare PDFelement, che non comporta gli stessi rischi per quanto riguarda la sicurezza di un programma online o basato su cloud.
Salvatore Marin
staff Editor