Un lavoro di conversione da file PDF a file di testo su Linux è facile se si conoscono alcuni trucchi e si usa spesso Linux, ma cosa succede se si è nuovi di Linux e si ha bisogno di convertire un documento PDF in un equivalente basato sul testo? Ci sono strumenti Linux specificamente progettati per questo? E i moduli OCR - come si fa ad ottenerli per Linux? Le risposte a queste domande sono tutte in questo articolo, quindi continua a leggere per saperne di più su come convertire file PDF in file di testo in Linux.
2 Metodi per convertire PDF in file di testo su Linux
Vediamo un paio di modi per farlo su un desktop Linux e i relativi strumenti utili.
Metodo 1: usare un'applicazione per eBook
Essenzialmente, quello che si vuole fare è convertire un documento PDF non editabile e non ricercabile in un altro formato senza che il contenuto risulti compromesso. Per questo, è possibile utilizzare freeware o un'applicazione open-source come Calibre. È disponibile nella maggior parte dei repo di Ubuntu, Mint, Fedora e altre distro popolari. La sintassi corretta varia da una distribuzione all'altra, ma il comando di base da terminale dovrebbe essere qualcosa del genere:
sudo apt install calibre
Una volta installato, è possibile seguire il flusso del processo dall'interno dell'applicazione. Ecco come dovrebbe apparire:
- 1. Lancia l'applicazione e clicca sul pulsante "Add Books" in alto a sinistra per importare uno o più documenti PDF digitalizzati o non editabili.
- 2. Quando vedi i PDF nella lista sotto la barra degli strumenti di Calibre, seleziona il file o i file che vuoi convertire in testo e premi l'opzione "Convert Books" in alto.
- 3. 3. Scegli il formato del file di output in TXT nella finestra di conversione e premi OK per convertire.
Ora puoi aprire il file in qualsiasi editor di testo e fare modifiche o modificare il contenuto come vuoi. Questo non mantiene il formato dell'originale, ma è una copia abbastanza precisa del file non modificabile. Il documento PDF originale rimarrà invariato, quindi puoi salvare la nuova versione con un nome leggermente diverso come Doc1_OCR, Doc2_OCR, e così via.
Metodo 2: Utilizzare i comandi del terminale
D'altra parte, se sei ad un livello esperto di Linux, puoi provare la via della linea di comando per convertire PDF in testo. Per questo, puoi usare qualcosa come "pdftotext". Fa parte del pacchetto Poppler, ma il nome potrebbe variare in base alla distro che stai usando. Il primo passo è quello di installarlo, e puoi farlo con i seguenti comandi:
1. Per prima cosa, digita quanto segue nel Terminale e premi "Invio
"sudo apt install poppler-utils"
[Funziona per Debian, Mint, Ubuntu, ecc.]
2. Il comando successivo che vedrai sarà quello per la conversione, e dovrebbe assomigliare a questo:
"pdftotext -layout source.pdf target.txt"
[Source è il PDF originale e Target è l'output finale]
Per eseguire il comando di cui sopra, il prompt del terminale deve trovarsi nella stessa cartella del file PDF di origine. In alternativa, è possibile definire un percorso di file prima dei nomi dei file sorgente e destinazione all'interno del comando.
3. Premi "Invio" per eseguire il comando sull'intero documento PDF. Per convertire solo un singolo intervallo di pagine all'interno del documento, modifica la sintassi in modo che corrisponda a quella mostrata di seguito:
"pdftotext -layout -f M -l N source.pdf target.txt" [dove M è la prima pagina e N l'ultima da convertire].
Come convertire PDF in file di testo su Windows e Mac
Ora sai come convertire PDF in dile di testo in Linux, e per quanto riguarda Windows o Mac? Sai come fare la stessa cosa su queste piattaforme OS? Se la risposta è negativa, continua a leggere per conoscere una utility unica e robusta per fare lo stesso lavoro in sistemi operativi diversi da Linux.
PDFelement è un editor PDF multipiattaforma con applicazioni desktop e mobili per la gestione dei PDF. Sono una famiglia leggera di strumenti PDF incredibilmente potenti e versatili. Ancora più importante, sono molto più convenienti di alcune delle opzioni premium che dominano il mercato oggi. Per questo motivo, PDFelement sta rapidamente diventando l'editor PDF de facto per le aziende che non possono permettersi alternative costose. Inoltre, vanta queste caratteristiche:
- Piena capacità di editing per tutto il testo PDF, immagini, link, media e altri oggetti.
- Strumenti completi di markup per ascrivere annotazioni sui PDF.
- Forti caratteristiche di sicurezza per la redazione, il watermarking, la crittografia e la firma digitale.
- Processi batch avanzati per le attività di conversione e OCR.
- Gestione dei moduli completamente integrata: creazione di moduli interattivi, conversione da moduli PDF non modificabili, accesso a una grande libreria di modelli, estrazione di dati da moduli e PDF in blocco, ecc.
- Robusta capacità di conversione 'da e verso PDF' con un supporto molto ampio per i tipi di file.
- Più accurato e veloce di molti editor PDF premium.
Passi per convertire PDF in file di testo in Windows e Mac:
Windows:
- 1. Dopo aver lanciato PDFelement sul tuo PC Windows, importa il file trascinandolo nella finestra del software o semplicemente clicca su "File" → "Apri" e ottienilo così. Anche quando l'editor PDF è chiuso, è possibile aprire un documento trascinando la sua icona su quella dell'applicazione.
- 2. Se clicchi sull'opzione "Converti" in alto, vedrai apparire un pulsante nella barra degli strumenti proprio sotto di esso con le parole "To Text" e un'icona. Il mouseover (la descrizione del comando) dovrebbe recitare "Convert your PDF to text". Clicca su quel pulsante.
- 3. Specifica la cartella di output e, se necessario, puoi cambiare il tipo di file di output anche nella finestra di dialogo "Save As".
Mac (versioni di macOS compresa la 10.15 Catalina):
PDFelement è altrettanto intuitivo utilizzato sia su Mac che su Windows. Potresti notare delle differenze nell'UI tra i due, ma queste caratteristiche sono state progettate appositamente per lavorare il più vicino possibile alle sfumature delle loro piattaforme. Il risultato finale sarà un'esperienza abbastanza intuitiva su qualsiasi piattaforma venga utilizzato, compresi i dispositivi con gli schermi iOS e Android basati su touchscreen.
- 1. PDFelement per Mac ha un'usabilità differente da Mac App e lo si nota non appena si installa e si lancia l'applicazione. Ma è possibile aprire il PDF utilizzando gli stessi metodi di Windows - drag-and-drop o utilizzando il menu "File".
- 2. Di nuovo, nel menu "File", vedrai un'opzione chiamata "Esporta in", che apre un altro menu contestuale. Seleziona "Testo" come opzione e aspetta che la conversione sia completata.
Ora sai tutto quello che c'è da sapere su come convertire file PDF in file di testo su Linux, Windows e Mac.
Salvatore Marin
staff Editor