Πώς να μετατρέψετε ένα αρχείο PDF σε επεξεργάσιμο κείμενο Χρησιμοποιώντας τη γραμμή εντολών στο Linux
Υπάρχουν διάφοροι λόγοι για τους οποίους μπορεί να θέλετε να μετατρέψετε ένα αρχείο PDF σε επεξεργάσιμο κείμενο. Ίσως πρέπει να αναθεωρήσετε ένα παλιό έγγραφο και το μόνο που έχετε είναι η έκδοση PDF του. Η μετατροπή αρχείων PDF στα Windows είναι εύκολη, αλλά τι γίνεται αν χρησιμοποιείτε το Linux?
Μην ανησυχείς. Θα σας δείξουμε πώς μπορείτε εύκολα να μετατρέψετε αρχεία PDF σε επεξεργάσιμο κείμενο χρησιμοποιώντας ένα εργαλείο γραμμής εντολών που ονομάζεται pdftotext, το οποίο είναι μέρος του πακέτου "poppler-utils". Αυτό το εργαλείο μπορεί να εγκατασταθεί ήδη. Για να ελέγξετε εάν το pdftotext είναι εγκατεστημένο στο σύστημά σας, πατήστε "Ctrl + Alt + T" για να ανοίξετε ένα παράθυρο τερματικού. Πληκτρολογήστε την ακόλουθη εντολή στη γραμμή εντολών και πατήστε "Enter".
dpkg -s poppler-utils
ΣΗΜΕΙΩΣΗ: Όταν λέμε να πληκτρολογήσετε κάτι σε αυτό το άρθρο και υπάρχουν εισαγωγικά γύρω από το κείμενο, ΜΗΝ πληκτρολογείτε τα αποσπάσματα, εκτός αν διευκρινίζουμε διαφορετικά.
Εάν το pdftotext δεν είναι εγκατεστημένο, πληκτρολογήστε την ακόλουθη εντολή στη γραμμή εντολών και πατήστε "Enter".
sudo apt-get να εγκαταστήσετε το poppler-utils
Πληκτρολογήστε τον κωδικό πρόσβασής σας όταν σας ζητηθεί και πατήστε "Enter".
Υπάρχουν πολλά διαθέσιμα εργαλεία στο πακέτο poppler-utils για τη μετατροπή του PDF σε διαφορετικές μορφές, τον χειρισμό αρχείων PDF και την εξαγωγή πληροφοριών από αρχεία.
Η παρακάτω είναι η βασική εντολή για τη μετατροπή ενός αρχείου PDF σε ένα επεξεργάσιμο αρχείο κειμένου. Πατήστε "Ctrl + Alt + T" για να ανοίξετε ένα παράθυρο τερματικού, πληκτρολογήστε την εντολή στη γραμμή εντολών και πατήστε "Enter".
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Αλλάξτε τη διαδρομή προς κάθε αρχείο ώστε να αντιστοιχεί στη θέση και το όνομα του αρχικού σας αρχείου PDF και από εκεί που θέλετε να αποθηκεύσετε το αρχείο κειμένου που προκύπτει. Επίσης, αλλάξτε τα ονόματα αρχείων ώστε να αντιστοιχούν στα ονόματα των αρχείων σας.
Το αρχείο κειμένου δημιουργείται και μπορεί να ανοίξει ακριβώς όπως θα ανοίξετε οποιοδήποτε άλλο αρχείο κειμένου στο Linux.
Το κείμενο που μετατράπηκε μπορεί να έχει διαλείμματα γραμμής σε μέρη που δεν θέλετε. Τα γραμμικά σφάλματα εισάγονται μετά από κάθε γραμμή κειμένου στο αρχείο PDF.
Μπορείτε να διατηρήσετε τη διάταξη του εγγράφου σας (κεφαλίδες, υποσέλιδα, σελιδοποίηση κ.λπ.) από το αρχικό αρχείο PDF στο αρχείο κειμένου που μετατράπηκε χρησιμοποιώντας τη σημαία "-layout".
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Εάν θέλετε να μετατρέψετε μόνο μια σειρά σελίδων σε ένα αρχείο PDF, χρησιμοποιήστε τις σημαίες "-f" και "-l" (πεζά γράμματα "L") για να καθορίσετε την πρώτη και την τελευταία σελίδα του εύρους που θέλετε να μετατρέψετε.
pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Για να μετατρέψετε ένα αρχείο PDF που προστατεύεται και κρυπτογραφείται με έναν κωδικό πρόσβασης ιδιοκτήτη, χρησιμοποιήστε τη σημαία "-opw" (ο πρώτος χαρακτήρας στη σημαία είναι μικρό γράμμα "O" και όχι μηδέν).
pdftotext -opw 'κωδικός' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Αλλάξτε τον "κωδικό πρόσβασης" σε αυτόν που χρησιμοποιείται για την προστασία του αρχικού αρχείου PDF που μετατρέπεται. Βεβαιωθείτε ότι υπάρχουν ενιαία εισαγωγικά, όχι διπλά, γύρω από τον "κωδικό".
Εάν το αρχείο PDF προστατεύεται και κρυπτογραφείται με κωδικό πρόσβασης χρήστη, χρησιμοποιήστε τη σημαία "-upw" αντί της σημαίας "-opw". Η υπόλοιπη εντολή είναι η ίδια.
Μπορείτε επίσης να καθορίσετε τον τύπο του χαρακτήρα από το τέλος της γραμμής που εφαρμόζεται στο κείμενο που μετατράπηκε. Αυτό είναι ιδιαίτερα χρήσιμο εάν σκοπεύετε να αποκτήσετε πρόσβαση στο αρχείο σε διαφορετικό λειτουργικό σύστημα όπως τα Windows ή Mac. Για να το κάνετε αυτό, χρησιμοποιήστε τη σημαία "-eol" (ο μεσαίος χαρακτήρας στη σημαία είναι ένα πεζά γράμμα "O", όχι ένα μηδέν) που ακολουθείται από ένα κενό και τον τύπο του χαρακτήρα από το τέλος της γραμμής που θέλετε να χρησιμοποιήσετε (" unix "," dos "ή" mac ").
ΣΗΜΕΙΩΣΗ: Εάν δεν καθορίσετε ένα όνομα αρχείου για το αρχείο κειμένου, το pdftotext χρησιμοποιεί αυτόματα τη βάση του αρχείου PDF και προσθέτει την επέκταση ".txt". Για παράδειγμα, το "file.pdf" θα μετατραπεί σε "file.txt". Αν το αρχείο κειμένου έχει οριστεί ως "-", το κείμενο που μετατράπηκε στέλνεται στο stdout, πράγμα που σημαίνει ότι το κείμενο εμφανίζεται στο παράθυρο του τερματικού και δεν αποθηκεύεται σε ένα αρχείο.
Για να κλείσετε το παράθυρο του τερματικού, κάντε κλικ στο κουμπί "X" στην επάνω αριστερή γωνία.
Για περισσότερες πληροφορίες σχετικά με την εντολή pdftotext, πληκτρολογήστε "man page pdftotext" στη γραμμή εντολών σε ένα παράθυρο του τερματικού.