Πώς μπορώ να αντιγράψω κείμενο από ένα PDF διατηρώντας τη διαμόρφωση;
Το PDF, η πανταχού παρούσα μορφή εγγράφων, είναι ιδανικό για την κοινή χρήση εγγράφων, διατηρώντας ταυτόχρονα τις γραμματοσειρές, τις εικόνες και τη γενική διάταξη σε διάφορες πλατφόρμες. Υπάρχει όμως ένας εύκολος τρόπος να διατηρηθεί αυτή η πολύ μορφοποίηση κατά την αντιγραφή και την επικόλληση κειμένου από το έγγραφο?
Η σημερινή συνάντηση ερωτήσεων και απαντήσεων έρχεται σε επαφή με το SuperUser - μια υποδιαίρεση του Stack Exchange, μια κοινότητα που κατευθύνεται από τους ιστότοπους ερωτήσεων & απαντήσεων.
Το ερώτημα
Ο αναγνώστης SuperUser Colen ψάχνει για έναν τρόπο εξαγωγής κειμένου από αρχεία PDF διατηρώντας ταυτόχρονα τη μορφοποίηση:
Όταν αντιγράφω ένα κείμενο από ένα αρχείο PDF και σε ένα πρόγραμμα επεξεργασίας κειμένου, καταλήγει να διαλυθεί με διάφορους τρόπους. Η μορφοποίηση με έντονους χαρακτήρες και πλάγια γράμματα χάνεται. τα μαλακά σπασμένα γραμμικά μέσα σε μια παράγραφο του κειμένου μετατρέπονται σε σπαστά σχοινιά. οι παύλες για να σπάσουν μια λέξη πάνω από δύο γραμμές διατηρούνται ακόμη και όταν δεν πρέπει να είναι? και οι μονές και οι διπλές εισαγωγικές τιμές αντικαθίστανται με; σημάδια.
Στην ιδανική περίπτωση, θα ήθελα να μπορώ να αντιγράψω κείμενο από ένα PDF και να μετατρέψω τη μορφοποίηση σε κώδικες HTML, τα "έξυπνα αποσπάσματα" που μετατράπηκαν σε "και" και τα διαλείμματα γραμμής έγιναν σωστά. Υπάρχει κάποιος τρόπος να γίνει αυτό?
Υπάρχει ένας γρήγορος και εύκολος τρόπος για τον Colen (και τους υπόλοιπους από εμάς) να πάρουμε το κείμενο χωρίς να θυσιάσουμε τη μορφοποίηση?
Η απάντηση
Ο συνεισφέρων του SuperUser Frabjous προσφέρει μια λύση σε συνδυασμό με μια μεγάλη δόση προσοχής:
Πρώτον, πρέπει να καταλάβετε τι είναι ένα PDF. Τα αρχεία PDF έχουν σχεδιαστεί για να μιμούνται μια εκτυπωμένη σελίδα και είναι σχεδιασμένα μόνο ως μορφή εξόδου και όχι ως μορφή εισόδου. ένα PDF είναι βασικά ένας χάρτης που περιέχει την ακριβή θέση των χαρακτήρων (ξεχωριστά γράμματα ή σημεία στίξης κ.λπ.) ή εικόνες. Στις περισσότερες περιπτώσεις, ένα PDF δεν αποθηκεύει ακόμη πληροφορίες για το πού μια λέξη τελειώνει και μια άλλη αρχίζει, πολύ λιγότερο πράγματα όπως μαλακά διαλείμματα εναντίον σκληρών διακοπών για τελειώματα.
(Ορισμένα πρόσφατα αρχεία PDF αποθηκεύουν κάποιες πληροφορίες σχετικά με αυτά τα στοιχεία, αλλά αυτή είναι μια νέα τεχνολογία και θα είχατε την τύχη να βρείτε τέτοια αρχεία PDF. Ακόμα κι αν το κάνατε, ο φυλλομετρητής σας PDF ίσως να μην το γνωρίζει.)
Εν πάση περιπτώσει, εναπόκειται στο λογισμικό σας να εφαρμόσει κάποιο είδος «τεχνητής νοημοσύνης» για να εξαγάγει απλώς από τις θέσεις των μεμονωμένων χαρακτήρων τι είναι μια λέξη, ποια είναι μια παράγραφο και ούτω καθεξής. Διαφορετικό λογισμικό πρόκειται να το κάνει αυτό καλύτερα από άλλους, και θα εξαρτηθεί επίσης από το πώς έγινε το PDF. Σε κάθε περίπτωση, δεν πρέπει ποτέ να περιμένετε τέλεια αποτελέσματα. Έχοντας το PDF εξόδου δεν είναι το ίδιο με το έγγραφο προέλευσης. Πολύ καλύτερα να προσπαθήσετε να το αποκτήσετε αν μπορείτε.
Η τυποποιημένη λύση για το είδος του προβλήματός σας είναι να χρησιμοποιήσετε το Adobe Acrobat Professional (το ακριβό και όχι το δωρεάν πρόγραμμα ανάγνωσης) για να μετατρέψετε το PDF σε HTML. Ακόμα και αυτό δεν πρόκειται να πάρει τέλεια αποτελέσματα.
Υπάρχει δωρεάν λογισμικό που μπορεί να χρησιμοποιηθεί για την εξαγωγή κειμένου από PDF με κάποια μορφοποίηση άθικτα, αλλά πάλι, μην περιμένετε τέλεια αποτελέσματα. Βλέπε π.χ. διαμέτρημα (το οποίο μπορεί να μετατρέψει σε μορφή RTF), pdftohtml / pdfreflow ή τον επεξεργαστή κειμένου AbiWord (με όλα τα plugins εισαγωγής / εξαγωγής ενεργοποιημένα). Υπάρχει επίσης ένα plugin εισαγωγής PDF για το OpenOffice.
Αλλά παρακαλώ μην περιμένετε τελειότητα με κανένα από αυτά τα αποτελέσματα. Είσαι ενάντια στους κόκκους εδώ. Το PDF απλώς δεν εννοείται ως μορφή επεξεργασίας εισόδου.
Εάν έχετε πρόβλημα να αποφασίσετε ποιο εργαλείο θα ξεκινήσετε, το Caliber είναι ένα πραγματικό έγγραφο του ελβετικού μαχαιριού. Μπορείτε επίσης να το χρησιμοποιήσετε για να μετατρέψετε αρχεία PDF για χρήση στον αναγνώστη ebook σας και να οργανώσετε τη βιβλιοθήκη σας ebook / εγγράφων.
Έχετε κάτι να προσθέσετε στην εξήγηση; Απενεργοποιήστε τα σχόλια. Θέλετε να διαβάσετε περισσότερες απαντήσεις από άλλους τεχνολογικούς χρήστες Stack Exchange; Δείτε το πλήρες νήμα συζήτησης εδώ.