Αρχική σελίδα » Λήψεις λογισμικού » Εξαγωγή κειμένου από αρχεία PDF και αρχεία εικόνας

    Εξαγωγή κειμένου από αρχεία PDF και αρχεία εικόνας

    Έχετε ένα έγγραφο PDF από το οποίο θέλετε να εξάγετε όλο το κείμενο; Τι γίνεται με τα αρχεία εικόνας ενός σαρωμένου εγγράφου που θέλετε να μετατρέψετε σε επεξεργάσιμο κείμενο; Αυτά είναι μερικά από τα πιο συνηθισμένα προβλήματα που έχω δει στο χώρο εργασίας όταν εργάζομαι με αρχεία.

    Σε αυτό το άρθρο, θα μιλήσω για διάφορους τρόπους με τους οποίους μπορείτε να δοκιμάσετε να εξαγάγετε κείμενο από ένα PDF ή από μια εικόνα. Τα αποτελέσματα εξαγωγής θα διαφέρουν ανάλογα με τον τύπο και την ποιότητα του κειμένου στο PDF ή την εικόνα. Επίσης, τα αποτελέσματά σας θα διαφέρουν ανάλογα με το εργαλείο που χρησιμοποιείτε, επομένως είναι καλύτερο να δοκιμάσετε όσο το δυνατόν περισσότερες από τις παρακάτω επιλογές για να έχετε τα καλύτερα αποτελέσματα.

    Εξαγωγή κειμένου από εικόνα ή PDF

    Ο πιο απλός και γρήγορος τρόπος για να ξεκινήσετε είναι να δοκιμάσετε μια online υπηρεσία εξαγωγής κειμένου PDF. Αυτά είναι συνήθως δωρεάν και μπορούν να σας δώσουν ακριβώς αυτό που ψάχνετε χωρίς να χρειάζεται να εγκαταστήσετε τίποτα στον υπολογιστή σας. Εδώ είναι δύο που έχω χρησιμοποιήσει με πολύ καλά έως εξαιρετικά αποτελέσματα:

    ExtractPDF

    Το ExtractPDF είναι ένα δωρεάν εργαλείο για να αρπάξετε εικόνες, κείμενο και γραμματοσειρές από ένα αρχείο PDF. Ο μόνος περιορισμός είναι ότι το μέγιστο μέγεθος για το αρχείο PDF είναι 10 MB. Αυτό είναι λίγο μικρό? οπότε αν έχετε μεγαλύτερο αρχείο, δοκιμάστε μερικές από τις άλλες μεθόδους παρακάτω. Επιλέξτε το αρχείο σας και, στη συνέχεια, κάντε κλικ στο Αποστολή αρχείου κουμπί. Τα αποτελέσματα είναι συνήθως πολύ γρήγορα και θα πρέπει να δείτε μια προεπισκόπηση του κειμένου όταν κάνετε κλικ στην καρτέλα Κείμενο.

    Είναι επίσης ένα ωραίο πρόσθετο πλεονέκτημα ότι εξάγει εικόνες από το αρχείο PDF επίσης, μόνο σε περίπτωση που χρειάζεστε αυτές! Συνολικά, το ηλεκτρονικό εργαλείο λειτουργεί εξαιρετικά, αλλά έχω τρέξει σε μερικά έγγραφα PDF που μου δίνουν αστεία παραγωγή. Το κείμενο εξάγεται καλά, αλλά για κάποιο λόγο θα έχει ένα σπάσιμο γραμμής μετά από κάθε λέξη! Δεν είναι ένα τεράστιο πρόβλημα για ένα σύντομο αρχείο PDF, αλλά σίγουρα ένα ζήτημα για αρχεία με πολλά κείμενα. Αν συμβεί αυτό, δοκιμάστε το επόμενο εργαλείο.

    Online OCR

    Το online OCR συνήθως έτεινε να δουλεύει για τα έγγραφα που δεν μετατράπηκαν σωστά με το ExtractPDF, οπότε είναι καλή ιδέα να δοκιμάσετε και τις δύο υπηρεσίες για να δείτε ποιες σας δίνουν καλύτερη απόδοση. Το online OCR διαθέτει επίσης κάποια ωραιότερα χαρακτηριστικά που μπορούν να αποδειχθούν πρακτικά για όσους διαθέτουν μεγάλο αρχείο PDF που χρειάζεται μόνο να μετατρέψει κείμενο σε μερικές σελίδες παρά σε όλο το έγγραφο.

    Το πρώτο πράγμα που θέλετε να κάνετε είναι να προχωρήσετε και να δημιουργήσετε έναν δωρεάν λογαριασμό. Είναι λίγο ενοχλητικό, αλλά αν δεν δημιουργήσετε τον δωρεάν λογαριασμό, θα μετατρέψει μόνο το PDF σας και όχι ολόκληρο το έγγραφο. Επίσης, αντί να μπορείτε να ανεβάζετε μόνο ένα έγγραφο των 5 MB, μπορείτε να μεταφορτώσετε έως και 100MB ανά αρχείο με έναν λογαριασμό.

    Αρχικά, επιλέξτε μια γλώσσα και, στη συνέχεια, επιλέξτε τον τύπο των μορφών εξόδου που θέλετε για το αρχείο που έχει μετατραπεί. Έχετε μερικές επιλογές και μπορείτε να επιλέξετε περισσότερες από μία, αν θέλετε. Κάτω από Έγγραφο πολλαπλών σελίδων, μπορείτε να επιλέξετε Αριθμοί σελίδων και στη συνέχεια επιλέξτε μόνο τις σελίδες που θέλετε να μετατρέψετε. Στη συνέχεια, επιλέγετε το αρχείο και κάνετε κλικ Μετατρέπω!

    Μετά τη μετατροπή, θα μεταφερθείτε στην ενότητα "Έγγραφα" (εάν είστε συνδεδεμένοι), όπου μπορείτε να δείτε πόσα διαθέσιμες δωρεάν σελίδες έχετε αφήσει και συνδέσμους για να κατεβάσετε τα μετατραπέντα αρχεία σας. Φαίνεται ότι έχετε μόνο 25 σελίδες δωρεάν μια μέρα, οπότε αν χρειάζεστε περισσότερο από αυτό, θα πρέπει είτε να περιμένετε λίγο είτε να αγοράσετε περισσότερες σελίδες.

    Το online OCR έκανε εξαιρετική δουλειά για τη μετατροπή των αρχείων μου PDF επειδή ήταν σε θέση να διατηρήσει την πραγματική διάταξη του κειμένου. Στη δοκιμή μου, πήρα ένα έγγραφο του Word που χρησιμοποίησε σφαίρες, διαφορετικά μεγέθη γραμματοσειρών κ.λπ. και το μεταμόρφωσε σε PDF. Στη συνέχεια, χρησιμοποίησα το online OCR για να το μετατρέψω σε μορφή Word και ήταν περίπου 95% το ίδιο με το πρωτότυπο. Αυτό είναι αρκετά εντυπωσιακό για μένα.

    Επιπλέον, εάν θέλετε να μετατρέψετε μια εικόνα σε κείμενο, τότε το OCR Online μπορεί να το κάνει αυτό εξίσου εύκολα με την εξαγωγή κειμένου από αρχεία PDF.

    Δωρεάν OCR στο διαδίκτυο

    Δεδομένου ότι μιλούσαν για την εικόνα στο κείμενο OCR, επιτρέψτε μου να αναφέρω μια άλλη καλή ιστοσελίδα που λειτουργεί πολύ καλά στις εικόνες. Το δωρεάν online OCR ήταν πολύ καλό και πολύ ακριβές κατά την εξαγωγή κειμένου από τις δοκιμαστικές εικόνες μου. Πήρα μερικές φωτογραφίες από το iPhone μου από σελίδες από βιβλία, φυλλάδια κ.λπ. και με εξέπληξε πόσο καλά μπορούσε να μετατρέψει το κείμενο.

    Επιλέξτε το αρχείο σας και, στη συνέχεια, κάντε κλικ στο κουμπί Upload. Στην επόμενη οθόνη, υπάρχουν μερικές επιλογές και μια προεπισκόπηση της εικόνας. Μπορείτε να το περικόψετε αν δεν θέλετε να OCR όλο το πράγμα. Στη συνέχεια, απλά κάντε κλικ στο κουμπί OCR και το κείμενο που μετατράπηκε θα εμφανιστεί κάτω από την προεπισκόπηση εικόνας. Επίσης δεν έχει κανέναν περιορισμό, πράγμα που είναι πολύ ωραίο.

    Εκτός από τις online υπηρεσίες, υπάρχουν δύο δωρεάν μετατροπείς PDF που θέλω να αναφέρω σε περίπτωση που χρειάζεστε λογισμικό που εκτελείται τοπικά στον υπολογιστή σας για να πραγματοποιήσετε τις μετατροπές. Με τις επιγραμμικές υπηρεσίες, θα χρειαστείτε πάντα μια σύνδεση στο Internet και αυτό μπορεί να μην είναι εφικτό για όλους. Ωστόσο, παρατήρησα ότι η ποιότητα των μετατροπών από τα δωρεάν προγράμματα ήταν σημαντικά χειρότερη από εκείνη των ιστοσελίδων.

    A-PDF Extractor κειμένου

    Το A-PDF Text Extractor είναι ένα δωρεάν λογισμικό που κάνει μια αρκετά καλή δουλειά για την εξαγωγή κειμένου από αρχεία PDF. Μόλις το κατεβάσετε και εγκαταστήσετε, κάντε κλικ στο κουμπί Άνοιγμα για να επιλέξετε το αρχείο PDF. Στη συνέχεια, κάντε κλικ στην επιλογή Εξαγωγή κειμένου για να ξεκινήσετε τη διαδικασία.

    Θα σας ζητήσει μια θέση για να αποθηκεύσετε το αρχείο εξόδου κειμένου και στη συνέχεια θα ξεκινήσει η εξαγωγή. Μπορείτε επίσης να κάνετε κλικ στο Επιλογή , το οποίο σας επιτρέπει να επιλέξετε μόνο ορισμένες σελίδες για εξαγωγή και τον τύπο εξαγωγής. Η δεύτερη επιλογή είναι ενδιαφέρουσα επειδή εξάγει το κείμενο σε διαφορετικές διατάξεις και αξίζει να δοκιμάσετε και τα τρία για να δείτε ποιες σας δίνουν την καλύτερη απόδοση.

    PDF2Text Pilot

    Το PDF2Text Pilot κάνει μια καλή εργασία εξαγωγής κειμένου. Δεν έχει επιλογές. απλά προσθέτετε αρχεία ή φακέλους, μετατρέπετε και ελπίζετε για το καλύτερο. Δούλεψε καλά σε ορισμένα αρχεία PDF, αλλά για τα περισσότερα από αυτά, υπήρξαν πολλά θέματα.

    Απλώς κάντε κλικ στην επιλογή Προσθήκη αρχείων και στη συνέχεια κάντε κλικ στο κουμπί Μετατρέπω. Μόλις ολοκληρωθεί η μετατροπή, κάντε κλικ στο Αναζήτηση για να ανοίξετε το αρχείο. Μπορείτε χιλιόμετρα θα ποικίλλει με αυτό το πρόγραμμα έτσι δεν περιμένουν πολλά.

    Επίσης, αξίζει να αναφέρουμε ότι αν βρίσκεστε σε ένα εταιρικό περιβάλλον ή μπορείτε να πάρετε τα χέρια σας από ένα αντίγραφο του Adobe Acrobat από την εργασία, τότε μπορείτε πραγματικά να έχετε πολύ καλύτερα αποτελέσματα. Το Acrobat προφανώς δεν είναι δωρεάν, αλλά έχει επιλογές για τη μετατροπή του PDF σε μορφή Word, Excel και HTML. Κάνει επίσης την καλύτερη δουλειά για τη διατήρηση της δομής του πρωτότυπου εγγράφου και τη μετατροπή περίπλοκου κειμένου.