Jedną z rzeczy, które często mnie frustrują, jest niemożność łatwego kopiowania tekstu z obrazów i niektórych plików PDF (np. Tych, które mogły zostać utworzone ze zeskanowanych dokumentów). Na szczęście z czasem opracowano rozwiązania programowe mające na celu rozwiązanie tego problemu, pozwalające na znaczne oszczędności czasu, które w innym przypadku zostałyby poświęcone na ręczne kopiowanie i ponowne wpisywanie tekstu. W dzisiejszej wskazówce będę mówić o darmowym narzędziu o nazwie Capture2Text, które wykorzystuje algorytm optycznego rozpoznawania znaków (OCR), który pozwoli ci przechwytywać tekst z plików graficznych i PDF.
Instalacja i konfiguracja
Na początek przejdź do strony SourceForge projektu i pobierz najnowszą wersję Capture2Text. Oprogramowanie jest dostarczane jako archiwum zip i nie zawiera dedykowanego instalatora. Po pobraniu rozpakuj archiwum i uruchom plik Capture2Text.exe. Spowoduje to uruchomienie oprogramowania i umieszczenie ikony w zasobniku systemowym:
Po pierwsze, musisz skonfigurować preferencje oprogramowania, w szczególności jakich skrótów klawiszowych (lub skrótów) użyć, aby rozpocząć i zatrzymać przechwytywanie:
W moim przypadku postanowiłem użyć klawiszy „Windows + q”, aby rozpocząć przechwytywanie, i „Enter”, aby go zatrzymać. Możesz dostosować te opcje do tego, co najbardziej Ci odpowiada. Należy pamiętać, że klawisz „Windows + s” jest często używany do przechwytywania ekranu (np. Przez programy takie jak Microsoft One Note).
Na następnej karcie można skonfigurować opcje OCR, w tym język wejściowy (obecnie obsługiwanych jest siedem języków) i czy użyć wstępnego przetwarzania OCR w celu poprawy dokładności (wysoce zalecane). Na koniec, na zakładce Wyjście, między innymi opcjami można wybrać, czy po prostu zapisać przechwycony tekst do schowka, czy też uruchomić osobne wyskakujące okienko.
Korzystanie z oprogramowania
Po zainstalowaniu i skonfigurowaniu oprogramowania możesz rozpocząć korzystanie z niego za pomocą kombinacji klawiszy szybkiego uruchamiania przechwytywania. Za pomocą myszy wybierz obszar obrazu zawierający tekst, który chcesz uchwycić. Aby zatrzymać przechwytywanie, wystarczy nacisnąć wybrany klawisz skrótu, aby zatrzymać przechwytywanie. Tekst zostanie następnie skopiowany do schowka, wyskakującego okienka wyjściowego lub obu. Przykład można zobaczyć poniżej.
Z moich szybkich testów narzędzia z obrazami stwierdziłem, że jego dokładność jest przyzwoita. Oczywiście istnieją ograniczenia takich narzędzi jak ten i OCR w ogóle. Na przykład mocno zmodyfikowany tekst (bardzo kursywy, kursywą lub nowoczesny) może nie działać tak dobrze, a czasem wcale. Ponadto w niektórych przypadkach pomocne będzie nieznaczne dostosowanie wymiarów pola przechwytywania lub odtwarzanie z powiększeniem samego obrazu, aby uzyskać dokładniejszy wynik.
Podczas przechwytywania tekstu ze zeskanowanych dokumentów PDF dokładność jest w porządku, z kilkoma ostatecznymi modyfikacjami na ogół nadal niezbędnymi do przechwyconego wyniku (w zależności od jakości początkowego skanu). Zauważyłem również, że przetwarzanie oprogramowania może potrwać kilka sekund dłużej, zwłaszcza gdy zostanie wyświetlony monit o konwersję dużych ilości tekstu.
Biorąc to wszystko pod uwagę, ogólnie myślę, że narzędzie wykonuje dobrą robotę, zwłaszcza, że jest dostępne bezpłatnie - zachęcam do wypróbowania go.
Dodatek 16.11.2015:
Inną opcją dla tych, którzy mają konta Google, jest również możliwość korzystania z możliwości Google OCR poprzez przesłanie pliku na Dysk Google (więcej informacji można znaleźć tutaj). Ponadto dla użytkowników przeglądarki Google Chrome dostępna jest również wtyczka OCR o nazwie Copyfish, którą możesz również sprawdzić.