PDF dosyaları içindeki yazıların string olarak elde edilmesini sağlar. Api uygulaması olarak geliştirilmiştir. Diğer tüm platformlardan istek yaparak pdf dosyalardan metin çıkartılıp alınabilir.
Bilgisayarınızda Tesseract OCR kurulu olmalıdır. Links Uygun sürümü buradan indirin.
Tesseract yolunu Sistem değişkenlerine ekleyin nasıl ekleneceğini bilmiyorsanız bu videoyu izleyin Links
pip install pytesseract pip install tesseract pip install pdf2image pip install flask_sqlalchemy pip install flask_httpauth pip install passlib
komutlarını çalıştırın
Bu satırı kodlarınıza ekleyin (proje içersinde eklidir.)
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
Bu satırı kodlarınıza ekleyin (proje içersinde eklidir.)
TESSDATA_PREFIX = 'C:/Program Files (x86)/Tesseract-OCR'
sizin kurduğunuz dizin neresi ise o dizini r ' ' arasına eklemelisiniz.
Kodu tekrar çalıştırın.>
Not: out_text.txt dosyasında pdf dosyasının içeriğini göreceksiniz. Eğer Türkçe karakter sorunu var ise karakter kodlamasını UTF-8 yapmalısınız.
pip install SQLAlchemy==1.3.11
#Muhtemel Hatalar TypeError: can only concatenate str (not "PDFPageCountError") to str ya da TypeError: can only concatenate str (not "PDFInfoNotInstalledError") to str hatalarını alırsanız verdiğiniz pdf in yolunun doğru olduğuna emin olunuz. Doğru olsa bile windowsta o klasöre erişimde yetki problemi olabilir.