• heeplr@feddit.de
    link
    fedilink
    Deutsch
    arrow-up
    5
    ·
    11 months ago

    pdfsandwich macht das recht zuverlässig und benutzt intern auch tesseract. Vermutlich mit besseren Parametern.

    • EunieIsTheBus@feddit.deOP
      link
      fedilink
      Deutsch
      arrow-up
      6
      ·
      11 months ago

      Gerade ausprobiert. (Musste erst ein wenig in etc rumspielen, weil imagemagick wohl nicht genug rechte zum bearbeiten von pdfs hat) Das Ergebnis ist tatsächlich besser. Allerdings bin ich nur an der Textausgabe interessiert und nicht an einer durchsuchbaren pdf.

      • heeplr@feddit.de
        link
        fedilink
        Deutsch
        arrow-up
        1
        ·
        11 months ago

        Dafür nehme ich pdftotext (glaube Teil von poppler).

        Aber für dich wäre es vermutlich schlauer über debug modus, /proc/…/cmdline oder quellcode die settings für tesseract rauszufinden, die pdfsandwich verwendet, damit du dein frontend entsprechen konfigurieren kannst.