ich💻🧨iel

EunieIsTheBus@feddit.de · 11 months ago

ich💻🧨iel

342345@feddit.de · 11 months ago

Ich glaub tesseract verwendet gar keine neuronalen Netze oder doch?

https://static.googleusercontent.com/media/research.google.com/de//pubs/archive/33418.pdf

Hackepeter@feddit.de · 11 months ago

Eine Definition “Neuronale Netze” = KI gibt es nicht. Andere mathematische Methoden der heuristischen Mustererkennung könnte man genauso als KI bezeichnen oder eben beides nicht. Die meisten assoziieren moderne Deep Learning Systeme mit KI, aber eine feststehenden Definition ist das nicht. Liegt auch daran, dass schon für “Intelligenz” selbst verschiedene Definitionen existieren und das auch eher schwammig ist.

Speiser0@feddit.de · 11 months ago

Laut LIESMICH ab version 4 schon:

Tesseract 4 adds a new neural net (LSTM) based OCR engine which is focused on line recognition, but also still supports the legacy Tesseract OCR engine of Tesseract 3 which works by recognizing character patterns.

c64@feddit.de · edit-2 9 months ago

deleted by creator

cedeho@feddit.de · 11 months ago

https://github.com/clovaai/donut

EunieIsTheBus@feddit.de · 11 months ago

Danke für den Link. Das scheint interessant zu sein und werde ich mir anschauen.

PS: wie findet man eigentlich sowas? Kennst du dich einfach aus und weißt wonach du suchen musst oder hast du einen trick wie man der suchmaschine sinnvoll einfüttert, dass wenn man nach open source Texterkennung fragt nicht bloß tesseract rauskommt?

cedeho@feddit.de · 11 months ago

Ich habe mich Mal kurz beruflich mit solchen Sachen beschäftigt, weil wir tausende Laborberichte digitalisieren mussten. Da wir aber keine Softwareentwickler sind und meine Kenntnisse da bei weitem nicht reichen um sowas zuverlässig zu implementieren haben wir das dann letztlich von Studenten abtippen lassen ¯\_(ツ)_/¯

Auf DONUT war ein Arbeitskollege gestoßen, aber woher er das hatte weiß ich auch nicht.

EunieIsTheBus@feddit.de · 11 months ago

Ach so ein persönlicher Abtippstudent wäre auch praktisch. :D Danke für die Info!

Samsy@lemmy.ml · 11 months ago

So blöd es klingt und ich tesseract eigentlich mag, die Erkennung ist oft nicht sehr gut. Die kommerzielle Lösung von Adobe hat da mehr auf dem Kasten.

heeplr@feddit.de · 11 months ago

pdfsandwich macht das recht zuverlässig und benutzt intern auch tesseract. Vermutlich mit besseren Parametern.

EunieIsTheBus@feddit.de · 11 months ago

Gerade ausprobiert. (Musste erst ein wenig in etc rumspielen, weil imagemagick wohl nicht genug rechte zum bearbeiten von pdfs hat) Das Ergebnis ist tatsächlich besser. Allerdings bin ich nur an der Textausgabe interessiert und nicht an einer durchsuchbaren pdf.

heeplr@feddit.de · 11 months ago

Dafür nehme ich pdftotext (glaube Teil von poppler).

Aber für dich wäre es vermutlich schlauer über debug modus, /proc/…/cmdline oder quellcode die settings für tesseract rauszufinden, die pdfsandwich verwendet, damit du dein frontend entsprechen konfigurieren kannst.

gredo@lemmy.world · 11 months ago

Welche OCR (KI) Anwendung hast du da denn verwendet?

Speiser0@feddit.de · edit-2 11 months ago

Steht dort, Tesseract. https://github.com/tesseract-ocr/tesseract

Edith: Oh, oder meinst du die GUI?

EunieIsTheBus@feddit.de · 11 months ago

Falls er letzteres meint: OCRFeeder.

gredo@lemmy.world · 11 months ago

Danke, tesseract hatte ich übersehen und OCRFeeder kenne ich bisher nicht. Danke.