[HowTo] Papierloses Heim mit Paperless inkl. OCR

  • Hi,

    auf vielfachen Wunsch wollte ich ein kleines How To zum Thema Paperless schreiben.
    Ich habe mehrere Stunden damit verbracht das an den Start zu bekommen. Es sieht von außen betrachtet recht trivial aus. Aber der Weg dahin war nicht gerade einfach...

    [h1]Warum ?[/h1]

    Ich bin ein Schludri was Dokumentenmanagement daheim angeht - besonders wenn es darum geht den ganzen Mist zu sortieren und abzuheften. Zusätzlich nimmt, wenn man das dann echt mal tut, das ganze Zeig großen Platz weg. Die dicken Leitz Ordner stapeln sich und wenn man dann doch mal was sucht findet man es nicht oder ist ewig beschäftigt.

    [h1]Deshalb ![/h1]

    Ich will ein Papierloses Heim, mit einem extrem einfachen Workflow (will mir ja nicht schon wieder Arbeit machen), anständiger Suche und Datensicherheit.

    [h1]Was brauch ich ?[/h1]

    Eigentlich nicht viel: (es geht natürlich auch ohne Docker aber meine Infrastruktur ist eben so ausgelegt und dieses HowTo basiert darauf)

    • Docker Host (mit Compose von Vorteil)
    • Nextcloud (+ die "externer Speicher" App)

      • SmartPhone mit der App "Scanbot" oder
      • ein Netzwerkscanner mit der Möglichkeit auf WEBdav oder ähnliches direkt zu Scannen.

    [h1]Software ![/h1]

    Ich nutze für die Umsetzung das recht alte Projekt "Paperless" es besteht aus 2 Instanzen. Ein Webserver der die Dokumente darstellt und in dem man Sortieren/Suchen etc kann und ein Consumer, der die Dokumente aufbereitet und verarbeitet.

    [h1]Workflow ?[/h1]

    Ich bekomm einen Brief mach ihn auf, überflieg ihn kurz, hol mein Handy raus und scanne ihn mit der "Scanbot" App (nicht Pro), vergebe einen Namen und Speicher Ihn (Workflow erstellt in der App das die Datei auf Nextcloud gespeichert wird)

    Der Rest Magic :

    Der Consumer erkennt "oh ein neuer Brief" den lese ich mal.

    Scannt ihn / lässt eine Worterkennung drüber laufen, bereitet Ihn auf und wenn fertig gibt er es weiter an den Server

    Dieser legt das Dokument im Webfrontend an. Hier kann man es nun anschauen, runterladen oder eben danach Suchen (auch Inhalte des Dokuments dank OCR)


    ....
    ....
    ....
    ..TBA

    Support ME ! Buy me a Coffee :thumbup:


    Dont Touch ME

    LivingRoom: SilverStone Milo ML03 | Gigabyte B450 | Ryzen 3400G | 250GB NVME | 16GB DDR4-3200| Win10 64 bit | KODI 18 | Logitech Harmony Elite | SONOS Playbar + SUB
    BedRoom: PLAY:3
    Kitchen: PLAY:3
    BathRoom: Play:3

    Edited once, last by xSaSx (February 25, 2020 at 8:49 AM).

  • [h1]Vorbereitung[/h1]

    Nextcloud:

    Installiert in der Nextcloud GUI die "externe Speicher" App

    Die braucht ihr dafür das Ihr den Consumer (also den Upload Share von/für den Consumer mounten könnt)

    Docker Compose -> editiert euren Nextcloud Container:

    Bei mir sieht der Nextcloud Container ca. so aus in meiner Compose File:


    Ihr müsst nun unter Volumes: einen neuen Pfad angeben der für Paperless gilt und für Nextcloud:


    Code
    - /media/external/paperless/consume:/consume                         <--- das ist er bei mir

    In der Nextcloud Gui geht Ihr nun in die Einstellungen auf den "externen Speicher" Reiter und fügt den Pfad "/consume" hinzu. Dies wird der Upload Speicher für euren Scanner/ScanBot App

    Auf diesen Share hört auch der Consumer von Paperless.


    Scanbot App: (oder eben der Netzwerkscanner eurer Wahl)

    In der App erstellt Ihr die Verbindung zu eurer Nextcloud Instanz.
    Ist dies gemacht - müsst Ihr nur noch einen neuen Workflow erstellen der auf den Share (den Ihr für den externen Mount festgelegt habt) zeigt.

    Jedes gescannte Dokument könnte Ihr nun per Speichern unter direkt in diesen Share Uploaden.

    Support ME ! Buy me a Coffee :thumbup:


    Dont Touch ME

    LivingRoom: SilverStone Milo ML03 | Gigabyte B450 | Ryzen 3400G | 250GB NVME | 16GB DDR4-3200| Win10 64 bit | KODI 18 | Logitech Harmony Elite | SONOS Playbar + SUB
    BedRoom: PLAY:3
    Kitchen: PLAY:3
    BathRoom: Play:3

    Edited 2 times, last by xSaSx (February 25, 2020 at 9:07 AM).

  • [h1]Paperless[/h1]

    So nun kommen wir zum eigentlichen Hauptteil der Paperless installation:

    Hier seht ihr meine Docker Compose File wo ich inline erklärt hab was wichtig ist:


    Bei mir ist es so das die Container eine eigene IP bekommen wenn ihr bridge oder host verwendet ist das bei euch natürlich anders.

    Wichtig ist aber und dafür habe ich Stunden gebraucht das sie beide initial Internet haben. Man muss sich nämlich auf beiden in der Console des Dockers die OCR für deutsch nachladen.

    Somit geht ihr wenn die 2 Kisten rennen in die Console der beiden und führt folgenden Befehl aus:


    Code
    apk--no-cache --update add tesseract-ocr-data-deu

    Rebootet jeweils danach und freut euch das Ihr nun etwas Ordnung schaffen könnt :D

    Wenn Ihr wollt dürft ihr mir gerne einen Kaffee spendieren :) :love:

    Support ME ! Buy me a Coffee :thumbup:


    Dont Touch ME

    LivingRoom: SilverStone Milo ML03 | Gigabyte B450 | Ryzen 3400G | 250GB NVME | 16GB DDR4-3200| Win10 64 bit | KODI 18 | Logitech Harmony Elite | SONOS Playbar + SUB
    BedRoom: PLAY:3
    Kitchen: PLAY:3
    BathRoom: Play:3

    Edited 9 times, last by xSaSx (February 25, 2020 at 1:25 PM).

  • Ich melde mich zum lauschen schon mal an :thumbup: Wenns schon im Büro nicht so ganz klappt dann wenigstens zu Hause ;) Ich hab Orginal EINE Ablage wo ich alles reinlege was ankommt und einmal im Jahr mache ich einen großen Sortier-Tag^^ Hab das sonst immer in meinem Sommerurlaub gemacht aber ich bin schon lange überfällig. Meine Ablage quillt auch schon über. Das wäre doch ein guter Start für Paperless^^

    Nvidia Shield TV Pro
    Server: Intel Core i3-10100 CPU @ Gigabyte B460M D3H | 4x 8TB, 3x6TB, 2x1TB Cachepool | 4x8GB DDR4-2400 | unRAID 6.11.5 | Emby | Unifi | Teamspeak | Swag | DDclient | Heimdall | PiHole |

  • Super. Danke dafür. Werde ich demnächst auch mal so umsetzen.
    Eine Frage zur Scanbot App. Ich habe die auch schon getestet. Wenn ich mehrere Seiten eines Dokumentes scanne, sind die immer unterschiedlich breit. Das sieht dann immer etwas unschön aus. Man kann nicht einstellen, dass immer A4 verwendet werden soll.
    Ist das bei dir auch so?
    Hatte mal den Support angeschrieben, die sagten die Einstellung soll irgendwann mal kommen. Ist nun aber auch schon wieder 2 Jahre her.

  • Grundsätzlich gibt es sicher auch andere Apps- wie gesagt du brauchst nur eine die eben auf WebDav oder FTP oder so sichern kann (in dem Fall eben Nextcloud) der share muss halt für alle beteiligten Container erreichbar sein.

    So ist eben mein Workflow. Kannst natürlich auf am PC richtig scannen und den Scan direkt in den Share legen etc...aber ich teste es bei Gelegenheit mal

    Support ME ! Buy me a Coffee :thumbup:


    Dont Touch ME

    LivingRoom: SilverStone Milo ML03 | Gigabyte B450 | Ryzen 3400G | 250GB NVME | 16GB DDR4-3200| Win10 64 bit | KODI 18 | Logitech Harmony Elite | SONOS Playbar + SUB
    BedRoom: PLAY:3
    Kitchen: PLAY:3
    BathRoom: Play:3

  • @Seger sieht gut aus, leider nicht für Android.

    Kurze Frage zu Paperless. Liegen die Dokumente dann einfach in dem Share, oder werden die noch in Ordner einsortiert? Oder kann man dies anschließend noch manuell machen?

    Sehr interessantes Projekt.
    Genau die selbe Frage hätte ich auch.
    Ich tue mich immer schwer bei einer sauberen Ordnerstruktur.

    Wie hast du das gelöst?

    Vielen Dank
    hagi

  • @Onkel-W

    Nein hierbei geht es nur um die Texterkennung - das er einen in deutsch geschriebenen Text erkennt (OCR) und Ihn Inline durchsuchbar macht

    @OOmatrixOO

    Die liegen einfach in dem Share von Nextcloud. Du kannst Sie in der Paperless Gui sortieren und taggen oder dir Ordner anlegen (die Files an sich liegen aber nur in dem Nextcloud Share)

    Support ME ! Buy me a Coffee :thumbup:


    Dont Touch ME

    LivingRoom: SilverStone Milo ML03 | Gigabyte B450 | Ryzen 3400G | 250GB NVME | 16GB DDR4-3200| Win10 64 bit | KODI 18 | Logitech Harmony Elite | SONOS Playbar + SUB
    BedRoom: PLAY:3
    Kitchen: PLAY:3
    BathRoom: Play:3

  • Uuuuuund, was mich noch interessiert, hast du empfohlene Scannereinstellungen?
    z.B. 300 DPI, schwarz/weiß, JPG, oder ähnliches :D

    Habs gestern mal installiert, unter Unraid war's bisschen anders, da kein nextcloud in Verwendung ist, und auch kein docker mit Compose irgendwie, keine ahnung, war auf jeden fall anders, aber es ging.
    (Habe auch die deutsche sprache in der Dockercontainer-Shell mit wget https://github.com/tesseract-ocr/tessdata/raw/4.00/deu.traineddata runtergeladen, im Ordner: /usr/share/tessdata *grins*)

    Hab dann Test-Scans gemacht, und mit dem Handy mal einfach fotografiert (iPhone X)
    Die Test-Scans hat er wunderbar erkannt.
    Die Fotos nicht, da musste ich eine "Scanner-App" nutzen... grml, aber danach ging es.

    Noch eine weitere Frage dazu:
    Kann man bei Paperless irgendwie Dokumente (zwei/mehrseitig) auch irgendwie so markieren, dass er weiß, dass die zusammen gehören?
    Sprich, wenn das eine Dokument über die Suche gefunden wird, dass er die zugehörigen Seiten mitanzeigt?

    Edited once, last by AcidRain: Ziel Ordner für wget ergänzt (February 27, 2020 at 7:22 PM).

  • Habs gestern mal installiert, unter Unraid war's bisschen anders, da kein nextcloud in Verwendung ist, und auch kein docker mit Compose irgendwie, keine ahnung, war auf jeden fall anders, aber es ging.
    (Habe auch die deutsche sprache in der Dockercontainer-Shell mit wget https://github.com/tesseract-ocr/tessdata/raw/4.00/deu.traineddata runtergealden, da wo si hingehörte laut [definition='1','0']log[/definition]... *grins*)

    Unraid ist mein Stichwort da ich damit auch experimentiere
    Könntest du mal deine Vorgehensweise und Einstellungen zwecks Paperless hier posten bzw zur Verfügung stellen?

  • @Onkel-W: ja, versuche ich, spätestens am Wochenende mal (sofern wir nicht ins Schwimmbad gehen...), wie man so ne tolle Thread Übersicht wie @xSaSx macht, ggf. kann, wenn ich es soweit hab, dann ja ein Mod irgendwie auch nach Oben schieben in dem Thread...

    Im endeffekt habe ich mich an das hier (trotz des englischs und der nicht vorhandenen Dockerkenntnisse) https://forums.unraid.net/topic/87196-su…perless-docker/ gehalten.

    letztlich hatte es nur geharkt bei Punkt Nr 4, wegen dem consumer service, da ich dort auch den Dockerpfad angepasst hatte, was man nicht soll, da der consumer service ja die gleiche Datenbank nutzen soll, so wie ich es verstanden habe. :)

    Aber mach ich mal ;)
    Mit Bildern, wenn ich es schaffe!

  • Hi,

    hab mich auch am Paperless im Unraid versucht. nach Anleitung (https://forums.unraid.net/topic/87196-support-paperless-docker)2 Container angelegt.


    Da der Docker beim Anlegen wohl ignoriert die Sprache PAPERLESS_OCR_LANGUAGE=deu zu installieren hab ich es in der Commandline vom Consume-Docker per "apk add tesseract-ocr-data-deu" installiert
    Danach klappt es
    Doof ist dann halt das es dann vergessen geht falls man was an den Settings des Containers ändert

    LG Alex

  • Scanner App Scanbot (Android)
    Bei mehrseitigen Dokumenten sahen die Seitenübergänge dann meist so bei mir aus:

    Hab aber ohne extra Halterung oder so gescannt. Ich habe Apps gefunden, die das besser machen und jede Seite richtig auf A4 scalieren, aber all die haben kein Webdav oder ähnliches. Ein echter Teufelskreis.

    Könntet ja gern mal testen, ob das bei euch auch so ist, oder ich mich nur zu blöd anstelle.

  • Scannst du dann als PDF und lässt du das dann auf paperless los?

    Oder verknüpft bei dir paperless die Doumente automatisch?
    Weil, wie gesagt, das fehlt mir, wenn ich vorder und rückseite eisncanne, jeweils als ein JPG abspeichere, und dann paperless übergebe,
    erkennt er das Datum der vorderseite, und macht dann bei der Rückseite das Datum von "heute" rein, und ich habe noch nichts gefunden, wie ich in paperless die zwei Seiten miteinander verknüpfen kann.

Participate now!

Don’t have an account yet? Register yourself now and be a part of our community!