[HowTo] Papierloses Heim mit Paperless inkl. OCR

OOmatrixOO

Ja schade. Eine ordentliche Benennung der Dokumente im Media Ordner würde ja schon viel bringen.

xSaSx

Du musst dich von sowas lösen wenn du ein DMS verwendest.... Wir haben auf Arbeit ein sau teures DMS ! Da werden die Daten so verhackstückelt abgelegt das du sie in 100Jahren nicht mehr finden würdest auser du hast das Frontend...das ist ganz normal

OOmatrixOO

Würde ich gerne, echt. Aber dafür ist die Benamung der Dokumente einfach zu "bescheiden".
Was ist, wenn das frontend oder sogar der Server mal länger ausfällt und du unbedingt ein Dokument benötigst? Durchnummerierte Namen wie 000001.pdf helfen dir da nicht weiter.
Datum-Dokumentenname.pdf und ich wäre sofort dabei und es würde ein zentraler Ordner reichen.

Das wäre ein gutes Feature. Ich denke, die Programmierer könnten das sicher auch einfach umsetzen.
Könntest es denen ja mal vorschlagen.

xSaSx

Kann ich mal als issue einreichen

RedRat

Hi @AcidRain

Du hattest ja gefagt wie du mehrseitige Dokumente zusammenfassen kannst. Es gibt ja das Format Multi-TIFF. Damit klappts !

LG Alex

OOmatrixOO

https://github.com/the-paperless-…less/issues/293

Das wäre doch das, was ich mir vorstelle, wenn ich richtig verstanden habe.

xSaSx

Jo und sieht ja ziemlich aktuell aus - bzw die haben ja wohl sogar eine Lösung ist nur noch nicht ins Master gelaufen wenn ich das richtig deute

te36

mal so auf papierlose archivierung umzustellen waere schon prima.

Ich strauchele aber schon am ersten schritt: Damit das effizient ist, muesste ich am drucker/scanner einfach nur eine mehrseitiges dokument in den ADF legen koennen, dann eine taste druecken, und dann taucht das irgendwo gescannt in einem verzeichnis auf. Also nix hin und herrennen um scanparametre einstellen, oder mit'm handy rumfummeln. Ist ja auch wurscht, wenn das alles erstmal mit viel zu viel aufloesung gescannt wird.

Wuesste halt nicht, wie ich so ein automatisches scannen hinkriege. Die Dokumentation meines Multifunctions ist halt erbaermlich. Canon G7050.

TylerDurden_BS

@te36

da ich leider einen MuFu ohne ADF habe kann ich dir da nix zu sagen, mein Tipp ecodms ist aber in der Lage ADFzu scannen.
Ob das mit deinem Gerät klappt kann ich somit nicht sagen.

te36

hab jetzt nicht versucht zu kucken, was ecodms funktional macht, aber preis und multi-plattform passt.
Denke ich will was unter linux aufsetzen,
muesste jetzt also mal gucken, ob ich sane fuer mein MuFu zum laufen kriege.

Denke aber mal das ich nicht am MuFu knopf druecken kann der dann automatisiert mit backend software laeuft. Also braeuchte ich wohl doch 'ne art ersatz fuer bedienpanel, das dann auf dem linux-rechner einen sane scann startet. Mal gucken.

OOmatrixOO

https://stadt-bremerhaven.de/scanbot-wurde-verkauft/

Scanbot wurde verkauft. Denke mal die ist bald weg.

Makkoo

Ich habe die Tage mal Docutain getestet und bin sehr zufrieden damit, ist Kostenlos hat OCR, Webdav(wer es braucht) mit an Board.

https://play.google.com/store/apps/det…fosoft.docutain

Um meine Dokus an paperless zu senden er wende ich Total Commander läuft echt super

Makkoo

Zitat von Pieto

Hallo Makkoo
ich habe auch Interesse das Projekt auf Proxmox zu nstallieren.
Würdest Du die einzelnen Schritte einem nicht Linux Spezialisten vielleicht näher erklären?
Danke Pieto

Ich habe mal auf die schnelle ein kleines Tut geschrieben :

Pieto

Makkoo,

vielen Dank für Deine mÜhe.

AcidRain

Mal so ne Frage...
Wie lange dauert es bei euch eigentlich über Docker und Paperless (aktuellste Version des Docker Images, Stand 2020-03-25) ein 14 seitiges Dokument zu erkennen?
Bei mir rödelt der Docker paperless-consume jetzt schon über ne Stunde damit rum..

Das ist das Docker-Log dazu:
(leider ohne Timestamps oO)

Code

Consuming /consume/Verwaltervertrag XXXX Hausverwaltung.pdf
** Processing: /tmp/paperless/paperless-qxgop75f/convert.png
482x683 pixels, 3x16 bits/pixel, RGB
Input IDAT size = 430959 bytes
Input file size = 431172 bytes


Trying:
zc = 9 zm = 9 zs = 0 f = 0 IDAT size = 242992
zc = 9 zm = 8 zs = 0 f = 0 IDAT size = 242378
Selecting parameters:
zc = 9 zm = 8 zs = 0 f = 0 IDAT size = 242378


Output file: /tmp/paperless/paperless-qxgop75f/optipng.png


Output IDAT size = 242378 bytes (188581 bytes decrease)
Output file size = 242435 bytes (188737 bytes = 43.77% decrease)


Processing sheet #1: /tmp/paperless/paperless-qxgop75f/convert-0001.pnm -> /tmp/paperless/paperless-qxgop75f/convert-0001.unpaper.pnm
Processing sheet #1: /tmp/paperless/paperless-qxgop75f/convert-0003.pnm -> /tmp/paperless/paperless-qxgop75f/convert-0003.unpaper.pnm
Processing sheet #1: /tmp/paperless/paperless-qxgop75f/convert-0000.pnm -> /tmp/paperless/paperless-qxgop75f/convert-0000.unpaper.pnm
Processing sheet #1: /tmp/paperless/paperless-qxgop75f/convert-0002.pnm -> /tmp/paperless/paperless-qxgop75f/convert-0002.unpaper.pnm
[pgm_pipe @ 0x5562f3038cc0] Stream #0: not enough frames to estimate rate; consider increasing probesize
[pgm_pipe @ 0x562b1c1e5cc0] Stream #0: not enough frames to estimate rate; consider increasing probesize
[pgm_pipe @ 0x558c8e16bcc0] Stream #0: not enough frames to estimate rate; consider increasing probesize
[pgm_pipe @ 0x55d40b008cc0] Stream #0: not enough frames to estimate rate; consider increasing probesize
[image2 @ 0x558c8e16d100] Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
[image2 @ 0x558c8e16d100] Encoder did not produce proper pts, making some up.
out of deviation range - NO ROTATING
Processing sheet #1: /tmp/paperless/paperless-qxgop75f/convert-0004.pnm -> /tmp/paperless/paperless-qxgop75f/convert-0004.unpaper.pnm
[pgm_pipe @ 0x55ade3708cc0] Stream #0: not enough frames to estimate rate; consider increasing probesize
[image2 @ 0x562b1c1e7100] Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
[image2 @ 0x562b1c1e7100] Encoder did not produce proper pts, making some up.
out of deviation range - NO ROTATING
Processing sheet #1: /tmp/paperless/paperless-qxgop75f/convert-0005.pnm -> /tmp/paperless/paperless-qxgop75f/convert-0005.unpaper.pnm
[pgm_pipe @ 0x5645b65e5cc0] Stream #0: not enough frames to estimate rate; consider increasing probesize
[image2 @ 0x55d40b00a100] Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
[image2 @ 0x55d40b00a100] Encoder did not produce proper pts, making some up.
out of deviation range - NO ROTATING
Processing sheet #1: /tmp/paperless/paperless-qxgop75f/convert-0006.pnm -> /tmp/paperless/paperless-qxgop75f/convert-0006.unpaper.pnm
[pgm_pipe @ 0x55f8ddba4cc0] Stream #0: not enough frames to estimate rate; consider increasing probesize
[image2 @ 0x5562f303a100] Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
[image2 @ 0x5562f303a100] Encoder did not produce proper pts, making some up.
Processing sheet #1: /tmp/paperless/paperless-qxgop75f/convert-0007.pnm -> /tmp/paperless/paperless-qxgop75f/convert-0007.unpaper.pnm
[pgm_pipe @ 0x55889c4dbcc0] Stream #0: not enough frames to estimate rate; consider increasing probesize
[image2 @ 0x5645b65e7100] Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
[image2 @ 0x5645b65e7100] Encoder did not produce proper pts, making some up.
out of deviation range - NO ROTATING
Processing sheet #1: /tmp/paperless/paperless-qxgop75f/convert-0008.pnm -> /tmp/paperless/paperless-qxgop75f/convert-0008.unpaper.pnm
[pgm_pipe @ 0x55dd1e04bcc0] Stream #0: not enough frames to estimate rate; consider increasing probesize
[image2 @ 0x55ade370a100] Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
[image2 @ 0x55ade370a100] Encoder did not produce proper pts, making some up.
Processing sheet #1: /tmp/paperless/paperless-qxgop75f/convert-0009.pnm -> /tmp/paperless/paperless-qxgop75f/convert-0009.unpaper.pnm
[pgm_pipe @ 0x5588f8281cc0] Stream #0: not enough frames to estimate rate; consider increasing probesize
[image2 @ 0x55889c4dd100] Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
[image2 @ 0x55889c4dd100] Encoder did not produce proper pts, making some up.
out of deviation range - NO ROTATING
Processing sheet #1: /tmp/paperless/paperless-qxgop75f/convert-0010.pnm -> /tmp/paperless/paperless-qxgop75f/convert-0010.unpaper.pnm
[pgm_pipe @ 0x560c6f335cc0] Stream #0: not enough frames to estimate rate; consider increasing probesize
[image2 @ 0x55f8ddba6100] Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
[image2 @ 0x55f8ddba6100] Encoder did not produce proper pts, making some up.
Processing sheet #1: /tmp/paperless/paperless-qxgop75f/convert-0011.pnm -> /tmp/paperless/paperless-qxgop75f/convert-0011.unpaper.pnm
[pgm_pipe @ 0x557383d96cc0] Stream #0: not enough frames to estimate rate; consider increasing probesize
[image2 @ 0x55dd1e04d100] Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
[image2 @ 0x55dd1e04d100] Encoder did not produce proper pts, making some up.
out of deviation range - NO ROTATING
Processing sheet #1: /tmp/paperless/paperless-qxgop75f/convert-0012.pnm -> /tmp/paperless/paperless-qxgop75f/convert-0012.unpaper.pnm
[pgm_pipe @ 0x564d2652ccc0] Stream #0: not enough frames to estimate rate; consider increasing probesize
[image2 @ 0x5588f8283100] Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
[image2 @ 0x5588f8283100] Encoder did not produce proper pts, making some up.
Processing sheet #1: /tmp/paperless/paperless-qxgop75f/convert-0013.pnm -> /tmp/paperless/paperless-qxgop75f/convert-0013.unpaper.pnm
[pgm_pipe @ 0x55ef64e20cc0] Stream #0: not enough frames to estimate rate; consider increasing probesize
[image2 @ 0x560c6f337100] Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
[image2 @ 0x560c6f337100] Encoder did not produce proper pts, making some up.
[image2 @ 0x557383d98100] Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
[image2 @ 0x557383d98100] Encoder did not produce proper pts, making some up.
[image2 @ 0x564d2652e100] Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
[image2 @ 0x564d2652e100] Encoder did not produce proper pts, making some up.
[image2 @ 0x55ef64e22100] Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
[image2 @ 0x55ef64e22100] Encoder did not produce proper pts, making some up.
OCRing the document
Parsing for deu
Parsing for deu
Parsing for deu

Alles anzeigen

Wie gesagt, 14 seitiges Dokument, als PDF ca 6,5 MB groß.

Und hier die Dockereinstellungen für dne consumer:

Jetzt halt die Frage, ob man da noch was optimieren kann...
CPU ist ein Pentium G4560

kingbuzzzo

Hi,

ich komme leider irgendwie hier nicht weiter. Bei mir funktionieren derzeit zwei Dinge nicht:

1. Der Ordner den ich in Nextcloud per externem Speicher Plugin gemountet habe, ist nicht beschreibbar.
Komisch finde ich hier, dass der Ordner, wenn er per Docker-Compose erstellet wird, mit root:root erstellt wird. Eigentlich sollte dies nicht der Fall sein, da ich einen eigenen Docker-User eingerichtet habe.

2. Wenn ich PDFs manuell in meinen Consume Ordner kopiere, werden diese nicht gefunden.
Hier habe ich leider gar keine Idee...

Ich fürchte, dass es sich um ein Berechtigungsproblem handelt, aber ich habe mittlerweile so viele chowns und chmods durch, dass mir der Kopf raucht.

Hier ist ein Teil meines compose files:

Code

app:
    image: nextcloud
    container_name: nextcloud
    ports:
      - 18780:80
    links:
      - db
    volumes:
      - /opt/appdata/nextcloud:/config
      - /mnt/storage/nextcloud:/var/www/html/data
      - /opt/appdata/nextcloud/files:/var/www/html
      - /mnt/cache/paperless/consume:/consume
    restart: always
    environment:
      - PUID=1001
      - PGID=1001
      - TZ=Europe/Amsterdam


  paperless:
    container_name: Paperless_Server
    image: thepaperlessproject/paperless
    restart: always
    ports:
      - 8000:8000
    volumes:
      - /opt/appdata/paperless/data:/usr/src/paperless/data
      - /mnt/storage/documents/paperless/media:/usr/src/paperless/media
      - /mnt/cache/paperless/consume:/consume 
    environment:
      - PAPERLESS_OCR_LANGUAGES=deu ita 
      - PAPERLESS_OCR_LANGUAGE=deu ita
      - PUID=1001
      - PGID=1001
      - TZ=Europe/Amsterdam
    command: ["runserver", "0.0.0.0:8000"] 
	
  consumer:
    container_name: Paperless_Consumer
    image: thepaperlessproject/paperless
    restart: always
    depends_on:
      - paperless
    environment:
      - PAPERLESS_OCR_LANGUAGES=deu ita 
      - PAPERLESS_OCR_LANGUAGE=deu ita 
      - PUID=1001
      - PGID=1001
      - TZ=Europe/Amsterdam
    volumes:
      - /opt/appdata/paperless/data:/usr/src/paperless/data
      - /mnt/storage/documents/paperless/media:/usr/src/paperless/media
      - /mnt/cache/paperless/consume:/consume 
    command: ["document_consumer"]

Alles anzeigen

Hat es bei euch auf Anhieb geklappt oder musstet ihr noch etwas einstellen? Hat sonst jemand eine Idee?

Grüße
Kingbuzzo

OOmatrixOO

Ich nutze es zwar immer noch nicht produktiv (habe mir vorerst eine andere Herangehensweise überlegt), aber verfolge das Projekt trotzdem noch. Wenn es irgendwann mal nach meinen Vorstellungen läuft, werde ich sicher auch Paperless produktiv nutzen.

Mir gefällt ja zB nicht, dass die Original Dateien nicht mit dem richtigen Titel abgespeichert werden, sondern einfach nur fortlaufend nummeriert. So kann man sie im Share nicht wirklich durchsuchen und ist immer auf die WebUI angewiesen.

Da tut sich mittlerweile was. Man kann nun mit der Variable `PAPERLESS_FILENAME_FORMAT` den Dateinamen festlegen.
Ich habe {created} - {title} getestet. Funktioniert auch soweit. Raus kommt sowas: 2020-04-28-0000000000 - test-0000007.pdf

Mich würde da noch die Uhrzeit (0000000000) und der Zähler (0000007) stören. Brauche ich nicht, denn 2020-04-28 - test.pdf wäre der richtige Titel.

Aber immerhin schon mal ein Anfang.

Taobyebye

Hallo,
habt ihr euch da auch über die Sicherheit Gedanken gemacht?
Sind die Daten verschlüsselt ? Wenn jemand Zugriff auf das System bekommt, könnte man ja im schlimmsten Fall alle Dokumente raus kopieren und lesen. Wenn es als Papier im Ordner liegt, müsste erstmal jemand ins Haus einbrechen, was meiner Meinung nach schwerer ist als eine Sicherheitslücke zu finden.
Sortiert ihr nach jedem Scan die Dokumente manuell oder kann man es soweit automatisieren, dass Briefe von der Versicherung mit Versicherung gezeichnet werden?

Hatte sonst noch das hier gefunden, das auf jeden Fall verschlüsselt sein soll:
https://github.com/sismics/docs

narf!

ist das hier noch aktuell?
bei mir scheiterts schon bei nextcloud...
wie/als was muss der externe Speicher denn konfiguriert werden?

Lokal wirds ja kaum sein, oder?
bei webdav (das müsste mit Docutain möglich sein) ist mir nicht ganz klar, wie die url ausschauen sollte...

Grüße

bennySB

Wenn du deinen Speicher an Nextcloud weiter reichst, dann kannst du ihn auch als lokalen Speicher einbinden, habe ich bei mir auch so am laufen.

[HowTo] Papierloses Heim mit Paperless inkl. OCR

Jetzt mitmachen!

Tags

Benutzer online in diesem Thema