[HowTo] Papierloses Heim mit Paperless inkl. OCR

noob_at_pc

Können, pures Können!

da_user

Zitat von noob_at_pc

Steuerrelevant wäre für mich ein Tag

Ergänzt um das relevante Steuerjahr

taker-`

Ich habe es auch so in etwa eingerichtet, wie noob_at_pc beschrieben hat. Funktioniert echt super. Allerdings mache ich mit Mails gar nichts. Wenn ich von dort ein Dokument speichern will, lad ich es runter und füge es manuell in Paperless ein.

Hab aber auch seit geraumer Zeit https://github.com/clusterzx/paperless-ai am laufen. Seit dem muss ich echt gar nichts mehr tun. Dokument/Bild oder sonst was reinhauen und fertig. Bis jetzt hat einfach alles ohne Probleme gepasst und alles wurde erkannt.

tavoc

Die Modelle laufen aber nicht lokal, oder? Das heißt doch dass er dann alle Metadaten und Dokumenteninhalte jedesmal an die Ai Modelle gibt oder wie funktioniert das?

darkside40

Das kommt drauf an was du nutzen willst. Ollama ist ja etwas was man lokal installieren, da lässt man dann ein Modell laufen und Ollama stellt dann eine API bereit.

Aber klar die Rechenpower dafür muss man dann selber bereitstellen.

taker-`

Genau so wies darkside40 sagt.

Ich kann gerade nicht gucken, da ich gerade umgezogen bin und noch kein Internet habe. Also auch kein NAS I'm Einsatz usw.

Aber ich meine, man kann da zwischen verschiedene KI Modellen wählen, oder eben auch ein selbst gehostetes auswählen.

Aber ja, man muss selbst die Rechenpower bereitstellen. Ich meine sogar, man kann es auf dem NAS laufen lassen, aber das dauert halt ewig. Ob das schlimm ist, muss man für sich selbst entscheiden.

Aber wie gesagt, kann es gerade nicht gucken. Vllt. Erzähle ich auch grad Blödsinn.

darkside40

Technisch gesehen kannste halt jedes Modell auch auf ner normalen CPU ausführen lassen, aber ja das ist lahm.

lattepanda

genau so hab ichs. einen container mit paperless-ngx und einen mit -ai.

Aber da es nur auf einem alten Xeon läuft plane ich auch das evtl wieder zu lassen

noob_at_pc

Und ... wo ist da der Vorteil? Was bringt einem die Ki? Bei >90% meiner Dokumente muss ich nix machen, wird sauber erkannt.

Frage ist ernst gemeint.

taker-`

Zitat von lattepanda

genau so hab ichs. einen container mit paperless-ngx und einen mit -ai.
Aber da es nur auf einem alten Xeon läuft plane ich auch das evtl wieder zu lassen

Ja, ich auch. Aber kannst du sagen, ob die Daten online weitergegeben werden, oder ob das dann komplett lokal läuft? Oder hat man die Möglichkeit zu wählen? Wie gesagt, kann es selbst gerade nicht testen, da ich erst in gut zwei Wochen wieder Internet habe.

noob_at_pc Ich selbst fande, dass es ne nette Spielerei ist. Du sagst selbst, es wird mehr als 90% erkannt. Aber was ist, wenn es mit der KI dann zu 100%, oder 99% wäre? - Klar, ist wohl Haarspalterei, aber trotzdem ganz cool, finde ich.

noob_at_pc

Wow dann spart mir das was... 2 Sekunden Lebenszeit? Nee irgendwie ist das wieder so eine Sache wo ich sage KI ist definitiv die falsche Antwort.

Aber verstehe das Argument "is halt geil", das lasse ich gelten.

Nur ist der Nutzen echt unglaublich gering. Und dann noch der energiebedarf.

Danke für die Aufklärung

taker-`

Kein Ding. Ich hab mein bestes gegeben 😄

Aber ich gebe dir recht. Man brauch es eigentlich nicht wirklich. Wenn man Paperless nice eingerichtet hat, dann läuft das auch so sehr, sehr gut!

darkside40

Naja geht ja nicht nur um die analyse der Dokumente, man hat hinterher auch die Möglichkeit mit dem Ding zu chatten. So frei nach dem Motto: Such mir alle Spendenquittungen aus de mJahr 2024 raus.

Frage ist dann halt auch immer ob das sauber funktioniert.

noob_at_pc

dann drück ich halt die 2 Knöppe "Ausstellungsdatum 2024" und "Spendenquittung" und fertig. Und dann hab ichs wirklich. Die Features hat Paperless ja von Haus aus ...

Da erzeug ich mit der KI mehr Arbeit als die ganze Sache Wert ist, bzw die eigendliche Bedienung funtkioniert genauer.

Und mit nem Computer will ich weder reden noch schreiben
Ne passt, der noob hat was gegen das ganze Ki geschlonze bzw wie es genutzt wird.

te36

Was schafft denn Paperless ohne AI automatisch zu kategorisieren - oder hat man im Prinzip "bloss" freitextsuche im OCR text ?

Bei der Sparkasse werden ja aus Rechnungen die passenden Felder rausgesucht. Und das nennen die noch nicht mal AI ! Klar, muss man immer noch kontrollieren, hatte bisher allerdings noch keine Fehler gehabt. Natuerlich waere mir das lieber, wenn ich da nicht die volle Rechnung hochladen muesste fuer die Bequemlichkeit, sondern ein pro-forma Rechnung wo nur die Daten drinstehen, die die Sparkasse fuer die Ueberweiseung braucht. Falls nicht ueberhaupt eine Ueberweisung per API statt per web. aber dsa waere ja dann jenseit dessen, was paperless machen soll..

noob_at_pc

also ich nutze keine KI und bei mir macht Paperless sogut wie alles selbst. Immer abhängig wie gut es konfiguriert hast und wie die Kategoriesierungen erkannt werden sollen.

zumal es ja selbst maschinelles lernen integriert hat ... hüstel

egal,ihc kann mir schon vorstellen, das sie in LLM schon so einiges kann, sicher auch besser. Naja jeder wie er mag.

darkside40

Gibt es eigentlich irgendeine Möglichkeit sich Duplikate in der GUI anzeigen zu lassen? Habe das Gefühl ich übersehe da was

noob_at_pc

Gibt keinen Duplikate, zumindest keine digitalen. Das erkennt er.

Ansonsten, nein.

darkside40

Auch bei Scans?

noob_at_pc

Das meinte ich mit nur bei digitalen. Ja klar, ein scan kann doppelt sein weil er ja jedes mal etwas anders ist. Auf Bitebene kein Duplicat.

Aber das kann man leider so nicht filtern lassen, paperless scann wirklich nur rein den OCR-Text. Für ihn ist das nur Inhalt und damit ist das so nicht einfach machbar, leider.

ACHTUNG: Ich korrigiere mich beim schreiben - so wie es scheint soll es da was geben ...

Feature: New management command for fuzzy matching document content by stumpylog · Pull Request #4160 · paperless-ngx/paperless-ngx

Proposed change Something requested in the Matrix room, a quick and simple tool to compare the content of documents to all the other documents, reporting those…

github.com

hier wird der Befehl mal angewendet, hab ich selbst aber noch nie so umgesetzt.

Deleting Fuzzy Duplicates · paperless-ngx paperless-ngx · Discussion #4950

Hi all, I'm ending up with many duplicates of files (not byte-duplicate), which I suspect is due to my pre-consumption script (ideally, I improve the script,…

github.com

[HowTo] Papierloses Heim mit Paperless inkl. OCR

Jetzt mitmachen!

Tags