[blog] Freitag ist Ki-Tag :)

darkside40

15% CPU Last durch Scraper, da wo der große Knick kommt habe ich die Robots.txt wieder eingesetzt.

Ich glaube ich werde auf dem Server mal Anubis installieren und gucken was das Programm noch so wegfiltert.

Radiuskoepfchen

Ist schon heftig,wenn man bedenkt, wie viel Last die Scraper dann global verursachen...
Eigentlich müssten die ganzen Hoster darauf schon reagieren, weil es bei denen ja die Kosten in die Höhe treibt.
Oder sie zucken mit den Schultern und legen die Kosten einfach um.

te36

Zitat von darkside40

Kleines Experiment auf dem Kodinerds Server. Beide Peaks sind zur gleichen Zeit, einmal mit einfachem KI Blocking durch nginx, am 07.05 12 Uhr habe ich es dann abgeschaltet. Die Anzahl der Visitors und Views sind übrigens weitesgehend identisch an beiden tagen gewesen.
Man sieht der Ressourcen Verbrauch verdoppelt sich. Für uns jetzt kein großes Thema, aber wenn das schon bei uns der Fall ist dann leide größere Projekte noch mehr darunter.
Schöne neue KI Welt.

Ich kapiers vorne und hinten nicht.

"mit einfachem KI Blocking durch nginx"

Übersetzung: auf dem Kodinerds server wird viel CPU verschwendet durch Scraper, die die Seiten durchsuchen und das sind jetzt mehr als frueher weil es durch KI mehr solche Scraper gibt ?? Und die kann man mit nginx filtern basierend auf irgendwelchen Blacklists oder so ???

Also quasi 50% der Netz und CPU Last sind von scrapern ?

Kann man die Scraper eigentlich den KI-Maschinen zuordnen, also kann man chatgpt vs. Gemini unterscheiden ?

darkside40

Gutmütige KI- Scraper identifizieren sich durch Ihren Useragent, und diese sind durch Dienste wie Dark Visitors bekannt. Diese kann ich durch eine Simple Regel in nginx aussperren. Sie bekommen dann nur einen 403 Fehler. Gutmütige Scraper halten sich auch daran was in der robots.txt einer Website steht.

Und ja: unser Server verschwendet Ressourcen weil einige Scraper massenhaft in kurzen intervallen das komplette Forum scannen für Trainingsmaterial. Jeder Seitenaufruf bemüht dann PHP etc. Und ja sperre ich die hab ich nur noch 1/4 der Last auf dem System.

Und ja man kann über die Useragents herausfinden welcher Bot zu welchem Unternehmen gehört und der bei weitem Aggressivste Bot gehört zu Claude von Anthropic. Dessen Useragent kommt 2-3 mal so häufig in den Logs vor wie der zweitplatzierte Useragent von OpenAI.

Das ist jetzt mal nur ein Ausschnitt der gestrigen Logfile.

Wie gesagt das sind jetzt nur die Bots die sich zu erkennen geben. Es gibt genügend die das nicht tun.

IP Blocks helfen übrigens nur schlecht. Im Forum hatten wir auch mal über den Dienst Honeygain gesprochen wo man ein paar ct dafür bekommen das man seine Internetleitung an die Firma vermietet. Ratet mal wer solche Dienste nutzt um nicht geblocked zu werden.

te36

Ist natuerlich immer eine Frage, ob man zu solchen crawlern lieb sein will, oder sie bloss versuchen will best moeglich zu blockeren. Aber mal angenommen ihr denkt euch "Boah, unser Gequassel hier, das sollten alle auf dem Internet gerne von AI bots unter die Nase geschoben kriegen, koennte ja gute Werbung fuers Forum sein", dann ist ja wohl die Frage,wie man dem crawler das Leben moeglichst einfach macht.

Z.b.: gibts da eine Moeglichkeit, den Crawlern eine Version der Seiten zu geben, die sich nicht dauern aendert ? Weil, so wie ich das sehe kriegt man die Seiten immer wieder mit neuem Veraenderungsstempel geliefert, z.b. wegen der Anzahl aktiver Besucher oder auch anderer uninteressanter Metadaten (evtl. auch Werbung). Wenn dem nicht so waere, dann waeren ja 99% des Forums statisch und sollten sich in unter 1% der Bandbreite checken lassen vom crawler.

the ratman

weils grad hier passt (irgendwo hier hat einer 'nen papstwitz oder so aufgemacht *fg*), hab ich mal die ki gefragt, was den so in punkten eine sekte ausmacht:

Zitat

Hier sind einige Punkte, die eine Sekte typischerweise definieren:
Charismatischer Führer: Oft gibt es eine zentrale, charismatische Persönlichkeit, die als Autorität angesehen wird.
Strenge Hierarchie: Es besteht häufig eine klare, hierarchische Struktur innerhalb der Gruppe.
Abgrenzung von der Gesellschaft: Sekten neigen dazu, sich von der breiteren Gesellschaft abzugrenzen und ihre Mitglieder zu isolieren.
Eindeutige Glaubenssysteme: Sie haben oft ein spezifisches, dogmatisches Glaubenssystem, das von den Mitgliedern erwartet wird, unkritisch akzeptiert zu werden.
Manipulative Techniken: Sekten verwenden häufig psychologische Manipulationstechniken, um Mitglieder zu rekrutieren und zu halten.
Kontrolle über das persönliche Leben: Es gibt oft strenge Regeln, die das persönliche Verhalten, die Beziehungen und die Lebensweise der Mitglieder regeln.
Angst und Schuld: Sekten können Angst und Schuld als Mittel einsetzen, um Mitglieder zu kontrollieren und sie an die Gruppe zu binden.
Exklusivität: Die Gruppe betrachtet sich oft als die einzige wahre Gemeinschaft oder den einzigen Weg zur Erleuchtung oder Rettung.
Missionarischer Eifer: Viele Sekten sind aktiv in der Rekrutierung neuer Mitglieder und der Verbreitung ihrer Lehren.
Ablehnung von Kritik: Kritische Stimmen oder externe Meinungen werden oft abgelehnt oder als Bedrohung wahrgenommen.
Diese Punkte sind allgemeine Merkmale und können je nach spezifischer Gruppe variieren.

tut schon weh - bis auf punkt 1 passt ja alles zur christlichen kirche ... mein ... papst und charismatisch. naja *g*

darkside40

Zitat von te36

Ist natuerlich immer eine Frage, ob man zu solchen crawlern lieb sein will, oder sie bloss versuchen will best moeglich zu blockeren. Aber mal angenommen ihr denkt euch "Boah, unser Gequassel hier, das sollten alle auf dem Internet gerne von AI bots unter die Nase geschoben kriegen, koennte ja gute Werbung fuers Forum sein", dann ist ja wohl die Frage,wie man dem crawler das Leben moeglichst einfach macht.
Z.b.: gibts da eine Moeglichkeit, den Crawlern eine Version der Seiten zu geben, die sich nicht dauern aendert ? Weil, so wie ich das sehe kriegt man die Seiten immer wieder mit neuem Veraenderungsstempel geliefert, z.b. wegen der Anzahl aktiver Besucher oder auch anderer uninteressanter Metadaten (evtl. auch Werbung). Wenn dem nicht so waere, dann waeren ja 99% des Forums statisch und sollten sich in unter 1% der Bandbreite checken lassen vom crawler.

Es wäre wirklich naiv zu glauben das wir was davon haben wenn Claude etc unsere Seiten scanned.

Perplexity ist mWn eine der wenigen KI Suchmaschinen die Quellen anbietet. Aber wofür benutzt man eine solche Suchmaschine denn? Dann wenn ich zu faul bin selber was zu suchen. Diese Suchmaschine soll halt alles an geklautem wissen aufsaugen, kompremieren und dann wieder erbrechen, damit der User möglichts wenig eigenen Recherche machen muss.

Die Seite von normalen Suchmaschinen indexieren zu lassen macht sinn (und geht dann Sitemaps etc auch recht effizient) denn diese bringen echte Menschen auf die Seite wodurch wir über Werbung Geld verdienen. LLM's sind eigentlich nur Diebstahl geistigen Eigentums.

Wir haben davon ganz simpel nichts, ausser mehr Last auf unserem VPS.

te36

Also chatgpt bietet auch immer quellen an, teilweise muss man halt nachfragen. Und inzwischen lande ich da immer gerne bei Quellen mit paywalls. Die geben also anscheinend gerne ihre Inhalte an normale Suchmaschinen und an AI-scraper um damit neue Kunden zu gewinnen. Evtl. sind die sogar schlau und liefern an die scraper nur zusammenfassungen, damit jeder der Details wissen will wirklich zahlen muss!

Von daher ist das mit "Diebstahl geistigen Eigentums" schwieriger zu bewerten als Du es siehst. Wer hauptsaechlich von Schlagzeilen lebt, der kann natuerlich leicht durch die AI Resultate Geld verlieren. Wer komplexere/laengere Inhalte hat, der wird eher Kunden dazugewinnen.

Bei uns sind ja die Inhalte vielleicht auch eher schlagwortartig, aber der meiste Wert ist ja in der Diskussion/Nachfrage. Von daher denke ich, das AI bots auch wie die traditionellen Suchmaschinen als Kundenfang dienen koennen.

Mir ging es aber vor allem darum, die technischen Massnahmen zu verstehen um zu vermeiden, das diese Scraper unnoetig resources verbrauchen.

Im Moment sehe ich gar keine sitemap fuer kodinerds. Und ich sehe das alle Seiten (unnoetigerweise) dauernd upgedated werden (was aber natuerlich vor allem wegen huebscher benutzer info ist). Von daher frage ich mich halt, ob Deine Messung nicht einfach nur so schlecht aussieht, weil die Seiten es einfach nicht moeglich machen, effizienter zu scrapen.

darkside40

Da würde passen wenn wir die einzigen wären die damit ein Problem hätten.

Das dies nicht der Fall ist sieht man schon daran das Cloudflare seinen Kunden inzwischen eine One-Click Methode anbietet um Ihre Seiten vor solchen Crawlern zu schützen: https://blog.cloudflare.com/de-de/declarin…a-single-click/

Solche Crawler könnten sich ja damit zufrieden geben alle paar Wochen vorbei zu schauen, tun sie aber nicht. Und warum sollten wir Maßnahmen ergreifen um es solchen Crawlern einfacher zu machen und effizienter zu sein, wenn wir davon nix haben ausser Arbeit und man dort das große Geld einsteckt?

te36

Ob Ihr ueberhaupt, und wenn ja, wie haeufig ihr einen Vorteil darin seht, das bestimmte crawler kodinerds durchsuchen ist ja eure Entscheidung.

Aber wenn man denn mal einen crawler was machen lassen will, dann scheint es ja keine richtig einfache Moeglichkeit zu geben den zu throttlen. Kenn mich ja nicht so aus, aber nach schnellen ueberfliegen muesste man ja wohl eine sitemap explizit mit jeder URL machen in der dann eine "monthly" changefreq drinsteht. Das ist irgendwie unterkomplex geloest bisher. Aber da wird ja auch gerade dann verbessert hoffe ich mal (in den standards - nicht bei kodinerds).

Ich z.b. finde die google suche selbst haeufig fuer viel besser als die bei kodinerds integrierte, mag es also gerne wenn ich da tagesaktuell info von kodinerds finden kann. Habe ein wenig das Gefuehl als ob das jetzt nicht mehr so gut geht wie frueher (teileweise alte Artikel nicht mehr bei normaler Google suche gefunden, was ?letztes Jahr? noch ging!). Aber wenn man tagesaktuell will, dann muesste man eben die changefreq bei all den n-1 seiten der Beitraege auf "sehr hoch setzen", damit die nicht jedes mal unnoetig gescraped werden.

Radiuskoepfchen

Zitat von darkside40

Da würde passen wenn wir die einzigen wären die damit ein Problem hätten.
Das dies nicht der Fall ist sieht man schon daran das Cloudflare seinen Kunden inzwischen eine One-Click Methode anbietet um Ihre Seiten vor solchen Crawlern zu schützen: https://blog.cloudflare.com/de-de/declarin…a-single-click/
Solche Crawler könnten sich ja damit zufrieden geben alle paar Wochen vorbei zu schauen, tun sie aber nicht. Und warum sollten wir Maßnahmen ergreifen um es solchen Crawlern einfacher zu machen und effizienter zu sein, wenn wir davon nix haben ausser Arbeit und man dort das große Geld einsteckt?

Man müsste den Spieß einfach umdrehen und im Forum einen Passus ablegen, dass das automatische Verwerten der Seiteninhalte mit einem Vertragsabschluss über eine gewisse Nutzungsdauer einhergeht und der xy kostet. Selbst bei minimalen Gebühren hätte man da ratz fatz das Forum finanziert.

don

KI-System rekonstruiert Gesichter aus DNA

Chinesische Forscher haben eine Software entwickelt, die aus dem Erbgut das Aussehen eines Menschen berechnet. Sie könnte in der Forensik genutzt werden.

www.heise.de

Das ist schon sehr gruselig. Aus einer DNA-Probe ein Gesicht rekonstruieren.

Radiuskoepfchen

Wirklich gruselig. Die Datenbasis selbst finde ich auch ziemlich dünn, da würde ich die Vielfalt der Natur doch wesentlich größer einschätzen.

tantalos

Na sicher, wenn heise.de das berichtet, dann wird es genau so sein. Es gibt noch zu wenige bekannte Gene, die für eine akkurate Gesichtserkennung ausreichen würden (Genotyp). Und dann kommen noch die starken hormonellen Einflüsse im Mutterleib und verschiedenen Umwelteinflüsse im weiteren Leben hinzu. Alles zusammen macht erst einen Phänotyp aus.

don

So langsam wird es für alles an "Arbeit" enger.
Programmieren geht schon recht gut.
Arbeiten wird auch immer mehr von Robotern erledigt werden können.
Da ist unitree ganz weit vorn:

Unitree (@UnitreeRobotics) auf X

High performance civilian robot manufacturer. Please everyone be sure to use the robot in a Friendly and Safe manner. https://t.co/hI6LafokVm

x.com

Und dann fehlt nur noch einer, der meinen Job erledigt.
Das zu "zaubern", was einem über die Schulter gerade mitgeteilt wird in Grafik umzusetzen und vor allem produzierbar zu machen.
Aber dazu müßte die Ki ja meinen PC direkt bedienen können. Das geht ja nicht.
Moment ... das ging ja nicht, jetzt aber schon:

Externer Inhalt youtu.be

Inhalte von externen Seiten werden ohne Ihre Zustimmung nicht automatisch geladen und angezeigt.

MCP ist DAS Wort der Ki-Stunde.
Model Context Protocol.

Ich habe es noch nicht getestet, weil auch so gut wie immer alles gerade ausgelastet ist
Aber man sieht, wo es hingeht.
(Auch ein Virus/Wurm/sonstiges Schadprogramm auf der Basis wäre im Godmode, wenn einmal Zugriff vorhanden ist.)

Um euch "von hinterm Mond" zu holen, kann ich:
-> https://www.gradually.ai/mcp-server/
empfehlen.
DIE Basis für MCPs ist hier:
-> https://mcp.so (oft überlastet)
und für reddit-fans:
-> https://www.reddit.com/r/mcp/

Arbeit wird neu erfunden. Endlich mal eine Säule, die so richtig ins Wanken geraten könnte.
Es fällt mir auch noch schwer, mich da reinzudenken.

Wenn ich mir zB das hier anschaue:

GitHub - vishalmysore/choturobo: Integrate Arduino-based robotics (using the NodeMCU ESP32 or Arduino Nano 368 board) with AI using the MCP (Model Context Protocol) framework from Claude Anthropic

Integrate Arduino-based robotics (using the NodeMCU ESP32 or Arduino Nano 368 board) with AI using the MCP (Model Context Protocol) framework from Claude…

github.com

Da bekommt man schon eine Ahnung.

KOorDInator

Danke für diesen Post!

darkside40

Alles mit allem zu verbinden und die Kontrolle darüber einem nicht deterministischem System zu übergeben welches sich unter anderem auch mal den Holocaust an der weissen Bevölkerung in Südafrika zusammenreimt. What could possible go wrong?

da_user

Zitat von darkside40

unter anderem auch mal den Holocaust an der weissen Bevölkerung in Südafrika zusammenreimt.

Da gibts ja Hinweise darauf, das sich das System nicht so ganz so von selbst zusammengereimt hat...

Aber zwecks doofer KI:

Während dem ESC google befragt wer da jetzt eigentlich der Kommentator ist. Sinngemäße Antwort: "Der ESC 2025 findet in Deutschland statt. Der Kommentator ist Peter Urban."
In den beiden Sätzen sind nur zwei Fakten richtig die man davor schon wusste.

darkside40

Stimmt angeblich war es ein böswilliger Mitarbeiter von X, ich würde da auf Elon Musk tippen.

darkside40

Die rassistische KI Grok hält einzug in die rechte Schwurbler Plattform Telegram, was kann da schon schiefgehen?

Partnerschaft: Grok kommt zu Telegram – und xAI bezahlt neunstellig

Auf seinen Social-Media-Kanälen kündigt Telegram-Chef Pawel Durow eine Partnerschaft an, die sich xAI hunderte Millionen Dollar kosten lässt.

www.heise.de

Jetzt mitmachen!