[blog] Freitag ist Ki-Tag :)

  • Was Du da erzaehlst hat man sich zu meiner Zeit beim Programmieren in der Oberstufe beigebracht [...]

    Da du mich ansprichst - nicht sicher was du mir damit sagen willst? Ging mir nicht darum, dass ich zu den Themen Hilfe brauche - ich sag mal ich komme mit Physik, Chemie, Mathematik, Numerik und Programmierung in meinen Sprachen ganz gut zurecht. Es ging mir um Challenge an die KIs. Und teilweise kann man aus den Textaufgaben halt nicht einfach Maple oder Google befragen - tlws. wie auch schrieb wohl schon. Die 4 Schritte die Formel herzuleiten dauern nicht länger, als Nachschlagen (was in diesem Fall möglicherweise nicht auf Anhieb klappt - probier es aus. Ich habe es gerade getan. Da muss man schon sorgfältig fragen - auch die KIs. Die Formeln, wie man das mit einer vollen Schleife macht findet man natürlich sehr schnell.).

    Abgesehen davon glaube ich, dass der "Trick" mit dem sukzessiven Berechnen von Varianz oder Standardabweichung (möglicherweise als gleitender Wert über ein Ring-Puffer) nicht ganz offensichtlich ist. Würde wetten, dass es da in einem Programmierkurs viele Lösungen mit O(N) gibt. Für Mittelwert hingegen ist die Lösung natürlich offensichtlich. (Numerische Exaktheit ist nochmal ein schwierigeres Thema weit entfernt von Oberstufen-Mathematik).

    Kodi 21.2, 17.6, 21.1, 16, 21.2 on Windows 11 Pro, Android 6, Android 12, FireTV Box 2nd Gen, FireTV 4k Max 2nd Gen
    Media on NAS, OpenMediaVault 7 (Debian Linux).

  • buers Hehe, hatte das bloss erwaehnt, weil ich froh war, mich an das Zeugs ueberhaupt noch zu erinnern, so lange wie nicht mehr richtig Mathe mache. Und ja, ich denke mal, das das ausserhalb von "programmieren" vielleicht sogar heute kein Standard Kurrikulum ist. Numerische Mthematik in der Uni... ? Keine Ahnung.

    Allerdings sind solche Algorithmen garantiert Standard Teil des Algo-Trainings fuer Einstellung bei den grossen Programmierfabriken wie Google, Facebook etc. pp. Aber interessanter wie gesagt die Frage wie die AI da drauf kommt. Kann irgendwie nicht glauben, das das alleine mit "lesetraining" von Lehrbuechern getan ist. Könnte man wahrscheinlich am ehesten rausfinden, wenn man mal so ein LLNL lokal aufsetzt, so das es keine Verbindung zu externen Quellen hat. Je komplizierter wirklich die mathematischen probleme sind, die so eine lokale installation kann, desdo beeindruckter waere ich. Aber ich gehe jetzt nicht und kauf mir die fette GPU ums auszuprobieren ;-))

  • KI Crawler sind inzwischen ja eine ziemliche Pest. Viele KI Buden geben einen scheiss auf das Urheberrecht und scannen alles was Sie im Web finden, aber wehe klein Fritz zieht sich ein Buch aus der Library Genesis, dann hat er gleich die Anwälte am Hintern. Robot.txt und die Identifizierung über User Agents helfen nur bedingt, die Tricks kennen die KI Buden ja auch.

    Anfang des Jahres hat der Entwickler Aaron B. eine KI Teergrube vorgestellt: https://zadzmo.org/code/nepenthes/

    Jetzt zieht wohl Cloudflare, einer der Global Player in Sachen CDN etc., nach und stellt sein KI Labyrinth vor. Die Software soll KI Crawler auch abseits des User Agent durch Ihr verhalten erkennen und den Crawlern Ihrerseit KI Generierten Müll vorsetzen: https://blog.cloudflare.com/ai-labyrinth/

    Meiner Meinung nach genau der richtige Weg wenn ich nicht will das mein IP zu Geld gemacht wird.

  • Denke mal da werden erst mal viele dumme Käufer von solcher Infrastruktur den sauren Apfel beissen müssen, mit Verlust zu verkaufen, damit sich dann Aufkäufer/Dienstleister finden, die die GPU Zeiten sinnvoll weiterverkaufen können, z.b. an Forscher. Kann ja eigentlich nicht sein, das es nicht genügend Forscher/Entwickler geben sollte, die solche GPU Zeit nicht sinnvoll nutzen könnten. Gibt ja noch viel zu entwickeln damit selbst kleine Teilmodelle z.b. weniger Fehler machen, besser erklären können, mit besser gefilterten Daten lernen können, etc. pp. Bisher war ja bloss Druchmarsch mit dem billigsten Bruto-Force Ansatz. Ab jetzt wieder viel Pfrickelentwicklung. Ob da allerdings in China noch viel Forschungsgelder in AI gesteckt wird - da wurde doch schon seit Ewigkeiten (zu) viel Geld reingepumpt...

  • Wie funktioniert das - fuer gutmütige AI Crawler ?

    Einfach in die .htaccess packen. Ich habs direkt hinter der Sperrliste (deny from) bekannter Netze, die Amateur-Hacker gerne benutzen. Bei Wordpress auf jeden Fall vor # BEGINN WordPress setzen. Beispiel ist aber nicht nur ai (ChatGPT), sondern weitere teilw. sehr lästige Bots, die keinen Mehrwert für die Websites haben:

    # Block BOTS/Crawler
    <IfModule mod_rewrite.c>
    RewriteEngine On
    RewriteCond %{HTTP_USER_AGENT} utm_source=chatgpt\.com [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ChatGPT-User [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} Iceshrimp [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} got [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} Summaly [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} vmcrawl [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} FediList [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} Fediverse [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} Mastodon [NC]
    RewriteRule .* - [F,L]
    </IfModule>

    Raspi5 mit LibreElec, TX-Box mit 905X4, Kodi unter Windows 11 - Ein Raspi ist NICHT der heilige Gral aber funzt verdammt gut! ;)

    Einmal editiert, zuletzt von Raspi5Fan (29. März 2025 um 15:59)

  • Nur mal zwei kurze Bilder: ab ca. 01.04 habe ich angefangen "gutmütige" KI Crawler zu filtern.

    Beim Netzwerktraffic finde ich es schon erstaunlich circa die Hälfte des ausgehenden Traffics entfällt auf solche Crawler:

    Auch bei der CPU Last machen diese Teile gut 10% CPU Load beim PHP-FPM etc. aus:

    Das war jetzt keine großangelegte Studie sondern einfach nur mal schnell zusammengeklickt. Man sieht auch hier kosten und diese Firmen performance und im Endeffekt verdienen Sie mit dem hier gesammelten Wissen Geld, ohne etwas zurück zu geben.

    Das sollte man mal als Privatperson machen. Der Brief vom Anwalt wäre vorprogrammiert.

  • don Was genau willst du versuchen, herauszufinden ?

    Gucken, wer da bei kodinerds.net crawled ? Habt ihr die Diagnosemoeglichkeit, zu sehen, von wo Anfragen kommen ?

    Selbst wenn... ich glaube um da eine Korrelation zu finden muss man was aktuelles anfragen. Weiss aber gar nicht, ob die AI Suchmaschinen auch proativ in Quellen suchen, oder ob die einfach bloss ihren gecachten content nehmen und vielleicht perriodisch cache-refresh machen...

  • Also bei perplexity werden wir wohl nicht direkt referenziert:

    Das nicht aber dafür wissen die aber ne Menge über Kodinerds, also wurde auch da schon mal ordentlich gecrawlt! Ich blocke das Crawling dieser immer mehr werdenden AI Bots eh sofort, wenn ich Zugriffe in den Logs sehe. Diese Leute mit ihren AI-Shit sollen sich ihren Content selber erstellen und nicht überall quasi "klauen". ;)

    https://www.perplexity.ai/search/was-ist-kodinerds-net-Fhi0m874TnmDLb00hbcnaA

    Raspi5 mit LibreElec, TX-Box mit 905X4, Kodi unter Windows 11 - Ein Raspi ist NICHT der heilige Gral aber funzt verdammt gut! ;)

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!