Parsen von Website durch Incapsula blockiert

  • Hallo,

    bin mir nicht ganz sicher ob das Thema hier reinpasst - falls nicht bitte ich um die korrekte Kategorisierung.
    Ich versuche mich gerade im Schreiben eines KODI - Addons zum Parsen einer Streamseite. Bin gestern auf das Problem gestoßen, dass ich nach der GET - Anfrage nicht den Content der Seite zurückbekommen habe, sondern ein IFrame mit Text "Request unsuccessful. Incapsula incident ID....". Habe mich im Internet schlau gemacht was es bedeutet und auch ziemlich schnell raus gefunden, nur habe ich nirgends wirklich eine Lösung dafür entdeckt. Der erste Versuch gestern war aus der Seite die gesamten REQUEST - Headers zu kopieren und beim GET mitzuschicken, das hat dann auch funktioniert, als ich es heute morgen versucht habe, ging es leider schon wieder nicht mehr.

    Meine Frage ist, ob jemand vlt. schon mal auf das selbe Problem gestoßen ist und mir einen Tipp geben kann, wie man das Problem umgeht bzw. mir mitteilt falls es keine Lösung gibt! :)

    BG

  • Den Schutz von Incapsula hab eich bisher noch nicht gesehen.
    Ich nehme mal an, dass es ähnlich läuft wie bei Cloudflare.
    Du bekommst eine Seite ausgeliefert, die ein Javascript enthält (die meisten Bots/Parser verarbeiten das nicht automatisch, Browser schon).
    Das javscript erzeugt eine Weiterleitung auf eine weitere Url.
    Dabei erhält man ein Cookie mit welchem man die eigentlich Seite besuchen kann.
    So lange man die Seite mit diesem Cookie aufruft UND das Cookie gültig ist bekommt man die richtig Seite.

  • Vielen Dank für deine Antwort Lynx187.
    Habe mir das Problem nochmal angeschaut und auch mit Wireshark den Datenverkehr beim HTTP Request angeschaut, und es scheint so zu sein wie du es beschrieben hast. Kannst du mir weiterhelfen wie ich zu meinem Cookie komme? Wenn du magst können wir uns auch wo anders unterhalten! ;)

  • Also er wäre gut wenn ich mal ein Beispiel hätte.
    Ich weiss ja nicht welche Seite du parsen willst, im Zweifelsfall sag sie mir die url per pn oder poste sie woanders.

    Du müsstes die als erstes ansehen was für code die "Blockseite" von Incapsula ausliefert. Vermutlich schön obfuskiertes JS.

    Für das weiter Vorgehen könntest du dich bei parsern für bspw. cloudflare orientieren. Da findet man ein paar auf github (z.B. https://github.com/Anorov/cloudflare-scrape).
    In meinem addon gibt es einen (k.A. ob der noch funktioniert) und im salzigen Addon von "tknorris" gibt es ebenfalls einen.

    Das Javascript so parsen ohne eineJavascriptEngine zu nutzen ist der schwierigste Part. Wie gesagt dan müsste ich erst mal selber sehen.
    Das Ergebins dann wieder aufzurufen und aus der Antwort das Cookie zu extrahieren, dazu gibts dann wieder Tutorials an jeder Ecke, oder je nach dem welche lib du nutzt geschiet das dann auch shcon automatisch.

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!