Richtige Scraping-Einstellungen?

  • Hallo in die Runde,

    bei mir geht es um ca. 4800 Filme die ich scapen möchte. Ich möchte das möglichst optimiert und zugriffe soweit wie möglich reduzieren ;)

    Mich interessiert eigentlich nur folgendes:
    Cover
    Titel (Deutsch)
    Altersfreigabe (FSK)
    Beschreibung / Handlung (Deutsch!)
    Genre
    Produktionsländer
    Studio
    Schauspieler, Crew (mit IMDB-nm-id in der Datenbank) ... und Link zum Foto. (Foto muss also nicht runtergeladen werden)
    Wertungen (imdb zieh ich mir direkt aus den TSV, also bleibt nur TMDB/TVDB ggf. OFDB und Tomato))

    Optional: Trailer-URL
    Also die ganzen Bilder etc. interessieren mich nicht. Für Cover, Titel, Genre, Länder, Studio bin ich natürlich bei der IMDB richtig. Handlung z.b. OFDB.

    Aber trotzdem ist das ganze nicht so leicht einzustellen ...

    Grüße

    • IMDB und OFDb bieteten keine kostenlose API an, d.h. für jeden Film muss die entsprechende Webseite geparsed werden. Das dauert um ein vielfaches länger als bei Scrapern mit API wie TMDb, OMDb und TVDb.
    • IMDb liefernt ausschliesslich englische Informationen. Es kann zwar "Germany" für die Titel eingestellt werden, das funktioniert aber nicht immer, weil die Webseite das nicht immer hergibt.
    • IMDB liefert keine IMDb ID für die Schauspieler. Es gibt zwar in der DB ein Feld dafür, umgesetzt habe ich das aber nie. Nur TMDb liefert die TMDb ID für Schauspieler. Erstelle bitte ein Request (in Englisch bitte) dafür auf Github, wenn du das wünschst: Link
    • Unique IDs für alle anderen "Person" wie Director, Crew usw. waren nie vorgesehen und könnten aktuell auch nicht gespeichert werden. Request auf GitHub wenn du das wünschst.
    • Wenn du nur die Links zu den Schauspieler-Bilder willst einfach Einstellungen => Filme => Dateinamen => Actorthumbs deaktivieren.
    • Wenn du gewisse Bilder nicht willst diese ebenfalls an selbster Stelle deaktivieren. Achtung: bereits vorhandene Bilder werden nach dem Editieren eines Filmes gesäubert (gelöscht), wenn du die "Dateienamen" dafür deaktiviert hast.
    • Nutze TMDb an erster Stelle, damit dieser Scraper zur Suche und für alle Infos genutzt wird. Der Scraper liefert auch die IMDb ID für nachfolgende Scraper. Wenn du nur die Wertung von IMDb willst dann nutze OMDb dafür. Den API Key dafür kannst über den ? Button im Scraper kostenlos über die Webseite beantragen.
    • Aktiviere nur die Scraper, die du wirklich benutzt. Alles andere ist Zeitverschwendung.
  • IMDB liefert keine IMDb ID für die Schauspieler. Es gibt zwar in der DB ein Feld dafür, umgesetzt habe ich das aber nie.

    Wenn ich auf die Filmseite gehe und mir da einen Schauspielerlink anschaue: https://www.imdb.com/name/nm0000560/ - das dürfte doch in der "Parsing"-Menge auch drin sein? Die Namen werden doch von dort geholt.


    Nutze TMDb an erster Stelle, damit dieser Scraper zur Suche und für alle Infos genutzt wird. Der Scraper liefert auch die IMDb ID für nachfolgende Scraper

    Hatte ich heute versucht - das Problem ist das Manche Filme für die TMDB "tv" sind und die gehören zum Serienreiter in der EMM. Die Serienfunktion wollte auch nur für Serien nutzen. Tatorte sind für mich Filme - also sollten die in Movies rein. Dafür das die bei TMDB woanders liegen kann EMM natürlich nichts. Aber beim Einzelparsen komme ich nur mit einer TMDB-ID weiter. Beim Gruppenparsen bekommen solche Filme keinen Titel (Der Rest wird aber geparsed). Scheinbar scheint es nicht so recht zu klappen das wenn TMDB keinen Titel liefert, der Titel von IMDB genommen wird. Ist das ein Bug? Meiner Meinung nach sollte das so so laufen:

    TMDB -> nicht gefunden (also kein Titel) -> IMDB. Das klappt z.b. bei IMDB -> hat keinen deutschen Plot -> TMDB -> deutscher Plot. Da klappt das recht gut. Nur beim Titel nicht. Der Rest wird ja interessanterweise bei 1. TMDB, 2. IMDB geladen.

    Denke das nicht jeder seine Sammlung explizit auf TV-Filmreihen sortiert hat. Was 90min geht ist ein Film - auch wenn es ein Zweiteiler/Dreiteiler ist. Für die IMDB ist das kein Problem - die unterscheidet nicht. Wie löse ich also solche Namensmissgeschicke (der Rest wird ja sonst erfasst).

    Wenn du nur die Links zu den Schauspieler-Bilder willst einfach Einstellungen => Filme => Dateinamen => Actorthumbs deaktivieren.


    Bin ich blind? Einstellungen -> Filme -> Dateien und Quellen


    Ist gar nicht aktiviert.

    Unique IDs für alle anderen "Person"

    Ok - hier verständlich - du bietest keine Infos zu den Personen an. Und Statistiken ebenfalls nicht. Ich nutze bei mir Statistiken und Auswertungen "Bekannte Filme mit dem Schauspieler als Schauspieler, Regie usw." - ich mag so Spielerreien - aber das ist auch sehr speziell - ich weiß ;) macht bei dem wofür die EMM genutzt wird (primär als Datenlieferer für Kodi) auch keinen Sinn - kein Mensch will in Kodi mit zahlen spielen. Ich dachte nur weil das eh Beifang ist (wenn man von der IMDB parsed) .... bei der TMDB holst du die IDs ja auch ... und wenn ich das richtig sehe sind dort ja auch CREW-Mitglieder drin? writerlinkmovie nutzt idWriter die ja identisch mit actor/idActor ist? Denke das wird daher auch kein Wunsch von mir ;)


    OFDb bieteten keine kostenlose API an

    leider nicht mehr. Ok offiziell war das OFDB-GW nicht - aber die API war super. Alles drin gewesen was man so braucht. Sogar Infos zu den Personen usw. Schade das der Entwickler nicht reagiert auf FB (die einzige Kontaktmöglichkeit die ich finde) und die Mirror-Betreiber ebenfalls unbekannt verschwunden sind :( . Hätte damals das Angebot ein eigenen Mirror zu machen wohl doch annehmen sollen :( (auch wenn ich da null Ahnung von habe...)

    Was bietet IMDB/Amazon den eigentlich im AWS-Marketplace an? Läuft ja unter API und einiges davon ist kostenlos - muss nur monatlich verlängert werden? (nicht praktisch für so einen Einsatz...). Nutze ansonsten aber die 7 TSV-Dateien die täglich geupdatet werden. z.b. für Wertungen und Infos zu Personen (lebt die Person noch? Auch da kann man wieder schön auswerten *G*)

    Grüße

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!