Nachdem ich nun meine ganzen Filme durchgejagd habe, mußte ich feststellen, dass so ca 30 davon (sind über 7000, also schon eine recht ansehliche Trefferquote) nicht gescraped werden konnten.
Ursache war bei allen: "falsches" Jahr
(ich wähle deshalb bewußt die Anführungszeichen, weil dieselbe Jahreszahl durchaus von anderen Tools wie z.B. Kodi gefunden wird, es handelt sich also offensichtlich um eine unterschiedliche Bewertung der Daten, bzw. verschiedene Datenbanken, bzw. eventuell verschiedene Felder (Herstellungsjahr? Jahr der Uraufführung? nichts genaues weis man nicht)
Also ist wohl auch in Zukunft davon auszugehen, dass immer ein gewisser Prozentsatz Probleme aufwerfen wird.
Nun glaube ich, es wäre kein wirklich großer Zusatzaufwand, wenn man die Suche etwas relaxter gestalten würde:
- Suche Name,Jahr
- Wenn kein Match, dann Suche Name,(Jahr-1)
- Wenn kein Match, dann Suche Name,(Jahr+1)
Nicht wirklich kompliziert zu implementieren würde ich sagen, mit den drei Fällen würde ich aber hier 100% aller Filme erschlagen können.
Bei Mehrdeutigkeiten wie gewohnt natürlich die manuelle Auswahl, aber wenn gar nichts gefunden wird, dann kann man ja ruhig den nächsten Versuch starten.
(Achtung! nicht rekursiv implementieren, +/-1 sollten ausreichen, wenn die Divergenz grösser ist, soll ruhig wieder der Anweder eingreifen müssen)