Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Kriterium: Suchmaschinen sind zugelassen #98

Open
marians opened this issue Dec 5, 2018 · 1 comment
Open

Kriterium: Suchmaschinen sind zugelassen #98

marians opened this issue Dec 5, 2018 · 1 comment
Labels
komponente:spider Der Spider sammelt Daten über Websites kriterien Betrifft die Prüfkriterien, nach denen Sites bewertet werden

Comments

@marians
Copy link
Member

marians commented Dec 5, 2018

Bestimmte Angaben in einer robots.txt und Meta-Tags können dazu führen, dass Suchmaschinen die Site oder Teile davon nicht erfassen. Und eine URL, die nicht erfasst wird, kann auch nicht gefunden werden.

Der Check sollte im ersten Schritt prüfen, ob die Indexierung der Einstiegs-URL(s) durch die populärsten Suchmaschinen in irgend einer Form verhindert wird.

@marians marians created this issue from a note in default-project (Neue Kriterien) Dec 5, 2018
@marians marians added komponente:spider Der Spider sammelt Daten über Websites kriterien Betrifft die Prüfkriterien, nach denen Sites bewertet werden labels Dec 5, 2018
@marians
Copy link
Member Author

marians commented Apr 17, 2019

Zur Umsetzung:

https://docs.python.org/3/library/urllib.robotparser.html bietet eine einfache API zum testen, ob ein bestimmter Crawler eine bestimmte URL aufrufen dürfte.

Einige relevante Crawler nach https://www.keycdn.com/blog/web-crawlers:

  • Googlebot
  • Bingbot
  • Googlebot-Image/1.0
  • DuckDuckBot
  • facebot
  • facebookexternalhit/1.0
  • facebookexternalhit/1.1

Für die Startseiten-URL(s) könnte man prüfen, ob alle diese Crawler Zugriff haben.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
komponente:spider Der Spider sammelt Daten über Websites kriterien Betrifft die Prüfkriterien, nach denen Sites bewertet werden
Projects
Status: Neue Kriterien
default-project
  
Neue Kriterien
Development

No branches or pull requests

1 participant