Web-Crawling und Web-Scraping: Ist das datenschutzkonform?

17.02.2022 von Oliver Strässler

Die Datenmenge im Internet ist gigantisch. Es liegt auf der Hand, dass Hilfsmittel benötigt werden, um mit dieser Fülle an Daten umgehen zu können. Ein solches Hilfsmittel sind die sogenannten Web-Crawler. Die Wahrscheinlichkeit ist gross, dass Du die Hilfe eines Web-Crawlers genutzt hast, um den vorliegenden Beitrag zu finden. Denn Web-Crawler bilden u.a. die Grundlage von Suchmaschinen wie Google, Bing und Yahoo.

Web-Crawler durchforsten eine Unmenge an Daten. Wie sie eingesetzt werden und wie sie datenschutzrechtlich einzustufen sind, erfährst Du in diesem Beitrag.

Wie werden Web-Crawler eingesetzt?

Ein Web-Crawler (auch «Spider» oder «[Spider-]Bot» genannt) ist ein Computer-Programm, welches automatisiert Webseiten aufruft, analysiert und Inhalte der Webseiten strukturiert abspeichert. Diese Technologie bildet die Grundlage von Suchmaschinen. So durchforsten die beiden Google-Bots das Internet und speichern Webseiten, um diese anschliessend zu indexieren. Im Bruchteil einer Sekunde können so tausende Suchergebnisse aufgeführt werden.

Daneben werden Web-Crawler für die Beschaffung grosser Datenmengen («Big Data») eingesetzt, die anschliessend zu beliebigen Zwecken ausgewertet werden können. In diesem Zusammenhang wird auch von Web- oder Data-Scraping gesprochen. Ein Beispiel veröffentlichte datahouse.ch: In ihrem Beitrag zeigen sie auf, wie sie mit Hilfe eines Crawlers die Webseite von Airbnb überwacht haben, um eine Statistik über die Preise der Airbnb-Angebote in der Schweiz zu erstellen.

Good-Bot, Bad-Bot

Web-Crawler sind für 40 bis 66 % aller weltweiten Webseitenaufrufe verantwortlich (vgl. die Beiträge von Imperva und Help Net Security). Die Mehrheit dieser Aufrufe erfolgte durch sog. Bad-Bots, also bösartige Web-Crawler. Bad-Bots haben eine schädigende Absicht.

Zwei Beispiele:

Ein Bad-Bot durchsucht Webseiten nach E-Mail-Adressen. An die gesammelten E-Mail-Adressen können dann Spam- oder Phishing-Mails gesendet werden.
Ein anderer Bad-Bot sammelt auf diversen sozialen Netzwerken Personendaten, um Persönlichkeitsprofile zu erstellen. Diese werden anschliessend an Unternehmen verkauft, die gezielt Werbung schalten.

Bearbeiten Web-Crawler Personendaten?

Web-Crawler rufen eine Vielzahl von Webseiten auf und laden grosse Datenmengen herunter. Unter diesen Daten können sich auch personenbezogene Daten, wie Namen, Kontaktangaben, Bilder, Reviews, digitale Fingerabdrücke etc. befinden.

Zum Teil erfassen Web-Crawler nur Informationsfragmente, die für sich alleine noch keine Personendaten bilden. Erst bei der Kombination mit weiteren gesammelten Daten erfolgt die Identifikation von Personen.

Damit liegen die beiden Voraussetzungen für die Anwendbarkeit des schweizerischen Datenschutzgesetzes vor: Personendaten und deren Bearbeitung.

Hinweis: Bereits beim Aufrufen der Internetseite durch den Web-Crawler erfolgt eine Datenbearbeitung. Dabei wird nämlich eine Kopie der Webseite vom Hostserver heruntergeladen. Die Autoren vertreten jedoch die Ansicht, dass das alleinige Aufrufen von Webseiten, ohne dass Personendaten systematisch gespeichert werden, vom öffentlichen Interesse gedeckt ist. Dies muss insbesondere deswegen zutreffen, weil man erst nach dem Aufrufen einer Seite feststellen kann, ob die hierauf enthaltenen Daten personenbezogen sind oder nicht.

Sind die Bearbeitungsgrundsätze eingehalten?

Oftmals werden die gecrawlten Daten auf Vorrat gespeichert, um sie später nutzen zu können. Eine solche Vorratsdatenspeicherung ist problematisch, da sie verschiedene Datenschutzgrundsätze verletzt. Betroffen sind vor allem:

das Transparenzgebot
- Betroffene rechnen nicht damit, dass ihre Daten von Web-Crawlern heruntergeladen und bspw. für Marketingzwecke ausgewertet werden.

das Zweckbindungsprinzip
- Die von den betroffenen Personen veröffentlichten Daten werden für neue Zwecke verwendet (bspw. für die Erstellung von Persönlichkeitsprofilen, um Schwachstellen auszunutzen).

die Datenrichtigkeit
- Die Web-Crawler prüfen nicht, ob die heruntergeladenen Daten richtig sind. Bei einer Auswertung können deshalb auch unrichtige Daten mitberücksichtigt werden, die zu falschen Schlüssen führen.

die Verhältnismässigkeit
- Die Vorratsdatenspeicherung verstösst gegen das Gebot der Datensparsamkeit und der Datenminimierung.

Wird mindestens einer dieser Datenschutzgrundsätze verletzt, ist die Datenbearbeitung grundsätzlich persönlichkeitsverletzend.

Keine Persönlichkeitsverletzung liegt hingegen vor, wenn die betroffene Person die Personendaten allgemein zugänglich gemacht und eine Bearbeitung nicht ausdrücklich untersagt hat (vgl. Art. 30 revDSG).

Diese Regelung löst das Problem allerdings nicht: Die Daten werden von den Web-Crawlern auch dann erfasst, wenn ein explizites Bearbeitungsverbot ausgesprochen wird oder wenn die Daten von Drittpersonen zugänglich gemacht wurden.

Kann Web-Crawling gerechtfertigt werden?

Eine Persönlichkeitsverletzung ist nicht widerrechtlich, wenn sie durch Einwilligung oder durch private oder öffentliche Interessen gerechtfertigt ist.

Eine Einwilligung wird insbesondere überall dort fehlen, wo die Daten ohne Einverständnis der betroffenen Person hochgeladen wurden. Beispiele hierfür sind Nachrichten-Artikel. Hingegen könnte allenfalls bei personenbezogenen Daten, die öffentlich auf sozialen Plattformen durch die betroffene Person zugänglich gemacht wurden, eine Einwilligung vorliegen. So stimmt z.B. eine Meta-Nutzerin durch das Einwilligen in die Datenschutzbestimmungen von Meta folgender Datenbearbeitung zu:

«Auf öffentliche Informationen kann auch über Dienste Dritter, wie Suchmaschinen, APIs und Offline-Medien (z. B. Fernsehen) und von Apps, Websites und anderen Diensten, die über eine Integration mit unseren Produkten verfügen, zugegriffen werden bzw. sie können über diese gesehen, erneut geteilt oder heruntergeladen werden. »
(Hervorhebungen hinzugefügt)

Diese Klausel dürfte somit auch das Abspeichern durch Web-Crawler erfassen. Allerdings muss berücksichtigt werden, dass eine Durchschnittsperson nur ein oberflächliches Wissen über mögliche automatisierte Datenbearbeitungen durch Web-Crawler hat. Dass entsprechende Daten in den Ergebnissen von Suchmaschinen auftauchen, dürfte dem Durchschnittsnutzer wohl bekannt sein. Weitere Verwendungen von gecrawlten Personendaten sind für die meisten Betroffenen nicht voraussehbar (vgl. unseren Beitrag zu Clearview AI). In eine nicht bekannte Datenverwendung kann auch nicht gültig eingewilligt werden. Damit kommt die Einwilligung als Rechtfertigung nur begrenzt in Frage.

Öffentliches Interesse

Das Nutzen von Suchmaschinen wie Google, Bing und Yahoo sind ebenfalls aus der heutigen Gesellschaft nicht mehr wegzudenken. Das Weitergeben und das Abrufen von personenbezogenen Daten für resp. von Such-Crawlers wird durch das öffentliche Interesse an der Auffindbarkeit der Webseite gerechtfertigt.

Privates Interesse

Hingegen wird das gezielte Erstellen von Persönlichkeitsprofilen nicht mehr durch öffentliche Interessen gedeckt. Im Vordergrund stehen oftmals private Interessen wie das Direktmarketing.

Es muss grundsätzlich im Einzelfall beurteilt werden, ob die privaten Interessen an der Auswertung der gecrawlten Daten die Interessen des Persönlichkeitsschutzes der betroffenen Personen überwiegen. Je grösser die Datenmenge und je umfassender das Persönlichkeitsprofil, desto gewichtiger müssen die privaten Interessen sein. Die Autoren stehen dem Crawling für private Interessen sehr kritisch entgegen insbesondere wenn die Betroffenen nicht hinreichend darüber informiert werden.

Ein überwiegendes Interesse am Crawling besteht insbesondere in der Forschung und der Statistik, wo Big Data Analysen wertvolle Erkenntnisse liefern können. Dafür sieht das revidierte Datenschutzgesetz eine explizite Ausnahmebestimmung vor. Die Forschungsdaten und die Ergebnisse müssen allerdings so rasch und so weit wie möglich anonymisiert werden.

Ergebnis

Web-Crawler sind grundsätzlich zulässig, sofern sie sich auf den öffentlichen Bereich des Internets beschränken und die hierdurch erhaltenen personenbezogenen Daten nicht in einer Art und Weise speichern, die nicht mehr von öffentlichen oder privaten Interessen gedeckt ist. Insbesondere wird das Web-Scraping für das Erstellen von Persönlichkeitsprofilen nicht mehr von öffentlichen Interessen gedeckt sein. Die Rechtfertigung mit privaten Interessen ist sehr heikel, ausser es handelt sich um Forschung, Planung oder Statistik (davon erfasst wäre bspw. auch die Marktforschung). Das Benützen von Such-Crawler für das Betreiben einer Suchmaschine liegt nach hier vertretener Ansicht im öffentlichen Interesse und ist somit gerechtfertigt.

Empfehlung an Webseitenbetreiber

Betreiber*innen von Webseiten können sich nur begrenzt gegen Web-Crawling und Scraping wehren. Ist es Webseiten-Nutzern möglich, auf der Seite personenbezogene Daten zu posten – z.B. durch eine Kommentarfunktion – sollte die Datenschutzbestimmungen auf das Thema «Web-Crawler» Bezug nehmen.