Eine möglichst grosse Menge an qualitativ hochwertigen Daten sind der Treibstoff für künstliche Intelligenzen (KI). Denn diese Daten werden benötigt, um KI zu trainieren. Deshalb sind zahlreiche Unternehmen bemüht, so viele Daten wie möglich nutzbar zu machen. Eine zentrale Methode ist die Sekundärnutzung von Daten. Was genau das ist und ob es erlaubt ist, erklären wir Dir in diesem Beitrag.
Wieso sind Daten für künstliche Intelligenzen so wichtig?
Zunächst ist es wichtig zu erläutern, weshalb qualitativ hochwertige Daten für KI so wichtig sind. Die derzeit relevanteste Form von KI sind Neuronale Netzwerke. Diese sind in der Lage, riesige Datenmengen intelligent zu verarbeiten.
Als «intelligent» werden Neuronale Netze bezeichnet, weil sie fähig sind, zu lernen. Dies tun sie, indem sie mit jedem Durchlauf (auch «Epoche» genannt) ihre Abweichung vom gewünschten Ergebnis erkennen und ihre Berechnungen dementsprechend anpassen.
Ein effizienter Lernprozess des Netzwerks kann nur dann stattfinden, wenn die Qualität und Menge der Daten stimmt. Ein Beispiel:
Max ist ein begeisterter Informatikstudent. Für seine Bachelorarbeit möchte er ein Neuronales Netzwerk programmieren, welches Äpfel von Birnen unterscheiden kann. Als Dateninput verwendet Max den Umfang, die Länge und das Gewicht von zahlreichen Äpfeln und Birnen, die er in seinem Garten gepflückt hat. Max trainiert das neuronale Netzwerk mit diesen Daten und testet es anschliessend an weiteren Äpfeln und Birnen aus seinem Garten. Die Ergebnisse sind überwältigend. Mit einer Trefferquote von 95% kann das Netzwerk vorhersehen, ob es sich um einen Apfel oder um eine Birne handelt. Prompt fährt der begeisterte Max in den Dorfladen um sich weitere Äpfel und Birnen als Testobjekte zu kaufen. Als er das Netzwerk mit den gekauften Äpfeln und Birnen testet, ist er enttäuscht. Das Netzwerk kann die Früchte nur noch mit einer Trefferquote von 60% erkennen. Woran liegt das?
Max hat das Netzwerk ausschliesslich mit Daten trainiert, die von Äpfeln und Birnen aus seinem eigenen Garten stammen. Folglich hat das Netzwerk zwar gelernt, Äpfel und Birnen aus dem Garten von Max zuzuordnen, nicht aber Früchte, die aus dem Dorfladen oder einem anderen Ort stammen. Wären dem Max hingegen die Daten aller Äpfel und Birnen aus seiner Umgebung zur Verfügung gestanden, hätte er ein weitaus treffsichereres Netzwerk programmieren können (So wären die Eigenschaften aller Äpfel und Birnen erfasst und nicht nur die Eigenschaften der Äpfel und Birnen aus dem Garten von Max).
Dieses Beispiel zeigt, wie mangelnde Datenqualität oder eine zu kleine Datenmenge zu unbefriedigenden Ergebnissen führen können. Solche «bias» (engl. für «Verzerrung») können vermieden werden, indem die Datenqualität und Datenquantität überprüft und angepasst wird. Einzelne Kriterien für gute Datenqualität findest Du hier.
Was ist Sekundärnutzung von Daten?
Daten werden von Unternehmen zu einem bestimmten Zweck bearbeitet. So zum Beispiel ein Mitgliederbuch im Golfclub, zum Zweck der Mitgliederidentifizierung oder eine Krankengeschichte beim Arzt, zum Zweck der Aufzeichnung von Patienteninformationen. Diese Zwecke sind als «Primärzweck» zu bezeichnen. Und wenn es einen Primärzweck gibt, dann gibt es wohl auch einen Sekundärzweck?
Das ist richtig: Zahlreiche Unternehmen sind bestrebt, ihren Daten einen Zweitnutzen zu geben. So könnte beispielsweise das Mitgliederbuch für eine Zielgruppenanalyse und die Daten der Krankengeschichte für die Forschung eingesetzt werden. Eine derartige Nutzung von Daten wird als «Sekundärnutzung» bezeichnet.
Ist die Sekundärnutzung erlaubt?
Wenn ein Verantwortlicher seine gesammelten Daten für sekundäre Zwecke nutzen will, kann er dies grundsätzlich tun insofern…
…er die betroffenen Personen in der Datenschutzerklärung über die Sekundärnutzung informiert und;
…die Daten nur anonymisiert oder pseudonymisiert weitergegeben werden.
Will hingegen ein Auftragsbearbeiter die Daten für seine eigenen Zwecke verwenden, muss dieser…
…sich die Erlaubnis des Verantwortlichen einholen, die Daten in eigener Verantwortung bearbeiten zu dürfen, oder;
…sich vom Verantwortlichen beauftragen lassen, die eigene KI mit den Daten des Verantwortlichen zu trainieren, oder;
…den Verantwortlichen beauftragen, die Daten für das Training der eigenen KI zu verwenden.
Wer einen Auftragsdatenbearbeiter beauftragt, sollte darauf achten, ob der Vertrag eine Klausel für die Zweitnutzung der Daten für das Training von KI enthält. Von der Annahme solcher Klauseln ist grundsätzlich abzuraten, ausser es besteht ein ernsthaftes Interesse des Verantwortlichen an einer Zweitnutzung.
Ein besonderes Interesse an Sekundärnutzungen, liegt in der Verwertung von Log-Dateien. Log-Dateien sind textbasierte Protokolle, in denen Computer und Server Ereignisse dokumentieren. Die Log-Datei hilft, vergangene Ereignisse nachträglich nachzuvollziehen. Das Training von KI mit Log-Dateien ist attraktiv, da so beispielsweise Bedrohungen für ein Computernetzwerk schneller ausfindig gemacht werden können.
Fazit
Sekundärnutzungen sind ein wichtiges und Mittel, um KI mit qualitativen Daten trainieren zu können. Unternehmen, denen Daten für das Training eigener KI fehlen, können bedeutend von der Sekundärnutzung von eigenen oder fremden Daten profitieren.
Datenschutz.law hält dich über weitere Entwicklungen zur Sekundärnutzung von Daten auf dem Laufenden.
Kontakt
Schildere uns Deinen Fall. Unsere Datenschutzexpert*innen beraten Dich gerne!
Christian Mitscherlich, MLaw, Rechtsanwalt, Partner