Glossar

Übersicht


Big Data

Als Modewort (Buzzword) hat der Begriff »BigData« in den Medien Konjunktur.

Technische Perspektive

Zunächst beschreibt Big Data die Zusammenführung und Auswertung (Big Data Analysis) enorm großer Datenmengen aus unterschiedlichsten Quellen, bei der die bisherigen Verfahren informationstechnischer Verarbeitung an ihre Grenzen gelangten.

Aus diesem Grund umfasst Big Data nicht nur die Verfahren, sondern auch einen Komplex konkreter, neuartiger Software-Technologien, welche den Herausforderungen der Sammlung, Untersuchung, Verdichtung, Verknüpfung und Auswertung enormer Datenmengen gerecht werden.

Neben dem anfallenden Datenvolumen wird Big Data durch die Geschwindigkeit, in der die Daten verarbeitet werden können, die Vielfalt der Quellen, die Qualität und Konsistenz der Daten sowie durch die Komplexität der Verarbeitung dieser Daten bestimmt.

In der Big Data Analysis wird künstliche Intelligenz etwa in Form von neuralen Netzwerken und maschinellem Lernen zur Anwendung gebracht. Diese Verfahren werden oft streng als Geschäftsgeheimnisse gehütet. Dies mag einen Anteil daran haben, warum der Begriff des Algorithmus häufig in ein mystisches Licht getaucht oder sogar personifiziert wird. So tritt der Google-Such-Algorithmus in einigen Debatten als bösartig Handelnder auf, der auf unheilvolle Weise Menschen im Netz heimsucht.

Dabei wird übersehen, dass Algorithmen lediglich Verfahren beschreiben, die eine bestimmte Zielsetzung verfolgen. Maschinenlernende Verfahren erlernen bestimmte Verfahrensabläufe und Muster aus den Daten, mit denen sie trainiert werden. Das schließt in den Daten eingeschriebene Diskriminierung mit ein, so dass Algorithmen bestimmte Formen von Diskriminierung aus den von uns erzeugten Daten übernehmen.

Big Data wird in vielen Anwendungsfällen derzeit als explizite Lösung angepriesen, die nicht selten mit einem vernetzteren Alltag einhergehen:

  • Hausautomation
  • Betrieb sozialer Netzwerke zur besseren Streuung individualisierter Werbung
  • Werbeauktionen beim Online-Marketing
  • Wettervorhersage
  • zur Erstellung von Prognosemodellen für die Ausbreitung von Epidemien
  • Produktentwicklung von Online-Angeboten (z. B. Streaming)
  • Rationalisierung von Produktionsprozessen (Industrie 4.0)
  • Verwaltung öffentlicher und städtischer Räume (Smart Cities)
  • Gesundheitsmanagement durch Vermessung und Auswertung von Körperdaten und Überwachung von Lebensgewohnheiten (Quantified Self)
  • Verkehrssteuerung und Vernetzung von Automobilien (Telematik, automotive computing)
  • als Rückgrat des Internets der Dinge (ubiquitos computing)
  • Massenüberwachung durch Nachrichtendienste

Sozio-ökonomische Perspektive

Die zunehmende Zahl datengetriebener Geschäftsprozesse und die lückenlose Vernetzung und Überwachung des Alltags haben dazu geführt, dass einige Daten als neue Ressource des 21. Jahrhunderts mit dem Rohstoff Öl vergleichen.

Unabhängig davon, was von diesem Vergleich zu halten ist, wird die Frage diskutiert, ob Big-Data-Geschäftsmodelle mit speziellen oder spezialisierten Verwertungs- und Kommerzialisierunglogiken einhergehen.

Diese Frage ist insbesondere im Hinblick auf die Konsequenzen für Grundrechtsfragen, wie dem Recht auf Privatheit im digitalen Zeitalter und im weiteren Sinne auch dem Konzept des Datenschutzes von Belang.

Ein Versuch der Beschreibung der ökonomischen Logiken hinter dem Geschäftsmodell Big-Data wurde unter dem Begriff des Überwachungskapitalismus zusammengefasst.

Ziel von Überwachungskapitalisten soll nicht nur Marktkontrolle durch den Ausbau von Marktvorherrschaft (Hegemonie) sein, sondern auch die Manipulation menschlichen Verhaltens zur Steuerung des Konsums. Überwachungskapitalismus beschreibt den Zustand der Kommerzialisierung der Bewegungen des täglichen Lebens.

Unter dem Begriff nudging werden all jene Versuche zusammengefasst, Verhalten von Menschen auf sanfte Weise zu beeinflussen. Die Manipulation soll dabei möglichst als freiwillig und für die Manipulierten als nutzenstiftend erlebt werden. Nudging kann mit Ergebnissen von Big-Data-Analysis kombiniert werden, wird als Big Nudging beschrieben und findet etwa bei Experimenten Sozialer Netzwerke Anwendung.

Zur Übersicht


Cloud

Die Cloud oder Cloud Computing beschreibt das Speichern oder Verbreiten großer Datenmengen in einen oder mehren verteilten Rechenzentren oder sogenannten Data Centers. Data Centers sind aufwendige, komplexe Anlagen, welche ganze Rechnerfarmen unterhalten. Betrieben werden diese DataCenters von mittelständischen oder größeren transnationalen IT-Konzernen, welche Cloud Computing auf der Grundlage unterschiedlicher Geschäftsmodelle anbieten.

Beim Cloud Computing werden von Nutzer*innen unbemerkt IT-Infrastrukturen (z. B. Rechenkapazität, Datenspeicher, Netzkapazitäten oder auch fertige Software) dynamisch an den Bedarf angepasst. Die »Wolke« verhüllt dieses Dynamik. Nutzer*innen schätzen nicht nur die Flexibilität, die hohe Verfügbarkeit und die Absicherung gegen Datenverluste bei Cloud-Systemen, denn viele Anbieter wenden Big-Data-Anaysen auf die abgelegten Daten an und bieten im Gegenzug ein gewisses Kontingent an Speicher oder anderer Dienstleistung kostenfrei an.

Beim Cloud Computing wird nicht nur Speicherplatz für Fotos, Videos oder Backups bereit gestellt: Das gesamte Spektrum der Informationstechnik wird angeboten (z. B. Rechenleistung für Computerspiele, Sprachassistenten für Smartphones oder Betriebssysteme).

Cloud Computing enthält die drei verschiedenen Servicemodelle:

IaaS – Infrastructure as a Service

Rechnerwolken bieten Nutzungszugang von virtualisierten Rechnern, Netzen und Speicher. Mit IaaS gestalten sich Nutzer flexibel je nach Anforderung ihre eigenen virtuellen Computer-Cluster.

PaaS – Platform as a Service

Rechnerwolken bieten Nutzungszugang von Programmierungs- oder Laufzeitumgebungen mit flexiblen, dynamisch anpassbaren Rechen- und Datenkapazitäten. PaaS ist unlängst durch die Entwicklung anderer Technologien (DevOps) weniger attraktiv geworden.

SaaS – Software as a Service

Rechnerwolken bieten Nutzungszugang von Software-Sammlungen und Anwendungsprogrammen. SaaS wird auch als Software on demand (Software bei Bedarf) bezeichnet.

Das NIST listet fünf essenzielle Charakteristika für Cloud Computing:

  • Selbstzuweisung von Leistungen aus der Cloud durch den oder die Nutzer, die bei Bedarf bereitstehen soll (Self-service provisioning und As-needed availability).
  • Skalierbarkeit bietet die Entkopplung von Nutzungsschwankungen und Infrastrukturbeschränkungen (scalability).
  • Zuverlässigkeit (reliability) und Ausfalltoleranz (fault-tolerance) garantieren permanent definierte Qualitätsstandards der IT-Infrastruktur für den Nutzer.
  • Optimierung und Konsolidierung bieten Effizienz und Ökonomie in Anpassung an fortlaufende Umweltschutzstandards, die sukzessive vom Cloud-Diensteanbieter optimiert werden können (Optimization/Consolidation).
  • Qualitätssicherung und -kontrolle kann fortlaufend durch den Diensteanbieter überwacht und sichergestellt werden, ohne dass die Nutzer belastet werden müssten (QoS – Quality of Service).

Viele Nuzter*Innen überlassen Cloud Systemen ungern ihre privaten Daten und setzen sogenannte Personal oder Private Clouds ein, die durch OpenSource-Systeme wie Owncloud, Seafile, Cozy, Hubzilla oder buddycloud bzw. zu hause als NAS (Network Attached Storage) bereit gestellt werden.

Im Jahr 2012 verlieh Digitalcourage (damals noch FoeBuD) Cloud Computing den Big Brother Award in der Kategorie »Kommunikation«.

Die Bundesregierung hat im Rahmen des Trust Cloud Computing Programms die Erforschung von Konzepten wie dem patentierten Sealed-Cloud-Verfahren angeboten.

Zero-Knowledge-Could-Speicher wie SpiderOak oder tarnsap versuchen durch eine vollständige Verschlüsselung auf dem Clientrechner der Nuzter*innen Datenschutz im Rahmen von Cloud-Systemen zu ermöglichen.

Zur Übersicht


Rechtlicher Datenschutz

Ziel des Datenschutzes ist es, den Einzelnen davor zu schützen, dass er durch den Umgang mit seinen personenbezogenen Daten in seinem Persönlichkeitsrecht beeinträchtigt wird (vgl. § 1 Abs. 1 BDSG).

Zur Übersicht


Datensparsamkeit als Prinzip

Die Erhebung, Verarbeitung und Nutzung personenbezogener Daten und die Auswahl und Gestaltung von Datenverarbeitungssystemen sind an dem Ziel auszurichten, so wenig personenbezogene Daten wie möglich zu erheben, zu verarbeiten oder zu nutzen (vgl. § 3a S. 1 BDSG).

Zur Übersicht


Digitaler Fingerabdruck

Unser Fingerabdruck gilt als einzigartig und ist nur uns zuzuordnen. Deshalb wird er nicht nur von Sicherheitsbehörden zunehmend zur Identifikation genutzt. Vergleichbar einzigartig und interessant für unsere »Verfolgung« und Identifikation ist der digitale Fingerabdruck, den wir an vielen Stellen im Internet verlassen. Dabei haben wir nicht nur einen digitalen Fingerabdruck, sondern einige einzigartige »Fingerkuppen«.

Ein Beispiel ist unsere Surfhistorie. Allein anhand der Einstellungen unseres Internetbrowsers – in welcher Zeitzone wir uns befinden, welches Betriebsystem wir nutzen, welche Browserversion wir haben – sind wir leicht erkennbar. Aber auch unser Tippverhalten kann uns verraten.

Zur Übersicht


Digitaler Schatten

Täglich hinterlassen wir bei unseren Wegen durchs Netz Spuren, unabhängig davon, ob wir mit Tablet, Smartphone, Laptop oder PC surfen, Apps nutzen oder Software einsetzen, die auf einen Datenaustausch mit der Cloud angewiesen ist.

Viele Websites nutzen Cookies, um eindeutige Informationen auf unsern Geräten zu speichern – meistens temporär. Supercookies, die sich mit den Bordmitteln der Browser nicht löschen lassen und in denen ganze Surfverläufe gespeichert werden, sind deren unerfreuliche Weiterentwicklung. Und schließlich gibt es Internetanbieter (ISPs), die an jeden Seitenabruf einen eindeutig identifizierbaren Fingerabdruck anhängen.

Durch den Einsatz von verschiedenen Betriebssystemen und die Nutzung bestimmter Softwareware-Werkzeuge, die auf bestimmte Anwendugnsfälle in unserem Berufsleben oder unserem Alltag zugeschitten sind, entsteht aus den vielen Datenspuren, eine sehr deutliche Fährte, die ähnlich wie bei einem Schatten immer länger wird, je mehr ›Datenemissionen‹ wir täglich ausstoßen.

Aus dem Datenspuren, die wir im Netz hinterlassen kann jeweils ein Digitaler Fingerabdruck gewonnen werden. Ein Beispiel für einen solche Verdichtung ist das Browserfingerprinting, dass sich selbst durch den Verzicht auf JavaScript beim Surfen im Web nicht vollständig aushebeln lässt.

Ein solcher Abdruck kann durch die Anwendung von Datensammlung und Analyse im Rahmen von BigData zur Bildung von individuellen Profilen führen. Diese Profile stellen eine eigene Erzählung (Narrativ) dar, über die wir anders als etwa beim Zusammenstellen eines Lebenslaufs keinen oder nur geringen Einfluss haben können.

Spätestens auf dieser Ebene wird aus dem digitalen Schatten ein digitales alter ego, ein anderes Ich. Unsere digitale persona agiert insofern als unserer digitaler Doppelgänger. Und die Chancen ihn zu bändigen hängen gegenwärtig davon ab, ob wir über das notwendige Wissen um digitale Selbstverteidigung verfügen und ob wir in der Lage sind eine kritische Wahl der Geräte und Dienste, die wir nutzen, treffen zu können.

Zur Übersicht


Internet der Dinge/ Internet of Things

Das »Internet der Dinge« wie Internet of Things im Deutschen heißt beschreibt Gebrauchsgegenstände, die ans Internet und dadurch an Kommunikationsnetzwerke angeschlossen sind.

Das meistzitierte Beispiel ist sicherlich der ans Internet angeschlossene Kühlschrank, der Essen und Getränke automatisiert beim Supermarkt nachbestellt, wenn man gerade die letzte Packung Margarine oder den letzten Liter Milch verbraucht hat. Es sind viele Szenarien vorstellbar, bei denen »kommunizierende Dinge« zum Einsatz kommen werden. Just heute werden viele neue Produkte auf den Markt gebracht.

Gerade im Zusammenhang mit dem privaten Zuhause werden viele sensible Informationen anfallen und von den Gebrauchsgegenständen kommuniziert werden: Ob man sich gerade zuhause aufhält, übermittelt der Kühlschrank, wenn gerade der letzte Liter Milch aus dem Kühlschrank genommen wurde; wie viele Menschen in einem Haushalt leben, kann die Waschmaschine anhand der Waschmaschinenfüllung messen und »nach draußen« kommunizieren; was im Kinderzimmer gesprochen wird, schickt die Barbie vollautomatisiert an Mattel; welchen Lebens- und Fahrtstil man hat, kommuniziert das Auto an seinen Hersteller oder die Versicherung.

Das Internet der Dinge potenziert die Möglichkeit zum Erstellen von Verfolgungsprofilen – und sollte deshalb besonders datenschonend und sparsam umgesetzt werden.

Zur Übersicht


Metadaten

Metadaten (synonym oft auch als Verbindungs- oder Verkehrsdaten bezeichnet) sind Daten über Daten und fallen bei jeder Datenübertragung an. Sie werden von den Nutz- oder Inhaltsdaten (beispielsweise dem Gespräch am Telefon oder der übertragenen Datei) unterschieden und umfassen Angaben wie Zeitpunkt von Verbindungsaufbau, Versand und Empfang von Daten, geografischen Standort, Adresse oder Kennung von Sender und Empfänger (IP-Adresse, Telefonnummer, MAC-Adresse, IMSI-Nummer u. ä.) , Datenmenge, genutzte Dienste und Services.

Metadaten lassen sich bei Kommunikationsprozessen nur schwer vermeiden da Sender und Empfänger einander kennen müssen. Technisch wird zur Verschleierung von Metadaten auf mehrere Teilstrecken gesetzt, bei denen Stellvertreter immer nur Abschnitte der kompletten Route kennen. Bekanntester Vertreter für eine entsprechende Implementierung ist das Tor-Netzwerk.

Metadaten geben Auskunft darüber Wer, Wann mit Wem, Wo und Wielange kommuniziert hat. Aus der Auswertung dieser Daten ergeben sich Beziehungsnetzwerke, die oft auch Rückschlüsse auf die Inhalte der Gespräche zulassen. Massenüberwachung stützt sich im Wesentlichen auf die Erfassung und (ggf.) Auswertung von Metadaten. Der amerikanische Geheimdienst NSA wählt basierend auf Metadaten Drohnenziele aus um zu töten.

Zur Übersicht


Vorratsdatenspeicherung (VDS), in Deutschland auch Mindestdatenspeicherung oder Mindestspeicherfrist

Speicherung von Daten auf Vorrat zur Echtzeit- oder späteren Auswertung.
Gemeint ist üblicherweise die anlasslose und verdachtsunabhängige Erfassung aller Kommunikationsdaten im Staatsauftrag, vielfach werden dabei ausschließlich Metadaten/Verbindungsdaten oft aber auch Inhaltsdaten erfasst, insbesondere bei der Erfassung durch Geheimdienste.
In Deutschland ist mit dem Gesetzesvorhaben zur Mindestspeicherfrist – vom Bundestag verabschiedet und vom Bundespräsident in Kraft gesetzt im Dezember 2015, durchzuführen ab 2017 – erneut eine Speicherung von Verkehrsdaten beschlossen worden obwohl sowohl der europäischen Gerichtshof als auch das Bundesverfassungsgericht sehr vergleichbare Regelungen national als auch im europäischen Maßstab in der Vergangenheit für ungültig erklärt hatten.

Die nach dem aktuellen Gesetz zu speichernden Daten sind in § 113b des Telekommunikationsgesetzes festgelegt:

Pflichten zur Speicherung von Verkehrsdaten
(1) Die in § 113a Absatz 1 Genannten sind verpflichtet, Daten wie folgt im Inland zu speichern:
1. Daten nach den Absätzen 2 und 3 für zehn Wochen,
2. Standortdaten nach Absatz 4 für vier Wochen.
(2) Die Erbringer öffentlich zugänglicher Telefondienste speichern
1. die Rufnummer oder eine andere Kennung des anrufenden und des angerufenen Anschlusses sowie bei Um- oder Weiterschaltungen jedes weiteren beteiligten Anschlusses,
2. Datum und Uhrzeit von Beginn und Ende der Verbindung unter Angabe der zugrunde liegenden Zeitzone,
3. Angaben zu dem genutzten Dienst, wenn im Rahmen des Telefondienstes unterschiedliche Dienste genutzt werden können,
4. im Fall mobiler Telefondienste ferner
a) die internationale Kennung mobiler Teilnehmer für den anrufenden und den angerufenen Anschluss,
b) die internationale Kennung des anrufenden und des angerufenen Endgerätes,
c) Datum und Uhrzeit der ersten Aktivierung des Dienstes unter Angabe der zugrunde liegenden Zeitzone, wenn Dienste im Voraus bezahlt wurden,
5. im Fall von Internet-Telefondiensten auch die Internetprotokoll-Adressen des anrufenden und des angerufenen Anschlusses und zugewiesene Benutzerkennungen. Satz 1 gilt entsprechend
1. bei der Übermittlung einer Kurz-, Multimedia- oder ähnlichen Nachricht; hierbei treten an die Stelle der Angaben nach Satz 1 Nummer 2 die Zeitpunkte der Versendung und des Empfangs der Nachricht;
2. für unbeantwortete oder wegen eines Eingriffs des Netzwerkmanagements erfolglose Anrufe, soweit der Erbringer öffentlich zugänglicher Telefondienste die in Satz 1 genannten Verkehrsdaten für die in § 96 Absatz 1 Satz 2 genannten Zwecke speichert oder protokolliert.
(3) Die Erbringer öffentlich zugänglicher Internetzugangsdienste speichern
1. die dem Teilnehmer für eine Internetnutzung zugewiesene Internetprotokoll-Adresse,
2. eine eindeutige Kennung des Anschlusses, über den die Internetnutzung erfolgt, sowie eine zugewiesene Benutzerkennung,
3. Datum und Uhrzeit von Beginn und Ende der Internetnutzung unter der zugewiesenen Internetprotokoll-Adresse unter Angabe der zugrunde liegenden Zeitzone.
(4) Im Fall der Nutzung mobiler Telefondienste sind die Bezeichnungen der Funkzellen zu speichern, die durch den anrufenden und den angerufenen Anschluss bei Beginn der Verbindung genutzt wurden. Bei öffentlich zugänglichen Internetzugangsdiensten ist im Fall der mobilen Nutzung die Bezeichnung der bei Beginn der Internetverbindung genutzten Funkzelle zu speichern. Zusätzlich sind die Daten vorzuhalten, aus denen sich die geografische Lage und die Hauptstrahlrichtungen der die jeweilige Funkzelle versorgenden Funkantennen ergeben.
(5) Der Inhalt der Kommunikation, Daten über aufgerufene Internetseiten und Daten von Diensten der elektronischen Post dürfen auf Grund dieser Vorschrift nicht gespeichert werden.

(7) Die Speicherung der Daten hat so zu erfolgen, dass Auskunftsersuchen der berechtigten Stellen
unverzüglich beantwortet werden können.

Die so erfassten Daten sind geeignet vollständige Kommunikations- und Bewegungsprofile zu erstellen und in Kombination mit weiteren Daten zu individuellen Persönlichkeitsprofilen verdichtet zu werden.

Üblicherweise wird die (vollständige) Erfassung und die (davon abgekoppelte) Erhebung zur Nutzung der Daten unterschieden. Problematisch aus Datenschutzsicht ist, dass die Daten nicht ausschließlich anlassbezogen und zweckbestimmt gespeichert werden. Darüber hinaus stellt die Erfassung einen schwerwiegenden Eingriff in die Datensouveränität des Individuums und dessen Privatsphäre dar.
Da die Daten jeder Kommunikation aufgezeichnet werden, wächst die Begehrlichkeit, diese Daten auch zu nutzen, ggf. auch über das aktuell gesetzlich zugelassene Maß hinaus. Verschiedene Interessengruppen machen sich für eine Ausweitung der festgelegten Speicherdauer und des Datenzugriffs stark, sowohl was die festgelegten Delikte angeht, zu deren Verfolgung die gespeicherten Daten erhoben werden dürfen (aktuell schwere Straftaten), als auch was die zum Zugriff autorisierten Institutionen betrifft (Zugriff nicht nur durch Strafverfolgungsbehörden sondern auch durch Geheimdienste).
Gegen das aktuelle deutsche Gesetz sind bereits Klagen beim Bundesverfassungsgericht anhängig, weitere sind in Vorbereitung.

Zur Übersicht


Zweckbindung erhobener Daten

Nach dem Zweckbindungsgrundsatz dürfen personenbezogene Daten ausschließlich für von vornherein festgelegte Zwecke erhoben oder verarbeitet werden (vgl. § 4 Abs. 3 S. 1 Nr. 2 BDSG, § 14 Abs. 1 S. 1 BDSG oder in § 28 Abs. 1 S. 2 BDSG).

Zur Übersicht