anmelden

> >

Daten und Dokumentation

Datenangebot NEPS

SC1 Neugeborene

Daten und Zitation

Dokumentation

NEPS-SC1-ADIAB

SC2 Kindergarten

Daten und Zitation

Dokumentation

SC3 Klasse 5

Daten und Zitation

Dokumentation

NEPS-SC3-ADIAB

SC4 Klasse 9

Daten und Zitation

Dokumentation

NEPS-SC4-ADIAB

CILS4NEPS

SC5 Studierende

Daten und Zitation

Dokumentation

SC5-ADIAB

SC6 Erwachsene

Daten und Zitation

Dokumentation

NEPS-SC6-ADIAB

SC8 Klasse 5

Daten und Zitation

Dokumentation

NEPScomp

NEPS-C

NEPS-ADIAB

Studie Thüringen

Daten und Zitation

Dokumentation

Studie Baden-Württ.

Daten und Zitation

Dokumentation

Datenzugang

Download

RemoteNEPS

Anleitung RemoteNEPS

Export Import

FAQ RemoteNEPS

On-site

Sensible Informationen

Datennutzungsverträge

Übersichten und Hilfen

Variablensuche

NEPS Tutorials

Zeitplan

Regionaldaten

Stata Tools

Plausible Values

Lehrdatensätze

Instrumente

Forschungsprojekte

Publikationen

Publikationspreis

Preisträger

Konferenzen

Nutzerschulungen

Downloads

FDZ-Newsletter

Newsletter-Archiv

Online-Forum

Einsatz der NEPS-Daten in der Lehre

Die Daten des Nationalen Bildungspanels stehen derzeit nur als Scientific Use File (SUF) zur Verfügung. Um die Daten nutzen zu können, müssen sämtliche Beteiligte für die Nutzung einen umfangreichen Datennutzungsvertrag unterzeichnen, der den Nutzerkreis, den Nutzungszweck und die Nutzungsdauer einschränkt (weitere Informationen zu den Datennutzungsverträgen finden sich hier).
Um die Möglichkeit einzuräumen, auch einer größeren Gruppe von Interessierten Zugang zu Daten zu ermöglichen, ohne jede einzelne Person in einen Datennutzungsvertrag aufzunehmen, bietet das LIfBi sogenannte Lehr- bzw. Campusdatensätze an. Bei diesen handelt es sich um stark anonymisierte Auszüge aus den Scientific Use Files, die als absolut anonyme Daten angesehen werden. Das heißt, eine Identifikation von Einzelpersonen, Haushalten oder Institutionen ist unmöglich.
In einer Pilotphase stellt das FDZ interessierten Datennutzern derzeit auf Anfrage absolut anonyme Daten zu Lehrzwecken zur Verfügung. Die Rahmenbedingungen hierfür sind die folgenden:

Die Lehrkraft muss einen gültigen Datennutzungsvertrag besitzen
Die Gruppe der an der Lehrveranstaltung Teilnehmenden soll mit einer Anwesenheitsliste inklusive Unterschrift erfasst werden
Zusätzlich soll den Teilnehmern klar gemacht werden, dass es sich um vertrauliche Daten handelt, die mit Sorgfalt behandelt werden sollen. Insbesondere ist eine Weitergabe der Daten an Dritte (also z.B. an Personen, die nicht an der Lehrveranstaltung teilnehmen) nicht zulässig.
In Absprache mit der Lehrkraft wird vom FDZ ein absolut anonymer Datensatz erstellt. Diese absolute Anonymität ist definiert durch:
1. Ausgangspunkt aller Modifikation ist jeweils der Download-SUF, d.h. der bereits am stärksten anonymisierte SUF.
2. Aus diesem wird ein Teildatensatz mit wenigen Variablen (ca. 10-15 Stück) erzeugt
3. Die ID wird getauscht. Ein Linkage zum SUF ist so nicht mehr möglich
4. Es wird eine Teilstichprobe gezogen.
5. Bei der Gesamtmenge der kategorialen Merkmale wird auf k-Anonymität (genauer 2-Anonymität) geachtet (siehe [1]). Das bedeutet, dass im Datensatz jede Merkmalskombination von Attributen von mindestens k Personen geteilt wird (d.h., die Kombination der Merkmale ist kein eindeutiger Identifikator für eine Person, jede Person hat (k-1) statistische Doppelgänger). Um k-Anonymität zu erreichen, wird eine Kombination von Merkmalsaggregation und Reduktion verwendet.
6. Metrische Merkmale werden perturbiert, d.h. mit einem N(0,r*s)-Zufallsfehler überlagert.

Der Vorteil dieser Methode ist, dass sowohl absolut anonyme Daten erzeugt werden, als auch ein Nutzungsrahmen definiert wird, der verbindlich ist, aber dennoch zumutbar. Damit wird ein maximaler Schutz der Daten etabliert. Der Nachteil allerdings liegt darin, dass der inhaltliche Umfang nur relativ schmal seien kann. Jeder so erzeugte Datensatz ist nur für einen ganz konkreten Nutzungszweck brauchbar (etwa definiert durch die ausgewählten Variablen). Darüber hinaus sind Daten im Episodenformat (Spelldaten) nicht auf diese Weise anonymisierbar und können somit nicht angeboten werden. Auch muss ganz strikt von einer inhaltlich sinnvollen Verwendung abgeraten werden. Durch die starke Anonymisierung ist keine valide Induktion zu erwarten.
Bei Interesse an einem Lehrdatensatz setzen Sie sich bitte mit dem Forschungsdatenzentrum unter fdz@lifbi.de in Verbindung.

[1] Sweeney, L. (2002). k-Anonymity: A Model for Protecting Privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(5), 557–570

Personen
- Leitung
- Mitarbeiter
Weiteres
Externe Links
- SPP Schwerpunktprogramm 1646
- Informationen für Teilnehmende